Abstract:10道传播统计学的作业题,主要关于传播统计学基础概念。参考教材是祝建华所著的《传播统计学》。
1.何谓统计调查?
统计调查(Statistical Investigation/Statistical Survey)是根据调查的目的与要求,运用科学的调查方法,有计划、有组织地搜集数据信息资料的统计过程。统计调查是统计工作的基础环节,是认识事物的起点。
按调查对象包括的范围不同,可分为全面调查和抽样调查。
按登记时间是否连续,可分为连续性调查与非连续性调查。
按调查的组织方式不同,可分为统计报表制度和专门调查。
调查研究分为三种类型:探索性研究(Exploration)、描述性研究(Descriptive Research),解释性研究(Explanation)。
2.如何根据调查目的与被调查对象特点, 选择不同的统计数据搜集方法?
(1) 直接观察法:指调查人员到现场对调查对象进行观察点数与计量。在所需数据需要调查者去现场对被调查对象进行观察、测量、记录的情况下,适合用直接观察法,比如农作物产量调查。
(2) 报告法:指统计工作机构将调查表格分发或电传给被调查者, 被调查者则根据填报的要求将填好的表格寄回。当统计政府公务数据、被调查对象是政府机关公职人员时,适合用报告法。
(3) 采访法:指由调查人员向被调查者提问,根据被访者的答复来搜集统计资料的一种方法,分为口头询问法、开调查会法和被调查者自填法三种。在所需数据需要通过实际与被调查者沟通才能获得的情况下,适合用采访法。
(4) 登记法:通过让被调查者登记信息来获取统计资料的方式。在需要获取并系统性地留存被调查对象详细信息的情况下,适合用登记法。
(5) 实验设计调查法:即设计分组对照实验。在需要研究控制变量对某些变量的影响(因果关系)的情况下,适合用实验法。
3.何谓统计调查误差?它有几种类型?
统计调查误差,就是调查结果所得的统计数字与调查总体实际数量之间的离差。 类型划分如下:
(1) 统计调查误差可分为:登记性误差和代表性误差。
登记性误差:由于错误登记事实而发生的误差,不管是全面调查或是非全面调查都会产生登记性误差;代表性误差:只有非全面调查中才有,全面调查不存在这类误差。
(2) 按产生统计误差的性质来分有:空间误差、时间误差、方法误差和人为误差四种。
空间误差:指统计调查范围所产生的误差,包括重漏统计调查单位,跨区域统计等;
时间误差:指统计调查对象因时期或时点界定不准确所产生的误差;
方法误差:指因使用特定的统计调查方法所产生的误差,如抽样调查中的代表性误差(抽样平均误差);
人为误差:指在统计设计、调查、整理汇总和推算等过程中因人为过错产生的误差;人为误差是统计误差中产生因素最多的一类,它又分为度量性误差、知识性误差、态度性误差和干扰性误差。
(3) 统计误差按工作环节来分有:源头误差、中间环节误差和最终误差三种。
源头误差:指起报单位或申报者所产生的误差;
中间环节误差:指统计调查数据在逐级上报过程中所产生的误差,包括加工整理、汇总和推算等环节;
最终误差:指下级各基层数据汇总数或规范的方法得到的推算数与最终使用数之间的差异值。
按工作环节划分的统计误差类别是相对的,中间环节误差在不同的场合有可能是源头误差,也可能是最终误差。源头误差在有些场合也叫调查误差,或叫登记误差。
4.何谓统计分组? 统计分组有几种类型?
统计分组(Statistical Grouping):根据统计研究任务的要求和研究现象总体的内在特点,把现象总体按某一标志划分为若干性质不同但又有联系的几个部分的一种统计方法。
总体的变异性是统计分组的客观依据。统计分组是总体内进行的一种定性分类,它把总体划分为一个个性质不同的范围更小的总体(同一组内的各单位在分组标志的性质相同,不同组之间的性质相异)。
分组种类:
(1) 按任务作用的不同,分为:类型分组、结构分组和分析分组;
类型分组:目的是划分经济类型;
结构分组:目的是研究同质总体的构成;
分析分组:目的是研究现象总体内部诸标志间的依从和制约关系。
(2) 按分组标志的多少,分为:简单分组和复合分组;
简单分组:将总体按一个标志进行分组;
复合分组:将总体按两个或两个以上的标志重叠起来进行分组。
(3) 按分组标志的性质,分为品质分组和变量分组。
品质分组:将总体按品质标志进行分组,如企业按经济成份、地理位置分组,职工按性别、文化程度分组等;
变量分组:将总体按数量标志进行分组,如企业按职工人数、劳动生产率分组,职工按工龄、工资分组等。
5.以一实例说明统计分组应遵循的两个原则。
统计分组的原则:
(1) 穷尽原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体的所有单位;
(2) 互斥原则:即总体任一单位都只能归属于一组,而不能同时或可能归属于几个组。
举例:将100个各不相同的食物进行统计分组,假设需要从以下5个类别中选出最合适的分组方案:水果类、蔬菜类、谷物类、肉类、鱼类。
我们需要排除鱼类,因为鱼类属于肉类的范畴,若分组中同时包含鱼类和肉类两个类别,则违背了互斥原则;我们需要增加1个组,组名为“其他”,因为上面这些组无法穷尽食物的所有类别,加上“其他”则可避免违背穷尽原则。
6.何谓等距分组? 何谓异距分组? 说明它们各自的适用场合。
等距分组和异距分组是组距分组的基本方法。
组距分组:数值型数据分组的基本形式,是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。
(1) 等距分组:各组保持相等的组距。
适用场合:总体中变量值分布比较均衡,各组标志值的变动都限于相同的范围的情况。
在等距分组中,各组单位数的多少不会受到组距大小的影响,便于直接比较各组次数的多少,研究次数分布的特征。
(2) 异距分组:即各组组距并不完全相等的分组。
适用场合:
- 标志值分布很不均匀的场合
- 标志值相等的量具有不同意义的场合
- 标志值按一定比例发展变化的场合
7.说明组距、组限、组数与组中值的含义及它们的计算方法。如何提高组中值代表各组标志值的代表性?
(1) 组数$n$:即分组个数。
其中,n为组数,N为总体单位数.
(2) 组距$d$:指每组的最高数值与最低数值之间的距离。
① 连续组距分组:$d=本组上限-本组下限$
间断组距分组:$d=本组上限-本组下限+1$
② 斯特杰斯经验公式确定组距:
$X{max}$:最大变量值;$X{min}$:最小变量值;R:全距/极差.
(3) 组限L:表示各组变动范围的两端的数值,其中,每组的最小值称为下组限,每组的最大值称为上组限。
(4) 组中值G:上下限之间的中点数值,以代表各组标志值的一般水平。组中值仅存在于组距数列分组数列中,单项式分组中不存在组中值。
(5) 使变量值在各组内成均匀分布或在组距中点值两侧呈对称分布,可提高组中值代表组内变量值的一般水平的代表性。
8.何谓频数分布?以一实例说明频数分布数列的两个要素的含义。
频数分布(Frequency Distribution):在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布。
分布数列:将原始资料进行整理,形成的一系列反映总体各组之间单位分布状况的数列。
分布数列包括两个要素:
- (1) 总体按其标志所分的组
- (2) 各组所分布的单位数
举例:在下表中,第一行展示的是总体按播出时长所分的7个组,第二行对应的是各组所分布的单位数。
9.何谓频率密度?为什么要计算频率密度?
频率密度(Frequency Density):是组频率与组距的比值,指该组内单位距离上的频率,在频率分布直方图中表现为所有矩形的面积之和等于1。
利用频率分布直方图反映样本的频率分布规律,可清楚显示各组频数分布情况和各组之间频数的差别。主要是为了将我们获取的数据直观、形象地表示出来,让我们能够更好了解数据的分布情况。
10.某新闻节目播出时间统计如下(单位/秒)
886 | 928 | 999 | 946 | 950 | 864 | 1050 | 927 | 949 | 852 |
---|---|---|---|---|---|---|---|---|---|
1027 | 928 | 978 | 816 | 1000 | 918 | 1040 | 854 | 1100 | 900 |
866 | 905 | 954 | 890 | 1006 | 926 | 900 | 999 | 886 | 1120 |
893 | 900 | 800 | 938 | 864 | 919 | 863 | 981 | 916 | 818 |
946 | 926 | 895 | 967 | 921 | 978 | 821 | 924 | 651 | 850 |
要求:
(1) 试根据上述资料编制次(频)数分布数列
组距$i=70$,组数=7,总体单位数=50.
(2) 编制向上和向下累计频数、频率数列
(3) 根据所编制的次数分布数列绘制直方图、折线图与曲线图
由于我的电脑是Mac,Mac上自带的表格制作软件的图表功能里没有曲线图和直方图,所以我就以比较相似的折线图和条形图来代替了,望老师谅解。
(4) 根据所编制的向上(向下)累计频数(频率)数列绘制累计曲线图
(5) 根据累计曲线图, 指出播出时间在1000秒以上的有多少?占多大比重?播出时间在900秒以下的有多少?占多大比重?
由图可知,播出时间在1000秒以上有7个,占比14%;播出时间在900秒以下有20个,占比40%
(6) 根据频数分布曲线图说明新闻播出时间的分布是属于哪一种类型?
正态分布;呈钟型,两头低,中间高。
(7) 用直接法计算第5百分位数, 用频数表法计算第95百分位数
第5百分位数: 808
将分布数列按升序排列,第5百分位数在第$(50+1)*0.05 = 2.55 $位,即第2位~3位之间,$P{5}=\frac{P{2}+P_{3}}{2}=\frac{800+816}{2}=808$
第95百分位数:1063
将分布数列按升序排列,第95百分位数在第$nx\%=50*0.95 = 47.5$ 位,对照向上累计频数分布表可确定$P_{95}$落在第6组段(1000~1069);
第6组段下限$L=1000$,组距为$i=70$,频数$f=5$,向下累计频数为48,上一组向上累计频数$\sum fl=43$,则$P_{X}=L+i(nx\%)-\sum fl)/f=1000+70*(47.5-43)/5=1063$