当前位置:首页 > 发言稿 > 统计学复习重点:
 

统计学复习重点:

发布时间:2019-08-06 09:28:02 影响了:

第一章 导论

1、 社会经济统计学的研究对象是社会经济现象总体的数量特征和数量关系。

2、 统计研究的基本特点是从数量上认识总体的性质和规律性。

3、 统计学的基本方法包括有实验设计、大量观察、统计描述、统计推断。

4、 统计总体的特点有大量性、同质性、差异性。

5、 构成总体的个别实物称为总体单位。

6、 一个统计总体可以有多个指标。

7、 统计学是关于数据的一门学科,它手机、处理、分析、解释来自各个领域的数据并从中

得到结论。

8、 数据分析所用的方法可以分为描述统计方法和推断统计方法。

9、 描述统计研究的是搜集、处理、汇总、汇总、图表描述、概括与分析等统计方法。推断

统计是研究如何利用样本数据来推断总体特征的统计方法。

10、 按照计量尺度的不同,可以将统计数据:

分类数据(定性数据、品质数据):只能归于某一类别的非数字型数据,它是对事物进

行分类的结果,数字表现为类别,是用文字来表达的。

顺序数据(定性数据、品质数据):只能归于某一有序的类别的非数字型数据。顺序数

据虽然也是类别的,但这些类别是有序的。

数值型数据(定量数据、数量数据):按数字尺度测量的观察值,其结果为具体的数值。

11、按统计数据的收集方法。分为观测数据和实验数据。

12、按照被描述的现象与时间的关系,分为截面数据和时间序列数据。

截面数据(静态数据)是在相同或相似的时间点收集到的数据。

时间序列数据(动态数据}是按时间顺序收集的,用来描述现象随时间的变化。

13、总体是包含所研究的全部个体(数据)的集合;样本是从总体中抽取的一部分元素的集

合,构成样本的元素的数目称为样本量。参数是用来描述总体特征的概括性数字度量,它是

研究者想要了解的总体的某种特征,总体参数用希腊字母表示;统计量是用来描述样本特征

的概括性数字度量,样本统计量通常用英文字母表示。

14、变量是说明现象某种特征的概念。变量可以分为分类变量、顺序变量、数值型变量;还

可以分为经验变量和理论变量。

15、数值型变量分为:

离散型变量:只能取可数值的变量,取有限个值,取值以整位数断开,可以一一列举。

连续性变量:取之连续不断,不能一一列举。

第二章 数据的搜集

1、统计数据的来源:一是数据的间接来源;二是数据的直接来源,通过自己的调查和活动,

获得一手资料(调查数据和实验数据)。

2、二手数据的搜集比较容易,采集数据的成本低,并且能很快的得到。局限性:使用时要

进行评估,要考虑到资料的原始收集人,收集目的,收集途径,收集时间,使用时要注明数

据来源。

3、抽样采集数据的方法,分为概率抽样和非概率抽样。

⑴概率抽样(随机抽样):遵循随机原则进行的抽样,总体中每个单位都有一定的机会

被选入样本。

①简单随机抽样:从包括总体N个单位的抽样框中随机地、一个个地、抽取n个单

位做样本,每个单位的入样概率是相等的。

中独立、随机地抽取样本。

③整群抽样:抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。

④系统抽样:将总体中的所有单位按一定的顺序排列,在规定的范围内随机地抽取

一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。

⑤多阶段抽样

⑵非概率抽样:不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从

总体中抽出部分单位对其实施调查。

①方便抽样 ②判断抽样 ③自愿抽样④滚雪球抽样⑤配额抽样

⑶比较:概率抽样,抽样时按一定的概率以随机原则抽取样本。每个单位抽中的概率已

知或可以计算,当用样本对总体目标量进行估计时,要考虑每个单位样本被抽到的概率。技

术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征,得到的总体参

数的置信区间,就使用概率抽样。非概率抽样,抽样简单,时效快,成本低,而且对于抽样

中的统计专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入

的数量分析提供准备。

4、搜集数据的基本方法:自填式、面访式、电话式、观察式。

5、自填式:优点:①调查组织管理容易②成本低,可以进行大规模调查③对呗调查者,可

选择方便的时间答卷,减少回答敏感问题压力。缺点:①返回率低②不适合结构复杂的问卷,

调查内容有限③调查周期长④在数据搜集过程中居间问题不能及时调整。

面访式:优点:①回答率高②数据质量高③在调查过程中遇到问题及时进行调整。缺点:

①成本比较高②搜集数据的方式对调查过程的质量控制有一定的难度③对于敏感的问题,被

访者会有压力。

电话式:优点:①速度快②对调查员比较安全③对访问过程的控制比较容易。缺点:①

实施地区有限②调查时间不能过长③使用的问卷要简单④被访者不愿回答时,不易劝服。

6、一个好的实验,对照组和实验组的产生不仅应该是随机地,而且应该是匹配的。

7、数据的误差分为随机误差和非随机误差。

第三章 数据的图表展示

1、数据的预处理包括数据的审核、筛选、排序等。

2、数据审核:对于原始数据,主要审核完整性和准确性;对于二手资料,着重审核数据的

适用性和时效性。

3、品质数据的整理与展示:

分类数据:频数分布表,使用比例、百分比、比率等统计量进行描述(比例也称构成比,

它是一个样本中各个部分的数据与全部数据之比。比率是样本中不同类别数据之间的比值)。

条形图、帕累托图、饼图、环形图。

顺序数据:频数分布表,使用比例、百分比、比率,累积频数和累积频率等统计量进行

描述,条形图、帕累托图、饼图、环形图。

组中值=(下限值+上限值)/2

4、数值型数据:数据分组的方法有单变量分组和组距分组两种。单变量分组只适用于离散

变量,且在变量值较少的情况下使用。在连续变量或变量值较多的情况下,采用组距分组。

组距分组又分为等距分组和异距分组。分组方法:确定组数;确定各组的组距;根据分组整

理成频数分布表。

直方图(分组数据)、茎叶图和箱线图(未分组数据)、线图(时间序列数据)、散点图和

气泡图、雷达图(多变量数据)。

5、直方图与条形图:①条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;

直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各

组的组距。②直方图的各矩形通常是连续排列,而条形图则是分开排列③条形图主要用于展

示分类数据,而直方图主要用于展示数值型数据。

6、总结:

第四章 数据的概括性度量

1、数据分布的特征可以从三个方面进行测度和描述:①分布的集中趋势,反映各数据想其

中心值靠拢或聚集的程度。②分布的离散程度,反映各数据远离其中心值的趋势。③分布的

形状,反映数据分布的偏态和峰态。

2、低层次数据的集中趋势测度值适用于高层次的测量数据;反过来,高层次数据的集中趋

势测度值并不适用于低层次的测量数据。

3、集中趋势的度量:

分类数据:众数(M0)

顺序数据:中位数(Me),适用于顺序数据和数值型数据,但不适用于分类数据。

分位数:四分位数:一组数据排序后处于25%和75%位置上的值。处 在25%位置上的数值称为下四分位(QL),处在75%的位置上的数值为上四分位(QU)。

数值型数据:平均数(均值)

4、众数、中位数和平均数的比较

关系:对于单峰分布的大多数据而言,如果数据的分布是对称的,众数(M0)、中位数

(Me)、平均数必定相等,即M0=Me=X;如果数据是左偏分布,即X<Me<M0;对于右

偏分布,M0<Me<X。

特点:众数是一组数据分布的峰值,不受极端值的影响,但具有不唯一性。主要适用于

分类数据的集中趋势测度值;中位数是一组数据中间位置的代表值,不受不受极端值的影响,

主要适用于顺序数据集中趋势测度值;平均数是针对数值型数据计算的,易受极端值的影响,

对于偏态分布的数据,代表性较差。

5、离散程度的度量

分类数据:异众比率(非众数组的频数占总频数的比率,用Vr表示。异众比率越大,众 数的代表性差;异众比率越小,众数的代表性越好。

顺序数据:四分位差(内距或四分间距),是上四分位和下四分位的差,Qd=QU-QL。其数值越小,说明中间数据越集中;其数值越大,说明中间的数据越分散。

数值型数据:方差和标准差。异众比率;极差和平均差;四分位差。

6、相对离散程度:离散系数(变异系数):一组数据的标准差与相应的平均数的平均数之比。离散系数大,说明数据的离散程度也大;离散系数小,说明离散程度小。主要用于不同样本数据。

7、偏态与峰态的度量:

偏态系数(SK)。如果一组数据分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,表明分布是不对称。若偏态系数大于1或小于-1,称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5,被认为是中等偏态分布;偏态系数越接近0,偏斜程度越低。

峰态系数(K):如果一组数据服从标准正态分布,则峰态系数为0;若峰态系数的值明显不等于0,则表明平峰分布或尖峰分布。当K>0时为尖峰分布,数据的分布更集中;当K

第6章 统计量及其抽样分布

1、统计量:设X1,X2.......Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2.......Xn),不依赖于任何未知参数。则称函数T(X1,X2.......Xn)是一个统计量。

2、几个重要分布

①χ2分布 设随机变量X1,X2.......Xn相互独立,切Xi(i=1,2,3.....n)服从标准正态分布N(0,1),则它们的平方和服从自由度为n的χ2分布。χ2分布的数学期望为n,方差为2n,具有可加性,χ12+χ22~χ2(n1+n2)。

②t分布 设随机变量X~N(0,1),Y~χ2(n),且X与Y独立,则t=X/√(Y/n),n为自由度。当n≧2时,t分布的数学期望为0;当t≧3时,方差为n/n-2。

③F分布 设随机变量Y与Z相互对,且分别服从自由度为m和n的χ2分布,随机变

量X有如下表达式:X=(Y/m)/(Z/n),则称X服从第一自由度为m,第二自由度为n的F分布,记为F(m,n)。

3、样本的均值的分布于中心极限定理

当总体分布为正态分布N(μ,σ2)时,X的抽样分布仍为正态分布,X的数学期望为μ,方差为σ2/n,则X~(μ,σ2/n)

中心极限定理:设从均值μ、方差为σ2的任意一个总体中抽取样本量为n的样本。当n充分大时,样本均值X的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。

4、样本比率的抽样分布:^p=X/n,用样本比率^p来估计总体比率π。^p服从均值为π,方差为π(1-π)/n的正态分布,即^p~N(π,π(1-π)/n)。

5、样本方差的分布:设X1,X2.......Xn为来自正态分布的样本,则:

设总体分布为N(μ,σ2)的正态分布,则样本方差S2的分布为(n-1)S2/σ2~χ2(n-1)。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3