统计学基本概念

发布时间:2020-06-24 17:48:17

日志 吕品 吕品的日志 当前日志 返回日志首页»

较新一篇 / 较旧一篇

分享

1. 统计学:收集处理分析解释数据并从数据中得出结论的科学。 2. 描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。 3. 推断统计:研究如何利用样本数据来推断总体特征的统计方法。 4. 分类数据:只能归于某一类别的非数字型数据。 5. 顺序数...

如果你也考统计学~~~~~网上搜索到的统计学基本概念~~~~~ 2011-05-28 12:06 | (分类:默认分类)

1. 统计学:收集处理分析解释数据并从数据中得出结论的科学。

2. 描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。

3. 推断统计:研究如何利用样本数据来推断总体特征的统计方法。

4. 分类数据:只能归于某一类别的非数字型数据。

5. 顺序数据:只能归于某一有序类别的非数字型数据。

6. 数值型数据:按数字尺度测量的观察值。

7. 观测数据:通过调查或观测而收集到的数据。

8. 实验数据:在实验中控制实验对象而收集到的数据。

9. 截面数据:在相同或近似相同的时间点上收集的数据。

10. 时间序列数据:在不同时间上收集到的数据,这类数据按时间顺序收集到的。

11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,根据样本调查结果来推断总体特征的数据收集方法。

12. 普查:为特定目的而专门组织的全面调查。

13. 总体:包含所研究的全部个体(数据)的集合。

14. 样本:从总体中抽取的一部分元素的集合。

15. 样本容量:也称样本量,是构成样本的元素数目。

16. 参数:用来描述总体特征的概括性数字度量。

17. 统计量:用来描述样本特征的概括性数字度量。

18. 变量:说明现象某种特征的概念。

19. 分类变量:说明事物类别的一个名称。

20. 顺序变量:说明事物有序类别的一个名称。

21. 数值型变量:说明事物数字特征的一个名称。

22. 离散型变量:只能取可数值的变量。

23. 连续型变量:可以在一个或多个区间中取任何值的变量。

24. 调查数据:通过调查方法获得的数据

25. 实验数据:通过实验方法获得的数据

26. 概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

27. 非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

28. 简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。

29. 抽样框: 用于抽选样本的总体单位信息,是概率抽样中所不可缺

30. 分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。

31. 整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。

32. 系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先规则确定其它样本单位。

33. 多阶段抽样:首先抽取群,再进一步抽样,从选中的群中抽取出若干个单位进行计查,二阶段抽样。

34. 方便抽样:依据方便原则,自行确定入抽样本的单位。

35. 判段抽样:研究人员根据经验,判断研究对象的了解,有目的选择一些单位作为样本。

36. 自愿样本:被调查者自愿参加,成为样本中一分子,向调查人员提供有关信息

37. 滚雪球抽样:对稀少群体调查中,首选选择一组调查单位,调查后,请他们提供另外属于研究总体的调查对象,调查人员根据所提供的线索,进行此后调查。

38. 配额抽样:将总体中所有单位按一定的标志分若干类,然后每类采用方便抽样或判断抽样的方案选取样本单位。

39. 自填式:没有调查员协助,被调查者自已填写,完成调查问卷。

40. 面访式:面对面,调查员提问,被调查者回答。

41. 电话式:打电话方式调查。

42. 抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差。

43. 非抽样误差:相对抽样误差而言,除抽样误差之外的,由于其它原因引起的样本观察结果与总体真值之间的差异。

44. 抽样框误差:统计推论的错误是由于抽样框不完善造成的

45. 频数:落在某一特定类别或组中的数据个数。

46. 频数分布:各个类别及其相应的频数形成的分布。

47. 比例:一个样本(或总体)中各个部分的数据占全部数据比值。

48. 比率:一个样本(或总体)中各不同类别数据之间的比值。

49. 累积频数:将各有序类别或组的频数逐级累加起来得到的频数。

50. 累积频率或累积百分比:将有序类别或组百分比逐级累加起来。

51. 数据分组:根据统计研究需要,将原始数据按某种标准化分成不同的组别,。

52. 组距是一个组的上限与下限的差

53. 组距分组是将全部变量依次划分为若干个区间,将这一区间的变量值作为一组。

54. 等距分组,在组距分组时,如果各组的组距相等。

55. 组中值=下限值+上限值/2 上下限的中间值

56. 直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。

57. 茎叶图:由茎和叶两部分组成的、反应原始数据分布的图形。

58. 箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布图形。

59. 集中趋势:指一组数据向某一中心值靠拢的程度,反映一组数据中心点的位置所在。

60. 众数:一组数据中出现频数最多的数值

61. 中位数:一组数据排序后处于中间位置上的数值。

62. 四分位数:一组数据排序后处在25%和75%位置上的数值。

63. 平均数:又称均值,是全部数据的算术平均值

64. 简单平均数:未经分组数据计算的平均数称为简单平均数。根据分组。。。加权平均数。

65. 几何平均数:是n个变量值乘积的n次方根。常用于比例数据的平均。

66. 异众比率:指非众数组的频数占总频数的比例.

67. 四分位差:75%位置上的四分位数与25%位置上的四分位数之差。顺序数据。

68. 极差:也称全距,一组数据的最大值与最小值之差。



69. 平均差:也称平均绝对离差,它是各变量值与其平均数离差的绝对值的平均数。

70. 方差:各数据与其平均数离差平方的平均数。

71. 标准差:方差的平方根。

72. 标准分数:也称标准化值或 z 分数,某个数据与其平均数的离差除以标准差后的值。

73. 离散系数:一组数据的标准差与其相应的平均数之比。

74. 偏态:对数据分布对称性的测度。测度偏态的统计量偏态系数。

75. 偏态系数:对数据分布不对称性的度量值。

76. 峰态:对数据分布平峰或尖峰程度的测度,测度峰态的统计量则是峰态系数。

77. 峰态系数:对数据分布峰态的度量值。

78. 随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件

79. 必然事件:在同一组条件下,每次试验一定出现的事件。

80. 不可能事件:在同一组条件下,每次试验一定不出现的事件。

81. 基本事件:如果一个事件不能分解成两个或更多个事件,则这个事件称为基本事件。

82. 概率:对事件发生的可能性大小的度量值。

83. 主观概率:对一些无法重复的试验,确定其结果的概率只能根据经验,人为确定这个事件的概率。

84. 条件概率:当某事件B已发生,求事件A发生的概率,称为事件B发生条件下事件A发生的条件概率。

85. 独立事件:两个事件中不论哪一个事件发生与否并不影响另一个事件发生的概率。

86. 随机变量:事先不能确定其取值的变量。

87. 离散型随机变量:只能取有限个值的随机变量。

88. 连续型随机变量:可以取一个或多个区间中任何值的随机变量。

89. 期望值、数学期望:随机变量的平均取值,各可能值与对应概率乘积之和。

90. 方差:随机变量的每一取值与期望值的离差平方的期望值。

91. 泊松分布:用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的个数的分布。

92. 概率密度函数:对连续型随机变量用函数f(x)来表示。大于等于0,全积分为1

93. 统计量:对样本特征的某个概括性度量,是样本的函数。

94. 充分统计量:统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。

95. 抽样分布:样本统计量的概率分布,是由样本统计量的所有可能取值形成相对频数分布。

96. 渐近分布:当n比较大时,用极限分布作为抽样分布的一种近似,这种极限分布常称为

97. 自由度:独立变量的个数。

98. 估计量:用来估计总体参数的统计量的名称



99. 估计值:估计总体参数时计算出来的估计量的具体数值

100. 点估计:用样本估计量 的取值直接作为总体参数θ的估计值

101. 区间估计:在点估计的基础上,给出总体参数估计的一个估计区间,该区间通常由样本统计量加减估计误差组成

102. 置信区间:由样本统计量构造出的总体参数在一定置信水平下的估计区间。

103. 置信水平:也称为置信度或置信系数,在重复构造的总体参数的多个置信区间中包含总体参数真值的次数所占的比例。

104. 无偏性:估计量抽样分布的期望值等于被估计的总体参数

105. 有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。

106. 一致性:随着样本量的增大,估计量的值越来越接近总体参数。

107. 独立样本:一个样本中的元素与另一个样本中的元素相互独立。

108. 匹配样本:又称配对数据,一个样本中的数据与另一个样本中的数据相对应。

109. 假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。

110. 原假设:也称零假设,是研究者想收集证据予以反对的假设,用 表示。

111. 备择假设:也称研究假设,是研究者想收集证据予以支持的假设,用 或 表示。

112. 第Ⅰ类错误:原假设正确时拒绝原假设,犯第

Ⅰ类错误概率记 。

113. 第Ⅱ类错误:当原假设为错误时没有拒绝原假设,犯第Ⅱ类错误的概率通常记为 。

114. 显著性水平:假设检验中发生第Ⅰ类错误的概率,记为 。

115. 小概率原理:进行假设检验利用,指发生概率很小的随机事件在一次试验中是几乎不可能发生的。

116. 检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本统计量

117. 拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合。

118. 临界值:根据给定的显著性水平确定的拒绝域的边界值。

119. 值:也称观察到的显著性水平,如果原假设 是正确的,那么所得的样本结果出现实际观测结果或更极端结果出现的概率。P值很小说明发生概率很小,拒绝原假设,P越小,拒绝原假设的理由就越充分。双侧P<0.025 单侧p<0.05 拒绝原假设。

120. 单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验。

121. 双侧检验:也称双尾检验,是指备择假设没有特定的方向性,并含有符号“1”的假设检验。

122. 列联表:由两个以上的变量进行交叉分类的频数分布表。

123. 条件分布、频数:列联表中的观察值分布称为条件分布,每个具体观察值就是条件频数。

124. 拟合优度检验:如果样本是从总体的不同类别中分别抽取,研究目的是对不同类别的目标量之间是否存在显著性差异进行检验,我们就把它称为拟合优度检验或一致性检验。

125. 独立性检验:判断两个分类变量之间是否存在联系的问题,两组或多组的资料是否相互关联,如果不关联,就称为独立。这类问题的处理称为独立性检验。

126. 方差分析:通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。

127. 因素:也称因子,是方差分析中所要检验的对象。

128. 处理:因素的不同表现称为水平或处理

129. 组内误差:来自水平内部的数据误差。

130. 组间误差:来自不同水平之间的数据误差。



131. 总平方和:反映全部数据误差大小的平方和,记为SST。自变量效应加残差效应。n-1

132. 组内平方和:反映组内误差大小的平方和,记为SSE。残差变量,残差效应;n-k

133. 组间平方和:反映组间误差大小的平方和,记为SSA。自变量效应或因子效应;k-1

134. 单因素方差分析:只涉及一个分类型自变量的方差分析。

135. 组内方差:组内平方和除以相应的自由度。

136. 组间方差:组间平方和除以相应的自由度。

137. 双因素方差分析:方差分析中涉及两个分类型自变量时,称为~

138. 试验:收集样本数据的过程

139. 试验设计:收集样本数据的计划

140. 完全随机化设计:将k种处理随机地指派给试验单元的设计。

141. 处理指可控制的因素的各个水平

142. 试验单元:接受处理的对象或实体称为试验单元或抽样单元。

143. 随机化区组设计:先按一定规则将试验单元划分为若干同质组,区组,然后再将各种处理随机地指派给各个区组。

144. 因子设计:考虑两个因素搭配的试验设计称为因子设计。

145. 函数关系:设两变量x,y,变量y随x一起变化,并完全依赖于x,当变量x取某数值时,y依确定关系取相应的值,则称y是x的函数,记为y=f(x).



146. 相关关系:变量之间存在的不确定的数量关系。

147. 相关分析:分析变量之间是否存在相关关系,明确其相关关系的类型,计算其相关关系的密切程度的统计分析方法

148. 相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。

149. 回归模型:描述因变量y如何依赖于自变量x和误差项 的方程。

150. 回归方程:描述因变量y的期望值如何依赖于自变量x的方程。

151. 估计的回归方程:用样本统计量代替回归方程中的未知参数,根据样本数据求出的回归方程的估计。

152. 因变量、自变量:被预测或被解释的变量称为因变量,用来预测或用来解释因变量的一个或多个变量称为自变量。

153. 最小二乘法:也称最小平方法,使因变量的观察值 与估计值 之间的离差平方和达到最小来求得 和 的方法。

154. 回归平方和:y的总变差中由于x与y之间的线性关系引起的y的变化部分,它是可以由回归直线来解释的yi变差部分。

155. 残差平方和:除了x对y的线性影响之外的其它因素对y变差的作用,是不能由回归直线解释的yi的变差部分。

156. 判定系数:回归平方和占总平方和的比例,记为

157. 估计量的标准误差:均方残差(MSE)的平方根,用 来表示。实际意义反映了用估计的回归方程预测因变量y时的预测误差的大小。越小,各观测点的代表性就越好,预测越准确,从另一个角度说明了回归直线的拟合优度。

158. 平均值的点估计:利用估计的回归方程,对于 的一个特定值 ,求出 的平均值的一个估计值 。

159. 个别值的估计值:利用估计的回归方程,对于 的一个特定值 ,求出 的一个个别值的估计值 。

160. 平均值的置信区间估计:对 的一个给定值 ,求出 的平均值的区间估计。

161. 个别值的预测区间估计:对 的一个给定值 ,求出 的一个个别值的区间估计。

162. 残差:因变量的观测值yi与根据估计的回归方程求出的预测值yi^之差,用e表示。

163. 标准化残差:残差除以它的标准差后得到的数值用Ze表示。

164. 异常值:在散点图中,如果某一个点与其它点所呈现的趋势不相吻合

165. 有影响的观测值:如果某一个点或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是~

166. 多元线性回归模型:描述因变量 如何依赖于自变量 和误差项 的方程。

167. 多元线性回归方程:描述 的期望值如何依赖于 的方程。

168. 估计的多元线性回归方程:根据样本数据得到的多元线性回归方程的估计。

169. 多重判定系数:在多元回归中,回归平方和占总平方和的比例。

170. 修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数,记为 。

171. 多重共线性:当回归模型中两个或两个以上的变量彼此相关时,则称回归模型中存在~

172. 虚拟变量:变量的取值本身用文字来描述,要把它们放进回归模型,必须先将其文字型数据用数字代码来表示,这种代码化的定性自变量称为虚拟变量。

173. 时间序列:同一现象在不同时间上的相继观察值排列而成的序列。

174. 平稳序列:基本上不存在趋势的序列。

175. 非平稳序列:包含趋势性、季节性或周期性的序列。

176. 趋势:也称长期趋势,指时间序列在长时期内呈现出某种持续向上或持续下降的变动。

177. 季节性:季节变动,是指时间序列在一年内重复出现的周期性波动。

178. 周期性:循环波动,是指时间序列中呈现出的围绕长期趋势的一种波浪形或振荡式变动。

179. 随机性:不规则波动,是指时间序列中除去趋势、周期性和季节性之后的偶然性波动。

180. 增长率:也称增长速度,是指时间序列中报告期观察值与基期观察值之比减1后的结果,用%表示。

181. 环比增长率:报告期观察值与前一时期观察值之比减1,说明现象逐期增长变化的程度。

182. 定基增长率:报告期观察值与某一固定时期观察值之比减1,说明现象在整个观察期内总的增长变化程度。

183. 平均增长率:也称平均发展速度,是指时间序列中各逐期环比值(也称环比发展速度)的几何平均数减1后结果。



184. 增长1%绝对值:增长率每增长一个百分点而增加的绝对数量。

185. 简单平均法预测:根据过去已有的 期观察值通过简单平均来预测下一期的数值。

186. 移动平均法预测:通过对时间序列逐期递移求得平均数作为预测值的一种预测方法。

187. 指数平滑法预测:对过去的观察值加权平均进行预测的一种方法,该方法使得第 +1期的预测值等于 期的实际观察值与第 期指数预测值的加权平均值。

188. 线性趋势:指现象随着时间的推移而呈现稳定增长或下降的线性变化规律。

189. 指数曲线:描述以几何级数递增或递减的现象即时间序列的观察值按指数规律变化或说时间序列逐期观察值按一定增长率增长衰减。



190. 在一般指数曲线的基础上增加一个常数K,初期增长迅速,随后增长率逐渐降低,最终以K为增长极限。

191. 指数:测定多个项目在不同场合下综合变动的相对数。

192. 加权综合指数:通过加权来测定一组商品价格的综合变动状况的指数。

193. 拉氏价格指数:计算综合指数时,把作为权数的销售量固定在基期。单纯反映价格的变动水平,不能反映出消费结构的变化。

194. 帕氏价格指数:把作为权数的销售量固定在报告期,不同时期的指数缺乏可比性,可以同时反映出价格和消费结构的变化。

195. 加权平均指数:以某一时期的价值总量为权数对个体指数加权平均计算的指数。



196. 零售价格指数:反映城乡商品零售价格变动趋势的一种经济指数。

197. 消费价格指数:反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度一种相对数。

198. 股票价格指数:是反映某一股票市场上多种股票价格变动趋势的一种相对数。

199. 间接来源:统计数据的间接来源:如果与研究内容有关的原信息已存在,我们只是对这些原信息重新加工整理,使之成为我们进行统计分析可以使用的数据,则我们把它们称为间接来源的数据。

二手数据的特点:搜集比较容易,采集数据成本低,能很快得到。局限性不是为特定研究问题产生有欠缺,需要评估。、

二手数据的评估:谁收集,目的,怎么搜集,什么时侯收集?



概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。操作简便,时效快,成本低,专业要求不很高。概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。提出精度要求。

数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求

实验中的若干问题:人的意愿,心理问题,道德问题

回答误差:理解误差,记忆误差,有意识误差

误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。选择合适改进的抽样框,设计好的调查问卷,调查过程的质量控制。

抽样误差因素:样本量大小,总体变异性大大 抽样方式选 组织形式

数据审核的目的:检查数据是否有错误,原始数据完整性准确性,二手适用性时效性。

数据筛选的目的:根据需要找出符合特定条件的某类数据。

数据排序是按一定的顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。

数据透视表作用:可以对数据表重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表

数据分布表的制作步骤:确定组数,确定组距,根据分组整理成频数分布表,上组限不在内不重不漏

直方图与条形图的差别:首先条形图是用条形的长度表示各类别频数的多少,宽度是固定的;直方图用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,高宽均有意义。其次由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后条形图主要用于展示分类数据,直方图主要用于展示数值型数据。

茎叶图与直方图的区别:茎叶图既能给出数据的分布情况,又能保留原始数据的信息。直方图通常适用于批量数据,茎叶图小批量数据。

饼图与环形图差别:环形图中空洞,样本或总体中每一部分用环中的一段表示。饼图只能显示一个样本或总体各部分所占的比例 ,环形图可以同时绘制多个,有利比较研究。

好图形具备特征:显示数据,读者注意集中图形内容,避免歪曲,强调数据之间比较,服务明确目的,对图形统计描述与文字说明。

图形优劣准则:好图应当使复杂的观点简明、确切、高效阐述,最短时间内以最少的笔墨给读者提大信息,多维,表述数据真实情况。



制作统计表设计注意:合理安排表结构,包括表号总标题单位,上下两横线粗,中间细,必要注释、来源。

数据分布的特征三方面:数据分布的集中趋势,离散程度,形状

众数的特点:不受极端值影响,分布角度上看是具有明显集中趋势点的数值,众数可能不存在也可能有多个。

众数、中位数和平均数的关系:从分布角度看,众数M0是最高峰值,中位数Me是数据中间位置上值,平均数是全部数据的算术平均。左偏X

众数、中位数和平均数的特点与应用场合:众数是一组数据的峰值,不受极端值影响,缺点是不唯一,在数据量较多时才有意义,数据量少时不宜,主要作分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受极端影响,数据分布偏斜程度较大时,中位数好,主要适合作顺序数据的集中趋势测度值。 平均数是对数值型数据计算的,利用了全部数据信息,应用广泛,数据呈对称或接近对称分布时3个代表值接近相等,此时选择平均数作为集中趋势代表值,其主要缺点是易受数据极端值的影响。对于偏态分布的数据,平均数的代表性较差。偏态程度较大数据用中位数或众数比平均好。

异众比率的应用场合:主要用于衡量众数对一组数据的代表程度,大,代表性差。主要适合分类数据的离散程度。顺序数据和数值型也可。

标准分数的性质:平均数为0,标准差为1

经验法则:一组数据对称分布时,约有68%的数据在平均数1个标准差范围内。 95% 99%

切比雪夫不等式:不对称 75% 2个标准差 89% 3个 94 4个 1-1/k2

离散程度的测量值应用场合:分类数据用异众,顺序数据四分位,数值数据方差标准差,不同样本数据离散系数。

偏态系数的用途:0对称,>1 <-1高偏 0.5-1 -1—0.5中偏,接近0,偏度低,正值右偏。

概率的古典定义:如果某一随机试验的结果有限,而且各个结果出现可能性相等,则某一事件A发生概率为该事件所包含的基本事件数m与样本空间中所包含的基本事件数n的比值。

概率的统计定义:在相同条件下随机试验n次,某事件A出现m次(m

概率的性质:非负,规范,可加

概率的加法法则:两个互斥事件和概率,等于两事件概率和。两任意随机事件和概率为

两事件分别概率减相交概率。

贝努力试验与二项分布:试验有两个结果,这种随机变量所服从的概率分布为二项分布。试验包含了n个相同的试验;每试验只有两个可能结果成或败;出现成或败的概率对每一次试验相同,且成败和为1;试验相互独立;成败可以计数,即试验结果对应一个离散型随机变量,具有上述特征的n次重复独立试验为n重贝努力试验。

正态分布曲线的性质:(1)f(x)>=0整个概率密度曲线都在x轴上方(2)曲线相对x=μ对称,在x=μ处最大值f(μ)=1/ σ(3)曲线陡缓程度由σ决定,越大,越缓;(4)x趋于无穷时,曲线以x轴为渐近线。

3σ准则:P(|x-μ|<=σ)=0.6836,2σ=0.9545,3σ=0.9973

独立性和互斥性的关系:互斥事件一定是相互依赖(不独立)的,但相互依赖的事件不一定是互斥的。不互斥事件可能是独立的,也可能是不独立的,然而独立事件不可能是互斥的。

统计推断的三个中心内容:抽样分布,参数估计和假设检验

中心极限定理:设从均值为μ,方差为σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽样分布近似服从均为μ,方差为σ2/n的正态分布。

置信区间的理解:1.某种方法构造所有区间中95%的区间包含总体参数的真值,5%不包括,用该方法构造的区间称为置信水平为95%的置信区间2.总体参数真值固定未知,而样本构造区间不固定,置信区间是随机区间因样本不同而不同不都包含总体参数真值。3.实际中只抽一个样本,可包可不包,真正意义是如果做了100次抽样,大概有95次找到的区间包含真值,有5次找到的区间不包真值。



评价估计量的标准:无偏 有效 一致性

在对两总体均值之差小样本估计对两总体和样本的假定:1.两总体服从正态分布2两随机样本独立地分别抽自两总体。

假设检验的步骤:1提出原假设H0和备择假设H12确定适当的检验统计量3确定显著性水平α和临界值及拒绝域4根据样本数据计算检验统计量的值P5将检验统计量值与临界值比较,作出拒绝或接受原假设的决策

假设检验和参数估计有什么相同点和不同点?参数估计和假设检验是统学推断的两个组成部分,都是利用样本对总体进行某种推断,然而推断的角度不同。参数估计讨论的是样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。而在参数假设检验中,则是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。



两类错误控制:首先控制犯α错误原则,原因:统一原则,原假设常明确。

两类错误的关系:一定样本量n,减小α错误,增大β错误,同时减少可以增大样本量。

单侧检验中原、备择假设方向如何确定?原有的传统的放在原假设。

χ2统计量的步骤:1.用观察值f0减去期望值fe;2.将(f0-fe)之差平方;3.将平方(f0-fe)2结果除以fe;4将3的结果加总。

一致性检验和独立性检验的区别:首先,两种检验抽取样本的方法或对观察值进行测定的方法有所不同,如果在各类别中分别进行,属于拟合优度检验,如果事先未分类,抽取样本后根据研究内容分类形成列联表就是独立性检验。其次,两者检验假设的内容有差异,似~通常假设各类别总体比例等于某个期望概率,而独立性检验中,原假设则假设两个变量之间相互独立。最后,计算期望频数时,在拟合优度检验中利用原假设中的期望概率,用观察频数乘以期望概率,直接得到期望频数,如果独立性检验,则假设两个变量的分类是独立的,因而两个水平的联合概率是两个单独的概率的乘积。

简述φcV相关系数各自的特点:φ2X2列联表,0-1范围,0完全相关|φ|=1完全相关,绝对值越大,相关程度越高, φ无上限;c大于2X2列联表,相互独立时 c=0,不可能大于1,最大值依赖于列联表的行数列数,且随着R、C的增大而增大。V 0相关独立,1完全相关,1

误差分解:总误差(SST)=组内误差(SSE)+组间误差(SSA)

方差分析中的三个基本假定:每个总体都应该服从正态分布,各个总体的方差σ2必须相同,观测值是独立的。



方差分析中假设的提法:H0:u1=u2=… 自变量对因变量没有显著影响 H1:u1,u2…不全相等

多重比较前提、作用:对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。

要检验多个总体均值是否相等时,为什么不两两比而用方差分析?两两比烦销,增大犯I类错误的概率,降低置信水平。方差分析是同时考虑所有样本,排除了错误累积的概率,从而避免拒绝一个真实的原假设。

方差分析的基本思想:1.图形描述,散点图 2.误差分解 3.误差分析,显著性

方差分析的基本步骤:1.提出假设2.构造检验的统计量:1)计算各样本均值2)计算全部观测值的总均值3)计算各误差平方和 总平方和 组间平方和 组内平方和4)计算统计量3.统计决策 4.方差分析表 5.方差分析



关系强度R2的含义和作用:组间平方和占总平方和的比例大小R2=SSA/SST反映两个变量之间的关系强度

相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个,这种关系不确定的变量显然不能用函数关系进行描述,但变量之间存在一定的规律。相关与回归分析正是描述探索这类变量关系及其统计规律的方法。

相关分析的内容:变量之间是否存在关系,存在什么样的关系,关系强度如何,样本所反映的变量之间关系能否代表总体~?

相关分析总体的两个假定:两变量之间线性关系,两变量都是随机变量。

相关系数的性质:(1)取值范围在-1~+1 0-1正线性相关,反负相关,1完全正线性相关|r|=1 y取值完全依赖于x,两者函数关系,r=0,y取值与x无关,两者不存在线性相关关系

(2)对称性 rxy=ryx(3)r大小与xy原点及尺度无关(4)仅是线性关系度量(5)xy线性关系的度量但非因果关系 高0.8中0.5低0.3不相关

相关系数检验的目的:能否根据样本相关系数说明总体的相关程度,考察样本相关系数的可靠性,就是显著性检验。ρ较大正值r左偏,ρ接近0,样本量n很大,才能认为r接近正态分布的随机变量。

相关系数检验的程序:1.提出假设H0: ρ=0;H1: ρ<>0 2计算检验统计量: 3进行决策 |t|>ta/2(n-2),拒绝

回归分析的内容:(1)从一组样本数据出发,确定出变量之间的数学关系式;(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著不显著。(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个待定变量的取值,并给出这种估计或预测的可靠程度。



理论回归模型的假定:(1)因变量y与自变量x之间有线性关系。(2)重复抽样中,x取值固定非随机的。(3)误差项 是期望0的随机变量E( )=0,假定模型为直线。(4)对所有x值, 的方差σ2都相同。(5)误差项 服从正态分布随机变量且独立,即 ~N(0, σ2)

最小二乘法的原理:距离各观测点最近的一条直线,用它来代表x与y之间的关系与实际数据的误差比其他任何直线都小。

最小二乘法拟合直线的性质:(1)使离差平方和达到最小(2)可以知β0, β1估计量的抽样分布(3)在某些条件下β0, β1的最小二乘估计量同其它相比,抽样分布具有较小的标准差。 总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)

判定系数R2=SSR/SST:计算A对B回归的判定系数R2,在A的变差中,有R2 %可以由A与B之间的线性差系来解释。

线性相关检验的目的:检验自变量x与因变量y之间的线性关系是否显著,或说它们之间能否用一个线性模型y=

β0+β1x+ 来表示。

线性相关检验的程序:(1)提出假设H0: β1=0 两个变量之间的关系不显著(2)计算统计量F=MSR/MSE(3)作出决策 F>Fa拒绝。说明线性关系是显著的。

回归系数检验的目的:检验自变量对因变量的影响是否显著。β1=0,表明y不依量x没有线性关系。

回归系数检验的程序:(1)提出检验 H0: β1=0 H1:β1<>0 (2)计算检验统量量t (3)决策拒绝说明是显著因素。

回归分析结果的评价:(1)所估计的回归系数 的符号是否与理论或事先预期的相一致(2)如果理论上认为y与x之间关系不仅正,而且统计上显著,所建立的回归方程也应该如此。(3)回归模型在多大程度上解释了因变量y取值的差异?用判定系数来回答。(4)考察关于误差项 的正态性假定是否成立。



残差分析在回归分析中的作用:检测异常值,检测有影响的观测值。

线性关系检验与回归系数检验的区别:在一元中是等价的,在多元回归中不等价,线性关系检验主要是检验因变量同多个自变量的线性关系是否显著,k个自变量只要有一个线性关系显著,F检验就能通过。但并不代表每个关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验,主要用于检验每个自变量对因变量的影响是否都显著,如果某个自变量没有通过检验就说明这处自对因影响不显著,没有必要将自放进回归模型中。

多重共线性对回归模型的影响:(1)变量之间高相关,使回归结果混乱(2)对参数估计值的正负号产生影响

多重共线性的判别:(1)模型中各对自变量之间显著相关(2)线性关系检验显著时,几乎所有的回归系数检验却不显著(3)回归系数的正负号与预期的相反。

多重共线性的处理方法:(1)将一个或多个相关自变量从模型中剔除,保留的尽可能不相关(2)如果要保留所有就应该避免根据t统计量对单个参数B进行检验,对因变量y值的推断限定在自变量样本值范围内。

时间序列的分解模型:加法模型,乘法模型

增长率分析中应注意的问题:(1)当时间序列中的观察值出现0或负数时,不宜计算(2)有些情况下,不能单纯就增长率论增长率,要注意增长率与绝对水平的结合分析。

时间序列预测的程序:第1步,确定时间序列所包含的成分,也就是确定时间序列的类型。第2步,找出适合此类时间序列的预测方法第3步,对可能的预测方法进行评估,以确定最佳预测方案。第4步,利用最佳预测方案进行预测。

龚铂茨曲线的特点:初期增长缓慢,以后逐渐加快,当达到一定程度后,增长率又逐渐下降,最后接近一条水平线。

复合型时间序列的预测步骤:1.确定并分离季节成分。计算季节指数,确定季节成分,分离出去,即用每个时间序列的观测值除以相应的季节指数,以消除季节性。2.建立预测模型并进行预测。3.计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。

计算季节指数的步骤:平均趋势剔除法 1.计算移动平均值,并将其结果中心化处理,得出中心化移动平均值 2.计算移动平均的比值,季节比率,即将序列的各观察值除以相应的中心化移动平均值,再计算出各比值的季度或月份平均值。3.季节指数调整。将2计算的每个季节比率的平均值除以它们的总平均值。

消费价格指数和零售价格指数的差别:类似,消费价格指数包括消费品价格和服务项目价格两个部分。 货币购买倒数 实际工资=名义/消费

消费价格指数的作用:1.用于反映通货膨胀状况 2.用于反映货币购买力变动 3.用于反映对职工实际工资的影响 4.用于缩减经济序列

多指标综合评价指数构建的基本问题:理论研究,统计指标(及体系)理论;建立科学的评价指标体系;评价方法研究

综合评价指数首先要解决的问题: 1.指标的转换,无量纲化处理 2.权数的构造。 通货膨胀率=居民消费价格指数-100%

指标转换有哪几种形式:统计标准化,极值标准化,定基和环比转换。

依据统计数据的收集方法不同,可将其分为观测数据和实验数据

相关分析与回归分析:(1)先进行相关分析再进行回归分析,只有在确定两变量存在着相关分析后,才能分析两变量的回归分析。两变量间的相关程度越大,研究回归才更有意义。(2)通过相关分析,可以大致判断现象与现象之间配合什么数学模型建立回归方程。区别:分析的目的不同,相关分析主要分析变量之间有无关系,使什么样的关系,有多大程度的关系;回归分析用于构建有联系的变量间的回归模型,用于推理变量之间的因果关系。相关分析的两个或两个以上的变量是随机变量。回归分析中的自变量是确定性的变量。

统计调查的方法有:抽样调查,统计报表重点调查和典型调查

分散程度统计量:极差 方差 标准差 变异系数 标准分数

如有侵权请联系告知删除,感谢你们的配合!

统计学基本概念

相关推荐