I
统计数据误差分析
—— 误差产生的原因及其解决对策
摘
要
统计是一门与实际生活密切相关的应用知识,统计知识的运用主要在于人们对于统计最终数据的分析和处理。由于统计工作的影响因素复杂,且影响因素多是动态的,因此,其最终数据结果与实验数据结果是存在差异的,不能达到实验数据结果的准确性和精准性。尤其是统计方法不恰当,统计计算不准确带来的统计误差,将极大地影响统计数据结果。本文首先会说明什么是统计数据误差,然后分析普查、抽样调查和统计报表这三种统计方法误差产生的原因,其中将抽样调查的误差分为抽样误差、覆盖误差(抽样框误差)、无应答误差和计量误差。接着用人口普查和新冠肺炎的有关统计数据为例探讨误差对数据使用者的影响,最后分析提出减少统计误差的对策方法。
关键词:
统计数据;无应答误差;抽样误差;非抽样误差
II
Statistical Data Error Analysis
Abstract
Statistics is an applied knowledge that is closely related to actual life. The application of statistical knowledge mainly lies in the analysis and processing of the final statistical data. Because the influencing factors of statistical work are complex and most of the influencing factors are dynamic, the final data results are different from the experimental data results, which cannot achieve the accuracy and precision of the experimental data results. In particular, the statistical methods are not appropriate, and statistical errors caused by inaccurate statistical calculations will greatly affect the statistical data results. This article will first explain what is the statistical data error, and then analyze the causes of the errors of the three statistical methods of census, sampling survey and statistical report. Error and measurement error. Then use the census and relevant statistics of new coronary pneumonia as examples to discuss the impact of errors on data users, and finally analyze and propose countermeasures to reduce statistical errors.
Key words:
statistical data; no response error;
sampling error; non-sampling error
目
录
摘
要 ......................................................................................................... I Abstract ...................................................................................................... II 一、绪
论 ................................................................................................... 1 (一)问题的提出 .............................................................................. 1 (二)本论文相关的国内研究动态综述 .......................................... 1 二、什么是统计数据误差 ........................................................................ 2 三、统计数据误差产生的原因 ................................................................ 2 (一)普查数据误差产生的原因 ...................................................... 2 (二)抽样调查误差产生的原因 ...................................................... 3 (三)统计报表误差产生的原因 ...................................................... 4 四、探讨误差对统计数据以及使用者产生的不良影响 ........................ 5 五、统计误差对策分析 ............................................................................ 6 (一)对普查数据误差的对策分析 .................................................. 7 (二)对抽样调查误差的对策分析 .................................................. 8 (三)对统计报表误差的对策分析 .................................................. 9 六、结 论 ................................................................................................. 10 参考文献 ................................................................................................... 11 致
谢 ....................................................................................................... 12
1
一、绪
论
(一)问题的提出 统计作为一项历史悠久的活动,在早期的原始社会,人们通过结绳记事分配其劳动成果,就出现了早期的统计思想和方法。后来因为采集的大小不一样,对象不一样,就在绳结的形状和大小上对采集对象进行区分,就这样形成了最早的统计分类思想。到 16 世纪,欧洲进入手工业时代,交通业、工业、商业等均得到了空前的发展,统计活动从国家领域扩大到社会经济、人民生活的许多方面,慢慢的,就诞生了统计学。
统计是解决实际问题的一种手段,懂得如何应用统计去解决问题非常重要。例如,家用电器的保修期是怎样决定的,如何比较不同教学方法效果的差异,如何看待大学排名,消费价格指数(CPI)是如何计算出来的,如何构建经济增长与就业率关系的模型,如何客观地得到某个电视节目的收视率,根据什么标准选拔运动员,等等,这些问题的解答都离不开统计。统计为政府管理决策、大众认识社会提供相应依据,可以说,统计已经存在于科学研究、社会经济活动的每个角落,统计无处不在。我们对统计工作有着诸多要求,如准确性、便捷性、可比性、时效性和一致性,当中最为重要的则是统计数据的准确性。然而目前的统计环境条件以及统计技术水平,无法让我们得到百分百正确的统计数据,在已形成的统计误差中,一般有多种原因构成,其中一些是可以人为控制和减少的,而有的则是目前还无法减少的,所以,此文将对导致统计数据误差产生的原因及其应对方法进行相应的分析和介绍。
笔者在查阅相关资料的时候发现,由于“统计数据误差”这一词的范围较广,大多数文献都是对其中的一个统计方法进行分析,如针对普查数据误差的分析,针对统计报表数据误差的分析,甚至范围更小到针对抽样调查中无回答误差的分析等。所以我想整合分析统计方法中最常见的三种方法,普查、抽样调查和统计报表,让读者对统计数据误差有大致的理解。
(二)本论文相关的国内研究动态综述 李金昌(2019)认为,降低统计误差、提高统计精度,是统计方法研究的终身任务之一,尽管已有不少专家学者对此问题进行了系统的研究,形成了一整套统计误差理论,但要消灭统计误差是不可能的,因为我们面对的是复杂的现实世界和不充分的数据。没有误差的定量研究只能是抽象的数学研究。所以,我们允许统计误差存在,实际上体现了这样一种辩证思想:我们既要通过统计方法去寻求定量研究结果,但又不苛求唯一的结果,而是在一定的置信水平下选择误差最小的结果。这里需要强调的是,我们允许统计误差存在,并不等于允许犯统计错
2
误。调查者的人为统计误差都属于统计错误,不论出于什么目的,都要坚决予以杜绝。因此在实践中,无论是错用方法,还是错用指标、错用数据,或者是滥用模型、数据造假,都属于犯了统计错误,尽管它们隐藏在误差里面,但却经不起历史的检验。罗薇(2018)认为,在抽样调查中,计量误差是样本单位的观测值与实际值不相同而产生的系统性误差。系统性误差通常因为调查设计的不够合理、调查员自身一定程度上影响到被调查者、被调查者涉及到敏感信息不愿做出真实的回答等,这些因素对调查结果的影响是系统性的,这样调查所得的数据就会不够客观。杨圣伟(2017)将系统误差按照产生的来源分为抽样框误差、无回答误差和计量误差,并进行分析和提出相应的解决策略。李勇(2018)认为,减少统计误差的主要对策是要减少登记性误差,方法一是加大宣传力度,共同提高认识,通过媒体网络等,让全体人员认识到统计工作的利国、利民、利己,便能够更为认真的对待统计调查,减少人为主观性上的误差。二是加大统计工作经费的投入,搭建更为完整的统计信息平台,让统计数据与财务数据、人力资源数据、经营管理数据有机结合。在人员上也要下大力量对人员的教育培训。
二、什么是统计数据误差
统计数据误差,是指在统计过程中,通过各种手段得到的数据与实际情况的差异。统计的过程有:设计、调查、整理、计算、制表,每一个环节都会有各种各样的原因导致数据失真,由此产生统计误差。包括调查误差和样本误差。前者是指得到样品数据过程中的误差,这样形成的误差一般与调查者、被调查者、数据收集方法和问卷题目内容等因素有关。这就会造成在调查过程中没有应答或者应答出现错误的情况,进而便会形成系统性误差。后者主要指抽样过程中样本代表性误差,也就是样本数据不和总体数据完全一致,与总体有所差别。
三、统计数据误差产生的原因
(一)普查数据误差产生的原因 普查(sensus)是一个国家或地区为获得某项重要的国情、国力资料,而专门组织的一次性全面的大规模的调查。普查一般是调查属于一定时点上的社会经济现象的总量,但也可以调查某些时期现象的总量,乃至调查一些并非总量的指标。往远来讲,据《商君书》记载,战国时期商鞅便推行过人口普查,编订户口,规定百姓要登记各人户籍。洪武三年,朱元璋也进行过人口普查,给每户编制“户帖”,填写家庭基本信息。往近的说,现代的人口普查至今有 230 年的历史,那是在 1790 年的美国。从美国开始,越来越多的国家陆续建立起各自的普查制度。我国现有的普查项目有人口普查——每 10 年进行一次,逢 0 年份进行;农业普
3
查——每 10 年进行一次,逢 6 年份进行;经济普查——每 10 年进行两次,分别在逢 3、8 的年份进行。今年 2020 年会是我国的第七次人口普查。作为全国规模的调查,自然就会存在一定的质量问题,这里以人口普查为例,简要分析普查数据误差产生的原因:
1. 多报和重报,主要有一人多报,虚报等。
比如住宿在学校的学生被校统计一次,然后在家里又被统计一次,拥有多套住房的人在不同区域被统计,由于我国养宠物的人越来越多,有些人会视宠物为亲人,也当做人口数登记上去,上班工作地点和居住地距离较远,两个地方都被登记等。
2. 漏报和瞒报。
由于计划生育,超生的孩子瞒报,被统计调查时最近出生的婴儿还没有上户口,所以无法进行登记,有些人暂时离开居住地而无法进行统计,某些家庭居住地非常的偏僻,会极大的增加统计的难度,还有对政府有成见或别的原因不愿意配合工作人员登记或拒绝统计人员入户调查。
3. 填报错误。
由于调查人员的培训不到位,调查人员学识素质不过关,或者粗心大意等原因导致资料填写登记错误,还有的家庭会受风水习俗,社会文化等因素,虚报年龄。据相关资料,虚报年龄引起的统计误差最为严重。
4. 资料整理环节。
整理资料的方式方法、普查资料各级汇总时出现的计算差错都会对资料的准确性有不小的影响。
(二)抽样调查误差产生的原因 抽样调查是从总体中抽取部分个体作为样本进行调查,根据样本数据对总体数量特征做出推断的一种手段或方法。抽样调查也是实践中应用最广泛的一种调查方式和方法,它具有经济性、时效性强、适用面广、准确性高的特点。抽样调查的误差一般分为抽样误差和非抽样误差。抽样误差是由抽样的随机性引起的,是以样本去推断总体时的推断误差,非抽样误差是除抽样误差外所有误差的总和,一般分为覆盖误差(抽样框误差)、无应答误差和测量误差。
1.覆盖误差(Coverage Error)
覆盖误差是在确定抽样框时的误差,由于目标群体的部分组成没有被包括进抽样框之内,造成了覆盖不足(undercoverage)。同时,没有被包括进去的部分与包括进去的那部分是有差异的,便会影响调查结果。例如,进行网络问卷等形式调查,这里存在的问题是,富人比穷人更有可能用上互联网,富人更可能被覆盖,穷人更可能没有被包括进抽样框内,这样的网络问卷得出的数据更倾向于富
4
人们的意见,而富人和穷人两个群体是有着显著差异的,这就会造成较大的覆盖误差。同样的,因为城市的互联网普及程度普遍高于乡村的互联网普及程度,这样的网络问卷得出的数据就会更倾向于城市人的意见。相比之下,如果有一间学校要求全部师生使用互联网,那么调查这间学校的全体师生,覆盖误差就会很小。
2.抽样误差(Sampling Error)
抽样误差是数量上的误差,是只调查部分群体造成的误差。比如 10000 个人中,只抽 200 人和抽 1000 人,相比前者抽样误差是减小的。因为抽样调查是以样本数据推断总体数据的统计方法,当样本越多的时候,样本越接近总体,当样本足够多,样本量=总体的时候,抽样误差就等于零了。同样的,样本越小,误差越大。推断得出的结果仅仅是总体参数的估计值,而不是总体数据的真实值,抽样调查不是普查,抽样误差是在所难免的。
3.无应答误差(Nonresponse Error)
与应答率有所区别,当应答者和无应答者之间存在差异的时候,就产生了无应答误差。比如,若发起一项调查关于艾滋病等敏感问题的研究,拒绝回答的人中,易感或已经感染艾滋病的人占比会高出许多,这会使得回答者...
相关热词搜索: 统计数据 误差 分析