进行国民体质监测,最重要的是要保证测试数据的准确性。所以,要制定很详细的测试细则,统一测试的操作方法、记录方法,体质测试前还要求严格培训测试工作人员、校正测试器材(如身高计、肺活量计、体重秤等),以保证测得数据的准确性。
但是,即使测试人员在测试时,是严格按照细则的要求认真测试的,由于测试时的各种偶然因素的影响、测试仪器设备精度的限制等等,使得测得的数据仍然会存在或多或少误差。
统计误差可分以下几种:
1.随机误差:它是由一系列偶然因素引起的一类不易控制的测量误差。在测试过程中是难免的,其误差值可正可负,可大可小,具有统计的规律性,随着样本的增大,随机误差的算术平均值可愈来愈小而渐近于零。
2.系统误差:它是服从确定性规律的误差,多数情况下系统误差是一个常量,它不可能通过扩大样本而消除。例如丈量立定跳远成绩用的皮尺,因为使用时间过久,已经拉长了,和标准的钢尺校对每米差1厘米,那么凡是用这一皮尺丈量出的立定跳远成绩,就存在着系统误差(每米1厘米)。系统误差要在测试前通过校正仪器设备,以及在测试过程中通过一定方法识别后加以清除。
3. 过失误差:这是在测试过程中的过失造成的对数据的歪曲,如现场记录成绩时(或电脑录入时)误把13.7秒写成17.3秒,或由于读数的错误把胸围85厘米误读成75厘米等。过失误差造成的误差数有时会很大,它对统计计算结果的准确性的影响比其他几类误差要大得多。因此,测试人员工作时一定要高度认真负责,还应遵守一定的操作规定,如记录员记录时应复诵记录的成绩,记录时必须字迹端正,数据录入电脑后要进行核对等。
4. 抽样误差:这是抽取的样本与总体之间的差别,即使严格采用随机抽样的方法仍不能避免的,但是,加大样本含量,可使抽样误差缩小。
由于存在着以上误差,因此,除了在测试现场要进行数据复测外,还必须在进行统计计算前,对数据再进行严格的审查、整理,把其中错误的、可疑的数据剔除或更正,以便将误差尽可能地缩小。
总之,统计资料的审核、整理是一项要求十分细致的工作,必须以高度的责任心认真地进行,千万不可粗心大意。
历次大规模体质测试的实践表明,由于测试人数很多,只进行一、二遍检查往往还会存在不少差错。因此,必须编写专门的审核程序,对数据再次进行审核,在删除或更正了“缺、疑、误”数据后,才能正式开始统计计算。
审核数据就是检查“缺、疑、误”。缺是指缺项未填,疑是指对数据真实性有怀疑,误是指明显存在的差错。在监测现场发现“缺、疑、误”应该及时补填或补测。但是,到了统计计算前,补填或补测都已经不可能。这时缺项未填或明显的错误数据,只能删除。
不论是国民体质监测的数据,还是其他准备统计的数据,都应该先进行审核,纠正了“缺、疑、误”数据,才能进行统计计算。
审核的方法,主要是平均数加减三倍标准差的检验方法,逻辑检验的方法。
(1) 平均数加减三倍标准差的检验
根据正态分布的规律, 一个数据出现在平均数加减三倍标准差以外的概率只有 0.27%,这是可能性极小的小概率事件。统计学原理认为,小概率事件可看成为实际不可能事件。所以,当一个样本中出现了一个超出了平均数加减3倍标准差范围的数据时,就认为该数据可疑。
审核数据时用平均数加减三倍标准差的检验方法,就可以把错误的极大值或极小值数据找出来。如: 测试了男20~24岁组500人的身高,计算出 平均数=170, 标准差=5厘米,根据正态分布的原理,99.73%的人身高在155~185厘米之间。现在样本中有一个数据是149.0厘米。因为149.0<155(平均数减三倍标准差),所以,这是一个出现的概率很小的数据,只有(100-99.73)/2=0.135 %,也就是一千个人里才会有1.35个,或者说149厘米已经是在平均数减4个标准差(150)以外的数据。这种数据出现的概率极小,所以在审核数据时,怀疑这个数据有误。当然,怀疑并不能就一定说不可能。如果经过核对确实是149厘米,那么这个数据还是有效的,不能删除。
(2)逻辑检验
逻辑分析是对当时已经无法复测的可疑数据进行审核时的重要的方法。利用指标间的比例关系可以确定数据是否可疑。如:国民体质监测中幼儿测试的形态测试指标身高、坐高,两者之间就有一定的比例关系,可以用它来进行逻辑检验。某幼儿测试卡片上身高为110厘米,坐高为80厘米,看数字记录得很清楚,好象没有差错,但是,因为从过去测试的大样本统计数据知道,幼儿的身高和坐高的比例为0.56~0.58, 而该生为80/110=0.72相差很大,再看身高-坐高=110-80=30,就可肯定身高和坐高必然有一个数据有错(整个下肢怎么会只有30厘米?)。再如:一个人的体重值很小,超出平均数减三倍标准差范围,就可以查看他的身高值,如果身高也特别矮,就可以考虑保留。再如 3个围度(胸围、腰围、臀围)指标,一个围度特别大,而其他很小,就很可能是错误数据。还有台阶测试,运动后的三次脉搏数,我们统计了成年组的大量数据平均数是56,52,50,三次是逐渐下降的。如果某人的第三次脉搏不降,反而比第一次还高,就要怀疑数据的准确性了。还有的人台阶测试后的第一个30秒脉搏,比他测试的安静脉搏还低,也就不符合逻辑,可疑!
但是,无论是用平均数加减三倍标准差法或逻辑法审查出的可疑数据,都不能简单地一律删除。首先要进行复核,复核无误的数据不应删除,即使其数值较大或较小都可以参加计算。
只有已无法复核、对照其他指标的数据进行逻辑分析也无法排除疑点的数据才必须删除,不能参加统计计算。
当可疑数据无法再复测时,不能随意地修改可疑数据! |