中心极限定理。
在此之前需要先介绍独立同分布的概念。独立同分布的概念X1与X2有相同的概率函数或概率密度函数,则称X1与X2同分布。当X1和X2互不影响时称X1与X2独立同分布。例如第一次抛硬币与第二次抛硬币就是独立同分布。
独立同分布的性质:独立同分布的随机变量是指这个变量可能是一次独立同分布的随机一个结果。假设有n个独立同正态分布的随机变量/n组成的新分布,那么这个新分布仍然为正态分布,其均值不变,方差会变为原本的1/n。
可以这样理解,每个随机变量落在均值附近的概率大,因此随机变量的数量多时组成的分布会更集中在均值附近,新的分布会变得更尖更集中。均值不会变化,但方差产生的波动会由原本的1个变量承担变成n个变量一起承担,也就是方差会变为原本的1/n,标准差再对应开平方。
基于此延伸出中心极限定理,是指当有n个独立同分布的随机变量组成的新分布,独立分布的均值为u,方差为62。当n足够大时,这个新分布符合均值为nu,方差为n62的正态分布。
新分布由于是n个独立同分布的叠加,因此将这个分布除以m得到一个随机同分布的平均分布,这个平均分布为正态分布,均值为u,方差为62/n。n越大正态分布越明显,当随机变量的分布对称时,当n大于5时近似效果就比较明显,不对称时则需要n>30近似效果才会比较明显。
这个定理表明无论随机变量服从何种分布,可能是离散分布也可能是连续分布,可能是正态也可能是非正态,只要独立同分布随机变量的个数n较大,那么随机变量之和的分布、随机变量均值的分布都可以近似为正态分布。
随机变量均值的分布的均值会保持不变,标准差会变为原标准差的√1/n也称为标准误。所以现实中常用多次测量求平均值,其实它的原理就是多次测量后,多次测量结果的分布会近似符合正态分布,均值与实际更贴近,标准差会随着测量次数增加而减小,波动约小得到的数据会更加准确。