四、正态分布¶
🏺 寓言故事 —— 《钟形山谷的收成》¶
在遥远的北方,有一个被群山环抱的山谷,名叫钟形谷。谷中住着一位老农,名叫阿衡。阿衡一生只种一种作物——冬麦。他有个执念:想知道每年的收成到底会落在什么范围,好决定冬天存多少粮、卖多少粮。
第一年,阿衡在田里随便选了十株麦子,称了它们的穗重。有的沉,有的轻,参差不齐。他把数字记在羊皮上,却发现看不出规律。第二年、第三年,他依然摸不着头脑。
第四年春天,一位游历的账房先生路过钟形谷。阿衡请他喝茶,诉说了自己的苦恼。账房先生笑了笑,说:"你种了二十年地,可曾把所有年份的穗重都排成一队,看看它们站在哪里最多?"
阿衡照做了。他把二十年里每一株麦子的穗重,从小到大排成一条长长的队伍。然后他发现了一个奇怪的现象:队伍中间那段最拥挤,越往两头,人越稀少。最轻和最重的穗子,像两头的哨兵,孤零零地站着,多少年也遇不到几个。
账房先生在泥地上画了一个形状——中间隆起,向两边缓缓滑落,像一口倒扣的钟。"这叫'多数居中'。"他说,"影响收成的因素太多了:一场雨的早晚、一阵风的强弱、一只鸟啄了几粒种、一只虫啃了几根根。每一株麦子都受到成百上千件小事的左右。这些事彼此无关,有的让穗变重,有的让穗变轻,它们加在一起,就把大多数麦子推到了中间。"
阿衡盯着那图形,忽然问:"那如果某一年,所有坏事碰巧撞在一起呢?"
"会。"账房先生说,"但你看这图的两端——它们无限接近地面,却永远不到零。极端的事永远可能发生,只是你这辈子未必遇得上。"
阿衡又问:"我能用它做什么?"
账房先生指着图形最顶端:"这里是平均收成,大约六成的年份都落在这附近。如果你再往外各走一段——"他在泥地上比画了两道线,"这里囊括了差不多所有的年份。只要你的存粮够撑到这里,你就可以安心睡觉。"
阿衡恍然大悟。他不再为某一年特别好或特别坏而狂喜或绝望。他开始以那个隆起的中心为锚,向两边预留余地。丰年不挥霍,荒年不恐慌。
多年后,阿衡成了谷中最富有的人。不是因为他收成最好,而是因为他最早懂得:世界不是由极端构成的,极端只是边缘的点缀;真正支撑日子过下去的,是那个沉默的、拥挤的、大多数所在的中间地带。
他临终前对孙子说了一句话,后来成了钟形谷的谚语:
"不要为从未见过的洪水拆毁房屋,也不要因偶然的阳光扩建屋顶。大多数人走过的地方,才是你的路。"
📖 原文定义
正态分布是最重要的一类连续型随机变量分布。当一个随机变量的取值受到众多微小且独立因素的共同影响时,该变量就服从或近似服从正态分布。
正态分布的概率密度曲线呈现中间高、两边低的钟形,以均值 $\mu$ 为中心向两侧对称递减。分布的两个显著特征是:
一是集中性:数据在均值附近最为集中,距离均值越远,则出现的概率越低。这意味着极端值出现的概率较小,而接近均值的值出现的概率较大。
二是波动性:正态分布的形状由标准差 $\sigma$ 决定,标准差越小,分布越"窄",数据越集中于均值附近;标准差越大,分布越"宽",数据的离散程度越大。
正态分布有一个重要的经验法则,称为"68-95-99.7法则":约 $68\%$ 的数据落在 $\mu \pm \sigma$ 范围内;约 $95\%$ 的数据落在 $\mu \pm 2\sigma$ 范围内;约 $99.7\%$ 的数据落在 $\mu \pm 3\sigma$ 范围内。
💡 对应点
| 故事元素 | 概念对应 |
|---|---|
| 穗重从小到大排成的长队,中间拥挤、两头稀少 | 正态分布"中间高、两边低"的钟形曲线特征 |
| 成百上千件彼此无关的小事共同影响每株麦子 | "众多微小且独立因素的共同影响"是正态分布的形成原因 |
| 图形最顶端(平均收成) | 均值 $\mu$,分布的中心位置 |
| "最轻和最重的穗子多少年也遇不到几个" | 集中性:极端值出现概率小,接近均值的值出现概率大 |
| "向两边预留余地"的范围 | 标准差 $\sigma$ 决定分布的宽窄,即数据的离散程度 |
| "这里囊括了差不多所有的年份" | 68-95-99.7法则:约95%数据落在 $\mu \pm 2\sigma$ 范围内 |
| "极端的事永远可能发生,只是你这辈子未必遇得上" | 极端值概率不为零,但极小 |
📝 来源:科目二 · 第三章第四节 · 四、正态分布