三、分位数与中位数¶
🏺 寓言故事 —— 《河堤上的标尺》¶
青河两岸住了三百户人家,世代以捕鱼为生。每年汛期,河水都会上涨,涨多涨少却从无定数。有人因此暴富,有人因此倾家荡产。
老河工周伯在河边守了四十年。他有一本泛黄的手账,密密麻麻记着每年的最高水位。村里人问他:"明年河水会涨多高?"周伯总是摇头:"天知道。"但他心里清楚,只知道"平均"水位,对保命毫无用处。
有一年,新来的县丞要修河堤。他翻开周伯的手账,把四十年水位加起来一除,说:"平均水位三尺六寸,堤高四尺足矣。"周伯听完,半晌没说话。
"大人,"周伯终于开口,"四十年前有一场百年不遇的大水,水位八尺二寸。您这一平均,那场大水就被'摊薄'了,可大水来时,它不会因为你算过平均就变小。"
县丞不以为然。河堤按四尺修成,当年汛期,一场六尺高的洪水轻松漫过堤顶,下游三十户人家被冲得精光。
灾后,周伯被请到衙门。他没有告状,只是从怀里掏出一根麻绳,上面打了四十个结,每个结代表一年的最高水位,结的位置高低不同。
"大人,"周伯把麻绳摊在地上,"请您把这四十个结按高低排好。"
县丞照做了。最低的结在左,最高的结在右,像一条歪歪扭扭的阶梯。
"正中间这两个结,"周伯指着绳子的中点,"第二十个和第二十一个,它们的高度分别是四尺一寸和四尺三寸。取中间,四尺二寸。这叫'中位'——有一半的年份,水位比它低;有一半的年份,水位比它高。它不会被那年八尺二寸的怪物拉偏,因为它只认自己的位置。"
县丞若有所思。
周伯又指向绳子的左端:"再看这里。从最低的结往上数,第二个结的位置,只有百分之五的年份比它更低。若把堤基按这个'下五分位'来设防,便是为那最坏的五年留一条后路。"
"那为什么不按最高的结修?"县丞问。
"八尺二寸,"周伯苦笑,"四十年只来一次。按它修堤,百姓要纳的税,够再淹三次了。"
第二年,新堤动工。基线按"下五分位"——三尺二寸设防,堤高按"中位"四尺二寸加两尺余量。总高六尺二寸,比平均数算出的四尺高出近一半,却比盲目追求极端务实得多。
又十年过去,河水涨涨落落,新堤始终安然无恙。周伯临终前,把麻绳传给了徒弟小六,只说了一句话:
"平均数告诉你河水'通常'多高,中位数告诉你'一半的时候'多高,分位数告诉你'最坏的时候'可能多高。修堤防的不是通常,是万一。"
小六后来也成了老河工。他每年仍在麻绳上打结,只是绳子上多了几道不同颜色的标记——一条红线标在中点,一条黑线标在从底往上数第二个结的位置。村里人看不懂,小六也不解释。直到有一年,一个过路的商人看见那些标记,脱口而出:"这不是分位数吗?"小六愣了愣,笑道:"我不知道它叫什么,我只知道它救过人命。"
📖 原文定义
分位数:在统计学中,分位数(Quantile)是指将一个概率分布按从小到大的顺序排列后,在特定位置上的数值点。该数值点将数据分成两部分,一部分小于等于该值,另一部分大于等于该值。更具体地说,p 分位数(0 ≤ p ≤ 1)是指至少有 p 比例的数据小于或等于该值,并且至少有 (1-p) 比例的数据大于或等于该值。
中位数:中位数,又称中值,指按顺序排列的一组数据中居于中间位置的数。对于一组数据,有一半的数据大于或等于中位数,有一半的数据小于或等于中位数。当数据个数为奇数时,中位数是中间的那个数;当数据个数为偶数时,中位数是中间两个数的平均值。
与另一个经常用来反映数据一般水平的统计量——均值相比,中位数的评价结果往往更为合理和贴近实际。中位数不易受极端值影响,能较好地反映投资策略的真实水平;平均数(或均值)则很容易受到极端值的冲击,使其对数据的判别效果产生较大的误差。
💡 对应点
| 故事元素 | 概念对应 |
|---|---|
| 周伯的麻绳(四十年水位记录按高低排列) | 将样本数据从小到大排序 |
| 麻绳正中间两个结的平均高度(四尺二寸) | 中位数:中间位置的数值,不受极端值影响 |
| 从最低结往上数第二个结的位置(三尺二寸) | 下 5% 分位数:仅有 5% 的数据比它更小/更低 |
| 县丞最初算的"平均水位三尺六寸" | 均值:易受极端值(八尺二寸的大洪水)拉偏 |
| 红线(中点标记)与黑线(下五分位标记) | 分位数的实际应用:中位数看"一般水平",下分位数看"极端风险" |
| 按中位数加余量、下五分位设基线修堤 | 金融实践:中位数评估业绩基准,分位数评估风险敞口(如 VaR) |
📝 来源:科目二 · 第三章第四节 · 三、分位数与中位数