一知半解

《联邦党人文集》背后的统计学幽灵

FT中文网专栏作家何帆:最近30年贝叶斯法则幽灵重见天日,生命科学家用它研究基因控制;基金经理用其找到投资策略。但实际上,大数据时代的信息并未让我们更加睿智。

1787年9月,美国的宪法草案被分发到各州进行讨论。一批反对派以“反联邦主义者”为笔名,发表了大量文章对该草案提出批评。亚历山大•汉密尔顿着急了,他找到曾任外交国务秘书(即后来的国务卿)的约翰•杰伊,以及纽约市国会议员麦迪逊,一同以普布利乌斯(Publius)的笔名发表文章,向公众解释为什么美国需要一部宪法。他们走笔如飞,通常在一周之内就会发表3-4篇新的评论。1788年,他们所写的85篇文章结集出版,这就是著名的《联邦党人文集》。

《联邦党人文集》出版的时候,汉密尔顿坚持匿名发表,于是,这些文章到底出自谁人之手,成了一桩公案。1810年,汉密尔顿接受了一个政敌的决斗挑战,但他出于基督徒的宗教信仰,决意不向对方开枪。在决斗之前数日,汉密尔顿自知时日不多,他列出了一份《联邦党人文集》的作者名单。1818年,麦迪逊又提出了另一份作者名单。这两份名单并不一致。在85篇文章中,有73篇文章的作者身份较为明确,其余12篇存在争议。

1955年,哈佛大学统计学教授Fredrick Mosteller找到芝加哥大学的年轻统计学家David Wallance,忽悠他跟自己一起做研究。他跟Wallance说:“这个夏天你能不能到新英格兰,来跟我一起做一个小小的课题呢?”Mosteller想用统计学的方法,鉴定出《联邦党人文集》的作者身份。

这根本就不是一个小小的课题。汉密尔顿和麦迪逊都是文章高手,他们的文风非常接近。从已经确定作者身份的那部分文本来看,汉密尔顿写了9.4万字,麦迪逊写了11.4万字。汉密尔顿每个句子的平均长度是34.55字,而麦迪逊是34.59字。就写作风格而论,汉密尔顿和麦迪逊简直就是一对双胞胎。汉密尔顿和麦迪逊写这些文章,用了大约一年的时间,而Mosteller和Wallance甄别出作者的身份,花了10多年的时间。

他们是在没有电脑的时代处理“大数据”。这一工程耗时耗力。将近100个哈佛大学的学生帮助他们处理数据。学生们用最原始的方式,用打字机把《联邦党人文集》的文本打出来,然后把每个单词剪下来,按照字母表的数序,把这些单词分门别类地汇集在一起。有个学生干得累了,伸了个懒腰,长长地叹了一口气。他这一口气用力太猛,一下子把刚刚归置好的单词条吹得如柳絮纷飞。一屋子学生瞬间石化,估计很多人连灭了他的心都有了。

您已阅读22%(966字),剩余78%(3348字)包含更多重要信息,订阅以继续探索完整内容,并享受更多专属服务。
版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。
设置字号×
最小
较小
默认
较大
最大
分享×