1787年9月,美国的宪法草案被分发到各州进行讨论。一批反对派以“反联邦主义者”为笔名,发表了大量文章对该草案提出批评。亚历山大•汉密尔顿着急了,他找到曾任外交国务秘书(即后来的国务卿)的约翰•杰伊,以及纽约市国会议员麦迪逊,一同以普布利乌斯(Publius)的笔名发表文章,向公众解释为什么美国需要一部宪法。他们走笔如飞,通常在一周之内就会发表3-4篇新的评论。1788年,他们所写的85篇文章结集出版,这就是著名的《联邦党人文集》。
《联邦党人文集》出版的时候,汉密尔顿坚持匿名发表,于是,这些文章到底出自谁人之手,成了一桩公案。1810年,汉密尔顿接受了一个政敌的决斗挑战,但他出于基督徒的宗教信仰,决意不向对方开枪。在决斗之前数日,汉密尔顿自知时日不多,他列出了一份《联邦党人文集》的作者名单。1818年,麦迪逊又提出了另一份作者名单。这两份名单并不一致。在85篇文章中,有73篇文章的作者身份较为明确,其余12篇存在争议。
1955年,哈佛大学统计学教授Fredrick Mosteller找到芝加哥大学的年轻统计学家David Wallance,忽悠他跟自己一起做研究。他跟Wallance说:“这个夏天你能不能到新英格兰,来跟我一起做一个小小的课题呢?”Mosteller想用统计学的方法,鉴定出《联邦党人文集》的作者身份。
这根本就不是一个小小的课题。汉密尔顿和麦迪逊都是文章高手,他们的文风非常接近。从已经确定作者身份的那部分文本来看,汉密尔顿写了9.4万字,麦迪逊写了11.4万字。汉密尔顿每个句子的平均长度是34.55字,而麦迪逊是34.59字。就写作风格而论,汉密尔顿和麦迪逊简直就是一对双胞胎。汉密尔顿和麦迪逊写这些文章,用了大约一年的时间,而Mosteller和Wallance甄别出作者的身份,花了10多年的时间。
他们是在没有电脑的时代处理“大数据”。这一工程耗时耗力。将近100个哈佛大学的学生帮助他们处理数据。学生们用最原始的方式,用打字机把《联邦党人文集》的文本打出来,然后把每个单词剪下来,按照字母表的数序,把这些单词分门别类地汇集在一起。有个学生干得累了,伸了个懒腰,长长地叹了一口气。他这一口气用力太猛,一下子把刚刚归置好的单词条吹得如柳絮纷飞。一屋子学生瞬间石化,估计很多人连灭了他的心都有了。