OpenAI公司开发的ChatGPT,具备复杂且生动的语言交互能力,现在已经成为当下最热门的话题,不过其中也有太多的夸张与误解。
一、诗云
在刘慈欣的小说《诗云》中,神级文明感叹汉语诗词“用如此少的符号,且有严格的诗律和音韵约束,构成如此小巧的汉字矩阵,却能涵含着如此丰富的感觉层次和含义分支”。所以,神级文明打算“超越李白”,把所有的诗都写出来,在五言和七言诗的格律下,试遍所有汉字的组合。
那么会有多少诗呢?仅仅三个汉字写一首361个字的诗,总共能组合出3的361次幂首诗,这等于10的271次幂,而宇宙中的全部原子只有10的80次幂个。神级文明为了制造储存器,来储存所有汉字组合的诗,消耗了整个太阳系的物质,制造了一片直径一百亿公里的晶片星云。
但是,神级文明得到了全部的诗词,却无法将其中的杰作从诗云中检索出来,因为无法编制具备古诗鉴赏力的软件。这就意味着,无法理解文字,就无法掌握文字。
小说的科幻基础逻辑是这样一个问题:文字的无限可能性,是否能在不理解文字的基础上,用技术去超越?
二、“中文房子”
其实,在无穷组合中检索与在文字创造出组合,本质上是一样的,就是有一种算法,来“理解”文字。人类早就开始思索这个问题。
当今世界最著名的哲学家约翰•塞尔提出过一个思想实验:“中文房子”
一个对中文一窍不通的,以英语为母语的人被关闭在一间只有两个通口的封闭屋子中。屋子里有一本用英文写成,从形式上说明中文文字句法和文法组合规则的手册以及一大堆中文符号。屋子外的人不断向屋子内递进用中文写成的问题。屋子内的人便按照手册的说明,将中文符号组合成对问题的解答,并将答案递出屋子。
当这本英文写的“如何使用中文”的手册,足够强大,屋子里的人甚至可以做到以假乱真,让屋子外的人以为他是以中文为母语的人。
在上面的过程中,屋子中的人相当于计算机,而那本手册则相当于计算机程序,屋子外的人所扮演的角色就是向ChatGPT提问的普通人。
“中文房子”之所以是思想实验,是因为两个原因。第一,屋子里面的人脑力不够强大,不能处理足够多的信息,不能在短时间内检视足够多的手册内容,让回答变得完美。第二,这本手册不够强大,不足以涵盖所有日常生活,以及各个专业的中文规律。