ChatGPT

从ChatGPT看中美人工智能竞争

许成钢:如果从创新的角度,使用政府干预的方式一定会适得其反。政府管不了创新这件事,政府唯一可以做的就是提供资源,但政府一定不能管资源配置。

OpenAI公司推出的一款聊天软件ChatGPT不仅在美国引起轰动,在中国也成为舆论的焦点。它代表着一种全新的人机交互的未来,通用人工智能已经曙光初现。我们跟踪研制的人工智能指数表明,从商业化应用的角度衡量潜力,中国不仅仅落后于美国,还落后于英国,某些指标还更落后于以色列。而这背后的原因,概括起来就是中国的制度限制了中国的发展。用举国之力搞人工智能,最后一定会输给自由探索的机制。

ChatGPT:人机接口的颠覆性创新

在我看来,ChatGPT是一款颠覆性的产品,预示着一代颠覆性产业的开端。这就是大众化的人工智能时代的开端。我已经试着在实际工作中用它了,一个方面是翻译,另一个方面是检查语法。这是它的两个长处。比起其他的翻译软件,它在翻译方面的优势是明显的,相当准确并且翻译出来的文字非常漂亮。在语法上,一方面可以帮助检查语法错误,另一方面它会自动提供一些写作上的建议,能够把原来要表达的意思换一个方式并且相当确切地表达出来,更容易懂。现在很多人拿ChatGPT当搜索引擎用,就会弄出很多错误和笑话,因为它不是搜索引擎。

整体上看,ChatGPT还是一个非常初步的产品,至今也还是实验性的。实际上,OpenAI是想通过大规模的用户交互来改进它。基本上,它是一个语言的辅助性工具。不仅能聊天,更是一个通用的人工智能模型。ChatGPT之所以如此强大,是因为它的背后是一个极为强大的人工智能(AI)模型APG 3.5,这是至今最强大的AI模型。我猜测,未来ChatGPT这类工具可以和许多其他人工智能工具联合,甚至和许多其他非人工智能的计算机模型联合,成为计算机的通用接口。各种各样的复杂的任务都可以通过它来做。

自从计算机诞生以来,计算机和人之间的接口一直是个难点。第一个重大突破是苹果发明的鼠标。在鼠标出现以前,人机接口是通过人来打字输入指令的方式实现的,非常困难。有了鼠标以后,人和计算机之间的接口就变成了图像。虽然比原来方便,但是用户必须要面对一个屏幕,要在屏幕上做交互。计算机跟人不能有自然的交互。ChatGPT就是一个重大突破。从此,人和计算机之间、人和人工智能的其他功能之间的交互有了突破,以后人可以用交互的方式让计算机执行各种各样的任务。聊天只是一个实验,试一试它能不能起到接口的作用,能不能工作。以前也有聊天机器人,比如微软的小冰等等,那是一些应用范围很窄的实验。ChatGPT和它们最大的不同是它是通用的,而且能在各个领域直接用人的自然语言与人交互。

AI:中美差距明显

在人工智能方面,美国领先中国是非常显然的,而且基本在AI的所有范围内都保持着领先,只有极其个别的领域可能差距不太清晰,比如图像识别。导致这个现象的一个重要原因,是因为中国的图像识别是和警察系统联系在一起的。任何技术的发展离不开巨大量的投资和巨大量的应用。警察系统投资金额特别的大,应用的量特别的大。全世界第一个图像识别的人工智能最大规模的应用就是中国警察的监视系统,这就使得中国在图像识别方面是比较强的。除此以外,在人工智能的任何方面,中国的水平都落后于比美国。

即便是在聊天这样一个很微小的领域,中国要想和美国竞争,至少存在两个方面的问题。一个方面是技术本身,比如百度也即将推出类似的聊天工具,我们无法事先预测,但是我猜测它几乎没有太大的可能能接近ChatGPT的水平。原因在于前面提到的,支持ChatGPT的是非常强大的GPT3.5模型。没有这种水准的模型,就没有可能造出来这个水准的应用,但是可以是类似的、水平低一些的。比如GPT2.0是公开的,全世界人人都能拿到。GPT3.0没有完全公开,只是公开了一部分。此外,除了基本理论模型外,还有很多的具体的技巧。这些技巧都带有知识产权的性质,比如怎么具体根据数据调模型的参数等等。即便是谷歌和微软,至今试图追赶ChatGPT,都在技术方面有差距。

另一方面,我们知道中国存在审查制度。我们先把模型的技术问题放到一边,来看数据本身。筛选过的数据和没有筛选过的数据,对自然语言处理模型来说,结果就已经不一样了。同样的模型,同样的技术,数据不同,结果当然不同。所谓垃圾进垃圾出,说的就是,如果你喂给模型的数据都是垃圾,再好的模型,吐出来的也是垃圾。出于好奇我自己在ChatGPT上做过一些实验。如果我用简体字提问题,得到的回答就很有趣,基本上就是小粉红的回答。ChatGPT这个模型本身是中性的,它自己没有任何倾向性,但是它在所有简体字网络上看到的文献,几乎统统都是经过筛选和审查的,于是它学来的整套的语言,整套的表达方式,使得它看上去是有立场的。但其实它是个机器人,它没有立场。但你会发现,用简体字它就变成了一种立场,用繁体字就变成了另一种相反的立场。因为所谓的机器学习依赖的是获得的资料是什么。

您已阅读22%(1960字),剩余78%(6860字)包含更多重要信息,订阅以继续探索完整内容,并享受更多专属服务。
版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。
设置字号×
最小
较小
默认
较大
最大
分享×