就像神话中的古蛇乌洛波洛斯(Ouroboros)吃自己的尾巴一样,如果人工智能模型被迫从自己有缺陷的数据中学习,它们将难以改进
首先,我们了解到生成式人工智能模型可以“产生幻觉”,这是一种委婉的说法,意味着大型语言模型会编造事实。正如ChatGPT本身告诉我(在这种情况下是可靠的),LLM可以生成虚假的历史事件、不存在的人物、错误的科学理论以及虚构的书籍和文章。现在,研究人员告诉我们,一些LLM可能会因为自身的缺陷而崩溃。这真的是我们这个时代耗资数千亿美元的奇迹技术吗?
在上周发表于《自然》的一篇论文中,研究团队探讨了在训练生成式人工智能模型时“数据污染”的危险及模型崩溃的风险。这些最新模型已经吸收了互联网上数万亿的人类生成文字,现在越来越依赖于由其自身创建的合成数据。然而,这些机器生成的数据可能因方差损失和错误复制而损害训练集的完整性。研究者们总结道:“在训练中不加选择地使用模型生成的内容,会在生成的模型中造成不可逆的缺陷。”
您已阅读27%(418字),剩余73%(1103字)包含更多重要信息,订阅以继续探索完整内容,并享受更多专属服务。