苹果后面那个人的脸是什么?近60年来,雷内•马格利特(René Magritte)的画作《人之子》中身着阴沉的西装和圆顶硬礼帽的人物一直被一个擦得发亮的青苹果遮挡着。他的面部特征是为了保持神秘,而水果则是一种艺术上的挑衅。今天,利用新技术,23岁的数字艺术家约瑟芬•米勒可以将苹果滚开。
在伦敦大英图书馆安静的咖啡馆里,米勒将她的笔记本电脑向我倾斜,展示她如何使用可以生成图像的人工智能Dall-E 2软件,来移除这个水果。后面是一个男人,他看起来被突然揭开的面纱吓了一跳,眉毛上扬,刺眼的蓝眼睛盯着专家打过蜡的小胡子。这张脸是用马格利特略显平淡的风格和标志性的调色板画的,就好像这两幅画是由同一只手并排画出来的。
这是个巧妙的技巧。然后米勒向我展示了她生成的不是一张,而是200张可能的脸。马格利特,一个热衷于各种把戏的人,可能会对此表示赞许。这项技术可以根据几个单词或图像创造出近乎无限的艺术组合,它使米勒能够完成以前的工具需要花费数月或根本不可能完成的工作。它的能力和它的道德含义都令人眼花缭乱。我问她是否觉得这让人不知所措。“不,”她立即说。“好吧,也许对某些人来说是这样,但我只是很兴奋。”
Dall-E 2只是今年向公众开放的几个人工智能图像生成工具之一。自今年春天以来,互联网经历了寒武纪的大爆发,所有可以想象的技术应用都出现了。唯一比这项技术本身更令人惊叹的是它的使用者想象力的飞跃:鲁保罗变装皇后秀 (RuPaul's Drag Race)中的诺斯费拉图,达芬奇的《最后的晚餐》,但门徒们都围在一起自拍,从头盔上的GoPro摄像头看到的法国大革命,一瓶牧场酱在法庭上出庭。所有这些都可以在不到一分钟的时间内生产出来,不需要太多的专业技术。
而且这项技术正在迅速发展。六个月前,大多数工具还在努力创造人脸,通常是眼睛、牙齿和四肢的怪异组合;今天,你可以要求一个“逼真版的迪士尼《阿拉丁》中的贾法尔在汉普斯特德西斯晒太阳”,得到的图像几乎完全符合你的要求。
所有这些都表明,这是艺术史上的一个关键时刻。人工智能生成的图像“是一种主要的颠覆性力量,它既有民主的一面,也有压迫性的一面”,英国艺术家马修•斯通(Matthew Stone)说。他在为自己的最新展览创作艺术品的过程中使用了Dall-E 2。每天都有数百万张图片从这个潘多拉的盒子里涌出,随之而来的是许多关于剽窃、作者身份和劳工的棘手问题。也许最大的问题是:这是人类创造力的终结吗?
关于人工智能图像生成,任何布道者都会告诉你的第一件事就是它是多么容易。你用自然语言描述一幅图像,就像你和另一个人交谈一样,软件会在几秒钟内提供几个结果。
Dall-E的竞争对手Midjourney通过聊天应用程序Discord提供免费试用。听说它擅长绘画风格的图像,我决定试着为我正在写的一本儿童书画插图,讲的是一只猫在地中海冒险寻找它失踪的主人。我输入我的第一个想法:
/想象一下:伊斯坦布尔尖塔顶上的姜黄色猫图像在我眼前生成,就像一张在化学浴中的照片,开始是模糊的,然后逐渐获得清晰和一致性。
第一个结果不是很好。人工智能给了我一个普通的塔,而不是一个可识别的尖塔。没有感觉到我们是在伊斯坦布尔,最糟糕的是,猫的脸被怪异地嵌入到塔的砖块中。这是我在人工智能图像生成方面的第一课:尽管在社交媒体上分享的图片往往看起来非常棒,但正在进行的过程可能很糟糕--丑陋、普通或几乎不符合甚至简单的提示的要求。
由于免费试用是在一个公共的聊天服务器(Discord通常把一个聊天群叫做server)上进行的,我的猫尖塔很快就消失在别人无休止的提示和图片中。我观察他们输入的内容,试图收集一些提示。似乎你的提示越详细,结果就越好。一些用户不断回到相同的想法,调整单词和措辞来改善他们的结果。有一个人不断迭代“情感支持贝类动物”的想法,随着每一个新的版本,水生蜗牛变得越来更可爱。
我回到我的猫的提示,并添加更多细节。
/想象一下:在夕阳西下的时候,姜黄色的猫在尖塔顶上踌躇满志地看着伊斯坦布尔的景色,动漫风格
这产生了明显的改善--天空中的锈橙色和深靛色之间形成了华丽的对比,尖尖的尖塔像针一样划过玫瑰色的云朵。然而,这只猫仍然是不对的。在一个版本中,它像一只可爱的哥斯拉一样耸立在建筑上。在另一个版本中,它的大小正常,但不知为什么是白色的,好像夕阳已经浸透了它所有的颜色。
我放弃了这只猫,去找更有艺术感的东西:
/想象一下:嘉年华庆典,美丽,乔治·修拉这个构图有一种真正的喜庆感,但人工智能没有得到我希望从“修拉”的参考中得出的点彩风格。我试着用“点彩主义”这个词做同样的提示,结果出人意料,用柔和的色调抽象出游乐场里的小丑般的人物。从你的想象力中随机抽出一个句子,看看人工智能如何处理它,有一种咔嚓咔嚓的、类似游戏的满足感,我花了几个小时测试各种形式的提示。
我向每个人展示Dall-E 2和Midjourney的时候,他们都很惊讶。这项技术有直接的、发自内心的影响,特别是当人们看到自己的想法被从抽象的数学空间中召唤出来时。斯通说:“在做某件事和看到某件事之间没有间隔,只需要等待几秒钟,就像网页加载一样,意想不到的图像就会简单地出现,而不是一个漫长、艰巨的过程的输出。感觉就像在做梦。”