微软打造AI绘图机器人,靠文字描述就能产生栩栩如生的图像
微软深度学习技术中心的研究团队上周展示了最新的 AttnGAN技术研究成果 ,打造一个AI绘图机器人,能够藉由文字叙述画出栩栩如生的图像,还能加上AI想像力,号称绘图品质是前一代GAN技术的3倍。
绘图机器人的基础为电脑视觉与自然语言处理技术,过去研究人员利用这些技术创造了自动图说撰写工具,以及能根据图片回答问题的机制,现在研究人员则反过来利用文字叙述来创造图像。
该团队的副研究人员Pengchuan Zhang表示,产生图像比写图说还要难上许多,因为这需要绘图机器人想像文字中所缺乏的元素。
绘图机器人的核心技术为生成对抗网路,它是由两个机器学习模型所构成,一个用来自文字产生图像,另一个则依照文字叙述来验证前者所产生之图像的真伪,透过彼此间的较劲来达到更完美的成果。
GAN可成功输出简单描述的图像,如蓝鸟或是绿树等,但却无法满足更複杂的描述,诸如有绿冠、黄色翅膀及红色肚子的小鸟,这是因为整个句子被视为单一输入,遗漏了细节,所以只会产出模糊的鸟儿图像。
因此,研究人员把人类对物件的常识及对文字的关注能力注入了GAN,形成新的AttnGAN,可把所输入的文字个别处理,也就能产生更细緻的图像。如此一来,AttnGAN除了可创造更栩栩如生的图像之外,也能根据常识让鸟儿站在树枝上。
此外,基于AttnGAN的绘图机器人也能绘出非常态的荒诞图像,例如飘在湖面上的双层巴士。
深度学习技术中心的首席研究人员Xiaodong He说,未来使用者透过Bing搜寻鸟类时,可能会看到一只不存在于真实世界、完全由AI系统想像及建置出来的鸟。
此一文字转图像的技术可望被应用在不同的场景中,诸如作为画家或室内设计师的素描助理,也能成为支持语音的照片优化工具。