AI也会作画!微软用GAN搭配拆解单词模仿人类作画行为,看文字描述就能产生图像
微软AI研究院近日于 微软AI部落格中发布 开发作画AI的消息,研究员将此作画AI称为作画机器人,作画机器人能够透过文字描述,产生出与文字对应的图像。
作画机器人除了可以产生一般的场景,像是牧场的风景画,除了正常的画作外,作画机器人还能产生像是浮在湖上的双层巴士图像,且每个图像还包含了描述中没有出现的多个细节,微软认为,这也意味着,作画机器人拥有人造的想像力。
负责微软研究院深度学习技术的首席研究员 Xiaodong He表示,在网路上搜寻一只鸟,会得到一张鸟的图片,但是作画机器人的图片是由电脑创造出来的,从无到有,一个像素一个像素画出来的,这些产生的鸟类图像在现实中或许不存在,但是他们代表了电脑对鸟类想像力的一部分。
过去5年,Xiaodong He与团队致力于研究电脑视觉和自然语言处理,一开始,他们先开发了一套自动撰写图像标题的机器人CaptionBot,之后开始研发能够回答人类询问与图像相关问题的机器人,像是地点、物件的属性,这个机器人也被认为对盲人有很大的帮助。
接着,团队着手进行训练机器学习模型,让模型能够辨认物件,描述动作和转换成自然语言的描述,而现在则是反过来,用文字来产生图像,团队中一位博士后研究员Qiuyuan Huang表示,“这是一个循环!”但是,生成影像比影像辨识更具有挑战性,团队另一位研究员Pengchuan Zhang补充,由于产生影像的过程中,需要作画机器人产生对影像细节的想像,也就是说,机器学习的演算法必须能够创造图像中消失的部分。
加入GAN并拆解单词来模拟人类作画行为因此,微软在作画机器人中,加入对抗式生成网路,最为最核心的技术,对抗式生成网路由2个机器学习的模型组成,一个生成器负责生成由文字描述画出的图像,另一个则是判别器,用来检视文字描述与图像是否相符,反覆不断训练,就能促使生成器产生最接近文字描述的图像。
微软的作画机器人采用的训练资料,是许多由图像和标题组成的一对数据,这样能够让模型学习文字与影像的配对程度,在对抗式生成网路中,生成器学习到标题是鸟,就要产生鸟的图片,如此一来,就能够学习到鸟的图片是什么样貌。
对抗式生成网路对于简单的文字描述,可以得到不错的成果,举例来说,像是蓝色的鸟或是常青树,但是对于较複杂的文字描述,对抗式生成网路所产生的图像品质就会降低,像是一只有绿色冠、黄色翅膀和红色肚子的鸟,主要是因为整个句子对生成器言,是单一个Input,描述中的细节资讯也不见了,因此,产生的图像会变成混合绿色、黄色和红色的模糊图像。
若是由人类来作画,我们会不断的注意且确认每个单词的描述,来对应到作画的区域,简单来说,给予一般人一个作画的描述,比如说画出黄色的身体、黑色翅膀和短喙的鸟,大部分的人会先描绘出鸟的轮廓,再重新看一次文字描述,看到要画黄色的身体才去找黄色的笔来涂满鸟的身躯,再看一次描述,拿起黑色的笔开始画翅膀,持续这样的步骤来来回回,最后确认画出的图像与描述相符。
为了要撷取人类这项作画的特征,研究人员创造了一套名为attentional GAN或是AttnGAN的神经网路,藉由将文字描述拆解为个别的单词,并将这些词与作画的区域互相配对,来实现模拟人类作画的行为,也就是在训练AI产生图像时,聚焦于个别的单词,像是类似标题的文字描述,如此一来,相较于传统的文字转图像方法,此方法所产生的图像品质提升了3倍。“注意力是人类的概念,我们用数学将注意力变成可运算的。” Xiaodong He说。
AttnGAN还能从训练资料中学习人类的常识,将这样的知识萃取出来后,填补文字描述中缺少的图像细节,举例来说,因为许多在训练资料中的鸟类图片都是鸟坐在树枝上,因此,AttnGAN产生的图像,也几乎都是鸟在坐在树枝上的图像。
从资料中,机器学习演算法学习到通常鸟类都会在哪里的常识,为了测试,团队给予作画机器人一些非正常的标题,像是一台红色的双层巴士浮在湖上,作画机器人产生了一张模糊潮湿的图像,图像中包含了一艘船和一台双层巴士浮在湖上,周围被山包围,这样的图像展示了,作画机器人在产生文字描述的图像和常识中,有点挣扎。
Xiaodong He表示,研究员能够控制描述和机器的反应,因此能够测试机器学习到了什么,他们认为,机器学习到了一些背景知识,也就是常识,不过,还是得根据不同的描述情况而定,有时候作画机器人产生的图像也会不太合理。
未来,作画机器人的文字转图像技术可以协助画家素描,或是协助室内设计师,这项技术也可以成为调整有声图片的工具,藉由更多的运算能力,微软认为这项文字转图像技术能够透过剧本产生动画,减少一些需要人工处理的部分工作。
微软表示,现在这项科技还不够完美,仔细的检查图像还是会发现缺陷,像是鸟喙是蓝色而不是黑色,水果也会出现突变的香蕉,这些缺陷明显是电脑作画才会犯的错误,但是,若要人类和AI共存在同一个世界中,我们必须找到一个方法互动,语言和影像是2个人类与机器互动最重要的模式。