阿里巴巴与微软的AI系统在SQuAD问答测验中双双打破人类纪录
阿里巴巴与微软在本周一相继宣布他们所发展的人工智慧系统已在史丹福大学所建立的问答集测验中击败人类所创造的最高分数,为史上头一遭。
SQuAD为一强调阅读理解的资料集,它基于逾500篇的维基百科文章,建立了超过10万个问答,这类的资料集通常是为了机器学习研究所设计,用以建置解答预测模型,截至目前为止,人类进行SQuAD测验的最高分为82.304。
阿里巴巴旗下的资料科学与技术研究所 周一表示 ,该所的深度神经网路模型于SQuAD测验中得到了82.44的高分,首度击败人类的成绩。iDST首席科学家Luo Si指出,很荣幸能见到这历史性的一刻,自然语言处理在这一年来取得重大的进展,期望可与社交分享iDST的建模方法,未来也将该技术移植到客户的应用上。
参与测验的团队必须打造一个可提供答案的机器学习模型,像是“雨从何而来?”iDST模型利用分层注意网路进行分类,可读取段落、句子到文字,找出包含潜在答案的句子。
过去几年阿里巴巴已将HAN技术应用在双十一的购物季中,以机器来回答大量涌进的卖家查询。
无独有偶地, 微软也在同一天宣布 其亚洲研究院亦于SQuAD测验中拿到82.65的高分,不但超越了人类的82.304,也凌驾阿里巴巴的82.44。
不过,阿里巴巴宣称iDST是第一个在SQuAD中赢过人类成绩的系统,比微软亚洲研究院早了一天。
微软也正努力让AI系统可回答更複杂的问题,例如当使用者询问“德国总理是在哪一年出生?”之后,系统也能继续回答其他相关的问题,如“她是在哪个城市出生的?”
然而,研究人员指出,AI系统理解文字的方式仍与人类有所不同,AI并非真的知道他所阅读的内容是什么,它或许知道2016年世界杯中场秀占媒体最大版面的是“酷玩乐团”,对AI而言,它知道答案是ColdPlay,但并不真的知道ColdPlay是什么,在许多更加困难的语言问题上,人类还是胜过AI的。