您的位置:首页 >科技 >

为什么聊天机器人仍然让我们感到寒冷

2019-02-10 19:48:08来源:zdnet

结果是,聊天机器人仍然非常不满意。

Facebook和微软以及一些合作机构的研究人员上周公布了一项名为“第二次会话智能挑战”的正式文章,这是12月在蒙特利尔举行的NeurIPS人工智能会议期间举行的聊天机器人之间的竞赛。

虽然比赛发现一些更好的和一些更糟糕的聊天机器人程序,但总的来说,这些计算机的对话质量与你在网上聊天机器人的任何互动一样缺乏。

来自获胜的实例 - 让我们强调他们是获胜者 - 神经网络方法包括如此恼人的蠢事作为陈述序列中的不一致。例如,竞争中的顶级团队Lost in Conversation在一个关于他们都喜欢什么的随意谈话中聘请了一个人与机器人。机器说出了“我喜欢画画”这句话。当人类回应“太棒了!你喜欢画什么?”机器不会对绘画有所反应,而是“我喜欢画出我喜欢的汽车的肖像”。(让我们称之为双重错误:不仅绘画不是绘画,人们通常不绘制或绘制无生命物体的“肖像”。)

其他烦恼包括在同一话语中无意识地重复短语,例如“你有没有宠物吗?你有宠物吗?”来自第二名的球队Hugging Face。热闹的例子包括自相矛盾。计算机上写着“刚读完一本书”,一个人问道:“哪本书?”计算机回答“我读的不多,我更喜欢阅读。”

研究人员写道,也许表明了令人厌恶的聊天机器人,通过在Facebook的Messenger应用程序上进行交谈而自愿测试这些东西的人,大多数人最终调出机器人或进行“毫无意义”甚至“冒犯”的对话。那些“在野外”的免费评估是如此混乱,他们不得不从机器人的评估中完全消除。

另一组人员获得了在亚马逊机械土耳其众包平台上测试机器的报酬。他们通常更加勤勉地坚持这项任务,毫不奇怪,因为他们得到了报酬。

作者看着土耳其志愿者给予机器的评级,他们指出,即使是像Lost in Translation and Hugging Face这样表现最好的神经网络也“遭受了重复,一致性或有时'无聊'的错误。”另一个缺陷是机器“问了太多问题。”

“当模型提出太多问题时,”作者写道,“它可以使谈话变得脱节,特别是如果问题与之前的谈话无关。”

他们指出,顶级竞争对手的神经网络“经常在几次对话中无法自我控制”。“即使他们偶尔发生这些问题,这些问题对于一个人类说话的伙伴来说也会特别刺耳。”人工智能还“提出已经回答的问题。一个模特问'你做什么工作?'即使人类早先说“我在电脑上工作”导致人们回答“我只是告诉你傻”。

论文“第二次会话智力挑战(ConvAI2)”由Facebook AI Research的Emily Dinan,Alexander Miller,Kurt Shuster,Jack Urbanek,Douwe Kiela,Arthur Szlam,Ryan Lowe,Joelle Pineau和Jason Weston撰写,同时来自莫斯科物理科学与技术学院的Varvara Logacheva,Valentin Malykh和Mikhail Burtsev;蒙特利尔大学的尤利安塞尔班;Shrimai Prabhumoye,Alan W Black和Carnegie Mellon的Alexander Rudnicky;和微软的杰森威廉姆斯。该论文发布在arXiv预打印服务器上。

聊天机器人的缺陷来自于尽管事实上研究人员在2017年相对于之前的竞争对手在团队竞争的培训和测试框架方面做了很多改进。

这一次,作者提供了一套基准的会话数据,一年前由Dinan,Urbanek,Szlam,Kiela和Weston以及蒙特利尔Mila机器学习研究所的Saizheng Zhang发布。这个名为“Persona-Chat”的数据集包含16,064个人类发言人的话语实例,要求他们在Mechanical Turk上互相聊天。另外一组1000多个人类话语作为神经网络的测试集保密。该数据集已提供给所有竞争研究人员,但并非所有人都使用过它。

帮助众包Persona-Chat的每个人都被赋予了“他们应该是谁”的形象 - 喜欢滑雪的人,或者最近有猫的人 - 以便人类对话者发挥作用。两个发言者中的每一个都试图在他们进行对话时保持他们的话语与该角色一致。同样,可以在训练期间将配置文件提供给神经网络,因此坚持个性是竞争的嵌入式挑战之一。

正如作者描述的挑战,“任务旨在模拟两个对话者第一次见面时的正常对话,并相互了解。

“这项任务在技术上具有挑战性,因为它涉及提问和回答问题,以及保持一致的角色。”

不同的团队使用了各种方法,但特别受欢迎的是“变形金刚”,这是对典型的“长期短期记忆”的修改,或由Google的Ashish Vaswani及其同事在2017年开发的LSTM神经网络。

那么为什么所有糟糕的结果呢?

回顾这些缺点,很明显一些问题是机器在测试时试图提高分数的机械方式。对于表示轮廓或角色的神经网络,机器似乎试图通过重复句子来产生最佳分数,而不是创建真正引人入胜的句子。“我们经常观察模型几乎逐字逐句地重复人物句,”他们写道,“这可能会导致高人格检测分数但是低接合度分数。

“训练模型使用角色创建引人入胜的反应而不是简单地复制它仍然是一个悬而未决的问题。”