人工智能软件Aristo堪比四年级的学生了

发表评论
7,488 views

A+

人工智能软件参加真正的学校考试也许是机器学习常识一条捷径。

兔子的毛在哪个季节最厚实？一个叫做Aristo的电脑程序能告诉你答案，因为Aristo从四年级的书上学到熊在冬天会长出更加厚实的皮毛，而且Aristo还从纽约州标准科学考试上学到了兔子也是哺乳动物，由此Aristo能够得到正确的答案。

Aristo由西雅图艾伦人工智能研究所研发，是一款能够感知人类社会常识的人工智能软件。而衡量它效果最好的方式，就是用适用于学龄儿童的测试来进行检测。该研究所还在说服其他的AI研究人员，发展一种标准，测试他们的成果。

这种标准的目的，是把AI和对自然语言研究的发展，用一种客观的方式表现出来，通过比较不同方法的优缺点，有助于我们更快找到最有效的方法从而加快AI的发展。

11月上旬，艾伦研究所将会发起一项挑战，让研究人员研发出能做八年级（相当于初二）理科试题的智能软件。这个竞赛在科学竞赛网站Kaggle上正火热进行中，参赛人员可以通过千万道问题来训练他们的软件。如果一个软件能够解决出一道它从未见过的问题，并得分最高的话，研发者将会获得50,000 美元的奖金。

现在Aristo距离做出四年级的理科测试，还有很大一段距离。它只能做多项选择，而多项选择占了测试的2/3。如果选择题中不涉及图形题的话，Aristo能做对75%，如果有图形题的话就只能做对45%，而及格需要至少65分。Aristo在做不含有图形题的八年级理科测试多项选择时，能得63分。你可以在艾伦研究所网站上，看到Aristo回答某些经过选择的问题。这个软件能够应用合理的计算法则，并通过网站上看到的学习指南，来回答这些问题。

在AI领域，想把哪怕一丁丁点常识塞进软件都是一个巨大挑战，但是一旦实现，电脑就能进一步以前所未有的方式帮助提高我们的生活。如果我们想研发出更加强大的系统来协助工作，那学习常识将是这些系统所必需的能力。其他的顶尖的研究人员也同意这一看法，这其中就包括Facebook的AI实验室，它正致力于使网络虚拟助手具备一些基本的谈话能力。目前市面上虚拟助手不具备常识，比如苹果的Siri以及微软的Cortana。他们只是根据你所说的，从一个预编程的规则中选择回复。

为机器学习常识的能力设定标准很有用，但也有人认为，学校测试不是个好法子。

适用于孩子的测试可以确保研究人员不会有意，或无意地把这个领域的发展衡量标尺变得太“easy”，但是孩子们在探索世界方面可比机器软件强太多了，为孩子们编写的试题不能来做为衡量智能软件的发展的标尺。机器和人类所不擅长的事物是非常不一样的，适于人类的标准化测试，并不能很全面地覆盖机器软件所面临的难点问题。

更好的选择是专门为机器软件拟一份试题。比如这样的测试题：Sally最心爱的奶牛昨天死掉了，奶牛可能会在多久之后复活？a) 明天； b) 一周以后；c) 一年以后； d)几年后；e) 奶牛再也不会复活了。这种题对于四年级学生而言就是非常简单的。

不过，尽管学校的测试题不会直接检测常识，但是却间接地要求具备这些常识。因为读懂这些问题就需要常识，只有采用适用于人类的测试题，我们才能说我们是以自己的标准在衡量机器软件。

只有人类和机器位于同一起跑线，这一切才有意义。