科大讯飞吴晓如:未来人工智能将如何颠覆高考?
 

每年一度的高考都是数百万考生人生中的重要时刻。现在,除了人类考生,人工智能也参与到了高考中来,许多AI公司都跃跃欲试,想要打造一款“高考”机器人。

  6月7日-8日两天,对于中国绝大多数考生来说,是将要改变他们人生的日子。

  不过,今年的考生有些不同。除了人类以外,还有新的一类考生:AI,今年日本人工智能 Torobo-kun参加东京大学入学考试,已经有学霸君及四川的准星云学两家公司宣布将要以自己制作的 AI 挑战数学高考。未来,还有更多的 AI 公司准备跃跃欲试,准备做高考界的 “Alphago ”。

  不过,在这个 AI 挑战高考的热潮中,有一些问题仍然值得人们思考:为什么要让 AI 参加高考?AI 能够考到多少分?AI 会如何参与高考阅卷,尤其是主观题和作文?AI 会如何颠覆和改变现有的教育?

  昨日,科大讯飞轮值总裁吴晓如与硅谷前沿技术教育平台 Udacity 中国区的负责人 Robert,昨天通过斗鱼直播平台进行 “人工智能颠覆高考” 的尖峰对谈。以下是其中部分的摘录。

  Robert:到现在人工智能的技术有什么样的一些变化?现在高考机器人已经可以做出来了吗?

  吴晓如:应该说就是在过去的一段时间里,大家可能是在做学科领域的知识图谱的构建。第一就是要让机器懂数学。什么叫懂数学?因为机器不是人,它要有一种它的表征的方式,所以我们要为这个机器构建各种知识的知识图谱。第二个实际上要在自然语言的理解上下功夫,这其实不是一件很容易的事情,要做很多工作。

  现在在数学这个学科上,机器已经能够做对很多的数学题目。但高考不是我们的核心,我们真正的目的是在这个过程中,能够实现一系列技术的突破。这些技术突破要在应用界形成一些反弹应用,叫“沿途下蛋”。比如,现在在电话客服里面,可以作为一个机器接线员可以帮助人工接很多的电话,可能虚拟的机器人可以走到老师的身边,可以变成老师的一个AI的助手,帮助老师处理很多教学中的事件。

  我们中间有一些研究成果,实际上已经进入到社会里面,成为大众应用。在今年全国人大的时候,我们庆峰董事长给我们总理演示了一段我们的机器翻译系统,就是口语对口语的翻译系统,其实这个也是我们整个项目中间的一个(应用)因为在英语考试的时候本身就要做各种翻译。再比如我们现在在高考的阅卷上,可以帮助老师去更有效率的或者越更准确的去阅卷。

  Robert:那你觉得现在我们这个讯飞的高考机器人就是在我们高考能考多少分?我们还有多远要走?

  吴晓如:实际上这是比较复杂的一个话题。第一,现在我们这个机器人能考多少分?我还真不能说,因为第一个高考是一个比较严谨的事情。第二个我大概先要讲一下讯飞在整个863这个项目里面我们的定位和角色,其实这个项目聚集了国内大概是七八家国内当时最优秀的一些单位,包含我们中科院、北京大学、清华大学,我的印象中可能还有南京大学、成都电子科技大学,包含了最优秀的一些研究机构,讯飞是这个研究机构里面的牵头单位,我们叫牵头项目源单位,我们执行总裁胡郁是这个项目里面的首席科学家。讯飞还有一个角色,就是我们是这个项目的测试单位,测试单位就是比如说做语文的、做数学的,我们提供一些底层的平台技术给大家分享,但是比如说有专门去做语文的、做数学的,他们做的最后的这个结果怎么样?要测试。

  其实这个测试不是一件很容易的事情,举个例子,我现在拿一套题目,这套题目已经已经在网上能找到了,那我通过简单的搜索手段,我也能把这些题目很好地解答出来,那这个算不算机器能够解答这些问题?肯定不算是。所以我们在测试的时候还要提出一系列的测试的方法,要保障机器是通过真正的后台知识的本体积累和推理分析,能够就像人一样把一个题目进行解答,所以讯飞做的测试机构,现在因为还没有对我们各个试卷在公开公正的情况下进行一个全面的测试,所以你讲多少分?可能在大家在场的情况下还不能说这件事。

  从另外一个方面来说,现在我为什么说这个事情比较复杂呢?就是说第一个技术在不断的进步,但是高考本身命题也在不断的进步,我们经常在学习的时候,我们讲的高考是为国家选拔人才,我们在学习的过程中讲各种知识要活学活用,其实现在高考的题目越来越灵活,越来越综合性,所以这些题目的处理对机器来说越来越困难,所以假定我们当时是在2013年和2014年,我们在这个课题的时候,把2014年作为一个静态的点来看,我觉得我们到2019年的时候通过2013年的高考绝对没有问题,但是我们现在也和有一些考试机构的专家在一起沟通,发现他们在出这个题目的过程中,很多的题目就必须包含你人都有很多的一些理解,你要做很多中间一些逻辑性的转换,才把一个题目能做得好。所以我觉得从这两个动态的变化,技术在动态的变化,考试的题目也在动态的变化,机器要到2019年或2020年的时候机器人通过那个时候的考试,实际上我觉得还是有一定的挑战,这个就是要我们这个项目组里面大家要做更多的努力。

  还有从一方面来说,就从整个未来高考为社会选拔人才的角度。我们讲社会进入到了一个人工智能的时代,因为人工智能在高速发展,现在讲人工智能都会下围棋了,他还可以干很多事情。我今天举了例子,还可以做翻译,以后可以做那种速记,可以做电话接线员。从一般逻辑来说,以后通过高考的大学生们,他应该不只是会做机器会做的事情。

  当时我们做高考机器人时候,其实美国也有一个高考机器人,华盛顿大学的图灵研究中心,他们希望他们的机器要通过美国的生物考试。据说日本也有一个同样的计划,希望他们的这个机器是能够通过东京大学的考试。东京大学(在日本)是最好的学校,尽管他的机器已经能够相当于日本国内的排名前百分之30的水平,但是讲它要通过东京大学(的标准)我也觉得(目前)基本不可能,因为东京大学是比较顶尖的学校。当然就是从技术的发展的角度来说,我们觉得达到前 20% 还是比较有信心的。高考的压力还是不仅在孩子身上,还要在这个机器人身上。

  Robert:这个机器人我看到他还能阅卷,包括识别大家写的主观题,作文,对吧?吴总能不能介绍一下,就是这个开发作文阅卷的机器人难点是在哪里?技术上来看。

  吴晓如:实际上我们今天看到这个阅卷,是对作文的阅卷,实际上作文的阅卷它是一种主观的,整个我们在考试中,它实际上是有客观题和主观题客观题,比如说ABCD,你选了以后他是不会评分,是不会有差异的,但是作文题你即使安排两个水平比较高的老师,第一组学生的作文进行评阅的话,肯定还是有差异的,所以在这个评阅过程中,需要在从很多不同的一些维度,对这篇作文的水平进行评判。

  整个主观题的自动评阅技术,实际上讯飞一条线走过来,走了很长的时间。我们在最早切入这个技术的时候是从口语开始,我不知道你有没有参加过中国的普通话考试,在中国你要当老师的话,或者记者、公务员有些窗口型的行业要通过普通话考试,最早的时候普通话考试它也是一种主观性的,需要你朗读一些句子,说一些话题。

  我们当时第一次因为最早讯飞是做语音识别,我们是通过这个评分来逐步的进入到了教育相关的行业里面,讲起来比较有意思。有一次,一个我们教育领域的一个主管的领导到讯飞来,我们给他介绍了相关一些技术语音识别的技术。他看了以后,当时就产生了一个联想,因为他是那时候是主管普通话考试的。所以当时就是说这个技术我们很需要在中国考普通话的应用上。

  (考普通话的应用)实际上以前是一件很麻烦的事,大部分需要测普通话的都是大学生。我给你举个例子,比如说像北京的首都师范大学,大概有六七千学生以上,那你这六七千学生要都要考普通话,每个考普通话的考生需要2到3个,那时候叫测试员,测试员2到3个老师花10到15分钟给一个人测,那你就可以想象到要把六七千学生测完是一个多浩大的工作量,所以那时候他跟我说了:你们能不能去解决这个问题?

  (我们)后来到一些师范大学去调研,就发现几件事情,第一件事情是发现整个考试组织难度非常大,就是把一栋非常大的楼封起来,要考好几天才能把这些学生考完,我就觉得这个事情技术是有用武之地。第二个就是测试,(我们)当时就问,一个学生或一个老师给(学生)测就行了吗?为什么要两个老师给他测,三个老师给它测?他讲因为这是主观评分,一个老师经常测试的时候可能是会有不准的地方。那我就在想,机器该怎么去测?最后是采用机器学习的方式去测的。

  我们当时是怎么做的呢?第一个,我们要选定一个学习的对象,但是请国内各个方面的语言专家给我们推荐哪些人是在语言测试上比较牛的。最后找了一组最权威的专家,我们请这组专家给我们留下了很多的测试样本,以这些测试样本作为我们机器学习的对象。(相当于用)机器建立一个模型,用这个模型来测试。在测试普通话的时候,我们在这个技术上花了很长时间。我们当时研究团队里面有一个同事有天跟我讲,他做了几次试验都觉得应该差不多了。但我们怎么来评估他讲差不多?我们怎么表明我这个技术可用了?当时,我们就在现场考试,我们就把机器当成是一个测试员,当时现场考试是有两百个考生在考,同样我们也是一样的,请了一组高水平的专家对这两百个考生进行了评分,评分完了以后把这一组专家评分的平均分作为标准,当时现场是有20个老师在给这200个学生在测,机器当成第21个人来测,后来测试成绩出来以后,我们讲两个指标,第一个21个人和机器结果都和专家的平均分去比,丝毫不差。第二个比我们叫相关度,就是对一组学生排序,专家有一组排序,我们机器有一种排序,结果(专家的)第一名,(机器)排序最高。

  当然,对整个普通话测试来说相对来讲,因为它是有一个规范的,所以难度比这个作文稍微小一些。但其实沿用的是同样的思路。