哈尔滨工业大学刘挺-自然语言处理中的技术评测

所属会议：2017 GAITC全球人工智能技术大会会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

3356次
浏览次数

2017 GAITC全球人工智能技术大会所有文档亿欧由天宇 - 人工智能赋能产业升级云知声刘升平 - 人机对话系统体验提升之道中国科学技术大学陈小平-智能系统测评挑战联想芮勇 - PC3的ABCD 腾讯曹建峰-人工智能伦理：问题与策略微软亚洲研究院周明 - 自然语言理解分论坛国家重点实验室吴毅红 - 三维视觉研究及应用

文档介绍



人工智能可以划分为几个阶段：运算智能、感知智能、认知智能，未来还有预测决策智能和创新智能。像我们实验室在做的自动写作文，就有创新的色彩。自然语言处理是典型的认知智能，与感知智能中的语音处理相比，自然语言面对的问题要纷繁复杂得多，同时自然语言处理经常涉及到常识、推理等认知能力，存在大量可以利用的先验知识，与行业深入结合，部分课题评测难度高。

演讲实录

陈小平：谢谢于博士的报告。下面请哈尔滨工业大学教授、社会计算与信息检索研究中心主任刘挺，演讲主题：自然语言处理中的技术评测。

刘挺：谢谢陈老师的邀请。今天这个分论坛的内容真是立体交叉，风格不尽相同。我做自然语言处理的，演讲的题目是：自然语言处理中的技术评测。

人工智能可以划分为几个阶段：运算智能、感知智能、认知智能，未来还有预测决策智能和创新智能。像我们实验室在做的自动写作文，就有创新的色彩。

自然语言处理是典型的认知智能，与感知智能中的语音处理相比，自然语言面对的问题要纷繁复杂得多，同时自然语言处理经常涉及到常识、推理等认知能力，存在大量可以利用的先验知识，与行业深入结合，部分课题评测难度高。

自然语言处理有哪些课题呢？可以用一颗大树来比喻，最底下是句法语义分析，树干是阅读理解，树枝是机器翻译等应用技术，叶子是跟行业相结合的各类应用。

今天我想通过三项人们非常关注的NLP技术来介绍这个领域的技术评测：一个是句法语义分析，即句子级的语言理解，二是阅读理解，是篇章级的语言理解，给定一篇文章，让机器阅读，然后请人针对这篇文章问各种各样的问题，看机器能不能回答出来。第三个是人机对话，这个大家都熟知Siri，微软小冰等。

技术评测一直是驱动自然语言处理技术发展的重要手段。国外有美国的NIST、DARPA，日本的NTCIR等评测会议，中国各学会的专业委员会，如CCL、SMP、CCIR、CWMT、

NLPCC等也都在组织技术评测。我的一个理念是：中文的评测由中国人引导，而不是去参加美国、日本组织的评测。

句法语义分析评测。看这个句子：“您转那篇文章很无知”，实际上我想说的：“您转的那篇文章很无知。”只差一个“的”，意思完全不同了。机器人要理解词汇之间的关系和句子的含义，需要靠句法语义分析，把词的序列形式转化为图结构。句法语义分析，从短语结构、句法依存、通用依存、一直到语义依存图，在不断地发展。刚才于老师讲怎么算理解。我们一直在思考，到底什么样的机器内部表示形式更能够充分、准确的刻画句法语义结构。人们探讨了各种各样的表现方式，哈工大提出了语义依存图的表示方式。

相关评测，也是沿着各种方式在不断推进：从单语单领域到多语言树库，再从多领域树库到通用树库，直至语义依存树库。

这是2009年进行的国际多语依存句法分析和语义角色标注评测，涉及7国语言，哈工大获得总成绩第一名。国内的学者不仅在中国做得好，而且在国外的比赛当中我们也取得了很多骄人的成绩。在2012年，谷歌组织的SANCL多领域依存句法分析评测中，哈工大获得第三名。在今年刚刚结束的CoNLL国际通用句法分析评测，涉及到45种语言，64个领域的树库，各种语言采用统一的标注方式，比拼核心算法。这次评测有113支队伍报名，包括卡内基梅隆大学、华盛顿大学、多伦多大学、牛津大学、爱丁堡大学、东京大学、IBM研究院、Facebook公司等。由于问题难度较大，最终只有33家提交了，最后哈工大获得了第四名，前三名是：美国斯坦福大学、美国康奈尔大学、德国斯图加特大学。

2012年，哈工大组织了中文语义依存分析国际评测，2014年，国外也开始组织语义依存分析评测。

哈工大的句法语义分析技术经过十几年的打磨，整合为“语言技术平台LTP”，多年来一直对外提供开源代码和云服务。欢迎大家直接调用LTP平台的使用接口，目前该平台有1.1万名注册使用者，日均请求70多万次，百度、腾讯、华为、讯飞等大企业付费使用。

刚才讲的是最底层的句法语义分析。下面介绍一下阅读理解评测。阅读理解最近特别火，成为各大巨头必争之地。因为大家做人机对话的时候发现，很多问题并不能真正回答好。

因此，阅读理解的研究得到高度重视：给机器一篇文章，人针对这篇文章问各种各样的问题，看看机器是不是真正能够理解，是不是能够答对。这是哈工大讯飞联合实验室做的儿童阅读理解系统，机器对适合六岁儿童阅读的文本进行深入分析，对问题也要进行相应的分析，最后推导答案。

国际的巨头纷纷投入阅读理解的研究，从微软的MCTest，到Google DeepMind的CNN/Daily Mail，还有Facebook的CBT，哈工大讯飞联合实验室推出的HFL-RC PD&CFT（第一个中文阅读理解数据集），以及当前热点斯坦福大学的Stanford SQuAD。

微软的MCTest像我们平时做英文阅读理解一样，有四个人工编写的选项，让你从其中选一个作为答案，数据量比较小，500篇文章，2000个问题。很快过渡到了DeepMind的评测集，它从与新闻对应的摘要中抽取一个句子，把句子当中的一个词挖掉，构成了一个填空题，这个填空题的答案就是被挖掉的这个词本身，这样瞬间构造了几十万份的阅读理解填空题，在这个数据集上大家做了很多研究。

紧接着Facebook做了一个评测集，把一篇文章中连续20个句子作为阅读材料，第21个句子拿出来挖掉一个词，作成填空题，挖掉的那个词本身就是答案。它不是从摘要里面挖，是从这篇文章本身挖，从文章自身中挖掉一个词很简单，这等于训练集、测试集变得无限大。Facebook填空题也是很难的，目前哈工大讯飞联合研究实验室（HFL）取得了世界最好成绩，同时HFL推出了第一份中文的阅读理解评测集，大家对中文阅读理解感兴趣的话，可以用我们的评测集。

最近非常火的是斯坦福大学的评测集，重新回到了类似微软MCTest的模式，用真实整句问题提问，但是采用众包的形式，让很多人在众包平台上发问，从而收集到10万个问题，与MCTest相比，问题量大幅度扩大了。而且不是完形填空的问题，变成了真实问题，因此现在成为了各家竞争的焦点。大家每天都可以挑战这个评测集，如果你认为你的算法比较合理了，有把握了，就可以发给斯坦福，可以重新刷榜单。哈工大讯飞联合实验室（HFL）现在排在第二位，第一位是微软亚洲研究院。

总的来说，这一轮阅读理解竞争，本质上是对语言的篇章级理解、推理发起的挑战。不同的测试集代表了不同的维度，不同的检测点，包括是不是真实问题，规模是不是足够大，等等。

哈工大讯飞联合实验室（HFL）正在依托全国计算语言学学术会议（CCL）组织首届中文阅读理解评测，已经有30多家单位报名了，欢迎关注。

另外有一个和阅读理解相关的评测，叫Winograd。这个评测的思路是：机器为了通过图灵测试，经常把自己伪装成人，但这方面的努力对提高机器智能的帮助不大。Winograd测试提出了更难的，更有挑战性的问题。举个例子，“市议员拒绝给示威者许可，因为他们提倡暴力”。“他们”指代的是“市议员”，还是“示威者”？这个问题很难，需要基于常识才能回答。同时，要编出这样的问题也不容易，在2016年的Winograd比赛上，总共只有60道题。现在准确率达到58%。大家想想，58%意味着什么？比50%稍微高一点而已，这个问题真的很难。

最后介绍一下人机对话，现在火得很，和机器人也是密切结合的。我们一般认为人机对话有四大功能，第一聊天，第二知识问答，第三任务执行（也叫做垂类），第四信息推荐。哈工大自己做的聊天机器人叫“笨笨”。大家扫描这个二维码，可以跟它聊天。人机对话系统能够把自然语言处理中各种各样的技术都集成进去，我们实验室多年积累的各项技术，几乎都在这个平台上得到了一定的应用。我们也正在依托全国社会媒体处理大会组织首届中文人机对话评测，哈工大张伟男老师当评测主席，科大讯飞提供数据，华为公司提供赞助。

这次评测中有两个任务，一是“中控分类”，把用户的话自动分为分为闲聊和任务执行，任务又分为30多个类别。第二个任务是特定域任务型的人机对话在线测评，包括订机票，订宾馆等实际任务。

我对任务型人机对话评测再展开介绍一下。假如说用户有完整的意图：“预定下周三从哪儿到哪儿的机票”，用户向机器人发出命令，不同的机器人会有不同的回答，很快就分叉了，这种多轮分叉导致自动评测很难展开，于是我们采用人工评测。提供数据集，评测过程中给所有的机器人同样的首轮命令，机器人回答之后，我们用人工来响应。当然人工要配合机器人进行回答，看看能不能够解决这个问题。评测人员主观地进行打分，包括任务完成率、用户的满意度、回复语言的自然度、还有引导能力等。有一个评测指标是客观的，即：对话轮数，对话轮数越短，说明机器人能够越有效地帮用户解决问题。现在有74支队伍报名，腾讯、阿里巴巴等大企业，还有很多人机对话方面的创业企业和大学的实验室。

现在国际上关于人机对话的竞争非常激烈，很多想法，你想到的别人也立刻会想到，会去做。NIPS 2017也在组织人机对话评测，他们时间比我们稍微拖后一点，方法是让机器阅读一篇文章，然后针对这篇文章进行人机对话。

我做一个总结。第一，在句法语义分析是人为定义的问题，问题的定义形式多样、多变，总体上是从句法向语义发展。评测数据的规模很有限，每一种语言有1-2万句子作为评测数据，小语种更少。评测方法比较简单，进行对比就可以了。阅读理解是介于人为定义问题和真实问题之间的问题，它反映出了自然语言处理在向篇章级理解和推理方向发展的趋势，它的难点在于你如何设计题目，才能有效地迫使机器进行深入的推理，而不是用简单搜索匹配。人机对话是非常有挑战性的，现在我们只能用人工的方式进行评测，有没有可能自动的进行评测，需要深入研究。像机器翻译，原来也是人工设计检查点，后来对比机器的翻译结果和人工的翻译结果，做自动评测了，有力地拉动了机器翻译的进步。未来人机对话有可能进行自动评测，但这个自动评测问题本身就是非常有难度的课题。在自然语言处理领域就是这样，有的评测比较简单，有的评测技术本身就非常值得研究了。

总的来说，技术评测在不断地推动自然语言处理技术的发展。新的问题和新的评测方式不断被提出，什么样的评测是一个好的评测？我们认为难度略高于当前的技术水平是比较合适的，过难了导致评测的结果很差，大家也失去信心，引导性不够强。评测不能满足于只给出一个指标，应该帮助诊断出来当前技术的缺陷。比如阅读理解的评测能不能诊断出来哪些问题机器能答好，哪些问题机器答不好，为什么答不好，是推理能力不足，还是常识知识不足。另外，我反对一味地刷排行榜的工作方式，要追求更高的排名，需要在原理上进行创新，而不是不断地添加技巧。

我的报告有哈工大车万翔、张伟男老师，以及讯飞研究院的崔一鸣研究员提供诸多内容，在此向他们表示感谢。感谢主办方，感谢各位来宾！