首页>会议文档 >

科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3

page:
科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3
科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3
科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3
科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3
科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3
科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3
科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3
科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3
科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3

科大讯飞 王士进 - 讯飞人工智能和大数据实践_部分3

所属会议:CBDS 2017第四届中国国际大数据大会会议地点:北京


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

3541次
浏览次数

文档介绍

2016至2017年,人工智能技术发展非常快,2016年被称为人工智能的元年,人工智能被各个国家认为是战略必争之地,各个行业也都在积极地探索人工智能技术和本行业如何结合。 我们认为人工智能大概分为三个阶段:计算智能、感知智能、认知智能。在感知智能方面,例如智能语音技术应用于语音合成和语音识别。在认知智能方面,我们有像机器翻译、知识图谱推理研究的应用,同时我们会在开放的讯飞开放平台提供这些语音、图像、翻译技术,现在有越来越多的开发者在平台里进行开发。

演讲实录

王士进:下午好,首先非常荣幸感谢主办方新华社对我的邀请。今天我非常高兴能来分享一下科大讯飞对人工智能技术的一些理解,以及使用人工智能技术对产业和生态改变的一些思路。

  我今天的报告分成两个部分,第一部分,简单介绍一下人工智能技术的一些背景以及趋势。第二部分,介绍一下讯飞智能语音和人工智能技术,以及给产业和商业带来变革的思考。

  刚才浙大吴所长对人工智能一些概念讲的非常透彻了,这里我就简单过一下,大家都知道1956年有几位科学家一起提出人工智能的概念,并且我们提出希望人工智能可以达到像人一样感知外面的世界,并且做出智能的决策,包括认知,包括执行的智能体。

  对于人工智能的定义,首先根据市面上各种各样技术分成大概三个阶段。第一个阶段,我们认为是运算智能,希望机器可以做到能存会算。第二个阶段,基于感知智能,希望机器像人一样具备听觉、视觉等功能,并且由感知拓展到运动方面的智能。第三部分,我们希望机器可以像人一样做一些机器学习和自主的思考。

  关于运算智能大家都比较清楚,现在计算机在运算能力上已经把人类远远抛在后面了。从最早超大规模的计算机计算能力,一直到当年IBM深蓝战胜国际象棋大师,到前一段时间大家比较熟悉的Alpha Go战胜李世石,大家可以看到机器在计算和存储知识方面比人类要好很多。

  第二部分,在感知智能方面,希望机器能听会说,能够辨认物体、人以及相关的东西。然后由此拓展,因为我们感知到外面的世界,结合机器人相关的技术,可以根据外界的一些变化去做出各种自主的判断。

  比如在2014年库卡公司制造了打乒乓球的机器人,和波尔做了一次比赛。机器打乒乓球用的是不同于人类的方式,比如说通过摄象头判断,计算打球的力度和角度,从而做出预测和判断。最近随着深度学习和神经网络技术发展,计算机在认知和运动上可以和人类差不多,甚至在有些领域里可以比人类做得更好。

  刚才吴所长也提到了,现在我们认为人工智能里最难的,也是最有意义的是认知智能,包括人类怎么学习知识,怎么对语言做理解,怎么做逻辑的推理,大家认为这方面的技术获得一些突破的话,对我们很多机器智能会产生翻天覆地的变化。

  从1956年提出人工智能概念,到现在已经经过了60多年。在这60多年,技术的发展并不是一帆风顺的。我们现在简单的概括,有三次大的波浪。第一,是从提出技术起,一般一个新的技术提出会引发行业内专家大量的工作。比如说在1956年左右提出来之后,包括那四位教授,很多专家做了很多研究,包括当时比较有名的几何原理,这里50多个定义,有30多个可以通过自动程序去解决,这是当时第一波浪潮。

  第二波浪潮,是BP网络和深度神经网络,相对多层神经网络的引入,使得机器具备了数据上的记忆。我们知道人类学习和进步一个非常重要的东西就是记忆,第二波浪潮里由于记忆技术的引入,使得原来我们认为一些不具备的智能,在第二阶段得到了非常大的发展。

  从2006年一直到现在,大家认为现在是人工智能的第三次落潮,而且这次浪潮比前面两个浪潮有更大范围的波及。现在我们说人工智能并不只是一个概念,一个理论,一个算法,更多的是一种思维。随着这种数据的叠加,类似的算法会使得很多产业和商业模式会发生根本性的改变。

  基于人工智能快速发展,我们科大讯飞从最早只是从事智能语音的研究,拓展到希望计算机能听会说、能理解会思考。我们在2014年提出“讯飞超脑”的理念,围绕“讯飞超脑”做了很多技术。

  听,希望机器具备语音理解,这个叫做语音识别。语音识别的话,相对来说可以说是一个非常简单的问题,也可以说是非常难的问题。现在最难的问题就是在复杂的噪声场景里怎么做更好的语音识别,现在工业和学术界解决这个问题,都是通过麦克风阵列。在真实环境里怎么样用麦克风阵列做更好的识别,在智能家居、智能机器人等很多领域里,都会使得识别效果有翻天覆地的变化。

  说,语音合成技术。语音合成就是给出一段话语通话,可以把这段话变成一个语音。这里也有很多技术可以做,比如说讯飞最早是做中文语音合成的,我们做得是国内最好。除此之外,英文语音合成也做了很多工作。我们在2006年时开始参加国际英文合作比赛,Blizzard Challenge,从2006年到2017年,连续12届都获得了冠军。在Blizzard Challenge中,组委会经常会做出一些规则的变化,比如会把英语变成印度语,这个对合成提出了很大的挑战,我们能够继续保持比赛的第一名也非常不容易。

  刚才提到了能听会说,我们知道人工智能技术更多是在自然语言处理技术上。讯飞从2000年开始做,也做了很多工作。第一,知识图谱。我们知道很多和知识推理相关的东西,首先要构建这个领域的知识图谱,并且围绕知识图谱做各种推理和理解。我们2016年参加了NIST TAC比赛,也获得了第一名。比如实体的发现和链接,实体就是所谓人事物。我们看到一个新闻里,因为有背景知识,所以你看到新闻里的人,你知道他是谁。比如美国大选期间,特朗普问布什,伊拉克战争都是你哥哥惹的祸。这个时候如果问是谁的错,你不能回答是“你哥哥”,我们一定要和大布什对应上去。这里关于多个文档怎么做更精准的实体,并且连接起来,这里有很多工作可以做,讯飞做了很多工作。

  第二,构建了知识之后要做逻辑的推理。关于机器是否具备智能,从图灵测试到现在过了很多年,关于图灵测试现在有很多方法可以避开,也宣称机器具备智能。现在业内公认,一个加拿大科学家做的一个测试,大家认为这个可能是新一代替代图灵测试主要的方式。

  (图示)大家看,这些问题对人来说比较简单,比如说爸爸没有办法举起他的儿子,是因为他太重了,或者说因为他太虚弱了,到底“他”是父亲还是儿子,这对于我们来说都非常简单。可是对于计算机来说,如果你拿这个问题问任何一个搜索引擎或者知识库,它都不能告诉你。这里大家可以想像,这里蕴含了很多知识和常识,知识非常好建模,但是常识很难建模,讯飞这次尝试性推出了联想推理技术,并且在比赛中拿到了第一名。

  但是当时我们比赛最好的结果只有58%的准确率。这里问“他”是父亲还是儿子,只有两个选项。你抛隐蔽去选的话正确率就是50%,这也反映了人工智能技术确实很有难度。从2016年到2017年讯飞又做了很多工作,把58提升到现在70分。

  阅读理解,讯飞在半年前开始进入这个领域。大家知道人工智能的发展其中一部分非常大的功劳和斯坦福有关系,斯坦福做了问答数据集,很多公司都在刷这个榜,我们在8月份时能够把这个榜刷到第一名。

  检查人的视力,在国内衡量你智商高不高还有一个比赛——高考。为了衡量机器智能水平,由讯飞牵头参加了“863”类智人项目,和国内最顶尖的团队做几个学科类人答题机器人,希望我们能够在2020年左右实现达到一本的水平。这么多年寒窗苦读,机器可能一天就能学习到。参加过高考的人知道,老师会故意出一些难点,因为高考是一个选拔性考试。这里涉及到怎么样更好地做语言理解,怎么样更好地做知识表示,并且通过语言理解和知识表示做自主学习和联想推理。

  目前最好的结果是数学已经做到了大概一百二三十分,其它的科目稍微差一点。前面讲的讯飞人工智能的一些技术,我们知道技术最后要去应用的话,它是有一个规律或者一个模式。最近业内对这个应用模式有一些清晰的认识,也结合讯飞的认识和业内的观点。我们认为人工智能应用最主要的模式应用于两种,一个是人工智能通过自然交互改变生活;大家会发现最近通过智能的人机交互让我们能够控制家电,控制机器人,比以前便捷很多。第二,人工智能和行业结合,学习行业顶尖专家的知识,同时通过行业大数据学习,从而具备行业专家一般的知识。大家可以知道有这么一个不知疲倦,而且可以持续学习的机器人存在,它可以使得这个行业发生一些非常大的变化。

  自然交互,讯飞从2014年提出了AIUI,在AI时代用户交互技术。这个交互技术就试图从语音识别,语义理解几个层面去解决人机交互中存在的问题,使得人机交互可以像人人交互之间这么做。可以看到AIUI做了之后,在讯飞语音平台上用户的变化。2015年2月份统计第三方团队只有十万,每天交易次数只有10亿。现在有30多万团队,每天有40多亿交互。然后围绕智能家居,围绕机器人,围绕很多场景去做类似的工作。大家可以看到我们把AI技术和交互、行业结合有非常大的变化。

  举个例子,AI和交流结合。刚才提到了相关的技术,讯飞有一个听的交流技术,能够把会议报告同时生成文字。2015年我们和现场速录做了一次对比,一次会议速录做下来的准确率只有85%(有待验证),现在基于机器可以做到95%左右。机器做速录的同时还可以把识别的结果用不同的语言,比如说英文,或者是日文、法文、韩文表达出来,这样的话开国际会议的话不需要那么累了。

  家庭也是一样,使用智能交互设备,我们和京东合作了一款音响,是智能语音音响里销售最大的,可以作为智能家居语音中控设备,支持家里5米远的遥控,无论遥控音响还是电视,都非常便捷。

  我们在北京、江苏、上海等很多地方的英语口语考试中的考试技术都是由讯飞提供的。进而我们可以做纸笔阅卷的考试,大家知道纸笔阅卷考试里客观体非常好判断,但主观题判断非常难。所以讯飞结合语义技术可以做到精准的考卷判断,使得在教育中更公平。同时结合大数据和用户画像,以及精准推荐,可以给每个学生去推荐他基于错误的题目。原来学生中高考时就会刷题,这样的话就可以在更短的时间内弥补自己的缺点,做一些题目锻炼。

  AI+城市,讯飞在智慧城市里做了很多工作,包括使用人脸图像,人脸技术,语音技术,以及相关技术。我们在社管服务里使用AI+大数据技术,使得政府服务的效率和满意程度都有了非常大的提升。

  最后,讯飞在医疗上做了一些工作。讯飞在医疗上做了三项工作,第一项工作,通过智能语音技术使得医生在输入病历时快捷输入。第二,在机器自动读篇中,讯飞在一周前参加了国际上一个非常有名的比赛,在肺癌的早期检测中,并且刷到榜单的第一名。现在我们和协和医学院签订了战略合作协议,包括和很多省市三甲以上医院做了合作。

  举个小例子,比如我们之前和一个三甲医院合作。我们让他们把之前医生认为没有问题的早期判的CT和核磁照片拿出来,让机器去做判断。在100多张医生认为没有问题的片子里,我们发现20多张是有问题的。最后请专家去看,机器判断的准确率在90%以上。大家可以想像,现在人们都非常注重健康。早期的检查里通过机器的辅助可以使得人类错误降到非常低的地步,所以我们认为在下一代里,通过人机耦合的智能是一个非常重要的工作。

  当然讯飞在智慧的车载,在智慧的司法里都做了非常多的工作。大家有兴趣的话,也可以去讯飞的官微上看一些消息。

  谢谢大家。

×

打开微信扫一扫,分享到朋友圈