第四范式陈雨强 - 人工智能工业应用痛点及解决思路

FMI 2017第三届国际人工智能与大数据高峰论坛所有文档
第四范式胡时伟 - 大规模机器学习平台的技术实现
10670次
eBay 李睿 - NLP在eBay的技术实践
7300次
刘光聪、韩炳涛 - TensorFlow 遇上Kubernetes中兴通讯人工智能计算平台的技术实践
3255次
洛可可设计李建华 - 用户创造好产品AI智能时代的产品创新_部分1
9833次
洛可可设计李建华 - 用户创造好产品AI智能时代的产品创新_部分2
11168次
科大讯飞吕昕 - 语音云大数据实践之路
9625次
七牛云林亦宁 - 平台改变计算机视觉
5127次
搜狗周泽南 - 搜狗图片搜索系统智能化演进之路
1717次
教育交互直播平台的架构与性能优化之路
1234次
全链路压测技术分享与实践
7778次
使用数据实现在线教育行业的增长
5505次

第四范式陈雨强 - 人工智能工业应用痛点及解决思路

所属会议：FMI 2017第三届国际人工智能与大数据高峰论坛会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

6928次
浏览次数

FMI 2017第三届国际人工智能与大数据高峰论坛所有文档第四范式胡时伟 - 大规模机器学习平台的技术实现 eBay 李睿 - NLP在eBay的技术实践刘光聪、韩炳涛 - TensorFlow 遇上Kubernetes中兴通讯人工智能计算平台的技术实践洛可可设计李建华 - 用户创造好产品AI智能时代的产品创新_部分1 洛可可设计李建华 - 用户创造好产品AI智能时代的产品创新_部分2 科大讯飞吕昕 - 语音云大数据实践之路七牛云林亦宁 - 平台改变计算机视觉搜狗周泽南 - 搜狗图片搜索系统智能化演进之路教育交互直播平台的架构与性能优化之路全链路压测技术分享与实践使用数据实现在线教育行业的增长

文档介绍



我们现在没有一个特别好的平台能让我们真正地把机器学习人工智能落地，现在我们有很多的算法是可以进行机器学习模型训练，但是真正把这个算法应用产生非常好的效果，并且同时在机器学习的实际生产系统中产生效果，这个事情是真正阻碍落地的因素。这些是比较大的痛点。应对这些痛点，纪要降低机器学习和人工智能的门槛，现在能做机器学习的太少，导致好多机构比较困难，也是因为技术的要求太多。第一个方法是有一些新的算法，特别是机器学习的算法，让更多的人，比如像做安卓和IOS程序一样开发应用，这才能让技术真正走到各行各业中去。

演讲实录

大家好，我是来自于第四范式的陈雨强，目前主要负责人工智能算法研发及应用的相关工作。非常高兴与大家分享人工智能在工业界应用的一些痛点、以及相应的解决思路。

工业大数据需要高VC维

人工智能是一个非常炙手可热的名词，且已经成功应用在语音、图像等诸多领域。但是，现在人工智能有没有达到可以简单落地的状态呢？工业界的人工智能需要什么技术呢？带着这些问题开始我们的思考。

首先，我们先探讨一下工业界人工智能需要一个什么样的系统？人工智能的兴起是由于数据量变大、性能提升以及并行计算技术发展共同产生的结果。所以，工业界的问题都是非常复杂的。因此，我们需要一个可扩展系统，不仅在吞吐与计算能力上可扩展，还需要随着数据量与用户的增多在智能水平上可扩展。怎么实现一个可扩展系统呢？其实很重要的一点是工业界需要高VC维的模型，去解决智能可扩展性的问题。怎么获得一个高VC维的模型呢？大家都知道，机器学习=数据+特征+模型。如果数据在给定的情况下，我们就需要在特征和模型两个方面进行优化。

特征共分两种，一种叫宏观特征，比方说年龄、收入，或是买过多少本书，看过多少部电影。另外一种是微观特征，指的是比拟细粒度的特征，你具体看过哪几本书，或者具体看过哪几部电影。每一部电影，每一本书，每一个人，都是不同的特征。书有几百万本，电影有几百万部，所以这样的特征量非常大。

模型可分为两类，一个是简单模型，比如说线性模型。还有一种是复杂模型，比如非线性模型。

这样就把人工智能分为了四个象限。如上图，左下角是第一象限，使用宏观特征简单模型解决问题。这种模型在工业界应用非常少，因为它特征数少，模型又简单，VC维就是低的，不能解决非常复杂的问题。右下角的第二象限是简单模型加上微观特征，最有名的就是大家熟知的谷歌Adwords，用线性模型加上千亿特征做出了世界顶尖的广告点击率预估系统。左上角的第三象限是复杂模型加宏观特征，也有诸多知名公司做出了非常好的效果，例如Bing广告和Yahoo，经典的COEC+复杂模型在这个象限内是一个惯用手段。最后是第四象限，利用复杂模型加上微观特征，由于模型空间太大，如何计算以及解决过拟合都是研究的热点。

刚才说沿着模型和特征两条路走，那如何沿着模型做更高维度的机器学习呢？研究模型主要是在学术界，大部分的工作是来自于ICML、NIPS、ICLR这样的会议，非线性有三把宝剑分别是Kernel、Boosting、Neural Network。Kernel在十年前非常火，给当时风靡世界的算法SVM提供了非线性能力。Boosting中应用最广泛的当属GBDT，很多问题都能被很好地解决。Neural Network在很多领域也有非常成功的应用。工业界优化模型的方法总结起来有以下几点。首先，基于过去的数据进行思考得到一个假设，然后将假设的数学建模抽象成参数加入，用数据去拟合新加入的参数，最后用另一部分数据验证模型的准确性。这里举一个开普勒沿模型这条路发现开普勒三定律的例子。在中世纪的时候，第谷把自己的头绑在望远镜上坚持观察了30年夜空，将各个行星的运动轨迹都记录下来。基于这些数据，开普勒不断的进行假设，最后假设行星的运动轨道是椭圆的，用椭圆的方程去拟合他的数据，发现拟合的非常好，便得到了一个新的模型：开普勒第一定律。这就是一个典型的沿着模型走的思路，通过观测数据，科学家获得一个假设，这个假设就是一个模型，然后用数据拟合这个模型的参数，最终在新的数据上验证模型是否正确，这是沿着模型走的一条路。

沿着特征走主要是由工业界来主导，比如说谷歌的Adwords里面有上千亿的特征，想要描述为什么会产生一次广告点击，这就需要解决高效并行的问题。这些技术大部分进展来自于KDD或是WWW。沿着特征优化机器学习，就是把问题通过特征的方式分的足够细，做非常准确的模型。

到底是深度模型好还是宽度模型好呢？这里有一个没有免费的午餐定理：不存在万能的模型。简单来说，世界上不存在一个优化算法对任何问题上都有效，也就是说我们总能找到一个问题，让这个优化算法表现的并不比随机的更好。更进一步的说，所有的机器学习都是一个偏执，代表了对这个世界的认知。如果数据较少，这个偏执就需要比较强。比如说科学家观测物理现象，数据并不是特别多。这种情况下，你需要大量的理论和猜想，有少量数据做拟合验证就可以了。但如果假设错的话，就可能出现错误的结论。比如用地心论研究天体物理的话，就发现结论都是错的。但是如果数据很多，我们就不需要很强的偏置，将更多的不确定性加入模型，自动的通过数据进行拟合。综合起来，工业界的机器学习里面并没有免费的午餐，不存在哪一个模型是万能的模型。所以说你一定要根据你的业务做出合适的选择，才是最好的一个方式。

人工智能落地的关键：提高AI的易用性

人工智能目前还远没有达到可以遍地开花的程度，即使解决了刚才讲的宽与深的问题，我们依然还有很多事情要做。如何训练出好的模型、如何去选择好的参数、如何进行特征组合，都不是一件容易的事情。

比如，数据需要归集、整理、导入、清洗、拼接、特征工程等之后才能模型训练。之后模型上线还要保证系统的稳定性、时效性和吞吐等等指标。同时为了提供线上服务，需要重做一套线上的架构，这个架构需要保证数据流实时性、线上线下一致性，以及模型作用的机制。只有完成这些，这样才真正拥有了一个落地的人工智能系统，否则只能称之为在笔记本上做一个AI的玩具而已。

刚才说到的还只是一个公司的问题与系统，如果用在各行各业的不同问题上，会发现问题非常多，所以企业一定需要一个集成上述所有能力的人工智能平台。开源社区内好的工具平台和算法能够起到很大作用，这些工具也会日趋成熟，但并不足够。虽然看起来人工智能已经在非常多的领域应用或者开始了突破性的尝试，但是如果对比Hadoop这样的分布式存储计算系统来说，还远远未普及。

第四范式陈雨强 - 人工智能工业应用痛点及解决思路

第四范式胡时伟 - 大规模机器学习平台的技术实现

eBay 李睿 - NLP在eBay的技术实践

刘光聪、韩炳涛 - TensorFlow 遇上Kubernetes中兴通讯人工智能计算平台的技术实践

洛可可设计李建华 - 用户创造好产品AI智能时代的产品创新_部分1

洛可可设计李建华 - 用户创造好产品AI智能时代的产品创新_部分2

科大讯飞吕昕 - 语音云大数据实践之路

七牛云林亦宁 - 平台改变计算机视觉

搜狗周泽南 - 搜狗图片搜索系统智能化演进之路

教育交互直播平台的架构与性能优化之路

全链路压测技术分享与实践

使用数据实现在线教育行业的增长

第四范式陈雨强 - 人工智能工业应用痛点及解决思路

文档介绍

演讲实录

相关会议文档推荐

相关会议

第四范式 陈雨强 - 人工智能工业应用痛点及解决思路

第四范式 陈雨强 - 人工智能工业应用痛点及解决思路

文档介绍

演讲实录

相关会议文档推荐

相关会议

第四范式陈雨强 - 人工智能工业应用痛点及解决思路

第四范式陈雨强 - 人工智能工业应用痛点及解决思路