首页>会议文档 >

TalkingData 张夏天 - Data Science in TalkingData

page:
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData
TalkingData 张夏天 - Data Science in TalkingData

TalkingData 张夏天 - Data Science in TalkingData

所属会议:知机识变,有唐之盛-T11 2017暨TalkingData智能数据峰会会议地点:北京


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

6892次
浏览次数
知机识变,有唐之盛-T11 2017暨TalkingData智能数据峰会所有文档 总裁助理兼大数据中心总经理、首席架构师蔡栋Charles Cai - 传统行业的升级和创新_部分2 微软亚洲研究院 王井东 - CNN Architecture Design:From Deeper to Wider_部分1 微软亚洲研究院 王井东 - CNN Architecture Design:From Deeper to Wider_部分2 兴业数金 张振原 - 中小金融机构智能数据应用发展趋势 叶杰生、陈日涵 - 让海量移动数据产生价值 云量科技 屈攀 - 知识赋予金融智能思考力 证券时报 刘兴祥 - 证券移动化现状分析和发展趋势 中国电信 吴章先 - 开放合作,共建数据生态 中国联通 姚健 - 云数聚-云上大数据解决方案 中国人民大学 艾春荣 - 高校大数据教育:基础知识结构与学位设计 中粮置地 王雨晴 - 上海大悦城智慧商业思考与实践_部分1 中粮置地 王雨晴 - 上海大悦城智慧商业思考与实践_部分2 中青旅联科(北京) 葛磊 - 大数据视角下的特色小镇 卓越集团 郑群 - 卓越集团大数据应用的实践与思考 总裁助理兼大数据中心总经理、首席架构师蔡栋Charles Cai - 传统行业的升级和创新_部分1 海信 罗庆干 - 大数据在工业4.0路上的蓬勃发展 禾略中国 郑永祥 - 向下的力量 金佰利 谢乐 - 大数据形态下的媒体新革命 猎聘网 戴科彬 - 大数据行业人才生态现状 林文棋、李栋 - 城市大数据挖掘应用实践:从监测到评估 神州数码谢耘 - 以虚拟映像构建融合服务 斯坦福大学宫恩浩 - 深度学习技术在医疗健康 汤舸 - 上海这座城市到底有多少人 同济大学 施澄 - 多源位置大数据融合技术应用 网易传媒 李淼 - 数据助力内容消费升级 TalkingData 刘彬 - 营销闭环驱动业务增长 TalkingData 路瑶 - 用大数据重新认识城市 TalkingData 鲍忠铁 - 从数据中发现商业机会 TalkingData 王小辉 - Myna:Context Awareness Framework On Smart Devices TalkingData 冯博 - Smart Data Lab-数据科学基础设施搭建的探索与实践 TalkingData 周洋 - 智能数据平台解决方案 TalkingData 刘翔 - 持续变革的地产行业大数据征途 TDU教育 王俊 - TalkingData在教育行业的现有努力 TDU执行校长杨慧 - TalkingData的人才教育生态 Terark 郭宽宽 - 使用TerarkDB提升MySQL性能和压缩率 William Plummer - 新一代创新:如何利用全球领先的AI技术赋能商业成功 Yongcai Wang - Graph Realization in IoT:Theory, Practice and New Trends 北京微瑞思 周像金 - 大数据在商业地产中的应用分享 超市发集团 赵萌 - 当数据照进未来 国泰君安 毕志刚 - 证券行业智能应用的思路和实践 TalkingData 林逸飞 - 数据、共创、价值Part1_部分1 TalkingData 林逸飞 - 数据、共创、价值Part1_部分2 TalkingData 周国平 - 基于内存的分布式计算实践 TalkingData 何坤 - 高可用数据服务交易系统架构实践 TalkingData 冯博 - Open Data Open Value:数据科学合作研究平台的探索与实践 TalkingData 高铎 - 数据、共创、价值Part3 TalkingData 蒋奇 - 数据、共创、价值Part2 TalkingData 郑迪 - 10亿大数据助推都市治理 TalkingData 林逸飞 - 数据成为新消费的胜负手 Ani Manian - 物联网和人工智能领域内置芯片分析的意外之旅 B612咔叽 孙琦 - 营销-让咔叽影响年轻人 BitTiger 冯沁原 - 数据科学、数据工程、数据分析知识体系构建和培训实践 bluegogo 胡宇沸 - 大数据在共享出行的应用 Capital One Kevin Hoffman - Cloud Native Applications Dataiku Alexandre Hubert - 用于图像标记的应用深度学习:旅行推荐引擎应用 Google 陈卓 - What is New in Android O Hai-Ching Yang - 科技教育领域的数据科学与数据隐私 Innobator (Hong Kong) Limited 李振业 - 数据应用竞赛推动行业发展和地区交流 Max Kanter - Scaling Predictive Analytics with Data Science Automation MIUI 顾大伟 - 新环境下的数据协作-基于区块链的数据协作探索 Petuum 于伟仁、吴竑 - Petuum Poseidon:高效的分布式深度学习平台 Pitney Bowes 张军 - 位置智能在零售市场的科学和应用 ScyllaDB 贺俊 - SCYLLA:NoSQL at Ludicrous Speed TalkingData FinTech 陈雷 - 用户行为大数据助力金融风险管理

文档介绍

TalkingData用数据诠释感性的改变,同一个世界,同一个语言。世界运转,社会发展,移动互联,再到人们生活的点点滴滴,我们用数据的语言沟通,用数据的思维改变。  以大数据的思维,改变对精确性的苛求,转而追求混杂性;改变对因果关系的追问,转而追求相关性。真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。一旦思维转变过来,数据就能被巧妙地用来激发无限创新。 

演讲实录

Spark演进方向:由1.6版本升级到2.0版本,计算性能提升10倍

此次美国前行,我们拜访的不只是一些大公司,还去了很多小公司,并做了技术方面的交流,其中与Databricks公司交流最多。Databricks公司的一个中国人给我们介绍了整个Spark未来演进的方向:未来几个月内,Spark会由1.6版本升级到2.0版本,计算性能也会提升10倍。

交流中得知,Spark进步如此大的原因是,他们把Spark当做一种思想,通过对代码编译层级优化执行,获得高度的提升。未来粗密度的IDD模型会逐渐淡化,处理结构时不需要处理IDD大模块,而是处理一列即可。

我们对此很感兴趣,因为TalkingData接触Spark非常早,当Spark在国内受到质疑,还没有形成大规模应用时,TalkingData的数据平台就已经从Hadoop迁到了Spark。同时,我们做的机器学习和数据挖掘工作,都是基于Spark做的。

两三年前,公司的硬件资源非常有限,当我们发现使用Spark比使用Hadoop节省很多计算资源的时候,就坚持使用Spark。现在知道了Spark的发展路线后,更让我们坚定了信心。

大数据平台发展趋势

今年参加Strata大会的公司可谓百花齐放,我发现一个很大的特点是,有很多公司在做别人看起来比较低档的数据整合。另外,也有很多公司做分析,例如HTO公司就是一个例子,HTO整个核心产品全都是开源的,但是它提供商业化的支持和服务,算是开源软件商业化模式。还有很多其他的闭源平台公司出现,他们主要提供机器学习和数据挖掘工具。

我认为从本质上来说,开源软件商业化的工具以前并非完全没有,很经典的商业化分析软件其实有很多年了,目前市场上新的分析软件基本上都是创业公司在做,产品有很多亮点,这同时也预示了未来很多更细分领域的发展趋势。

首先,提供的软件及平台能够整合多种工具。会上的很多公司也都基本上都不再是从轮子造起了,所有模型都是去整合不同的开源工具,甚至可以整合商业软件,包括SAAS都有能力整合。这样就突破了局限性,让大家可以使用的工具变得非常多样,这是我看到的发展趋势。

另外是高效的分析建模能力。以DataRobot公司为代表,其做数据科学和机器学习时,强调自动化过程。只要选定一个数据和一列,再按一个键,机器就会自动挑选出最好的模型。具体来说,每个模型有不同的参数组合,组合出来后会是上千种模型,包括几种不同的算法,甚至深度学习模型都集成在里面。然后后台会通过分布式架构去训练,接着会对所有模型进行排序,还可以查看到每个模型的状态,这样就会变得非常的高效和自动化。

其实对于机器学习,里面很多问题纯粹依靠人去调参会很浪费时间,但DataRobot强调依靠机器,完全自动化。现在机器计算比人的成本更低,降低了工具使用门槛,同时,极大的提高了建模分析效率,这对专业人士来说很有帮助。因为机器不只是能给出结果,包括模型分析,模型可视化都会有。如果还想用手工调,便可以站在很高的机械调整基础之上再做人工调整,而不是从一开始很低的水平去调,这样便极大的加快了人工的工作。

还有很多公司提高高效建模能力可视化,它不仅展示精美,而且可以支持各种各样的图表,甚至可以在图表上做交互式数据分析。比如这里边展示出来的几种不同的点,可以被鼠标圈选,然后再做进一步分析。这样就变得不只是看结果的工具了,而是可以作为真正分析互动的工具提供给客户。

另外,很多企业基本上都是每家只做一个分析工具或者服务,通过几个模型处理就形成这种完整的服务流程。

还有一块,对模型和实验结果的管理,每家的支持确实做的比较好。这个平台做任何实验,做任何模型都会把结果记录下来,模型本身是什么样的,模型测试的结果都会全部记录下来,可以很好的做归档。我觉得这也是一个非常好的功能。

简化模型部署领域也是,具体来说,一个模型出来后,需要对其进行部署,然后在应用环境下使用。原来的Saas、Strata都有部署的功能,但不是很方便,因为很多遵循了Pmmll(预测模型标准),这样训练一个模型后变成一个Slm,再解析Slm时,有些商业会支持,但很多公司不一定会使用这种商用模型。所以,对模型进行部署成了一个难题。

现在这些平台基本都支持一个功能,可以直接粘贴到部署的工程里边去,大大简化了工作内容。不但支持代码导出,而且按一两个键就可以在平台上直接使用,部署完后可以在多科环节下运行,非常棒。

再从美国数据平台发展的趋势来看,其思想和产品让人印象深刻。我在Strata大会看到的Anaconda公司,也是做数据科学平台,但与其他公司有很大不同。他们完全固守在Python上面,用Python与其他所有的东西分庭抗礼。但因为Python安装很麻烦,所以他们把很多与数据分析、机器学习相关的包集合在一起,做成了一个集成安装。

另外,因为原来Python有很多包是支持单机运行,并不支持其他算法,所以他们公司的资深操作人员把很多关键库改写了,能够完全支持并行化的执行,这样就突破了Python单机只能处理小规模的问题。这也是我看到可视化做的最好,并且很有意思的一家公司。

人工智能Novumnd公司:计算能力和应用广度做到极致

我们还去拜访过专业做人工智能的公司——Novumnd,这家公司是由百度出来的吴韧老师创立,现在公司有二十多人,吴韧老师说,他从百度出来以后,华尔街有很多金融公司请他用深度学习技术做量化投资,虽然那样会很挣钱,可他并不只想做挣钱的事情。

我发现硅谷有很多技术公司很有理想,他们不只是想挣钱,更希望能够去改变世界。

在交流中得知,Novumnd公司现在有两个发展方向:

一,做深度学习一体机。因为他们在算法上有很深的积累,所以想要把算法与硬件结合,而不只是做硬件产品。现在深度学习的计算能力要求非常高,而且随着数据量的增加以及网络结构的构造越来越复杂,其对计算量的要求也会越来越多。这种情况下每一点计算资源都很珍贵,所以把每一点计算资源利用起来就非常关键。

吴韧老师认为,人使用的门槛都可以克服,做出来的东西好用与否并不是最重要的,能够把算法和硬件很好的结合在一起,让硬件的计算能力发挥到极致,并最大限度的提升效率,达到最好的效果才是关键。这也是他想做这件事情的方向。

二,嵌入式做法。深度学习一体机的做法确实比以前有了很大进步,比如图像识别、语音识别,但其并不能把人工智能的问题完全解决。若想变得无所不能,不能只关注服务器,而且如果把所有数据都放在服务器处理,带宽等各方面的压力会使终端计算压力非常大,所以就需要往前延伸,前置到各个终端,包括智能手机和智能设备,也可以提高计算效率。同时,实验结果证明,有些决策确实可以在终端做,不是必须要用服务器才能做最后的决策。所以,Novumnd公司其次是要以嵌入式方向去做。

吴韧老师还在业余时间做了一个NovuGO,我们也在现场感受了一下。TalkingData的崔晓波先生在国内的围棋水平是业余五段,当他看到NovuGO时就想与其对战,当时与崔总对战的仅是一台笔记本,没有任何其他GPU集群的计算,若与AlphaGo和李世石对战时相比,计算能力只有其三万分之一,但对战结果下来,崔总认为NovuGO已有业余三四段的水平了。

吴老师说,这毕竟不是他们的主业,他们只是把之前做图样识别的经验简单的移植到围棋框架中,就取得了这种效果,而且在某些层面上比AlphaGo一些参数还要高。AlphaGo的精度是52%,而NovuGO精度达到了56%,高了几个点,当时蛮震惊的。

Numenta公司:突破智能临界点

我们在Strata大会上还与Numenta公司做了交流,这个公司也很有意思。创始人是杰弗瑞.霍德斯(Jeff Hawkins),公司是做神经网络的,因为背离了人工智能的原理,霍德斯认为接下去的路走不通了。于是,他尽可能参照人脑的皮质去做,因为皮质能产生人智力结构的设计和学习框架。霍德斯把这套东西叫做皮质学习,我看了一下,确实与传统的神经网络区别很大,里面很多是基于神经元运行的简单规则,基本没有数学算法类的东西,这样就对计算力的要求降低很多。

这家公司在2005年成立,目前应用主要集中在异常检测方面,包括证券市场走势的异常检测、IT系统运行的检测,还有用户在网络上流氓行为的检测,甚至人出行轨迹的日常检测等。我看了一个视频,一个程序训练很短的时间以后,不需要任何监督信息,就可以判断出哪些行为正常,哪些行为不正常。

我认为上面这两家公司代表了两个不同的发展路径。Novumnd公司走的是主流方向,其想在计算能力和应用广度方面做到极致。而Numenta公司另辟蹊径,想要突破智能的临界点。

最后讲下TalkingData在数据科学方面所做的工作。首先是Product Applications方面的工作,我们作为一个数据平台,不仅会提供数据,还会提供很多数据服务,比如数据挖掘、数据技术、数据算法,包括定位算法的研究我们都在做。

其次是应用层。应用层是支撑公司内部产品的应用,比如DMP的产品,会解决内部自动分层、自动人群扩大的需求。另外,房地产领域、金融领域、零售领域都有这种应用案例,有些是帮人选址,有些是做人群筛选、人群扩大等各种问题。这是目前TalkingData所做的几个方面。

其中做的比较好的是我们的自研算法。虽然,我们当时转移到了Spark平台,但并不能满足我们的需求。比如,做人群扩大算法时,训练模型在10亿级别,三百万的维度训练,现在甚至是一千万的维度训练,当时用五六个小时都不能做出一个模型,所以我们很用心的去做算法,算法层面便优化了很多,不仅速度快,而且比最新版本内置的算法的速度和精度都要好很多。比如,现在的Logisic Regression十分钟就可以完成集散。

Spark并不是非常适合的平台,但如果要改造它,投入会很大。同时我们希望做人群扩大计算能够实时,几分钟之内就会有反馈。所以,我们基于Spark做了一套引擎,又开发了新的算法实践,使其能够做到一百秒以内完成大规模的计算,速度非常快。其实我们用到的资源非常有限,基本是用十台服务器去做,且是基于Spark去做的,而Spark在调度方面浪费了很多时间,如果我们自己能够写一套好的框架,那么,计算时间有望压缩到十秒以内。

算法做出来以后,可以应用于广告预测,比如在房地产领域可以帮助客户优化户外广告牌的布局、线下的推广方案,在零售行业的宏观选址等方面,我们也都有实际应用案例。

×

打开微信扫一扫,分享到朋友圈