TalkingData 张夏天 - Data Science in TalkingData

知机识变，有唐之盛-T11 2017暨TalkingData智能数据峰会所有文档
总裁助理兼大数据中心总经理、首席架构师蔡栋Charles Cai - 传统行业的升级和创新_部分2
3489次
微软亚洲研究院王井东 - CNN Architecture Design：From Deeper to Wider_部分1
3357次
微软亚洲研究院王井东 - CNN Architecture Design：From Deeper to Wider_部分2
7001次
兴业数金张振原 - 中小金融机构智能数据应用发展趋势
10430次
叶杰生、陈日涵 - 让海量移动数据产生价值
10488次
云量科技屈攀 - 知识赋予金融智能思考力
2919次
证券时报刘兴祥 - 证券移动化现状分析和发展趋势
10401次
中国电信吴章先 - 开放合作，共建数据生态
8461次
中国联通姚健 - 云数聚-云上大数据解决方案
4795次
中国人民大学艾春荣 - 高校大数据教育：基础知识结构与学位设计
7033次
中粮置地王雨晴 - 上海大悦城智慧商业思考与实践_部分1
2284次
中粮置地王雨晴 - 上海大悦城智慧商业思考与实践_部分2
5730次
中青旅联科（北京）葛磊 - 大数据视角下的特色小镇
1508次
卓越集团郑群 - 卓越集团大数据应用的实践与思考
9857次
总裁助理兼大数据中心总经理、首席架构师蔡栋Charles Cai - 传统行业的升级和创新_部分1
11254次
海信罗庆干 - 大数据在工业4.0路上的蓬勃发展
3931次
禾略中国郑永祥 - 向下的力量
6221次
金佰利谢乐 - 大数据形态下的媒体新革命
6297次
猎聘网戴科彬 - 大数据行业人才生态现状
2956次
林文棋、李栋 - 城市大数据挖掘应用实践：从监测到评估
7152次
神州数码谢耘 - 以虚拟映像构建融合服务
10789次
斯坦福大学宫恩浩 - 深度学习技术在医疗健康
2720次
汤舸 - 上海这座城市到底有多少人
4634次
同济大学施澄 - 多源位置大数据融合技术应用
6660次
网易传媒李淼 - 数据助力内容消费升级
7298次
TalkingData 刘彬 - 营销闭环驱动业务增长
1795次
TalkingData 路瑶 - 用大数据重新认识城市
5592次
TalkingData 鲍忠铁 - 从数据中发现商业机会
2420次
TalkingData 王小辉 - Myna：Context Awareness Framework On Smart Devices
1340次
TalkingData 冯博 - Smart Data Lab-数据科学基础设施搭建的探索与实践
3110次
TalkingData 周洋 - 智能数据平台解决方案
6454次
TalkingData 刘翔 - 持续变革的地产行业大数据征途
3377次
TDU教育王俊 - TalkingData在教育行业的现有努力
3372次
TDU执行校长杨慧 - TalkingData的人才教育生态
7937次
Terark 郭宽宽 - 使用TerarkDB提升MySQL性能和压缩率
9682次
William Plummer - 新一代创新：如何利用全球领先的AI技术赋能商业成功
1865次
Yongcai Wang - Graph Realization in IoT：Theory, Practice and New Trends
7267次
北京微瑞思周像金 - 大数据在商业地产中的应用分享
9438次
超市发集团赵萌 - 当数据照进未来
11591次
国泰君安毕志刚 - 证券行业智能应用的思路和实践
8757次
TalkingData 林逸飞 - 数据、共创、价值Part1_部分1
1063次
TalkingData 林逸飞 - 数据、共创、价值Part1_部分2
7122次
TalkingData 周国平 - 基于内存的分布式计算实践
2219次
TalkingData 何坤 - 高可用数据服务交易系统架构实践
1320次
TalkingData 冯博 - Open Data Open Value：数据科学合作研究平台的探索与实践
9129次
TalkingData 高铎 - 数据、共创、价值Part3
9353次
TalkingData 蒋奇 - 数据、共创、价值Part2
4802次
TalkingData 郑迪 - 10亿大数据助推都市治理
1637次
TalkingData 林逸飞 - 数据成为新消费的胜负手
10875次
Ani Manian - 物联网和人工智能领域内置芯片分析的意外之旅
7568次
B612咔叽孙琦 - 营销-让咔叽影响年轻人
3415次
BitTiger 冯沁原 - 数据科学、数据工程、数据分析知识体系构建和培训实践
4358次
bluegogo 胡宇沸 - 大数据在共享出行的应用
4302次
Capital One Kevin Hoffman - Cloud Native Applications
7600次
Dataiku Alexandre Hubert - 用于图像标记的应用深度学习：旅行推荐引擎应用
3946次
Google 陈卓 - What is New in Android O
7666次
Hai-Ching Yang - 科技教育领域的数据科学与数据隐私
5909次
Innobator (Hong Kong) Limited 李振业 - 数据应用竞赛推动行业发展和地区交流
8983次
Max Kanter - Scaling Predictive Analytics with Data Science Automation
5825次
MIUI 顾大伟 - 新环境下的数据协作-基于区块链的数据协作探索
9590次
Petuum 于伟仁、吴竑 - Petuum Poseidon：高效的分布式深度学习平台
7508次
Pitney Bowes 张军 - 位置智能在零售市场的科学和应用
8426次
ScyllaDB 贺俊 - SCYLLA：NoSQL at Ludicrous Speed
8095次
TalkingData FinTech 陈雷 - 用户行为大数据助力金融风险管理
3174次

TalkingData 张夏天 - Data Science in TalkingData

所属会议：知机识变，有唐之盛-T11 2017暨TalkingData智能数据峰会会议地点：北京


下载


手机看

扫二维码下载
或点击下载 Android iOS

   

1501次
浏览次数

知机识变，有唐之盛-T11 2017暨TalkingData智能数据峰会所有文档总裁助理兼大数据中心总经理、首席架构师蔡栋Charles Cai - 传统行业的升级和创新_部分2 微软亚洲研究院王井东 - CNN Architecture Design：From Deeper to Wider_部分1 微软亚洲研究院王井东 - CNN Architecture Design：From Deeper to Wider_部分2 兴业数金张振原 - 中小金融机构智能数据应用发展趋势叶杰生、陈日涵 - 让海量移动数据产生价值云量科技屈攀 - 知识赋予金融智能思考力证券时报刘兴祥 - 证券移动化现状分析和发展趋势中国电信吴章先 - 开放合作，共建数据生态中国联通姚健 - 云数聚-云上大数据解决方案中国人民大学艾春荣 - 高校大数据教育：基础知识结构与学位设计中粮置地王雨晴 - 上海大悦城智慧商业思考与实践_部分1 中粮置地王雨晴 - 上海大悦城智慧商业思考与实践_部分2 中青旅联科（北京）葛磊 - 大数据视角下的特色小镇卓越集团郑群 - 卓越集团大数据应用的实践与思考总裁助理兼大数据中心总经理、首席架构师蔡栋Charles Cai - 传统行业的升级和创新_部分1 海信罗庆干 - 大数据在工业4.0路上的蓬勃发展禾略中国郑永祥 - 向下的力量金佰利谢乐 - 大数据形态下的媒体新革命猎聘网戴科彬 - 大数据行业人才生态现状林文棋、李栋 - 城市大数据挖掘应用实践：从监测到评估神州数码谢耘 - 以虚拟映像构建融合服务斯坦福大学宫恩浩 - 深度学习技术在医疗健康汤舸 - 上海这座城市到底有多少人同济大学施澄 - 多源位置大数据融合技术应用网易传媒李淼 - 数据助力内容消费升级 TalkingData 刘彬 - 营销闭环驱动业务增长 TalkingData 路瑶 - 用大数据重新认识城市 TalkingData 鲍忠铁 - 从数据中发现商业机会 TalkingData 王小辉 - Myna：Context Awareness Framework On Smart Devices TalkingData 冯博 - Smart Data Lab-数据科学基础设施搭建的探索与实践 TalkingData 周洋 - 智能数据平台解决方案 TalkingData 刘翔 - 持续变革的地产行业大数据征途 TDU教育王俊 - TalkingData在教育行业的现有努力 TDU执行校长杨慧 - TalkingData的人才教育生态 Terark 郭宽宽 - 使用TerarkDB提升MySQL性能和压缩率 William Plummer - 新一代创新：如何利用全球领先的AI技术赋能商业成功 Yongcai Wang - Graph Realization in IoT：Theory, Practice and New Trends 北京微瑞思周像金 - 大数据在商业地产中的应用分享超市发集团赵萌 - 当数据照进未来国泰君安毕志刚 - 证券行业智能应用的思路和实践 TalkingData 林逸飞 - 数据、共创、价值Part1_部分1 TalkingData 林逸飞 - 数据、共创、价值Part1_部分2 TalkingData 周国平 - 基于内存的分布式计算实践 TalkingData 何坤 - 高可用数据服务交易系统架构实践 TalkingData 冯博 - Open Data Open Value：数据科学合作研究平台的探索与实践 TalkingData 高铎 - 数据、共创、价值Part3 TalkingData 蒋奇 - 数据、共创、价值Part2 TalkingData 郑迪 - 10亿大数据助推都市治理 TalkingData 林逸飞 - 数据成为新消费的胜负手 Ani Manian - 物联网和人工智能领域内置芯片分析的意外之旅 B612咔叽孙琦 - 营销-让咔叽影响年轻人 BitTiger 冯沁原 - 数据科学、数据工程、数据分析知识体系构建和培训实践 bluegogo 胡宇沸 - 大数据在共享出行的应用 Capital One Kevin Hoffman - Cloud Native Applications Dataiku Alexandre Hubert - 用于图像标记的应用深度学习：旅行推荐引擎应用 Google 陈卓 - What is New in Android O Hai-Ching Yang - 科技教育领域的数据科学与数据隐私 Innobator (Hong Kong) Limited 李振业 - 数据应用竞赛推动行业发展和地区交流 Max Kanter - Scaling Predictive Analytics with Data Science Automation MIUI 顾大伟 - 新环境下的数据协作-基于区块链的数据协作探索 Petuum 于伟仁、吴竑 - Petuum Poseidon：高效的分布式深度学习平台 Pitney Bowes 张军 - 位置智能在零售市场的科学和应用 ScyllaDB 贺俊 - SCYLLA：NoSQL at Ludicrous Speed TalkingData FinTech 陈雷 - 用户行为大数据助力金融风险管理

文档介绍



TalkingData用数据诠释感性的改变，同一个世界，同一个语言。世界运转，社会发展，移动互联，再到人们生活的点点滴滴，我们用数据的语言沟通，用数据的思维改变。以大数据的思维，改变对精确性的苛求，转而追求混杂性；改变对因果关系的追问，转而追求相关性。真正的革命并不在于分析数据的机器，而在于数据本身和我们如何运用数据。一旦思维转变过来，数据就能被巧妙地用来激发无限创新。

演讲实录

Spark演进方向：由1.6版本升级到2.0版本，计算性能提升10倍

此次美国前行，我们拜访的不只是一些大公司，还去了很多小公司，并做了技术方面的交流，其中与Databricks公司交流最多。Databricks公司的一个中国人给我们介绍了整个Spark未来演进的方向：未来几个月内，Spark会由1.6版本升级到2.0版本，计算性能也会提升10倍。

交流中得知，Spark进步如此大的原因是，他们把Spark当做一种思想，通过对代码编译层级优化执行，获得高度的提升。未来粗密度的IDD模型会逐渐淡化，处理结构时不需要处理IDD大模块，而是处理一列即可。

我们对此很感兴趣，因为TalkingData接触Spark非常早，当Spark在国内受到质疑，还没有形成大规模应用时，TalkingData的数据平台就已经从Hadoop迁到了Spark。同时，我们做的机器学习和数据挖掘工作，都是基于Spark做的。

两三年前，公司的硬件资源非常有限，当我们发现使用Spark比使用Hadoop节省很多计算资源的时候，就坚持使用Spark。现在知道了Spark的发展路线后，更让我们坚定了信心。

大数据平台发展趋势

今年参加Strata大会的公司可谓百花齐放，我发现一个很大的特点是，有很多公司在做别人看起来比较低档的数据整合。另外，也有很多公司做分析，例如HTO公司就是一个例子，HTO整个核心产品全都是开源的，但是它提供商业化的支持和服务，算是开源软件商业化模式。还有很多其他的闭源平台公司出现，他们主要提供机器学习和数据挖掘工具。

我认为从本质上来说，开源软件商业化的工具以前并非完全没有，很经典的商业化分析软件其实有很多年了，目前市场上新的分析软件基本上都是创业公司在做，产品有很多亮点，这同时也预示了未来很多更细分领域的发展趋势。

首先，提供的软件及平台能够整合多种工具。会上的很多公司也都基本上都不再是从轮子造起了，所有模型都是去整合不同的开源工具，甚至可以整合商业软件，包括SAAS都有能力整合。这样就突破了局限性，让大家可以使用的工具变得非常多样，这是我看到的发展趋势。

另外是高效的分析建模能力。以DataRobot公司为代表，其做数据科学和机器学习时，强调自动化过程。只要选定一个数据和一列，再按一个键，机器就会自动挑选出最好的模型。具体来说，每个模型有不同的参数组合，组合出来后会是上千种模型，包括几种不同的算法，甚至深度学习模型都集成在里面。然后后台会通过分布式架构去训练，接着会对所有模型进行排序，还可以查看到每个模型的状态，这样就会变得非常的高效和自动化。

其实对于机器学习，里面很多问题纯粹依靠人去调参会很浪费时间，但DataRobot强调依靠机器，完全自动化。现在机器计算比人的成本更低，降低了工具使用门槛，同时，极大的提高了建模分析效率，这对专业人士来说很有帮助。因为机器不只是能给出结果，包括模型分析，模型可视化都会有。如果还想用手工调，便可以站在很高的机械调整基础之上再做人工调整，而不是从一开始很低的水平去调，这样便极大的加快了人工的工作。

还有很多公司提高高效建模能力可视化，它不仅展示精美，而且可以支持各种各样的图表，甚至可以在图表上做交互式数据分析。比如这里边展示出来的几种不同的点，可以被鼠标圈选，然后再做进一步分析。这样就变得不只是看结果的工具了，而是可以作为真正分析互动的工具提供给客户。

另外，很多企业基本上都是每家只做一个分析工具或者服务，通过几个模型处理就形成这种完整的服务流程。

还有一块，对模型和实验结果的管理，每家的支持确实做的比较好。这个平台做任何实验，做任何模型都会把结果记录下来，模型本身是什么样的，模型测试的结果都会全部记录下来，可以很好的做归档。我觉得这也是一个非常好的功能。

简化模型部署领域也是，具体来说，一个模型出来后，需要对其进行部署，然后在应用环境下使用。原来的Saas、Strata都有部署的功能，但不是很方便，因为很多遵循了Pmmll（预测模型标准），这样训练一个模型后变成一个Slm，再解析Slm时，有些商业会支持，但很多公司不一定会使用这种商用模型。所以，对模型进行部署成了一个难题。

现在这些平台基本都支持一个功能，可以直接粘贴到部署的工程里边去，大大简化了工作内容。不但支持代码导出，而且按一两个键就可以在平台上直接使用，部署完后可以在多科环节下运行，非常棒。

再从美国数据平台发展的趋势来看，其思想和产品让人印象深刻。我在Strata大会看到的Anaconda公司，也是做数据科学平台，但与其他公司有很大不同。他们完全固守在Python上面，用Python与其他所有的东西分庭抗礼。但因为Python安装很麻烦，所以他们把很多与数据分析、机器学习相关的包集合在一起，做成了一个集成安装。

另外，因为原来Python有很多包是支持单机运行，并不支持其他算法，所以他们公司的资深操作人员把很多关键库改写了，能够完全支持并行化的执行，这样就突破了Python单机只能处理小规模的问题。这也是我看到可视化做的最好，并且很有意思的一家公司。

人工智能Novumnd公司：计算能力和应用广度做到极致

我们还去拜访过专业做人工智能的公司——Novumnd，这家公司是由百度出来的吴韧老师创立，现在公司有二十多人，吴韧老师说，他从百度出来以后，华尔街有很多金融公司请他用深度学习技术做量化投资，虽然那样会很挣钱，可他并不只想做挣钱的事情。

我发现硅谷有很多技术公司很有理想，他们不只是想挣钱，更希望能够去改变世界。

在交流中得知，Novumnd公司现在有两个发展方向：

一，做深度学习一体机。因为他们在算法上有很深的积累，所以想要把算法与硬件结合，而不只是做硬件产品。现在深度学习的计算能力要求非常高，而且随着数据量的增加以及网络结构的构造越来越复杂，其对计算量的要求也会越来越多。这种情况下每一点计算资源都很珍贵，所以把每一点计算资源利用起来就非常关键。

吴韧老师认为，人使用的门槛都可以克服，做出来的东西好用与否并不是最重要的，能够把算法和硬件很好的结合在一起，让硬件的计算能力发挥到极致，并最大限度的提升效率，达到最好的效果才是关键。这也是他想做这件事情的方向。

二，嵌入式做法。深度学习一体机的做法确实比以前有了很大进步，比如图像识别、语音识别，但其并不能把人工智能的问题完全解决。若想变得无所不能，不能只关注服务器，而且如果把所有数据都放在服务器处理，带宽等各方面的压力会使终端计算压力非常大，所以就需要往前延伸，前置到各个终端，包括智能手机和智能设备，也可以提高计算效率。同时，实验结果证明，有些决策确实可以在终端做，不是必须要用服务器才能做最后的决策。所以，Novumnd公司其次是要以嵌入式方向去做。

吴韧老师还在业余时间做了一个NovuGO，我们也在现场感受了一下。TalkingData的崔晓波先生在国内的围棋水平是业余五段，当他看到NovuGO时就想与其对战，当时与崔总对战的仅是一台笔记本，没有任何其他GPU集群的计算，若与AlphaGo和李世石对战时相比，计算能力只有其三万分之一，但对战结果下来，崔总认为NovuGO已有业余三四段的水平了。

吴老师说，这毕竟不是他们的主业，他们只是把之前做图样识别的经验简单的移植到围棋框架中，就取得了这种效果，而且在某些层面上比AlphaGo一些参数还要高。AlphaGo的精度是52%，而NovuGO精度达到了56%，高了几个点，当时蛮震惊的。

Numenta公司：突破智能临界点

我们在Strata大会上还与Numenta公司做了交流，这个公司也很有意思。创始人是杰弗瑞.霍德斯（Jeff Hawkins），公司是做神经网络的，因为背离了人工智能的原理，霍德斯认为接下去的路走不通了。于是，他尽可能参照人脑的皮质去做，因为皮质能产生人智力结构的设计和学习框架。霍德斯把这套东西叫做皮质学习，我看了一下，确实与传统的神经网络区别很大，里面很多是基于神经元运行的简单规则，基本没有数学算法类的东西，这样就对计算力的要求降低很多。

这家公司在2005年成立，目前应用主要集中在异常检测方面，包括证券市场走势的异常检测、IT系统运行的检测，还有用户在网络上流氓行为的检测，甚至人出行轨迹的日常检测等。我看了一个视频，一个程序训练很短的时间以后，不需要任何监督信息，就可以判断出哪些行为正常，哪些行为不正常。

我认为上面这两家公司代表了两个不同的发展路径。Novumnd公司走的是主流方向，其想在计算能力和应用广度方面做到极致。而Numenta公司另辟蹊径，想要突破智能的临界点。

最后讲下TalkingData在数据科学方面所做的工作。首先是Product Applications方面的工作，我们作为一个数据平台，不仅会提供数据，还会提供很多数据服务，比如数据挖掘、数据技术、数据算法，包括定位算法的研究我们都在做。

其次是应用层。应用层是支撑公司内部产品的应用，比如DMP的产品，会解决内部自动分层、自动人群扩大的需求。另外，房地产领域、金融领域、零售领域都有这种应用案例，有些是帮人选址，有些是做人群筛选、人群扩大等各种问题。这是目前TalkingData所做的几个方面。

其中做的比较好的是我们的自研算法。虽然，我们当时转移到了Spark平台，但并不能满足我们的需求。比如，做人群扩大算法时，训练模型在10亿级别，三百万的维度训练，现在甚至是一千万的维度训练，当时用五六个小时都不能做出一个模型，所以我们很用心的去做算法，算法层面便优化了很多，不仅速度快，而且比最新版本内置的算法的速度和精度都要好很多。比如，现在的Logisic Regression十分钟就可以完成集散。

Spark并不是非常适合的平台，但如果要改造它，投入会很大。同时我们希望做人群扩大计算能够实时，几分钟之内就会有反馈。所以，我们基于Spark做了一套引擎，又开发了新的算法实践，使其能够做到一百秒以内完成大规模的计算，速度非常快。其实我们用到的资源非常有限，基本是用十台服务器去做，且是基于Spark去做的，而Spark在调度方面浪费了很多时间，如果我们自己能够写一套好的框架，那么，计算时间有望压缩到十秒以内。

算法做出来以后，可以应用于广告预测，比如在房地产领域可以帮助客户优化户外广告牌的布局、线下的推广方案，在零售行业的宏观选址等方面，我们也都有实际应用案例。

TalkingData 张夏天 - Data Science in TalkingData

TalkingData 张夏天 - Data Science in TalkingData

文档介绍

演讲实录

相关会议文档推荐

相关会议