TalkingData用数据诠释感性的改变,同一个世界,同一个语言。世界运转,社会发展,移动互联,再到人们生活的点点滴滴,我们用数据的语言沟通,用数据的思维改变。 以大数据的思维,改变对精确性的苛求,转而追求混杂性;改变对因果关系的追问,转而追求相关性。真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。一旦思维转变过来,数据就能被巧妙地用来激发无限创新。
Spark演进方向:由1.6版本升级到2.0版本,计算性能提升10倍
此次美国前行,我们拜访的不只是一些大公司,还去了很多小公司,并做了技术方面的交流,其中与Databricks公司交流最多。Databricks公司的一个中国人给我们介绍了整个Spark未来演进的方向:未来几个月内,Spark会由1.6版本升级到2.0版本,计算性能也会提升10倍。
交流中得知,Spark进步如此大的原因是,他们把Spark当做一种思想,通过对代码编译层级优化执行,获得高度的提升。未来粗密度的IDD模型会逐渐淡化,处理结构时不需要处理IDD大模块,而是处理一列即可。
我们对此很感兴趣,因为TalkingData接触Spark非常早,当Spark在国内受到质疑,还没有形成大规模应用时,TalkingData的数据平台就已经从Hadoop迁到了Spark。同时,我们做的机器学习和数据挖掘工作,都是基于Spark做的。
两三年前,公司的硬件资源非常有限,当我们发现使用Spark比使用Hadoop节省很多计算资源的时候,就坚持使用Spark。现在知道了Spark的发展路线后,更让我们坚定了信心。
大数据平台发展趋势
今年参加Strata大会的公司可谓百花齐放,我发现一个很大的特点是,有很多公司在做别人看起来比较低档的数据整合。另外,也有很多公司做分析,例如HTO公司就是一个例子,HTO整个核心产品全都是开源的,但是它提供商业化的支持和服务,算是开源软件商业化模式。还有很多其他的闭源平台公司出现,他们主要提供机器学习和数据挖掘工具。
我认为从本质上来说,开源软件商业化的工具以前并非完全没有,很经典的商业化分析软件其实有很多年了,目前市场上新的分析软件基本上都是创业公司在做,产品有很多亮点,这同时也预示了未来很多更细分领域的发展趋势。
首先,提供的软件及平台能够整合多种工具。会上的很多公司也都基本上都不再是从轮子造起了,所有模型都是去整合不同的开源工具,甚至可以整合商业软件,包括SAAS都有能力整合。这样就突破了局限性,让大家可以使用的工具变得非常多样,这是我看到的发展趋势。
另外是高效的分析建模能力。以DataRobot公司为代表,其做数据科学和机器学习时,强调自动化过程。只要选定一个数据和一列,再按一个键,机器就会自动挑选出最好的模型。具体来说,每个模型有不同的参数组合,组合出来后会是上千种模型,包括几种不同的算法,甚至深度学习模型都集成在里面。然后后台会通过分布式架构去训练,接着会对所有模型进行排序,还可以查看到每个模型的状态,这样就会变得非常的高效和自动化。
其实对于机器学习,里面很多问题纯粹依靠人去调参会很浪费时间,但DataRobot强调依靠机器,完全自动化。现在机器计算比人的成本更低,降低了工具使用门槛,同时,极大的提高了建模分析效率,这对专业人士来说很有帮助。因为机器不只是能给出结果,包括模型分析,模型可视化都会有。如果还想用手工调,便可以站在很高的机械调整基础之上再做人工调整,而不是从一开始很低的水平去调,这样便极大的加快了人工的工作。
还有很多公司提高高效建模能力可视化,它不仅展示精美,而且可以支持各种各样的图表,甚至可以在图表上做交互式数据分析。比如这里边展示出来的几种不同的点,可以被鼠标圈选,然后再做进一步分析。这样就变得不只是看结果的工具了,而是可以作为真正分析互动的工具提供给客户。
另外,很多企业基本上都是每家只做一个分析工具或者服务,通过几个模型处理就形成这种完整的服务流程。
还有一块,对模型和实验结果的管理,每家的支持确实做的比较好。这个平台做任何实验,做任何模型都会把结果记录下来,模型本身是什么样的,模型测试的结果都会全部记录下来,可以很好的做归档。我觉得这也是一个非常好的功能。
简化模型部署领域也是,具体来说,一个模型出来后,需要对其进行部署,然后在应用环境下使用。原来的Saas、Strata都有部署的功能,但不是很方便,因为很多遵循了Pmmll(预测模型标准),这样训练一个模型后变成一个Slm,再解析Slm时,有些商业会支持,但很多公司不一定会使用这种商用模型。所以,对模型进行部署成了一个难题。
现在这些平台基本都支持一个功能,可以直接粘贴到部署的工程里边去,大大简化了工作内容。不但支持代码导出,而且按一两个键就可以在平台上直接使用,部署完后可以在多科环节下运行,非常棒。
再从美国数据平台发展的趋势来看,其思想和产品让人印象深刻。我在Strata大会看到的Anaconda公司,也是做数据科学平台,但与其他公司有很大不同。他们完全固守在Python上面,用Python与其他所有的东西分庭抗礼。但因为Python安装很麻烦,所以他们把很多与数据分析、机器学习相关的包集合在一起,做成了一个集成安装。
另外,因为原来Python有很多包是支持单机运行,并不支持其他算法,所以他们公司的资深操作人员把很多关键库改写了,能够完全支持并行化的执行,这样就突破了Python单机只能处理小规模的问题。这也是我看到可视化做的最好,并且很有意思的一家公司。
人工智能Novumnd公司:计算能力和应用广度做到极致
我们还去拜访过专业做人工智能的公司——Novumnd,这家公司是由百度出来的吴韧老师创立,现在公司有二十多人,吴韧老师说,他从百度出来以后,华尔街有很多金融公司请他用深度学习技术做量化投资,虽然那样会很挣钱,可他并不只想做挣钱的事情。
我发现硅谷有很多技术公司很有理想,他们不只是想挣钱,更希望能够去改变世界。
在交流中得知,Novumnd公司现在有两个发展方向:
一,做深度学习一体机。因为他们在算法上有很深的积累,所以想要把算法与硬件结合,而不只是做硬件产品。现在深度学习的计算能力要求非常高,而且随着数据量的增加以及网络结构的构造越来越复杂,其对计算量的要求也会越来越多。这种情况下每一点计算资源都很珍贵,所以把每一点计算资源利用起来就非常关键。
吴韧老师认为,人使用的门槛都可以克服,做出来的东西好用与否并不是最重要的,能够把算法和硬件很好的结合在一起,让硬件的计算能力发挥到极致,并最大限度的提升效率,达到最好的效果才是关键。这也是他想做这件事情的方向。
二,嵌入式做法。深度学习一体机的做法确实比以前有了很大进步,比如图像识别、语音识别,但其并不能把人工智能的问题完全解决。若想变得无所不能,不能只关注服务器,而且如果把所有数据都放在服务器处理,带宽等各方面的压力会使终端计算压力非常大,所以就需要往前延伸,前置到各个终端,包括智能手机和智能设备,也可以提高计算效率。同时,实验结果证明,有些决策确实可以在终端做,不是必须要用服务器才能做最后的决策。所以,Novumnd公司其次是要以嵌入式方向去做。
吴韧老师还在业余时间做了一个NovuGO,我们也在现场感受了一下。TalkingData的崔晓波先生在国内的围棋水平是业余五段,当他看到NovuGO时就想与其对战,当时与崔总对战的仅是一台笔记本,没有任何其他GPU集群的计算,若与AlphaGo和李世石对战时相比,计算能力只有其三万分之一,但对战结果下来,崔总认为NovuGO已有业余三四段的水平了。
吴老师说,这毕竟不是他们的主业,他们只是把之前做图样识别的经验简单的移植到围棋框架中,就取得了这种效果,而且在某些层面上比AlphaGo一些参数还要高。AlphaGo的精度是52%,而NovuGO精度达到了56%,高了几个点,当时蛮震惊的。
Numenta公司:突破智能临界点
我们在Strata大会上还与Numenta公司做了交流,这个公司也很有意思。创始人是杰弗瑞.霍德斯(Jeff Hawkins),公司是做神经网络的,因为背离了人工智能的原理,霍德斯认为接下去的路走不通了。于是,他尽可能参照人脑的皮质去做,因为皮质能产生人智力结构的设计和学习框架。霍德斯把这套东西叫做皮质学习,我看了一下,确实与传统的神经网络区别很大,里面很多是基于神经元运行的简单规则,基本没有数学算法类的东西,这样就对计算力的要求降低很多。
这家公司在2005年成立,目前应用主要集中在异常检测方面,包括证券市场走势的异常检测、IT系统运行的检测,还有用户在网络上流氓行为的检测,甚至人出行轨迹的日常检测等。我看了一个视频,一个程序训练很短的时间以后,不需要任何监督信息,就可以判断出哪些行为正常,哪些行为不正常。
我认为上面这两家公司代表了两个不同的发展路径。Novumnd公司走的是主流方向,其想在计算能力和应用广度方面做到极致。而Numenta公司另辟蹊径,想要突破智能的临界点。
最后讲下TalkingData在数据科学方面所做的工作。首先是Product Applications方面的工作,我们作为一个数据平台,不仅会提供数据,还会提供很多数据服务,比如数据挖掘、数据技术、数据算法,包括定位算法的研究我们都在做。
其次是应用层。应用层是支撑公司内部产品的应用,比如DMP的产品,会解决内部自动分层、自动人群扩大的需求。另外,房地产领域、金融领域、零售领域都有这种应用案例,有些是帮人选址,有些是做人群筛选、人群扩大等各种问题。这是目前TalkingData所做的几个方面。
其中做的比较好的是我们的自研算法。虽然,我们当时转移到了Spark平台,但并不能满足我们的需求。比如,做人群扩大算法时,训练模型在10亿级别,三百万的维度训练,现在甚至是一千万的维度训练,当时用五六个小时都不能做出一个模型,所以我们很用心的去做算法,算法层面便优化了很多,不仅速度快,而且比最新版本内置的算法的速度和精度都要好很多。比如,现在的Logisic Regression十分钟就可以完成集散。
Spark并不是非常适合的平台,但如果要改造它,投入会很大。同时我们希望做人群扩大计算能够实时,几分钟之内就会有反馈。所以,我们基于Spark做了一套引擎,又开发了新的算法实践,使其能够做到一百秒以内完成大规模的计算,速度非常快。其实我们用到的资源非常有限,基本是用十台服务器去做,且是基于Spark去做的,而Spark在调度方面浪费了很多时间,如果我们自己能够写一套好的框架,那么,计算时间有望压缩到十秒以内。
算法做出来以后,可以应用于广告预测,比如在房地产领域可以帮助客户优化户外广告牌的布局、线下的推广方案,在零售行业的宏观选址等方面,我们也都有实际应用案例。
浏览5936次
浏览1633次
浏览10763次
浏览7244次
浏览2185次
浏览5701次
2025-01-08 昆明
2025-06-20 深圳
2025-04-19 南京
2025-08-15 上海
打开微信扫一扫,分享到朋友圈