首页>会议文档 >

网易 刘彦东 - 当AI遇见信息流 新时代的信息分发

page:
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发
网易 刘彦东 - 当AI遇见信息流 新时代的信息分发

网易 刘彦东 - 当AI遇见信息流 新时代的信息分发

所属会议:2017WOTD全球软件开发技术峰会会议地点:深圳


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

7758次
浏览次数

文档介绍

新媒体时代,基于个性化的信息分发已有广泛的用户基础,信息流产品正逐步改变我们获取信息的方式。伴随着人工智能技术的大爆发,AI正积极的改变我们的生活。当AI遇见信息流,信息分发已经迎来变革时代,新一代的信息流产品将何去何从?本次演讲我将分享AI技术在信息流产品的应用与变革

演讲实录

我7月份回来,加入网易,之前在美国待了十年,后来去了雅虎研究院,很长时间都是做技术方面或者基于学习方面,很偏学术性研究。早在十年前我感觉机器学习不错,很有意思,现在我突然发现,全世界都在讨论AI。后来在大公司待了很多年,去了Uber。技术没有最好的,只有最适合的,这句话我非常认同。产品设计追求简单、追求便捷,在过能的场景很丰富,追求各种场景、各种很有意思的玩法,这可能和两边的技术的场景也很不一样。这是我回国以后最大的感触。
我们都知道现在是AI的时代,AI技术其实已经几十年了,大家都说的神经网络几十年前也就有。之前我们做研究都是谈论基于统计做机器学习的东西,虽然机器学习理论或者统计的东西都还在,但是今天大家讨论的都是深度学习。有几个原因,一是数据非常多,尤其是国内。我觉得在中国,国人对于手机或者移动互联网接受程度非常快,甚至大家跨过桌面互联网的时代。国内很长时间没有电脑,突然手机普及了,每个手机都可以上网,而且中国人非常擅于把生活场景搬到移动互联网。机器学习技术成熟很多年,深度学习方兴未艾。当然计算能力必不可少,同时还有场景,技术说了很多,还要落地,给用户服务,还要变现。
信息流,在座的来自各行各业或者来自不同的技术领域,对信息流不一定了解。信息流是否有明确定义呢?我不知道,这是我个人的体会。它以推荐为基础,将信息呈现在用户面前。过去大家找信息是被动的,我知道要什么。但是有信息流产品,你不知道你要什么,或者我们都不知道要什么,我们推荐一些东西给你,希望在你不断的反馈和用户的行为中探索你真正想要的,也许你不清楚,但是机器比你更清楚。内容丰富多彩,我们知道今天的信息流,广义上已经远超过新闻或者资讯的新闻,过去是要闻、新闻、大事件,今天泛娱乐和内容形式,你要看图片、新闻、音频、视频、笑话,什么都有,付费内容、知识问答。场景也是很丰富的,早上起来要看重要新闻,很自然的,甚至不需要打开手机都可以,紧急大事件我第一时间告诉你,最新的常委亮相告诉你,路况告诉你,天气告诉你,等车打开信息流,我告诉你,追星、追剧都是一站式服务。还有信息选取是被动的,你不告诉我要什么,我主动猜。本身定义人与信息的连接和关系。
信息流为何崛起?
为什么信息流会崛起?大数据+算法+计算力,但是要有场景,非常丰富和适合的场景,这个要以信息为AI驱动,好像我们说AI,AI可能沾边,贡献10%、20%,但是信息流产品是100%信息流定义,每个环节都是由AI驱动的,不光是你看到,最终你用的产品。包括内容生产、内容理解还有用户反馈,其实完全由AI决定。还有很多产品,它也许是机器学习或者深度学习驱动,比如无人车,它有硬件制造、路况和当地政府合作,其实很麻烦,门槛很高,但是信息流产品,它纯技术人员就可以完成。
信息流是这几年比较火,信息流之前我们怎么获取信息?我们再回顾一下,我们要看东西去搜索引擎搜,你明确知道要什么。比如美国总统是谁,我想知道去搜。要么是门户网站,编辑已经编辑好的页面,今天的要闻十条,我访问或者你访问。要么我知道这个网站,我很清楚,我去买东西去什么网站、看新闻去什么网站。它更多是主动的、直接的信息获取手段,而且效率很低。比如用搜索引擎,我们觉得搜索引擎很高,但是你发现要单点,你去一个地方要去一个网站,然后搜索。信息单一、效率低、千人一面。信息流的优势是理想化的AI场景应用,是+AI,不是AI+。因为有少部分人生产少量内容,到大部分人生产大量内容,实际上需要AI技术。算法永远可以复制,大家都会发Paper,甚至买云服务,但是数据是不合作的。很多公司是做云服务,卖给你技术,永远不卖给你数据。如果今天一款产品可以得到很多数据,这是最珍贵的地方,其他的东西都可以想办法解决。体量很大,一般都是几千万。同时商业变现,我觉得这也是很重要的一环,你的产品不能只叫好不叫做,很多用户在烧钱,没有意义。因为信息流对用户行为的丰富采集和对用户的深刻理解,可以做定向广告,让变现很容易,而且可以想像产品形式很容易插入最传统的展示广告。
信息流的截图,以网易新闻为例,你会看到信息流本身有这种频道,我们叫头条,其实是综合体,把各种信息的形式插入里面,我们有置顶新闻,还有很重要的新闻。还有一些热点新闻,全世界的热点新闻。然后下面还有我关心的内容,恰好是有我的,不一定是我的,也许是很多人都喜欢的,也许是我的,就会推出来。下面是广告。这个页面几乎覆盖了各个场景,它有热点,也有个性化,还有变现的方式,有图片和文字,因为受限,你往下拉还有视频。上面有分类,通过个性化,视频关心,把食品放在第二个,还有垂直频道,你是体育迷,就给你推体育。
信息流本身的体量是非常大的,也看到很多家大公司入场,但是每个产品几乎都有几千万的,排名头部的有数千万的用户。数千万的用户,如果每个用户的经营时长是几十分钟,这样就会产生大量的行为数据。生产端每天也有几十万的内容,这是各种各样的形式,首先有少量的原创,这是最独特的地方,很多地方没有原创的能力,只能去外面爬和收集信息,质量往往不能保证,同时还有海量的自媒体内容,你会发现智慧在民间,比如快手,几乎完全是民间创造,网易也是自媒体平台,大家会上传大量原创内容。还有很多其他形式,我们有社区,这是网易的特色,包括评论,还是很有意思的,里面本身有很多具体内容。还有直播和线下活动,以客户端为载体,把所有的信息、表现形式穿在一起。海量用户加海量时长就创造海量数据。
信息流产品本质
信息流的本质是什么?重新定义人和信息的关系,解决信息过载,今天信息太多,信息很多,搜索引擎太慢,其他的方式,如果自己找,也很累,就是信息流把海量的数据库把你最想要的东西展示到你面前。信息获取更加便捷,还有很多泛娱乐,帮你填补碎片时间。我们谈了信息流产品的本质,一个信息流产品怎么才是成功的呢?还是那句话,用算法以AI为驱动来预测你的需求,无非是何时何地,这里面有三个要素,你的人,就是你的用户加上你的地点和你的场景,我觉得场景包括时间和地点,来预测你的需求,过去是人找信息,过去是单点的需求,现在是全面个性化的需求,每个人的信息需求,每个人肯定不一样,每个人在不同的时间点、不同的地点也是不一样的。
信息流产品的关键步骤
信息流产品有这么几个步骤:
一是内容的生产、加工和过滤,你内容拿过来,不管是图文还是其他,要理解这个内容讲什么,质量的好坏,甚至说低俗程度怎么样,我才能更好的做推荐。你理解用户,并且把最想要、最合适的内容,在合适的时间推给你,即便你想要,时间不合适也不行。比如白天工作很忙,我给你推一个八卦信息,你也不会看。晚上我推给你,你可能觉得会看一看,这就是很典型的场景化的应用。收集用户反馈,改进模型,精准定向广告。我想强调的是,这个事情是非常综合、非常复杂的,很多人觉得信息流,它涉及内容的生产、消费,然后这种闭环,生态的建设,本身是很不容易的事情。这些环节,比如技术很好,你没有内容,这也不行,内容本身就是生态,是很长的过程,是难度很大的事情。
二是内容形式,我再具体的阐述一下,里面我个人是这么分类的,比如有文本、图片、音频,还有其他的拓展,就是知识图谱,这是内容本身。文本,有人物、标签、信息点,文章质量、文章热度。还有图片、视频,有清晰度,很多东西技术难点没有那么简单,清晰度,视频的比特率就可以,码率就可以,视频本身很不清晰,只是把不清晰用高清晰的形式表现出来,还是不清晰,这是算法的技巧。包括类别和语义,我们希望可以做到,但是不能完全做到,这个视频有谁,到底讲什么事情,有谁,这是很复杂的。否则我推就根据视频的标题,这可能不是很准确。包括用户体验,是不是有广告,是不是插入二维码。还有我们不知道的问题,转化为已知的问题解决。
三是内容处理,这个层面会提到一些,分析、处理、挖掘,这里面技术主要是用NLP、Computer Vision、知识图谱、Data Ming。用户本身我们需要了解他的用户需求和兴趣点,比如说这几个维度,有人习惯看图文、有人喜欢看视频、有人喜欢看短内容、有人喜欢看长内容,每个人的需求不一样,属性也不一样,有人喜欢看要闻、有人喜欢看娱乐、有人喜欢看八卦,其他的场景需求也是,我刚才强调了有天气、路况,如果你可以预测出,他这时候要出门,想看一下路况,或者给他发一条天气信息,他的关注度肯定很高。
四是用户画像,有这种行为画像、上下文画像、人口属性画像,有些我们可以采集到,有些要推测出来,用户行为,本身可以采集到,上下文有些自己的行为数据的积累,人口属性,也许你自己推测,也许通过第三方合作,毕竟今天的数据交换、数据共享的服务也有,你可能推算出来大体是30岁女性,城市白领,也可能不一定准确,可能别的公司也有这种很精准的服务。他们可能要求注册者必须提供这些,更精准的数据可以帮助你更好做推荐。
谈完内容、谈完用户,本质还是算法,算法是基于用户兴趣的推荐引擎。算法需要用户建模,我什么样的性别、什么样的年龄、什么样的收入,推什么内容,这是用户属性。其他的用户行为,通过阅读历史、兴趣点和时间推一些东西,还有上下文,甚至网络条件也很重要,4G和wifi和3G条件下,时好时坏推什么内容。这个时间他对高清视频推很大的,他不点,因为网络不支持,不是没有兴趣。
推荐系统架构,用户画像、检索、数据流、实验系统都要,你需要实时数据流,用户点击马上就应该更新你的模型,我这秒点这个新闻,你下一秒就应该给我反馈。我点体育赛事,你明天推,可能已经晚了,因为比赛已经结束。最后还有效果评估。
信息流生态培养
重点谈一下生态的培养,信息流不是纯信息流,需要生态的培养,来组织好用户和组织好内容,用户一方面是客户端用户,另一方面是自媒体号用户,就是网易号用户,现在都很重视生态的培养。内容是起点,用户是终点,形成闭环,互相促进。比如某个影视剧在某个时间段很火,鼓励生产者都做生成。这个是动态的,包括一些兴趣点可能是临时的,也有一些长期的,比如NBA之类的,可以放在池子里反复推荐,鼓励大家更好做这些事情。大量内容来自PGC/UGC,UGC是用户生产,看起来质量不那么高,但是有些个人观点很好,有很多量,能达到个性化、千人千面的效果。包括内容创作要审核、过滤,毕竟接口开放给大家会有各种各样的内容涌进来,泥沙俱下,要把这些好的内容挑出来,把糟粕过滤出去。希望完全机器做,如果风险很大,还需要加一道人工。最终用户看到的用户体验一定是最好的内容。人工标注来促进人工智能的发展,这个我们很熟悉,一开始数据不够,人工标,标一阵,数据可以了,反过来就不需要人的工作。
信息流未来发展趋势
再谈谈我对信息流未来的发展变化趋势判断,形式越来越多样,图文、视频、音频,今天看到音频不是很多,很多是第三方的,只做音频内容,信息流这种瀑布流的形式,我觉得内容是不拘一格的,音频一定会出现,知识问答也会有,知识问答今天很多公司已经在做了。实际上只要有用户、有流量、有兴趣点、有热点,为什么不做问答?一个是把内容形式变得更多样,另一方面社交属性,一旦做问答,可能就把用户的互动性建立起来,其实就是往社交方向引导,很多人想能不能做社交,黏性越来越强。当把所有生活场景覆盖掉以后,你发现离不开这个产品,这个产品也许变成你一站式的服务,也许将来不需要搜索引擎和第三方,通过这个就可以获得你想要的所有信息。
场景更加细分,刚才提到一些,要做个性化、做推荐,为达到更好的效果,肯定要把这些列出来。有些东西机器可以分别出来,有些需要在产品思考,要真正思考一下用户是怎么用这个产品。我大体罗列了一下,早上起来,我给你发一些东西和晚上起来发一些东西,东西不一样。晚上是一些沉淀的东西,可能是一些精读,体育赛事,如果有体育赛事,关心体育赛事,一定是第一时间push,明天看可能没有意义。有时候抱怨手机收到信息太多,但是你关心的体育比赛,推给你,你一定是放在重大新闻。还有追剧,电视上热播的剧,我们推给你,甚至精彩片断,相信你会点。打发时间,等车的时候拿出来,我们判断出你在车站,拿出来就是打发时间,我可能推一些泛读的东西给你,还有路况信息。
AI本身的角色会发挥更大的价值,这无需多说,我很看好AI在信息流的应用。随着内容形式复杂,必须通过AI。
AI的应用价值
刚才说AI很泛泛,机器学习和深度学习具体能干什么?我们知道视频、图像的分类,这个不多说。深度学习CNN、RNN、ETC很多,这方面进展很热,我自己也看。明星脸识别,看视频,如果视频关于明星,识别出来推荐给合适的人还是可以做到的。语音识别,音频拿过来转化为语音,这包括不同地区的语音。三俗、不适内容,这个很关键,其实很多内容,我觉得并不适合推给大家,或者不适合在很多场景下推给大家。很多很低俗的内容,今天看来,这个生态是其中一部分,今天很多人为了拿到流量,故意生产一些不太好的内容,或者比较低俗的内容,也许一部分人推给他不介意,但是很多人介意。如何挑这些内容出来,是很困难的。这种不适内容和低俗内容如何定义,还没有很好的定义。
还有比较传统的理论,迁移学习,今天你点很多图文,明天我突然上马视频项目或者音频项目,没有用户数据,如何快速的把你在其他领域的积累,马上被模型迁移到另外的领域,很关键,因为短视频很火爆,如果今天说推短视频场景,我花一年时间积累五百万用户数据做好的模型,已经来不及,必须把现有的信息扩展到新的。
智能写稿我觉得也是很好的方向,今天很多场景下,写稿需求很紧迫,比如体育赛事和重大新闻和重大自然灾害,大家比的是谁快、谁准确,如何能在已知的现有条件下,让机器人把稿件准确写出来,并且传播,这是我们的核心竞争力之一。有时候人可以盯着,但是人总有失误的时候,可能会慢一点,人写又很慢,如何用机器更精准的把信息真实表达出来,并且传播,我觉得是未来的方向之一。
以上就是我演讲的全部内容。谢谢大家!

×

打开微信扫一扫,分享到朋友圈