奥华视窗|奥华信息网
当前位置: 奥华视窗 > 新闻

StrataDataConference北京见闻

来源:搜狐    发布时间:2017-07-17 16:46   作者:沐瑶   关键词:北京,北京  阅读量:6838   

原标题:Strata Data Conference 北京见闻

在2017年这个炎热的7月,由O"Reilly举办的Strata Data Conference 2017北京站继去年之后第二次在北京举办。在去年,名字还叫做Strata+Hadoop Conference,可能由于Hadoop已经不能够完全代表Big Data,今年的系列峰会从年初San Jose站开始就改名为了Strata Data Conference。

由于是Committee的成员,与去年一样,我仍旧参与了候选主题的评选,并主动报名了分会场主持。同去年一样,我今年仍旧是主持了5B+C的分会场,唯一的区别是去年仅仅主持的下午场,今年则是上下午全都是我主持的。

之所以报名参加主持,原因有两个: 第一个原因是我可以全天的从头到尾听一个主会场所有的内容,没得选择,有的时候就更专注。第二个原因则是作为host,能够帮我们公司的小朋友们多弄些门票,让他们有机会来多听多学。一天听下来,还是有很多值得记录下来的东西,这里分享给大家。

Angel:面向高维度的机器学习框架

上午主题演讲结束后,5B+C的第一个演讲嘉宾是来自于腾讯的黄明。实话说,一直不知道阿里明风的真名是黄明。知道明风是大约3年前了,那个时候Spark刚刚在国内兴起。而北京的Spark社区活动一直组织的不错,TalkingData由于是国内比较早引入Spark的,因此在过往的Spark Meetup都有参加。

其中有一期在Intel举办的Spark Meetup就请了明风来做分享。当时明风的主要精力还是在Spark上进行图计算相关的工作,分享的是GraphX相关的内容。再后来,就听说明风离开了阿里,加入了腾讯。去了腾讯,自然不能用花名,于是就恢复了本名黄明。在腾讯,黄明主要负责的就是大规模机器学习相关的平台的研发,这个平台就是去年腾讯公开宣布将要开源的Angel。在2017年6月份,Angel 1.0.0正式发布。截止到今天,Angel在github上得到了1900多个star,算是一个不错的成绩了。

演讲开始前,简单的和黄明聊了一会儿,提到了他为什么想做Angel。实际上,在大数据时代,如何解决在十亿以上规模并且有上亿以上维度的机器学习模型训练效率变成了一个很大的挑战。不同的公司有不同的做法,TalkingData的数据科学团队基于Spark开发了自己的大规模机器学习库Fregata并且做了开源。行业内更常见的做法是基于meter Server来解决并行处理的问题。

不过正如黄明所说的,目前并没有很好的开源的基于PS的大规模机器学习平台。Petuum在融资后选择了闭源,而其他的几个框架都转型做其他的了。正式基于这个原因,腾讯选择基于meter Server开发一套开源的大规模机器学习平台。

从黄明的介绍看,整个平台无论性能还是易用性上,都做得不错。而且由于黄明本身是Spark社区的活跃分子,Angel可以支持Spark on Angel。这样对于很多用Spark来做机器学习的同学来讲,可以比较容易的利用Spark on Angel来实现大规模机器学习了。 有兴趣的同学可以尝试一下Angle和Fregata,并且做个对比的测试。

多视图建模与半监督学习:应用于海量用户数据挖掘与行为分析

下午第一个主题是来自于联想大数据的杨帆的这个题目。我对这个题目比较有兴趣,因为他想解决的问题就是在训练样本不足的情况下,如果先用半监督学习来利用用户行为数据进行样本的扩充,然后再基于这些被扩充之后的样本进行机器学习。这个主题的场景和我们目前基于设备行为数据进行人口统计学的预测的场景类似。

以年龄为例子,他们的基本做法:

1. 用二部图传播的方法,迭代找到有明显年龄段倾向的文档,并区分用户年龄段。

2. 发现频繁序列模式强规则,找到高置信度的样本,补充到样本池中

3. 同时用多个方法进行学习

4. 每个方法预测结果中的高置信度样本都补充到标注集中

5. 迭代直到一定条件退出

6. 对多个方法的预测结果进行投票

7. 将最后补充后的标注集,训练RFM特征视图下的LR模型,对新增数据进行预测。

抛开算法选择不提,整个思路对于样本有限的机器学习来讲,无疑非常值得借鉴。正好我们做性别预测的同事也听了这一场,希望他能有所收获。

欺诈的潜伏性:用大数据进行反欺诈检测

这个演讲来自于DataVisor中国区的负责人吴博士。DataVisor是今年比较炙手可热的做防欺诈的公司。整个演讲主要是讲了常见的欺诈的类型,以及DataVisor发现的一些欺诈的典型的特征。

整个演讲的技术和算法的东西不多,不过不同类型的网站、app面对的不同的欺诈的方法还是让人比较有收获的。近些年来防欺诈在不同领域都变得越来越重要,相信利用移动设备上的行为数据,我们能够探索出一些有价值的防欺诈模型,利用这些数据对不同领域的防欺诈提供支持和帮助。

GraphSQL:图数据和分析平台

接下来的演讲来自于GraphSQL。这是GraphSQL第一次亮相Strata做主题演讲。不过GraphSQL和TalkingData算是老朋友了,在他们的产品还不成熟的时候我们就有过接触。经过两年的发展,GraphSQL终于比较成熟了。最近几年无疑是图算法和图存储比较火热的时期,而GraphSQL就是在这股热潮中发展起来的。

演讲嘉宾乌博士一直是从事数据库的研发工作,在加入GraphSQL之前曾经是微软、Oracle和Turn的数据库核心研发成员,也是GraphSQL的前几号的员工。这场演讲主要讲了GraphSQL的一些优势以及设计理念,并且介绍了GraphSQL如何在移动运营商做实时的防诈骗。

在防欺诈这个领域里边,图无疑是具备很大价值的。不过的确目前真正好用的图数据库并不多,Neo4j在一定数据规模下还可以,但是大规模的数据情况下,性能则是一个巨大的问题。我们在测试的ArangoDB虽然发展不错,不过离成熟应该也还有很大的距离。包括与乌博士沟通,真正面临一个非常大的图的时候,GraphSQL也要去专门的做些工作在能支撑。

微软的通用异常检测平台

最后的一个演讲是来自微软的Tony Xing,是微软的通用异常检测平台的介绍。异常检测对很多场景来说非常的有价值,比如系统运营状况的异常检测,商品销售的异常检测等等。微软希望通过一个标准的平台,实现对输入的数据进行异常点的检测。

正如演讲嘉宾所讲,对于这个通用平台来讲,如何解决维度非常多的情况下还能够高性能的完成异常检测是个巨大的挑战。具体到异常检测算法,实际上本身并没有太多的可说的。

对于微软的这个平台来讲,目前对维度很多的情况并不能很好的支持。结合TalkingData自己的业务来讲,目前我们的业务运营和技术运营并没有引入异常检测能力,监控都是基于规则,这样对于很多东西我们并不能发现问题。随着数据的积累,我们也有必要在业务系统和技术运营系统引入异常检测的能力,从而能够更早的发现问题。

整个大会期间,遇到了不少熟人和朋友,国内的大数据的技术圈子不大,希望有更多的有质量的类似的会议。在9月中旬,TD将要举办智能数据峰会,我们的技术专场将会有不少新兴的大数据技术公司来分享,TalkingData的技术团队也会有几场干货满满的分享,欢迎同学们参加。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。