阿里云
服务器地域选择
发表主题 回复主题
  • 540阅读
  • 0回复

[干货分享]技术创业难?看他们如何玩转大数据与机器学习

级别: 论坛编辑
发帖
283
云币
145
引用
摘要: 峰值期间,汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹;同时,还需要根据用户需求在亿级日志表中做秒级查询。
vgn,ZcX  
+wEsfYW  
开始数据创新案例探索之后,汇合营销(杭州汇江容海网络有限公司)是笔者走进的第二家公司,在拜访过程中, 通过CEO周鹏与CTO欧阳明对笔者了解到,在这个技术普惠的时代,汇合营销的发展之路铺设与架构 ^ %1u3  
##" Hui  
汇合营销大数据规模与挑战 L'e|D=y  
4?_^7(%p  
对于任何一家创业公司来说,成本与-效率都是一个不得不考虑的问题——周鹏。 YvUV9qps~  
a0k/R<4  
汇合营销主要提供汇合DSP和汇合DMP两个平台,为电商为主的广告主提供推广服务。此外,在接受商家的精准化需求之后,根据具体的业务场景,为电商广告主提供精准化的营销广告。在整个过程中,周鹏表示,构建一个完善且能够持续服务的大数据平台成为关键,这需要大量的人力与物力;此外,这个平台还需要有足够的“弹性”来满足业务:既要撑得住双11期间的流量峰值,又要能够在平时做好运维成本控制。 WQ{^+C9g'1  
7<*g'6JG[  
峰值期间,汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹;同时,还需要根据用户需求在亿级日志表中做秒级查询——欧阳明。 5z.Y}  
wO]H+t  
纵览汇合营销整个大数据系统,在技术挑战上,欧阳明主要归结于以下三条: ?%T]V+40  
9 H>J S  
  • 大量的数据统计。汇合营销每天收集到的数据,多的时候一天有20多亿访客浏览轨迹,在DMP业务系统中,需要对每个访客的浏览内容进行分析,打上相应标签并进行统计;同时,数据分析师每天也需要产生各种报表,帮助客户进行广告优化。大量的数据存储、统计和大量的业务需求,这使得开发过程中,既要保证高效率,同时也要降低成本。
  • 实时大数据查询。广告商在后台的推广组选择标签时,系统需要在毫秒级的时间内显示标签的用户量并预估展现量信息,由于用户选择的标签一般都会比较多、条件比较复杂,并且每个标签的用户也可能重复,从而无法在用户选择标签前做预计算,必须每次在亿级日志表中查询,而且要保证平均延迟不超过1秒。
  • CTR预估。CTR预估能够决定广告的精准程度和带来的收益,是广告竞价系统中一个比较核心的部分。在汇合营销,我们使用业内优秀的大数据框架和机器学习算法,例如场感知分解机模型(FFM)、逻辑回归算法等,来训练收集到的TB级数据,将训练好的模型应用于CTR预估,提升了广告投放的精准度,从而有效提升广告效果。
/i"1e:cK  
_Q*,~ z~  
因此在考量了技术与资源之后,汇合营销选择了阿里数加,通过云服务来取得技术与-效率优势,周鹏总结道。 7Xh ;dJAF3  
N.V5>2  
汇合营销大数据系统架构 #Fh:z4  
;IT'6m`@W  
开发效率与使用门槛促促成了这个基于云的架构,最大程度减少了运维,即开即用,避免资源浪费——欧阳明。 (ul_bA+  
`nd$6i^#W  
欧阳明表示,数加有完善的大数据解决方案,能够与阿里云其他产品无缝对接。汇合营销使用了数加的大数据套件、ODPS、DataV和分析型数据库,也尝试了机器学习平台。具体参照下方架构图,通过阿里云数加产品确定的边界,整个系统架构非常清晰: mW3 IR3 b  
!^aJS'aq  
Jb|dpu/e  
|-]'~ @~  
.aC/ g?U  
现在汇合营销大部分离线统计需求都在大数据套件中开发,将数据使用做到非常简单,只要能够写SQL,就可以导出自己需要的报表,满足了大部分的业务需求。此外,分析型数据库能够满足在亿级数据中做毫秒级查询,在数据分析方面,是一个非常不错的工具。在使用数加之前,汇合营销曾搭建了Spark和Hadoop,但每次数据报表都需要开发人员来导出,而且在维护、资源使用上都需要很好地平衡,使用和维护成本相对比较高。 &8JK^zQq  
QOv@rP/  
而数加大大降低了数据使用门槛、提高开发效率,现在汇合营销的数据分析团队(非开发人员)都能够独立完成大部分的数据报表需求。此外,数加的按需计费避免了资源空闲,从年初的对比来看,数加在满足同等业务需求基础上能够减少一半的支出,有效地节约了成本开支,帮助创业型企业快速成长。
x
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
如果您在写长篇帖子又不马上发表,建议存为草稿
 
验证问题: 52 + 13 = ?
上一个 下一个