阿里巴巴离线大数据处理平台概述.pptx
《阿里巴巴离线大数据处理平台概述.pptx》由会员分享,可在线阅读,更多相关《阿里巴巴离线大数据处理平台概述.pptx(30页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、提纲大数据时代阿里巴巴数据事业部离线大数据处理平台(ODPS)我们面临的主要问题ODPS部分功能概览结语第1页/共30页大数据时代2第2页/共30页大数据时代的挑战3社交网络、用户行为、购买关系企业内外IT系统的整合数据规模爆炸式增长结构化与非结构化数据并存、噪声增多组合离线、在线、流式等多项计算能力提供解决方案在大数据上应用传统统计学和数据挖掘算法数据关联性用户隐私保护、商业数据泄漏、复杂的访问控制需求企业发展的达摩克利斯之剑处理能力如何利用大数据盈利数据驱动的新业务模式与企业传统业务模式的冲突数据安全商业模式第3页/共30页阿里巴巴的大数据产品探索第4页/共30页淘宝贷款5解决小微企业贷款
2、难的问题:金额高流程长授信难周期长完全以数据驱动的产品对既有数据进行二次挖掘颠覆原有业务模式规模优势第5页/共30页阿里巴巴大数据事业部6离线存储与计算在线存储与计算实时计算流式计算任务调度与管理数据开发与数据可视化界面数据同步数据质量监控元数据管理安全与审计计量与计费服务化API&SDK算法库数据产品数据地图数据共享与合作第6页/共30页阿里巴巴离线大数据处理平台ODPS(Open Data Processing Service)支持海量结构化数据的离线存储和计算以RESTful API的方式提供服务基于阿里巴巴自主知识产权的分布式操作系统支持高吞吐量的数据上传下载服务支持SQL和存储过程支
3、持MapReduce、BSP编程框架支持常用的矩阵运算和数据挖掘算法支持多用户管理和基于ACL和policy的权限控制基于ODPS可以打造完整的数据仓库解决方案第7页/共30页我们面临的主要问题首先需要提供一个高效稳定的离线存储和计算引擎如何支撑5万、15万台以上的机群规模?多集群架构,运维和管理系统如何在一个平台上支持多个组织的多个用户进行开发?多租户支持,安全隔离,权限控制如何了解业务运行状态?元数据管理,指标系统如何管理不同种类的任务?服务化,统一计算入口,可度量和控制的计算资源准实时查询,R-ODPS,我们还在继续探索第8页/共30页高效稳定的计算模型9SQL、Map Reduce仍然
4、是离线运算的主流,但是,频繁IO带来的性能瓶颈模型描述能力的局限第9页/共30页准实时查询10优势:避免IO消耗节约调度成本劣势:Failover资源占用数据规模适用场景:Ad hoc分析第10页/共30页图编程功能:统一的API、授权、数据存储、metaMaster-slave,worker负责子图通过迭代在节点间通讯和修改图拓扑挑战:数据倾斜时的内存控制与其他类型作业共存错误恢复优势:方便处理图数据多轮迭代性能远好于MR应用场景:推荐、社交网络、物流、第11页/共30页利用图编程实现SSSP算法(1)GraphLoader 图加载基类 public static class SSSPGra
5、phLoader extends GraphLoader Override public void load(Record record,MutationContext context)SSSPVertex vertex=new SSSPVertex();vertex.setId(LongWritable)record.get(0);String edges=record.get(1).toString().split(,);for(int i=0;i edges.length;i+)String ss=edgesi.split(:);vertex.addEdge(new LongWritab
6、le(Long.parseLong(ss0),new LongWritable(Long.parseLong(ss1);context.addVertexRequest(vertex);第12页/共30页利用图编程实现SSSP算法(2)Vertex 点基类public static class SSSPVertex extends Vertex Override public void compute(ComputeContext context,Iterable messages)long minDist=(getId()=1)?0:Integer.MAX_VALUE;for(LongWri
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 阿里巴巴 离线 数据处理 平台 概述
限制150内