橘云大数据处理平台27312.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《橘云大数据处理平台27312.pptx》由会员分享,可在线阅读,更多相关《橘云大数据处理平台27312.pptx(42页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、2011年3月AI MMC操作控制中心方案1l 新产品研发中心 橘云平台产品线l 亚信联创科技(中国)有限公司l 2013年4月橘云大数据处理平台Orange Cloud Data Computing提纲23橘云大数据处理平台功能与特点橘云大数据处理平台部署方案1橘云大数据处理平台简介4橘云大数据处理平台二次开发接口5橘云大数据处理平台业务场景示例概念大数据:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到抽取,管理,处理,并整理成为帮助企业经营决策更积极目的的资讯。大数据的3V特点:volume,velocity,variet
2、y大数据的单位:最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,云计算:(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。意味着计算能力也可作为一种商品通过互联网进行流通。云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。云模式:cloud model,用于预测云的性能和行为而采用的物理或数学框架“大数据”时代已经来临 互联网时代,尤其是社交网络、电子商务与移动通讯把人类社会带入一个以PB为单位的结构
3、与非结构数据信息的新时代,它就是“大数据(BigData)”时代。大数据为云计算的大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题。这个领域的计算标准与软件均刚刚起步,为全世界新型软、硬件及应用创新提供了前所未有的机会。Volume海量Variety多样Velocity实时数据处理的量级正从TB级向PB、ZB级扩张。能处理结构化数据和非结构化数据,Web 数据、语音数据甚至是图像、视频数据。从延迟、批量处理向实时处理、流式处理转变,支持海量数据的毫秒级运算。“大数据”的3V特性移动运营商的云计算需求单个网民日均上网时间增长趋势(小时)单个网民日均上网时间增长趋势(小时)
4、网民数量增长趋势(亿)网民数量增长趋势(亿)中国手机互联网用户每周手机上网频次统计中国手机互联网用户每周手机上网频次统计数据来源:中国互联网发展状况统计报告、中国移动互联网与3G用户调查报告 DCCI 2010手机互联网受众消费与广告营销调查44.4%中国手机互联网用户每周媒体接触时长统计中国手机互联网用户每周媒体接触时长统计33.3%3.18亿亿随着智能手机的快速普及以及移动互联网业务的迅猛发展,各种网络信令、互联网、流量数据信息等数据源竞相引入,对经营分析数据处理及存储要求不断增加,传统的BI数据处理架构在日益增长的计算、存储、可靠性要求以及系统扩容成本等方面均面临着严峻的考验:计算能力传
5、统ETL工具对主机性能依赖较大,数据处理任务交错,无法充分利用设备性能。很多在DB/DW中进行的数据校验、转换等工作对应用性能影响较大。存储能力存储压力大,海量存储难以满足。存储扩容难度大。高可靠性传统ETL方式可靠性不高,运维管理复杂,影响应用的稳定性和数据安全性。扩容成本扩容成本高,难度大、主机、存储、数据库成本占系统建设比重大,压缩了应用建设的投入。面临的问题结构化和非结构化数据1、对于IT行业来说,大数据,云计算,云模式,无疑是未来的热门研究领域。2、大数据是由结构化和非结构化的数据组成。3、结构化数据是存储在数据库里面,占大数据的10%4、非结构化数据是跟人类信息密切相关的数据,比如
6、说邮件,视频,微博,帖子,手机呼叫,网页点击等。它们占大数据的90%。1、结构化数据:任何一列的数据不可以再细分;任何一列数据都有相同的数据类型;所有关系型数据库中的数据,全部都是结构化数据;一般文件中的数据,就不是结构化数据;2、非结构化数据;不是结构化数据,即非结构化数据;简单来说,一列的数据可以再细拆分;1、分布式系统(distributed system)是建立在网络之上的软件系统;2、分布式数据库:分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都有DBMS的一份完整拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组
7、成一个完整的、全局的大型数据库。3、Hadoop是一个分布式文件系统的基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。HADOOP实现了一个分布式文件系统,简称HDFS。并且设计用来部署在低廉的(low-cost)硬件上。且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HADOOP概念1、HADOOPr产品介绍:1.1:HDFS:可以支持千万级的大型分布式文件系统;1.2:HBase是一个分布式的、面向列的开源数据库;HBase不同于一般的关系数据库,它
8、是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。1.3:MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的把完成的工作和状态的更新报告回来。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。主要产品对应关系 GoogleHadoop分布式文件系统GFSHDFS,分布式数据处理模型和执行环境,运行于大型商用机集群。分布式数据库BigTableHbase,一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。
9、分布式编程算法MapReduceMapReduce,分布式数据处理模型和执行环境,运行于大型商用机集群。分布式锁服务ChubbyZooKeeper Hadoop是一个分布式系统基础架构项目的总称,起源于作者儿子的一只玩具大象的名字,由Apache基金会开发,并开源提供支持,后来被FaceBook等互联网公司选用,在此基础上进行二次开发。主要产品是HDFS,Hbase,MapReduce。扩展能力:能可靠地存储和处理千兆字节(PB)数据。在不保证低延时的前提下,具有相当大的吞吐量,非常适合海量数据的运算。成本低:可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。而
10、且每个节点都是运行在开源操作系统Linux上面的。高效率:通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。可靠性:hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。该框架设计的初衷是针对海量数据的运算处理的问题。因此对于一些数据量很小的处理没有任何优势可言,甚至还不如单机串行的效果,性能也完全体现不出来。集群中存在大量的机器,所以节点故障是不可避免的。在Hadoop中有两种类型的结点:namenode和datanode。Hadoop集群采取的master/slave结构。Datanode故障一般是不会影响
11、整个系统的,这个和它的存储策略有关。但是namenode故障是是极大的问题其文件系统设计的前提是一次写入多次读取的情况,因此我们是无法修改某条详细的数据。为什么选择Hadoop选择Hadoop需要注意什么HadoopGoogle分布式技术的开源实现橘云大数据处理平台OCDC简介 OCDataComputing平台包含基于Map/Reduce的分布式批量计算和基于流式计算技术的分布式实时计算功能,实现海量数据的并行处理。适用于ETL、经营决策、用户行为分析、精准营销、移动互联网等领域的智能数据处理与分析。橘云大数据处理平台技术架构云平台基于文件刀片机或PC Server分布式存储和并行计算方便扩
12、容全图形化配置监控传统ETL基于数据仓库小型机以上统一存储和单节点运算难以扩容需要专业人员维护云 VS 传统平台VS传统ETL提纲23橘云大数据处理平台功能与特点橘云大数据处理平台部署方案1橘云大数据处理平台简介4橘云大数据处理平台二次开发接口5橘云大数据处理平台业务场景示例平台功能概要基础数据元数据接入平台自定义节点活动类别维度数据数据流程数据流程编辑数据清洗转换算法数据抽取加载参数调度任务触发器启动参数任务组依赖任务监控监控任务操作任务批量执行系统管理用户管理角色管理Hive查询数据 HIVE:就基于HADOOP的一个数据仓库的工具,可以将非结构化的数据文件映射为一张数据库表,并提供完整的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 橘云大 数据处理 平台 27312
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内