大数据处理平台构架设计说明书.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《大数据处理平台构架设计说明书.pdf》由会员分享,可在线阅读,更多相关《大数据处理平台构架设计说明书.pdf(14页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、1/14 大数据处理平台及可视化架构设计说明书版本:1.0变更记录序号版本变更说明修改人/日期审批人/日期1 1.0 创建李万鸿2015-3-18 2/14 目录11.文档介绍 .31.1文档目的.31.2文档范围.31.3读者对象.31.4参考文献.31.5术语与缩写解释.32系统概述 .43设计约束 .54设计策略 .65系统总体结构.75.1大数据集成分析平台系统架构设计.75.2可视化平台系统架构设计.116其它 .146.1数据库设计 .146.2系统管理.146.3日志管理.143/14 1 1.文档介绍1.1 文档目的设计大数据集成分析平台,主要功能是多种数据库及文件数据;访问;
2、采集;解析,清洗,ETL,同时可以编写模型支持后台统计分析算法。设计数据可视化平台,应用于大数据的可视化和互动操作。为此,根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。1.2 文档范围大数据的处理,包括ETL、分析、可视化、使用。1.3 读者对象管理人员、开发人员1.4 参考文献1.5 术语与缩写解释缩写、术语解 释BDBig dataSD 系统设计,System Design 4/14 2 系统概述大数据集成分析平台,分为 9 个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。设计数据可视化平
3、台,分为 3 个层次,在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。5/14 3 设计约束1.系统必须遵循国家软件开发的标准。2.系统用 java 开发,采用开源的中间件。3.系统必须稳定可靠,性能高,满足每天千万次的访问。4.保证数据的成功抽取、转换、分析,实现高可信和高可用。6/14 4 设计策略1.系统高可用、高性能、易扩展,安全稳定,实用可靠,满足用户的需要。2.系统可以进行扩展,增加数据的种类和数量。3.系统可以复用别的软件和算法。7/14 5 系统总体结构5.1 大数据集成分析平台系统架构设计1.逻辑架构2 架构说明系统分为 9 个层次:8/14 1)数据源:CSM
4、AR 数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库、互联网的网页。2)数据获取层:接收数据源的数据和抓取网页,建立知识图谱将网页数据结构化,为人工和机器决策提供依据。3)数据导入层:通过sqoop 把数据库的数据导入hbase,用 flume、kafka把网页导入 hbase。4)数据加工层:对导入的数据进行清洗、抽取、整合,并存入数据核心存储层。5)数据核心存储层:采用hbase、关系数据库保存加工后的数据。6)数据分析处理层:通过统计分析、数据挖掘、机器学习、风控模型等对大数据进行分析处理。7)数据服务存储层:存储分析结果,包括 Elastic search 分
5、布式搜索,redis分布式缓存。8)应用层:包括报表引擎、规则引擎、风控搜索引擎、用户认证系统、统计分析接口等。9)服务层:对内的应用服务和对外的应用服务,为用户提供系统功能。系统采用一系列先进的开源技术框架,实现大数据的抽取、ETL转换、清洗、整合、汇总、统计分析,得出可信度高的结果,高速稳定地响应用户的请求,可对公司的宽系列产品提供高质量的支持。还可建立企业云,把大数据平台放到云上。系统从 CSMAR 数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取与金融相关的网页,对这些结构化和非结构化的数据进行抽取、清洗、整合、转换,存入 h
6、base数据库。统计分析程序采用一定的算法和模型通过spark、hadoop的 yarn、hive、pig等读取处理数据,结果保存在服务层数据库,为用户提供可信的数据,还可通过可视化以各种统计图展现出来,通过pc、手机可以看到结果。系统提供可视化的操作界面,用户可自己定义统计统计和参数,系统计算分析后给出对应的图表。3.系统的特点9/14 1、高负载和海量数据处理能力以云存储或本地存储为基石,以云计算或企业服务器为处理核心,建立了海量的数据业务支撑的大数据平台。每天可以承受千万级PV的访问压力,支撑亿级用户及P级各类数据存储如金融数据、网页、日志文件、图片、文档、影音等。基于此大数据支撑平台,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 平台 构架 设计 说明书
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内