欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据仓库的开发设计过程 (1).docx

    • 资源ID:35047368       资源大小:274.53KB        全文页数:40页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库的开发设计过程 (1).docx

    数据仓库之路FAQFAQ目录一、与数据仓库有关的几个概念31.1目录3二、数据仓库产生的原因8三、数据仓库体系结构图114.1 数据仓库的建模124.2 数据仓库建模的十条戒律:13五、数据仓库开发过程145.1 数据模型的内容145.2 数据模型转变到数据仓库14在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节 数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处 理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据 冗余而加以限制。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及 其数据相别离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的 需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的 分析处理环境而出现的一种数据存储和组织技术。三、数据仓库体系结构图中&仓中&仓心:*“收ponxft isr-a馋用户 OWE A,接用户 OWE A性用户 OWER“分5数据仓库结构的元件数据仓库结构的元件riujkingUsingData Warehouse DesignData Mart DesignOperationalData End-User ToolsData MartsData TransformationsDB Schema Transformation! SchedulingOLAPMicrosoft RepositorvData Warehouse ManagementDat® Flow。刃 m .-J9W、数据仓库设计数据仓库的建模数据模型1)所有的实体都是平等关系。2)仅仅从数据模型的角度来着手设计数据仓库会产生一种“平面”效应。 星型连接1)事实表:位于星型连接的中央,它是被大量载入数据的实体。2)维表:周围的其它实体。3)在很多情况下:文本数据与数值数据是别离开的。通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了 数据。星型连接应用于设计数据仓库中很大的实体,而数据模型那么应用于数据仓库中较 小的实体。4.1 数据仓库建模的十条戒律:1)必须回答紧迫的问题;2)必须有正确的事实表;3)将有正确的维表,描述必须按最终用户的业务术语表达;4)必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;5)对于事实表,应该有正确的“粒度”;6)根据需要存储正确长度的公司历史数据;7)以一种对于公司有意义的方式来集成所有必要的数据;8)创立必要的总结表;9)创立必要的索引;10)能够加载数据仓库数据库并使它以一种适宜的方式可用。五、数据仓库开发过程建立或获得企业的数据模型; 定义记录系统;设计数据仓库并按主题领域进行组织; 设计和建立操作型环境中的记录系统和数据仓库之间的接口,这些接口 能保证数据仓库的载入工作能有序的进行;开始载入第一个主题领域,进入载入和反应过程,数据仓库中的数据在 此过程中也在不断地改变。5.1 数据模型的内容 标识主要主题领域。 各个主要主题之间的各种关系。 清晰地定义模型的边界。 把原始数据和导出数据别离。 每个主题领域需要标识/键码/属性/属性分组之间的关系,多重出现的数据/数据的类型5.2 数据模型转变到数据仓库如果原先没有时间元素的话,时间元素必须加入到键码结构中 必须清除所有的纯操作型数据需要将参照完整性关系转换成“人工关系” 将经常需要用到的到处数据假如到设计中对数据的结构进行调整/增加数据阵列,增加数据冗余/在合适的情况下进一步别离数据/在合适的时候合并数据表 需要做数据的稳定性分析数据仓库开发成功的关键关键:是数据体系结构设计者和DSS分析者之间的反应循环。有几点观 察结果对数据仓库环境的成功建立是至关重要的问题: DSS分析人员一定要严格遵循“给我我所要的东西,然后我能告诉你我 真正需要的东西”的工作模式;反应循环的周期越短,越有可能成功; 需要调整的数据量越大,反应循环所需要的周期就越长六、数据仓库的数据采集许多部件构成了数据仓库系统。这个系统从现有的操作系统开始,一局部为支 持数据仓库而设的后台处理,以访问和运用数据仓库内数据的用户工具而结束。 在中间是个分散过程,它使数据以一种局部而不是集中的方式来支持用户。至于 其他系统,那么是覆盖这些处理过程技术的基础,如平安系统,它不仅控制着在终 端数据仓库的输入过程,还控制着用户在数据仓库的前台访问能力。数据仓库处 理的部件如图:6.1 后台处理数据仓库系统的后台处理利用了操作系统的数据存储器,以进入数据仓库内占 有活动区域:这个处理包括以下几个局部:数据处理为数据仓库收集数据的过程是从当前操作系统开始的。该数据 仓库的后台处理需要被分成可管理的几个处理模块。操作系统生成必须处 理和输入到数据仓库的事务。在数据仓库系统的结构内必须有一种方法来 截取和收集那些在操作系统内已改变的数据,主要用于数据仓库的输入处 理。数据采集 在收集到操作数据存储器内的变化后,数据仓库的后台处理必 须采集所有同以前提供的事务相关的数据。数据采集过程通常仅仅获取驱 动数据采集过程的关键信息。数据制备成事务库并用它来更新和供给数据仓库系统。这个过程在整个数 据仓库系统中是最复杂的,因为用户正处理多种遗留数据源。这些数据源中的一 些较为容易使用,而大局部那么不是这样。6.2 中间处理数据仓库系统的中间处理利用了一个登台区域来完成在数据仓库中对用户游 泳的数据。登台区域有时被叫正式地指定为操作数据存储器。 数据清理 在收集到所有从操作系统存储器得来的相关信息后,数据必须 在放入数据仓库之前进行清理,以获得一个适当的统一的格式和定义。 数据的放置和分发当完成数据清理后,数据就必须放置到数据仓库中。 标准报表的编译和索引在数据已放入数据仓库数据存储器之后,对包含于 数据仓库系统内的标准报表必须进行编译和索引。在这个过程结束后,报 表很像数据仓库内的原始数据,将让用户在线有用,不必用纸张的形式发 送。中间处理更新了数据仓库中登台区域的数据,并使之成为可供最终客户,也就 是数据仓库系统的用户使用的信息库。6.3 前台处理前台处理过程涉及到允许用户对数据仓库所包含的信息进行正确的访问,及提 供用户工具集所需的目录和中间数据信息。大多数数据仓库工程的目标应当是驱 使这一过程进入强大的用户领域,并脱离信息系统空间。然而,需要构造几个关 键的应用程序以用于经验缺乏的数据仓库用户。该过程的任务包括用新的信息内 容来更新访问数据仓库的应用程序,通过适当的用户工具组内的视图或分类定义 来提高访问能力。6.4 数据仓库的技术体系结构虽然普遍认为数据仓库系统能够改善最终用户查询、报表生成和DSS能力, 而且能帮助组织投入公司数据以获取市场竞争优势,但在数据仓库系统构成方面 看法却不尽相同。数据仓库的技术体系结构如以下图:外司数据夕陪阮螂徵财皴设计模块:用于设计数据仓库数据库传输,传输,数据获取模块:用于从源文件和源数据库中获取数据,并进行清洁、 将它加到数据仓库数据库中5.3 数据仓库开发成功的关键15六、数据仓库的数据采集166.1 后台处理176.2 中间处理176.3 前台处理186.4 数据仓库的技术体系结构186.5 数据的有效性检查206.6 清除和转换数据206.7 简单变换226.8 清洁和刷洗246.9 集成256.10 聚集和概括276.11 移动数据27七、如何建立数据仓库307.1 数据仓库设计317.2 数据抽取模块327.3 数据维护模块33 管理模块:用于管理数据仓库的运行信息目录模块:用于为管理者和企业用户提供有关存储在数据仓库数据库 中的数据的内容和含义信息 数据访问模块:用于为企业的最终用户提供访问和分析数据仓库数据的工 具 中间件模块:用于最终用户工具提供访问数据仓库数据库的方法 数据传递模块:用于向其他仓库和外部系统中分配数据仓库数据数据仓库的三个重要组成局部,专家们一般把整个数据仓库的建设按照其不 同性质,把它分为三个截然不同的局部,分别是:源数据、数据准备、以及数据 呈现。现在讲的最多的OLAP分析和决策支持等,都是属于数据呈现的局部,下 面我们来讲一讲数据准备阶段的问题。6.5 数据的有效性检查为防止数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检 查,这是很重要的。如果没有进行刃具的有效性检查,就有可能破坏依赖于数据 仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统专家。源 系统专家包括具有技术专业知识和非技术知识的人士。检查数据仓库中数据的有效性是一个非常耗时但必不可少的过程。建议该过程 应高度自动化。SQLServer7中有许多内置功能,可自动进行数据有效性检查。6.6 清除和转换数据有效性检查是决定是否符合给定标准的过程。标准是依赖于安装的,为某个站 点开发和执行的标准可能在其他地方毫无意义。如果数据不在给定的界限之内, 它就成为我们称作scrubbing (清除)过程的对象。清除数据包括对那些在给定范 围之外的数据采取纠正措施。数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平 台上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。如何 向数据仓库中加载这些数量大、种类多的数据,已成为建立数据仓库所面临的一 个关键问题。在数据迁移的过程中,通常需要将操作数据转换成另一种格式以更加适用于数 据仓库设计。在太多数情况下,转换是将数据汇总,以使它更有意义。在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到 数据仓库的同步。同步结构应当把重点放在转换语言的标准化、数据移动平台、 通信策略和支持策略方面。数据仓库与操作数据存储器之间的同步过程能够采取 不同的结构。除寻找自动化转换操作的工具之外,还应估计数据转换的复杂性。大多数传 统的数据存储方法缺乏标准,常常有些不规那么的东西让开发员摸不着头脑。工具 正在不断改进以有助于转换过程的自动化,包括复杂问题,如掩匿的数据、传统 标准的缺乏及不统一的关键数据。提取处理是数据仓库成功的关键。在提取过程中,数据会被格式化,并分发给 需要从操作环境中共享数据的资源。元数据存储的工作是定义和解释数据资源和 数据标准。因此,在操作数据上执行的转换过程应该用元数据存储中定义的标准 数据格式放置数据。我们可以定义数据变换的几个基本类型,每一类都有自己的特点和表现形式: 简单变换单变换是所有数据变换的基本构成单元。这一类中包括的数据处理一次只 针对一个字段,而不是考虑相关字段的值。 清洁和刷洗目的是为了保证前后一致地格式化和使用某一字段或相关的字段群。 集成集成是将业务数据从一个或几个来源中取出,并逐字段地将数据影射到数据 仓库的新数据结构上。 聚集和概括聚集和概括是把业务环境中找到的零星数据压缩成数据仓库环境中的较少数 据块,有时进行聚集中的细节数据是为了防止仓库存入业务环境中的那样具体的 数据,有时那么是为了建立包括仓库的聚集副本或概括副本的数据商场。6.7 简单变换顾名思义,它是数据变换中最简单的形式,这些变换一次改变一个数据属性而 不考虑该属性的背景或与它相关的其他信息。 数据类型转换最常见的简单变换是转换一个数据元的类型。当现有应用程序存储某个类型的 数据只在该应用程序的背景下有意义,在企业水平上却没有意义时,就常常要求 进行这类变换。这类转换可以通过编码程序中的简单程序逻辑完成,或者运用数据仓库数据变 换工具完成。 日期/时间格式的转换因为大多数业务环境都有许多不同的日期和时间类型,所以几乎每个数据 仓库的实现都必须将日期和时间变换成标准的仓库格式。这可以通过手工 程序编码来完成。它能把一个日期或时间字段拆成几个子局部,然后再将 它们拼成想要的字段。然而市场上的大多数数据变换工具只提供了日期和 时间格式之间迅速进行简单转换的设施,而手工编码上下的功夫要少得多。 字段解码简单地说,数据一般不应该以编码的格式放在数据仓库中。我们在业务数据库 中建立代码是为了节省数据库存储空间。虽然人不理解这些代码,但这并不是大 问题,因为我们与那些代码的交互作用是由应用程序管理的。这些程序在必要的 时候会成为我们破解那些值的代码。在数据仓库环境中,情况就大不一样了。因为拥护可能来自公司的任何部门, 所以仓库的所有用户不可能都有足够的背景知识和培训,使他们能够理解在业务 数据库中使用的编码值。因此,业务系统和外部数据中的编码值在存入数据仓库之前,应该转换为经过 解码的、易于理解的相应值。一方面,我们想把编码值充分扩展,使它们为最大 多数的用户理解;另一方面,把一个值扩展得太多要占用额外的存储空间,而且 把该值当作查询中的检索标准也很困难。由于顾客情况代码不被普遍理解,所以 应该扩展为一个有意义的、易于理解的值,以便仓库用户能够认出它。用到的准 那么是:必须长到足以被大多数仓库用户理解。从技术角度看,字段解码是个非常易于实现的过程,它可以很容易地结合到变 换程序中去,也可以在数据转换工具中轻松地完成,然而,确定应该进行多少解 码工作是很难的。但一个好的解决方法往往提供了足够的解码,这样即使普遍用 户也可以理解字段值的含义,并且可以用全面理解数据元值及其用法的元数据加深他的理解。6.8 清洁和刷洗清洁和刷洗是两个可互换的术语,指的是比简单变换更复杂的一种数据变换。 在这种变换中,要检查的是字段或字段组的实际内容而不仅是存储格式。一种清 洁是检查数据字段中的有效值。这可以通过范围检验、枚举清单和相关检验来完 成。有效值范围检验是数据刷洗的最简单形式,它是指检验一个字段中的数据以保证它落 在预期范围之内,通常是数字范围或日期范围。枚举清单也相对容易实现。这种方法是对照数据字段可接受值的清单检验该字 段的值。相关检验稍微复杂一些,因为它要求将一个字段中的值与另一个字段中的值进 行比照。当然,数据清洁规那么往往是这些不同方法的结合。复杂的重新格式化数据刷洗的另一主要类型是重新格式化某些类型的数据,这种方法适用于可以 用许多不同方式存储在不同数据来源中的信息,必须在数据仓库中把这类信息转 换成一种统一的表示方式。最需要格式化的信息之一是地址信息,由于没有一种 获取地址的标准方式,所以同一个地址可以用许多不同方式表达出来。这就要求 将地址解析成儿个组成局部,然后将这些组成局部进行转换并重新排列成一个同 意的格式。6.9 集成要把从全然不同的数据源中得到的业务数据结合在一起,真正的困难在于将它 们集成为一个紧密结合的数据模型。这是因为数据必须从多个数据源中提取出 来,并结合成为一个新的实体。这些数据来源往往遵守的不是同一套业务规那么, 在生成新数据时,必须考虑到这一差异。 字段水平的简单影射字段水平的简单映射在必须执行的数据变换总量中站去了大局部。这种映射的 定义是指数据中的一个字段被转移到目标数据字段中的过程。在这过程中,这个 字段可以利用前面讨论过的任何一种简单变换进行变换,它可以被刷洗或重新格 式化。 复杂集成在一般的数据仓库中,数据转移和集成中的10%20%要比从源字段到目标字 段的简单移动复杂一些。为了将源数据变换为目标数据,这些复杂集成必须做更 多的分析。 通用标识符问题通用标识符问题是许多公司在建立数据仓库时所遇到的最困难的集成问题之 一。当同一业务实体存在于多个系统源,并且没有明确的方法确认这些实体其实 是同一实体的时候,往往会发生这个问题。这个问题往往很难用自动化方法解决,通常要求复杂的算法配对可能的匹配。 有时在仓库中存入可能的匹配是可以接受的,但有时这些匹配在存入数据仓库之 前必须先由人来检验。很多公司实行一种两阶段战略来处理该问题。第一阶段是 隔离,在这一阶段中,我们试图保证实体的每次出现都指派一个唯一标识符;第二阶段是调和,我们开始确认哪些实体其实是相同的,并且将该实体的各次出现 合并在一起。 目标元素的多个来源当同一个目标数据元有多个来源时,会出现另一个复杂的数据集成问题,即很 难保证该元素的各个来源总能保持一致。实际上,这样的数据元存在矛盾值比不 同来源中的值相同更为普遍。解决冲突的简单方法是指定某一系统在冲突中占据 主导地位。 数据丧失问题数值没有值的问题与一个数据元有多个冲突值的问题一样困难。有时为一个丢 失的元素把空白或空值赋进仓库中也是可以接受的,而有时数据元必须有值,对 该表格所做的查询才会有效。必须为该数据赋一些估计值。如果是业务系统,数 据库中有这种明知不准确的值是没有意义的,但对数据仓库来说,有估计值比根 本没有值可能要好得多。因此,对于仓库中的每种数据类型,设计人员必须在存 入估计数据的内在风险和数据丧失所造成的误解的风险之间进行权衡。用于这一目的最普遍技术是生成使曲线平滑的数据。然而,很多企业都有非常 复杂的数据估计方法。这些方法能够调节许多变量,为丧失的数据生成一个非常 接近实际的值。 衍生数据/计算数据数据变换的最常见形式之一就是计算和生成衍生数据元或计算数据元。它包括 平均值、总和或统计计算,还包括复杂的业务计算。衍生数据字段通常是冗余的, 因为计算中涉及的数据也存储在仓库中,然而,它能大大简化查询,保证存入仓 库中的这些衍生值的正确性和一致性,这样,在查询中可以选用它们,而不必在 用户需要时都计算一次。在这方面,数据变换工具是很有用的,因为这些工具能迅速而轻松地进行各种计算,无需担忧编程员是否正确地编写了计算逻辑。6.10 聚集和概括大多数数据仓库都要用到数据的某种聚集和概括。这通常有助于将某一实体的 实例数目减少到易于驾驭的水平,也有助于预先计算出广泛应用的概括数字,以 使每个查询不必计算它们。概括是指按照一个或几个业务维将相近的数值加在一 起。聚集指将不同业务元素加在一起或为一个公共总数。在数据仓库中它们是以 相同的方式进行的。数据仓库中存放的最具体的数据不与业务系统中存放的细节数据一样聚集。这 时,就有必要在变换业务数据的过程中加入一些数据聚集功能。这可以减少存储 在数据仓库中的行数。聚集还可以去除数据仓库中的过时细节。在许多情况下,数据在一定时期内要 以很具体的水平存放着,一旦数据到了某一时限,对所有这些细节的需求就大大 减弱了。此时,这些非常具体的数据应该传送到离线存储器或近线存储器中,而 数据的概括形式那么可以存放在数据仓库中。目前可以得到的数据刷洗工具中,许多都已内置了概括功能,尤其是在时间维 上进行聚集的功能。当然,不管如何做到这一点,重要的是用户能够轻松地访问 元数据,了解生成总和数据所用的标准。6.11 移动数据将数据移出操作系统一般包括:在数据最终复制到数据仓库之前,将它们拷贝到一个中间位置。理想状况下,拷贝数据的过程应该在操作系统不忙时进行。确保了解自己的商务及其支持系统。如果还未完成大量的更新,就不应该移动数 据。如果数据仓库中的数据来自多个相互关联的操作系统,就应该保证在这些系 统同步工作时移动数据。广义的数据准备,覆盖面很广泛,包含了从数据源抽取数据,一直到最终数 据呈现在用户面前之间的所有工作,这其中的最主要的工作就是数据的抽取、转 换、清洗、装载等一系列工作。在最初的数据仓库实现之前所有的这些工作都是 用程序手工实现的。这样就造成了一个非常严重的问题,就是数据仓库的持续发 展问题,因为利用程序实现每一个数据抽取过程,导致所有的数据逻辑都隐藏在 程序内部,当数据仓库进一步开展时,这些程序的管理和修改,将成为阻碍数据 仓库开展的最大的障碍。就是说这种工具必须从 很多不同的数据源抽取 数据,并尽可能地使用数 据源本身提供的驱动程 序来提高使用效率要支持不同的数据库作 为数据仓库的载体经过一段时间的开展,人们最终认识到ETL工具的重要性,于是相关的ETL 工具也纷纷出台,其中比拟著名的是IBM的Visual warehouse, Ardent公司的 data stage等等。如何判断一个ETL工具的优略呢,一般而言,主要有一下几个 因素:OPEN datasourceThe tools must extract data from most kind of data source useNative database DriverOPEN target DatabaseThe Tools must can Use most database like (DB2,ORACLE.ETC.) as Target database.3Schedule job可以定时进行数据的更 新的整理4High Performance较高的工作效率5Metadata management完善的元数据管理,可以 对整个ETL过程中产生 的元数据进行管理6Parallel support支持并行数据抽取7Visualize UI可视化的工作界面8Custom define program可以支持用户自定义的 程序做一些普通SQL语 句无法完成的工作9SecuritySupport multi user and user group支持多用户和多用户组 的工作方式10Increment data extract support可以实现数据的增量抽 取11Use subject to manage ETL Job用户可以对所有进程按 照主题进行管理12Enable Complex cleansing and transform Automatic generate SQL, Custom SQL support支持复杂的数据清洗工 作,自动生成SQL语句, 用户自定义SQL13Support MDD data load可以支持多维数据库的 数据加载14Support TB data extract and load可以支持TB级别的数据一、与数据仓库有关的几个概念1.1目录 DatawarehouseDatamart OLAPROLAP MOLAPClientOLAP DSSETL AdhocqueryEIS BPRBI DataminingCRM MetaDataData warehouse本世纪80年代中期,“数据仓库之父" William H.Inmon先生在其建立数据 仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓加载15Data model export and import现有设置可以进行Export 和 import七、如何建立数据仓库数据仓库的实现主要以关系数据库(RDB)技术为基础,因为关系数据库的 数据存储和管理技术开展得较为成熟,其本钱和复杂性较低,已开发成功的大 型事务数据库多为关系数据库,但关系数据库系统并不能满足数据仓库的数据 存储要求,需要通过使用一些技术,如动态分区、位图索引、优化查询等,使 关系数据库管理系统在数据仓库应用环境中的性能得到大幅度的提高。数据仓库在构建之初应明确其主题,主题是一个在较高层次将数据归类的标 准,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主 题表,具体来说就是确定决策涉及的范围和所要解决的问题。但是主题确实定 必须建立在现有联机事务处理(OLTP)系统基础上,否那么按此主题设计的数 据仓库存储结构将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据 信息,也将导致迷失数据提取方向,偏离主题。需要在OLTP数据和主题之间 找到一个“平衡点”,根据主题的需要完整地收集数据,这样构建的数据仓库 才能满足决策和分析的需要。建立一个数据仓库需要经过以下几个处理过程:数据仓库设计;数据抽取;数据管理。7.1 数据仓库设计根据决策主题设计数据仓库结构,一般采用星型模型和雪花模型设计其数据模 型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。主要有 以下3个步骤:定义该主题所需各数据源的详细情况,包括所在计算机平台、拥有者、数据 结构、使用该数据源的处理过程、仓库更新计划等。定义数据抽取原那么,以便从每个数据源中抽取所需数据;定义数据如何转换、 装载到主题的哪个数据表中。将一个主题细化为多个业务主题,形成主题表,据此从数据仓库中选出多个 数据子集,即数据集市(DataMart)。数据集市通常针对部门级的决策或某个特 定业务需求,它开发周期短,费用低,能在较短时间内满足用户决策的需要。 因此,在实际开发过程中可以选择在成功建立几个数据集市后再构建数据仓库 这种策略。这些数据定义直接输入系统中,作为元数据(metadata)存储,供数据管理模块 和分析使用。元数据存储在元数据库中,它不仅是数据仓库的文档资料,供管理、维护人员使用,而且亦可供用户查询,使之更好地了解数据仓库结构,提 高自己的使用水平。7.2 数据抽取模块该模块是根据元数据库中的主题表定义、数据源定义、数据抽取规那么定义对异 地异构数据源(包括各平台的数据库、文本文件、HTML文件、知识库等)进 行清理、转换,对数据进行重新组织和加工,装载到数据仓库的目标库中。在 组织不同来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时 工作区。加工数据是保证目标数据库中数据的完整性、一致性。例如,有两个 数据源存储与人员有关的信息,在定义数据组成的人员编码类型时,可能一个 是字符型,一个是整型;在定义人员性别这一属性的类型时,一个可能是char (2),存储的数据值为“男”和“女”,而另一个属性类型为char (1),数 据值为“F”和“M”。这两个数据源的值都是正确的,但对于目标数据来说, 必须加工为一种统一的方法来表示该属性值,然后交由最终用户进行验证,这 样才能保证数据的质量。在数据抽取过程中,必须在最终用户的密切配合下, 才能实现数据的真正统一。早期数据抽取是依靠手工编程和程序生成器实现, 现在那么通过高效的工具来实现,如Ardent公司的Infomoter产品、SAS的数据仓 库产品SASAVA (WarehouseAdministrator)及各大数据仓库厂商推出的、完整 的数据仓库解决方案。7.3 数据维护模块该模块分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据库 所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据 源的变化,且对时间相关性进行处理。更新操作有两种情况,即在仓库的原有 数据表中进行某些数据的更新和产生一个新的时间区间的数据,因为汇总数据 与数据仓库中的许多信息元素有关系,必需完整地汇总,这样才能保证全体信 息的一致性。数据仓库规模一般都很大,从建立之初就要保证它的可管理性,一个企业可能 建立几个数据仓库或数据集市,但他们可共用一个元数据库对其进行管理。首 先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后,将 更新情况记录于元数据库中。当数据源的运行环境、结构及目标数据的维护计 划发生变化时,需要修改元数据。元数据是数据仓库的重要组成局部,元数据 的质量决定整个数据仓库的质量。附录资料:不需要的可以自行删除如何构建银行辘仓库娜仓库技术作为T殿据管理领域的新技术,其精髓在第十对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念 在此1念指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规范和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库 标准。在以往关系建库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是 什么公司的数据库产品、开发工具 只要按照规范做,那么实现同一业务需求的方案都会很相似。而现有数 据仓库的实现中,出现了 MOLAP方案和ROW 方案的区别,出现了形形色色的叫仓库建模工具、视 工具,而设I十人员的个人经验和素质也会在其中扮演彳瞳要的角色。批仓库技术的实现方式 目仙燔仓库技术的实际应中主要刨舌如下几种具体实现方式。1、在关系数据库上建立娄掘仓库(ROLAP)2、在多维数据库上建立斓仓库(MOW)MOLAP方案是以多维方式来缴飕掂,以多维方式来存储缄;ROLAP方案那么以二维关系表为核心表达多 维概念,通过序多维结构划分为两类表:维表和事实表,使关系型结构育级好地适应多维皿的表示和存储。 在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的诩球查询数 据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动 进行并自动管理,但同时丧失了一定的灵活性。ROW方案的实飒为复杂,但灵活性较好,用户可以动 态定义统计和计算方式,另外能保护在已有关系金库上的投资。由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP结合使用,即所谓的混合模型。利 用关费叫库存储历史蜂、细节辘或数值型朝,邸关系I理库技术成熟的优势,减少花费,而在 多维髓库中存储当前细和常用统计加,以提高操作性能。3、在原有核库上辑上的蜂仓库由于目前正在运行的OLTP系统中出积累了海量类据,如何从中提取出肺所需的有用信息就成为用户最 迫切的需要。新毂据仓库固然育纵功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、 物力,并且跚仓库的建设和分析数据的积累需要一段时间,无法及时龊用户对信息分析的迫切需要。因 此在筹毂据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的麴§仓库 系统。尽管由于原有OLTP系统设计上的局限性,这样的系统可能无法实现很多分析功能,但这样一个系统 中蜂结构固定、信息分析需求相对稳定成熟,因此库的建模、实现过程会相对容易、m 同时,这样的系统也会成为将来真正数据仓库建设的原型。信息系统与姗仓库的关系 由于数据量大、黜来源多样化,在商业银行构建管理信息系统时,不可防止地会遇上如何修I眩些浩如烟 海的绅,以及如何从中提取有用的信息的问题;而M仓库的最大优点在于它育陋Mk网络中不同信息岛 上的商业黜集中到一起,存储在一个单一的集成的数据库中,并提供各种手段破据进行统计、分析。因 此可以说,在银行使用数据仓库构建管理信息系统,既有压力,又有数据基础,它们之间的联系是必然的, 难以割舍的。数据仓库在商业银行的应用范围包括存款分析、跳分析、客户市场分析、相关金融业分析决策(证券、外 汇买卖)、风险预测、效益分析等。在银行信息系统构建时,由于历史情况和现实需求的不同,存在两种途径:1、建设新系统由于目前国内商业银行对银行内部运营的监管,缺乏很好雌据机制,因此可以在构建管理信息系统时, 分数掘嫌录入和城汇总分析两局部来考虑。这样的系统中由于不需考虑大量历史娥的姐里问题,同时 考虑至腋集过程中可能存在多个黝睐源,因此可以在系统建设的同时构避掂仓库,将来的各种 通退斓抽取整合至擞据仓库中。2、完善原有系统而对于留存在OLTP系统,其中沉淀了大量历史黜,贝何以先在原有系统h建立逻辑辘仓库,即使用 娜分析的趣工具,在关系庭上构建一个蚂以的多维鲤。当系统需求稳定后,再建立物理糜仓库, 这样既节省投资,又缩短开发工期。实现中需要注意的问题 一、模型设计中的问题髀设H便括逻辑髀设计科勿理髀设i十)是统的基础成败的激,在实际操作中,视实嬲支术的不 同应分别对以下问题引起注氤1、直接构建数据仓库直接构邮据仓库时,必须按业务分析的要求重组OLTP系统中的数据,并要按不同贝懂点分别组织,使之 使用。* 主题确实定主题是一个逻辑概念,它应该肯照解、统TWJ画出分析对象所涉及的各项城以及相互联系。戈吩主题 的根据主要来源于两方面:对原有固定报表的分析和对业务人员的访谈。原有固定报表能较好地反映出以往 工作碘相分析的需求,而据义和格式翻寸成熟 稳定,在模型十中需要大S借鉴。但仅仅满足于 替代目前的手P艮表还远远不应是构建管理信息、系统的目标 还应侬过业务访谈,进一那出日常工作 中潜在的更广、更深的分析需求。只有这样,才t瞋正了解构戳据仓库模型所需的主题划分。* 分析内容的细化主题的划分实际上是与分析内容的范围直接相关的,一旦主题划分清楚了,下一就是细化分析的具体内容 以及根据分析内容的性质确定它在数据仓库中的位置。通常维元素对应的是分析角度,而度量对应的是分析 关心的具体指标。一个指标究竟是作混隹元素、度量还是维属性,取决于具体的业务需求,但从实际操作中 可以总结出如下的概念性经验:作为维元素螂属性的通常是离牌的缄,只允许有限的取值;作为度量 的是逶圾缪掂,取值无限。如果一定要用腐翅缪掂作为维元素,那么必须对其按取值进行分段,以分段值 作为实际的维元素。判断分析指标是作为维元素还是维属性时,那么需要综合考虑这个指标占用的存储空间与 相雉解勺使册殿。需要特W虽调的是,在细化分析内容的过程中,务必解决指标的歧义问题。在不同报表中以及在业务访谈中 同一名称的指标,是否是在同样条件限定下,通过同样方谶取或计算得到的,它们之间的相互关系是什么, 皿问题都所励熟热岭的分析人员那里律雅确、制斤的答案,否购除1邠酬避设I十、裕提取、 金展现等多个方面。* 粒度的设计数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。事实表中以各种维度的什么层次作为 最解遁,将决定存储的蜂能否满足信息、分析的功能需求,而粒度的层次划分、以及聚合表中粒度的选择 将直叫响查询的响应时间。如果同一个信息系统要在大范围、多层次上同时运行,如部门级和企业级,还应考虑不同层次的建仓库采 用不同的粒度。* 侬设计中供股巧复合指标尤是比率对旨标的定义,必须螃累加时是权所乘除 还是反乙户数、翎的计算,然 指标在分析或报表中经常出现 但不需要作为单独附旨标触存在于区库中,但定义分析模型时一定应该 准备。度量的时间特性,针对分析指标在时间维上的不同趣,可分为可累加指标、半可累加指标和不可累 力啡林2、在原有朔基12构瞰辑蜂仓库如果直接使用OLTP系统中的蹒进行娄娜分析处理 会避怖多麻烦,有时甚至是不可能实现的。这并不 是说关系金库不好,而是因为其设计思路不谕遨大规檄蟠分析。因此在使用这种方法时,需要注意下 歹U问题的处理: *不同的时间单位 这是实现过程中最常避U的问题,也往往是最难解决的问题。OLTP系统中存储的时间往往采用与实际业务 发生相同的时间单位,如帐触据单位为日期,财务报表单位为月或半年。而面向分析时,往往要将不同时 间单位的她统一到同一个结果中,这样就必须存在适当睇嫩机制才1旨实现。*冗余信息 所渭冗余信息,就是指不同关系表中存在的同一#义的字段,而同一#义不仅指这些字段的取得或计算方式一样,还指它们成立的条件一样,例女曜让某一H寸间同一地区的同一第中的鳏余额。在OLTP系统中,这 样的字段往往

    注意事项

    本文(数据仓库的开发设计过程 (1).docx)为本站会员(太**)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开