信息检索系统-方案方针.doc

收藏

编号:2709732    类型:共享资源    大小:162KB    格式:DOC    上传时间:2020-04-30
8
金币
关 键 词:
信息 检索系统 方案 方针
资源描述:
#+ HX-2055HX-2055 信息检索系统方案信息检索系统方案 #+ 目录目录 一一 项目意义项目意义 .............................................................................................................................................2 二二 系统设计系统设计 .............................................................................................................................................3 2.12.1 技术原理技术原理........................................................................................................................................3 2.22.2 系统构架系统构架........................................................................................................................................5 三三 系统功能系统功能 .............................................................................................................................................6 3.1 信息采集信息采集.........................................................................................................................................6 3.2 中文自然语言处理中文自然语言处理.........................................................................................................................6 3.3 全文检索功能全文检索功能.................................................................................................................................7 3.4 格式文件检索格式文件检索.................................................................................................................................8 3.5 性能指标性能指标.........................................................................................................................................8 #+ 一一 项目意义项目意义 随着互联网的快速发展,每天有数千万条信息生成,包括文字信息、 图片信息、视频信息、语音信息等,通过百度、谷歌等大型商业搜索引擎 可以找到自己想要的信息,但是也存在很多弊端。 百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫 (Spider)在世界各地百万台服务器上爬取网页数据,然后存储到数据库 之后展现给查询用户,随着网站数量以及网络上信息更新的快速化,这些 网络爬虫不能保证把所有的信息都抓到,尤其是特殊行业的行业信息,即 便是抓到了也不一定能够在众多数据中展现出来。所以,对于一个部门来 讲,有必要存在一款互联网信息检索系统来检索某一个行业的信息,每天 自动在各大行业网站、政府网站等数据库中检索最新信息,通过自建的网 络爬虫进行目标数据的抓取、存贮、归类、展现。 通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各地、 各个部门都发生了什么,有哪些新的政策,方便管理层在最新的信息数据 下快速做出正确的决定。 据统计,内部网上的信息每年以 200%的速度增长,其中发布到互联网 上的信息只占到信息量的 1%-2%,而 98%以上的信息是发布在内部网上的。 内部网上的信息既有网页形式的,也包含其他 Word、PDF、XML 等多种格式 的数据。因此,面对内部网中海量异构的信息资源,如何帮助用户快速找 到他们所需要的信息是一个主要的技术挑战。 搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满 足高效的同时,更重要的是保证了较高的查全率和查准率,能提供智能化 的概念扩展搜索,极大的提高工作效率。内部网搜索引擎将组织中分散管 理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现 组织内容利用的最优目标。 搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资 源进行爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对 其快速地访问,通过准确的分词建立索引,从而实现高质量的搜索查询。 搜索引擎的主要目标包括: #+ (1)较高的查准率。搜索系统支持按词索引、按字索引,同时实现中 文自动分词。 (2)较高的查全率。搜索系统可搜索各类异构的信息资源,包括传统 的网页信息、Word、PDF、XML 等不同格式的文档以及各类主流数据库的表 中记录。 (3)智能化的检索结果排序。安全搜索系统应采用相关度分析技术, 将用户需要的信息排在结果列表的前面,屏蔽无用和错误的信息。 二二 系统设计系统设计 2.12.1 技术原理技术原理 HX-2055 互联网信息检索系统(以下简称 HX-2055)是针对特殊行业、 政府部门、决策部门设计的一款高效率互联网信息检索系统,采用国际一 流程序算法设计,系统构架与谷歌和百度的搜索引擎拥有共同的技术特点, 能够保证系统对实时信息的快速采集、归类、展现。 在当今信息爆炸的时代,每个单位或个人都在为信息的快速增长做出 了各种贡献。信息的种类也在不断的扩展,越来越多的非结构化信息不断 出现,包括企业的各种报表、帐单、电子文档、网站的各种元素、图片、 传真、扫描影像,以及大量的多媒体的音频、视频信息等等。所有的存储 数据中,有 85%采用的是非结构化格式的,非结构化信息每三个月增长一 倍。由于信息格式的差异很大,所以基本无法整合为统一的接口供政府工 作人员或广大群众方便使用。 全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立 一个索引,指明该词在文章中出现的次数和位置,当用户查询时根据建立 的索引查找,类似于通过字典的检索字表查字的过程。 全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务 的软件系统。全文检索系统的核心则具有建立索引、处理查询返回结果集、 增加索引、优化索引结构等功能。HX-2055 全文检索系统的主要目标是实 现文本索引的快速构建(Index Construction),动态文档集的索引维护 (Index Maintenance),短语查询(Phrase Query),Top-K 查询的快速处理 (Top-k Query Process)以及各种检索模型(IR Model)等。高性能和灵活 #+ 的架构也使 HX-2055 全文检索系统可以应用在内外网检索、专业系统资料 检索、行业专业数据库检索。 图 1. HX-2055 系统原理 HX-2055 可以实现对内部网络和外部网络的信息抓取、归类、展现。对于外 部网络,HX-2055 采用网络爬虫定时对各大行业网站、政府部门网站进行数据 爬取,通过对海量数据的挖掘可以建立庞大的外网数据库,通过一流的数据整 理算法,简单、快捷、方便的展示给使用者。 HX-2055 也可以对内部网络进行数据的挖掘、分析、整理、展现。HX-2055 通过基于局域网的网络爬虫算法,可以对政府、行业内部网站、单位内部服务 器资源等数据源进行数据的抓取,包括内部网络的新政策、新闻通知、日常文 档、文件资料等。 #+ HX-2055 搜索引擎的系统体系架构如图所示: 图 2 HX-2055 内部网络搜索系结构图 索引模块 索 引 库 爬 行 器 搜索结果排序 数据源注册、资源 描述、策略描述 用户提交搜索、安全过滤 数据库 爬行控制 内部数据 库 Web 页面 数据 库表 数据库 数据源 2 电子 文档 文件系统 数据源 3 电子 邮件 邮件系统 数据源 n 。 。 。 搜索请求 返回结果 内部网用户 内部网站 数据源 1 引擎实现了下列主要功能: (1)爬行器:爬行器根据资源描述信息对内部网中各种异构的资源信息进 行爬行,获取所有能够获得的资源信息,资源信息的格式应包括:Web 网 页、Word、PDF、Excel、PPT 等格式的办公文档、各类主流数据库的表中 记录。 (2)索引器:通过中文分词技术,对爬行到的资源信息进行解析,建立索 引文件。 (3)搜索:用户提交其搜索条件,搜索条件经过特定处理后,在索引文件 中检索出所有满足搜索条件的资源。 2.22.2 系统构架系统构架 全文检索系统统一搜索平台的总体架构采用三层(数据层、应用层和表现层)可扩展 的设计,使整个系统不受硬件平台的限制,具有良好的扩展性和可管理性。 #+ 三三 系统功能系统功能 3.1 信息采集信息采集 1、采用多线程并发搜索技术。 2、提供多种采集范围控制方式,包括在指定网站内,在指定域内,以及在 指定 IP 地址范围等方式。 3、可以设置多种网站采集控制方式,包括采集的网页大小、超时限制等。 4、提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和 新加入的资源。 5、可以灵活设定采集结果的存储方式,具有开放性。 3.2 中文自然语言处理中文自然语言处理 1、内嵌自动分词系统,有效提高了分词准确性。 2、在应用层上,提供自动分类和摘要功能; 3、支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求; #+ 4、内嵌相似性检索技术,提供文章的相似性检索和聚类功能。 3.3 全文检索功能全文检索功能 1、支持 Web Browser/Web Server 检索方式; 2、智能中文分词:采用先进的自动分词系统,根据大量的语料统计和分析, 建立了上万条的歧义排除规则,因此检索“华人”不会把仅仅包含“中华人民共和 国”的文章检索出来。 3、支持结构化数据和非结构化数据的混合检索; 4、允许使用文中的任意字、词、句和片段进行检索; 5、全方位检索手段:与、或、非、异或; 6、对数值、日期等特征字段可以进行比较和范围检索; 7、支持任意一致的通配符检索(模糊检索); 8、支持多网站的全文检索 9、具备中文自动分词系统,能有效提高分词准确性 10、采用智能中文分词技术,建立高效索引库 11、支持实时索引(1分钟内) 12、支持增量式实时索引 13、多线程设计,支持大量并发用户访问,每秒并发达到50个以上 14、支持在结果中查询 15、支持 GBK、BIG5、UTF8、GB18030等编码,采用 UTF8编码方式实现 多语言和多文种内容的检索及展现。 16、支持中文、英文和中英文混合检索 17、多样化排序,包括按抓取时间排序、按相关性排序 18、多种条件组合检索:包括标题、正文以及日期范围检索 19、支持关键词逻辑表达式组合检索 20、检索结果支持基于查询关键词的动态摘要 21、支持检索关键词的高亮显示 22、将所检索到的信息可按设定的模版显示 23、检索结果模板自定义如:如文章标题、文章栏目、简介、作者、点击率、 #+ 时间以及文章类别等 24、支持根据自动分类的类目进行检索 25、采用 KNN、SVM 为基础的相关性算法 3.4 格式文件检索格式文件检索 支持 MS OFFICE, PDF, HTML,可以对.pdf;.rtf;.doc;.xls;.ppt;.pps;.xml 等文件直接 进行检索。 3.5 性能指标性能指标 自动分类达到 85%以上准确率 数据索引更新时间平均小于 0.02s/记录(每条记录 4Kb) 本地检索平均响应速度小于 1 秒,亚秒级反应速度 支持不低于 50 个并发检索请求 G 级数据全文检索响应在毫秒之内 全文检索数据库的“零”空间膨胀率(-10%~20%) 。 T 级文本数据库,一个任意词的检索都在 1 秒钟之内
展开阅读全文
提示  得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:信息检索系统-方案方针.doc
链接地址:https://www.deliwenku.com/p-2709732.html
关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com  

收起
展开