Web新闻自动采集发布系统的设计与实现.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《Web新闻自动采集发布系统的设计与实现.pdf》由会员分享,可在线阅读,更多相关《Web新闻自动采集发布系统的设计与实现.pdf(4页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第 1 9卷第 9 期 2 0 0 9年 9 月 计 算 机 技 术 与 发 展 V o 1 1 9 N o 9 C OMP U TE R T E C HNO L OG Y A ND D E VE L OP ME NT S e p 2 0 0 9 We b新 闻自动采集发布 系统的设计与实现 张春元,康耀红,伍 小芹(海南大学 信息科 学技术学院,海南 海 口 5 7 0 2 2 8)摘要:针对新闻网站通过人工方式采集发布来自其它网站的 we b 新闻费时费力、易重采与漏采这一问题,综合运用 We b 信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫
2、的 We b新闻 自 动采集发布系统。在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍。实验表明,该 系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用。关键词:网络爬虫;网页去噪;文档消重;We b 新闻发布 中图分类 号:TP 3 9 1 3 文献标 识码:A 文章 编号:1 6 7 36 2 9 X(2 0 0 9)0 90 2 5 00 4 De s i g n a nd I mpl e me nt a t i o n o f W e b Ne ws Au t o ma t i c a l l y Ga
3、t he r i ng a n d Pub l i s hi n g S y s t e m Z HANG Ch u n y u a n,KANG Ya o-h o n g,WU Xi a o-q i n (I n s t i t u t e o f I n f o r ma t io n S c i e n c e a n d Te c h n o l o g y,Ha i n a n Un i v e r s i t y,H a i k o u 5 7 0 2 2 8,C h i n a)Ab s t r a c t:Ne ws s i t e s ma n u a l l y g a t
4、 h e r an d p u b l is h ,e b n e ws f r o m o t h e r s it e s,wh i c h i s in e f f i c i e n t and e a s y t o r e p e a t e d l yll ect o r n fi s s s o me n e ws To s o l v e t h i s p r o b le mu s in g W e b i n f o r ma t i o n f e t c h i ng t e c h n o l o g yW e b p a g e s n o i s e s e
5、l imi mt in g t e c hn o l o g y,r e pli c a t ed t e x t d o c u me nt s e l imi n a t in g t e c hno l o g y and a uto ma t i c t e x t c la s s if i c a t io n t e c h n o k gyare b n e ws a u t o ma t i c a l l y g a t h e r i n g a n d p u b l i s hin g s yst e m i s d e s ign e d and i mp l e
6、me n t ed Th e wh o l e s t r u c t u r e o f t h e s y s t e m is p r e s e n t ed,an d t h e n t h e w min f u n c t i o n a nd d esig n me t h o d o f i t s e a c h mo d u l e a r e i n t r o du c ed Th e e x p e r i me n t s h o ws i t s d e s ign i s r e a s o n a b l e,an d c r a wl i n g e f
7、f i c i e n c y i s h i g h,and e l i mi nat i n g r e p l i cat e d d o c u me n t s i s a c c u r a t e,a n d i n t e g r a t in g in t o a n e w s i t e is e a s y,a n d o per a t i o n c o s t i s lo w,an d i t c a n b e u s e d a s t h e g a t h e。ing an d edi t i n g t o o l o f n e ws s i t e
8、 s wi d e l y Ke y wo r d s:We b c r a wl e r;W e b p a ge s n o i s e s e l i mina t io n;r e p l i c a t e d d o c u me n t s e l imi n a t i o n;We b v i e ws p u b l i s h i ng 0 引 言 目前,不少新闻网站仍然依靠网络编辑从其它网 站手工采集各种新闻信息来丰富 自己的内容,这种方 式发布的 we b 新 闻虽然具有较高 的质量,但是 费时费 力。为了即时转发有价 值的新 闻,网络 编辑们需 要花 费大量时间频繁
9、浏览各大新闻网站;多名编辑一同采 编时,由于缺乏统一的协作平 台,还 比较容易出现新 闻 信息的重复采集或者漏采。针对这一问题,笔者参与 设计并实现了一种基 于 C r a wl e r 的 We b 新 闻 自动采集 发布系统。该系统通过网络爬虫对用户指定网站区域 下的 We b 新闻网页增量采集,经解析、消重、分类处理 后保存至新闻网站的数据库中,可以 7 2 4小时自动 采集发布 We b 新 闻,也可作 为新 闻 网站编辑人员 的 日 收稿 日期:2 0 0 81 22 3;修 回日期:2 0 0 9一O 32 1 基金项 目:海南省 自然科学基金项 目(8 0 6 3 8)作者简介:
10、张春元(1 9 7 3 一),男,湖北武汉人,讲师,硕士,研究方向 为信息检索与数据挖掘。常采 编工作 平台。1 系统设计 1 1系统结构 图 l 为 We b 新闻自动采集发布系统结构图,整个 系统由虚线框内各模块组成。也可将系统处理后的新 闻文档保存到系统外部待集成新闻网站的数据库中,完成 we b 新闻的 自动发布。下面将逐一介绍系统各 模块的功能和设计思想。1 2 增量式 C r a w l e r C r a w l e r 即网络爬虫,又称网络蜘蛛(S p i d e r)、网 络机器人(R o b o t)等,主要用来采集各种 We b 信息资 源,本 系统 所采 用 的增 量式
11、 C r a w l e r 是 一种介 于 主题 网络爬 虫和个性化 网络爬虫 之间 的轻 量级采集系 统。我们注意到,大多数新 闻网站或者包含新闻信息 服务的综合性门户网站设计比较规范,分类也比较清 晰,同类别的新闻网页一般放在同一子 目录下;另外,第 9期 张春元等:We b 新闻自动采集发布系统的设计与实现 2 5 1 新闻网页大多具有一定的时效性,一经发布以后基本 上 不会再 被更 新。因此,我 们 的 C r a w l e r 只需 对 系 统 管理员所设定的采集区域中新近发布的新闻网页进行 增量式采集,主题型网页(具体定义见 1 3节)采集过 后将不再作周期性更新采集。例如打算
12、采集网易发布 的体育新闻,只需将 C r a wl e r 的采集对象限定为 UR L 以 h t t p:s p o r t s 1 6 3 c o m”为前缀 的网页 即可,如表 1 所示。一般来说,每 日上午 9至 l 2时是各大网站发布 新闻的高峰时间,其余 时间则较少发布甚至零发 布。针对这一情形,C r a w l e r 将根据被采集区域上一个工作 日的新 闻发 布情况 自适应地 调整 各种子网页 当 日的采 集时间,具体方法为:刚开始 C r a w l e r 从 6:0 0至 2 4:0 0 对各采集限定区域每隔 1 小时设定一个采集时间点并 采集一次,若某采集限定区域在某
13、采集时间点被采集 的网页数量为 0,则该区域该时间点失效;若某采集限 定区域在某失效时间点的后一个采集时间点被采集的 网页数量大于 0,则恢复该区域该失效采集时间点。图 1 We b 新 闻 自动采 集发 布 系统结构 图 表 1 C r a w l e r 采集参数设定表 自动采 类别 采集限定区域 种子网页 分类 集时间 6:o o 体育 h t t p:z p o r t s 1 6 3 0 0 r n h t t p:s p o r m 1 6 3 o a a 否 8:0 0 h t t p:ww w h i n e w s c a h t t p:w w w h i n e w s
14、e n 6:0 0 体育 否 n v s t i y u n e ws 1i y u i n d e x s h t ml 8:0 0 6:0 0 热点 h r t p:n e w s 1 6 3 t o m h r t p:n e w s 1 6 3 e o m 是 7:0 0 h t t p:w ww h in e w s c n h t t p:w w w h i n e w s o n 6:0 0 热点 是 n e ws s y s t n n e ws in d e x s h t ml 8:0 0 1 3 删。解析器 H T ML解 析器实际上是 增量式 G r a w l e r
15、 的一个 组 成部分,为了讨论 的方便,将它从 C r a wl e r 中独立 出 来。HT ML解析器主要用来对 C r a w l e r 采集得到的网 页源文件 进行 解 析,从 中提 取 出 UR L与 网 页正 文 内 容,另外对 一些 做 了分页 处 理 的网页 进 行 内容合 成。在解析过程中,将待解析网页分为两种类型进行处理:类是 Hu b型网页,这类网页主要用来提供 网页导 航,是超链接聚集的网页,本系统 C r a wl e r 的种子网页 就属于此类型;另一类是主题型网页,这类网页大多通 过文字或图片描述一件或多件事物来表达一定的主 题,本系统采集 到的新 闻网页绝对多
16、数属于这种类型。H u b 型网页比较容易识别,解析时只需提取出 U R L;主题型 网页解 析除了需要提取 出 UR L外,还要提取 出 正文 内容。H T ML解析器从 网页源文件提取 UR L比较简 单,提取出来的 U RL经规范化处理后如果在采集限定 区域之内且尚未被采集,就将其作为待采集任务加入 到 U R L数据库中供 C r a w l e r 采集。H T ML解析器从主题型网页源文件提取正文 内 容则 比较复杂,主要是由于其中往往夹杂着导航信息、广告信息、评论信息等噪声内容。国内外关于网页噪 声内容的去除已提出了许多方法 3-9】,在去噪声过程 中大多采用了基于块和 D O
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Web 新闻 自动 采集 发布 系统 设计 实现
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内