A38?-:"##$文章编号:&##&%*#,&("##$)#,%##+&%#$./0主题信息监控系统设计与实现郭!辉,蔡庆生(中国科学技"> A38?-:"##$文章编号:&##&%*#,&("##$)#,%##+&%#$./0主题信息监控系统设计与实现郭!辉,蔡庆生(中国科学技" />
Web主题信息监控系统设计与实现.pdf

Web主题信息监控系统设计与实现.pdf

ID:51495905

大小:145.25 KB

页数:4页

时间:2020-03-25

Web主题信息监控系统设计与实现.pdf_第1页
Web主题信息监控系统设计与实现.pdf_第2页
Web主题信息监控系统设计与实现.pdf_第3页
Web主题信息监控系统设计与实现.pdf_第4页
资源描述:

《Web主题信息监控系统设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第"$卷第,期计算机应用SGO-"$:TG-,!!"##$年,月;GLC8F/E3CCO9IDF9G>A38?-:"##$文章编号:&##&%*#,&("##$)#,%##+&%#$./0主题信息监控系统设计与实现郭!辉,蔡庆生(中国科学技术大学计算机科学技术系,安徽合肥"$##"))摘!要:介绍了一个./0主题信息监控系统,此系统根据用户设定的主题对指定的网站进行监控,实时性好、鉴别准确度高。文中论述了系统的设计思想和相关的算法以及实现技术。关键词:./0;主题信息;监控中图分类号:12$*&;12$*$-#)!!文献标识

2、码:3!"#$%&’&()"’*$+’,$-&-./"01’#"(2304"5,6&.-78’,$-&9-&$,-7$&%2:#,"8456789:;3<=9>?@AB/>?!"#$%&’(#)’*+,*($-’#&./0#)/#12#/3)*4*5678)09#&:0’6*+./0#)/#12#/3)*4*56*+,30)%7;#+#0<)3-0"$##")7,30)%=;0#,7’5,<1B9ACDC/E9>FEGH8I/AD./00DA/HA80J/IF9>KGELDF9G>LG>9FGE9>?AMAF/L-1B/AM

3、AF/LLG>9FGEAFB/AC/I9K9IN/0A9F/ADIIGEH9>?FGFB/8A/E@DAA9?>/HA80J/IFA-I/D>HCE/I9A9G>GKA80J/IF9H/>F9K9IDF9G>-1B9ACDC/EDOAGH9AI8AA/AFB/H/A9?>D>HE/DO9PDF9G>GKFB/AMAF/L-=":>-7(#<./0QA80J/IF9>KGELDF9G>QLG>9FGE9>?&!引言./0上包含了大量的信息,但是其松散的组织方式使得对信息的有

4、效检索和利用成为一大难题。以4GG?O/为代表的通用搜索引擎已经成为人们在./0上检索信息的主要方式。然而,这些搜索引擎并不能满足所有用户的需要。有一部分用户对网上信息的利用有着特殊的方式,例如:企业通过特定网站随时获得竞争对手的情报以及商品原材料的供求信息;消费者关注购物网站上的特价商品动态;求职者在特定网站上了解最新的招聘单位信息等等。这一类用户对信息的获取有共同的特点:目标网站明确集中、目标网页涉及特定的主题、对信息的实时性要求比较高。通用搜索引擎无法很好的满足这类用户的要求。针对这种情况,我们研制了一个互联网主题信息

5、监控系统:首先,用户预先设定要监控的网站和范围并且定义自己感兴趣的主题;然后,系统根据用户选择的多种搜索策略对指定图&!系统结构图网站中的大量网页进行搜索下载和主题鉴别,如果发现包含系统基本工作流程分为两个方面:特定主题的网页则将该网页加上标记并及时通知用户,另外&)网页引入流程所有下载回来的网页都将被保存一段时间,以方便用户对这首先,网页搜索子系统根据相应设置采用一定的调度算些网页进行包括全文检索在内的多种条件的查询以及管理。法不断从网站上下载网页;然后,主题鉴别子系统将对每一个该系统采用浏览器R服务器模式,具有使用方便、

6、设置灵活、监下载回来的网页进行主题鉴别并根据鉴别结果对其加以标控范围较大、搜索速度快、实时性好以及鉴别准确度高的特记,接下来经过主题鉴别的网页将由索引子系统对其建立索点。引;最后,所有的数据由数据子系统保存和管理,如果网页被标记为特定的主题,则还将由用户子系统通知已登录到系统"!系统结构中的用户以实现实时监控。整个系统主要由’个子系统组成:网页搜索子系统、主题")用户登录使用流程鉴别子系统、索引子系统、用户子系统和数据子系统。系统结系统采用浏览器R服务器的体系结构。多个不同的用户构图如图&:可以同时从不同的电脑上使用浏览器来

7、使用安装在服务器上!!收稿日期:"##$%#$%&$;修订日期:"##$%#’%&$!!基金项目:国家自然科学基金项目((##)’#&’;*#&#+#$#)!!作者简介:郭辉(&*)(%),男,硕士研究生,主要研究方向:人工智能、机器学习;!蔡庆生(&*$,%),男,教授,博士生导师,主要研究方向:万方数据人工智能、机器学习、知识发现-"G6"""计算机应用6::!年的监控系统。对于每一个用户来说,其工作流程是:用户使用容的访问许可。基本上有两种登录方式,一种是通过<==>浏览器通过用户子系统登录到系统中,登录以后用户以网页

8、协议进行身份认证(在<==>协议头中发送>(85?;的形式通过用户子系统向系统的各功能子系统发布命令,同@,-38(%A7-%8/字段),另一种方式是通过<=B2动态网页提交时各功能子系统的执行结果以及整个系统的运行状态都通过表单(包含了用户名和密码)并且将网页返回时得到的.88C%’用户

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。