欢迎来到天天文库
浏览记录
ID:36746591
大小:325.32 KB
页数:7页
时间:2019-05-14
《基于搜索引擎的知识发现(1)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于搜索引擎的知识发现马玉春宋瀚涛(北京理工大学计算机系,北京&"""B&);C457*:(1=<371)D-76$+:E$?1摘要数据挖掘一般用于高度结构化的大型数据库,以发现其中所蕴含的知识。随着在线文本的增多,其中所蕴含的知识也越来越丰富,但是,它们却难以被分析利用。因而,研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研究课题。该文利用搜索引擎’(()*+获取相关,+-页面,进行过滤和清洗后得到相关文本,然后,进行文本聚类,利用;<7=(:+进行事件识别和信息抽取,数据集成及数据挖
2、掘,从而实现知识发现。最后给出了原型系统,对知识发现进行实践检验,收到了很好的效果。关键词搜索引擎文本聚类+<7=(:+信息抽取知识发现文章编号&""!CB%%&C(!""#)%"C"&FBC"%文献标识码G中图分类号HI%&&!"#$%&’(&)*+,#-&./01+&’#"23&4&1.,35"(*"&6178,38"4#"(91"21#(@+<6$(2J(43、**N5<<*7+:6(*53)+:565-5=+=(2M7)M*N=63E?6E3+:712(34567(171(3:+36(:7=?(9+31+OP1(O*+:)+$HM(E)M6M+54(E16(2<(6+1675**N95*E5-*+P1(O*+:)+?(16571+:71:(?E4+16?(**+?67(1=?51-+)3+56,6M+N53+(26+1:7227?E*66(515*NQ+$HM+3+2(3+,767=74<(365166(:+9+*(<4+6M(:=6(+227?7+16*N:7=?(4、9+3P1(O*+:)++4-+::+:716M+=+:(?E4+163+<(=76(37+=,51:6+>647171)-+?(4+=5174<(365163+=+53?M53+56(($HM7=<5<+3:+=?37-+=515<<3(5?M2(347171)P1(O*+:)+23(4O+-<5)+=,56273=6,)+6=O+-<5)+=23(46M+O+--N=+53?M+1)71+’(()*+,6M+127*6+3=(E66M+733+*+9516:(?E4+16=,65P+=6+>6?56+)(375、Q567(1,+>635?6=712(34567(151:3+?()17Q+=6M++9+166N<+-N+<7=(:+,716+R)356+=51:471+=6M+:56571(3:+36(:7=?(9+31+OP1(O*+:)+$S715**N,5<3(6(6N<+-5=+:(16M7=6M+(3N7=:+9+*(<+:,51:6M+16M+3+=E*67=:+=?37-+:71:+657*$!&/$#.’+:=+53?M+1)71+,6+>6?56+)(37Q567(1,+<7=(:+,712(34567(6、1+>635?67(1,P1(O*+:)+:7=?(9+3N&概述法进行数据挖掘(@565A7171),@A),从而得到相关知识,并给越来越多的公司、组织、个体等都在网上发布信息,目前,出实现原型。全球最大的搜索引擎’(()*+已经收录了%%亿以上的,+-页面.&/。用户通过一些门户网站或基于关键词的搜索引擎来获取!搜索引擎的基本原理及’(()*+的特点信息,但是,常常由于返回的结果庞大,而使用户的查询十分低简而言之,搜索引擎的工作原理就是对016+31+6中的资源效甚至不得要领,远远不能满足用户对信息获取的要求7、。这种建立索引信息,用户查询这些索引信息,获得源信息的引用信状况一方面造成信息过载(012(34567(189+3*(5:),另一方面却息.!/。一般情况下,搜索引擎是通过三个组件协同工作来实现使用户望洋兴叹,从而导致,+-信息闲置与浪费的情况非常的,它们分别是搜索机器人、索引软件和查询软件。严重。如何准确地从浩瀚的互联网上获取所需的信息,并挖掘搜索机器人是运行在搜索服务器上的软件,按照一定的规出知识,是人们越来越关注的重点。这就需要从海量信息中检则(如深度优先、广度优先、最佳优先等)访问016+31+6中的网索8、到所需要的相关信息,进行信息过滤和分类或聚类,尽量排页,并将页面下载到搜索服务器中。由于网站的页面经常会进除掉不相关和相关度无足轻重的信息,然后,进一步抽取出所行一些更新,所以搜索机器人会定期重复爬行被搜索的网站,需要的信息,进行分析和提炼,从而得到知识。自然,自动、准以期达到被搜索信息的时效性。索引软件是以索引数据库为核确、快速地获取相关信息,对于科学决策、学术研究、电
3、**N5<<*7+:6(*53)+:565-5=+=(2M7)M*N=63E?6E3+:712(34567(171(3:+36(:7=?(9+31+OP1(O*+:)+$HM(E)M6M+54(E16(2<(6+1675**N95*E5-*+P1(O*+:)+?(16571+:71:(?E4+16?(**+?67(1=?51-+)3+56,6M+N53+(26+1:7227?E*66(515*NQ+$HM+3+2(3+,767=74<(365166(:+9+*(<4+6M(:=6(+227?7+16*N:7=?(
4、9+3P1(O*+:)++4-+::+:716M+=+:(?E4+163+<(=76(37+=,51:6+>647171)-+?(4+=5174<(365163+=+53?M53+56(($HM7=<5<+3:+=?37-+=515<<3(5?M2(347171)P1(O*+:)+23(4O+-<5)+=,56273=6,)+6=O+-<5)+=23(46M+O+--N=+53?M+1)71+’(()*+,6M+127*6+3=(E66M+733+*+9516:(?E4+16=,65P+=6+>6?56+)(37
5、Q567(1,+>635?6=712(34567(151:3+?()17Q+=6M++9+166N<+-N+<7=(:+,716+R)356+=51:471+=6M+:56571(3:+36(:7=?(9+31+OP1(O*+:)+$S715**N,5<3(6(6N<+-5=+:(16M7=6M+(3N7=:+9+*(<+:,51:6M+16M+3+=E*67=:+=?37-+:71:+657*$!&/$#.’+:=+53?M+1)71+,6+>6?56+)(37Q567(1,+<7=(:+,712(34567(
6、1+>635?67(1,P1(O*+:)+:7=?(9+3N&概述法进行数据挖掘(@565A7171),@A),从而得到相关知识,并给越来越多的公司、组织、个体等都在网上发布信息,目前,出实现原型。全球最大的搜索引擎’(()*+已经收录了%%亿以上的,+-页面.&/。用户通过一些门户网站或基于关键词的搜索引擎来获取!搜索引擎的基本原理及’(()*+的特点信息,但是,常常由于返回的结果庞大,而使用户的查询十分低简而言之,搜索引擎的工作原理就是对016+31+6中的资源效甚至不得要领,远远不能满足用户对信息获取的要求
7、。这种建立索引信息,用户查询这些索引信息,获得源信息的引用信状况一方面造成信息过载(012(34567(189+3*(5:),另一方面却息.!/。一般情况下,搜索引擎是通过三个组件协同工作来实现使用户望洋兴叹,从而导致,+-信息闲置与浪费的情况非常的,它们分别是搜索机器人、索引软件和查询软件。严重。如何准确地从浩瀚的互联网上获取所需的信息,并挖掘搜索机器人是运行在搜索服务器上的软件,按照一定的规出知识,是人们越来越关注的重点。这就需要从海量信息中检则(如深度优先、广度优先、最佳优先等)访问016+31+6中的网索
8、到所需要的相关信息,进行信息过滤和分类或聚类,尽量排页,并将页面下载到搜索服务器中。由于网站的页面经常会进除掉不相关和相关度无足轻重的信息,然后,进一步抽取出所行一些更新,所以搜索机器人会定期重复爬行被搜索的网站,需要的信息,进行分析和提炼,从而得到知识。自然,自动、准以期达到被搜索信息的时效性。索引软件是以索引数据库为核确、快速地获取相关信息,对于科学决策、学术研究、电
此文档下载收益归作者所有