基于搜索引擎的知识发现(1)

ID：36746591

大小：325.32 KB

页数：7页

时间：2019-05-14

资源描述：

《基于搜索引擎的知识发现(1)》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于搜索引擎的知识发现马玉春宋瀚涛（北京理工大学计算机系，北京&"""B&）;C457*：(1=<371)D-76$+:E$?1摘要数据挖掘一般用于高度结构化的大型数据库，以发现其中所蕴含的知识。随着在线文本的增多，其中所蕴含的知识也越来越丰富，但是，它们却难以被分析利用。因而，研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的，也是当前重要的研究课题。该文利用搜索引擎’(()*+获取相关,+-页面，进行过滤和清洗后得到相关文本，然后，进行文本聚类，利用;<7=(:+进行事件识别和信息抽取，数据集成及数据挖

2、掘，从而实现知识发现。最后给出了原型系统，对知识发现进行实践检验，收到了很好的效果。关键词搜索引擎文本聚类+<7=(:+信息抽取知识发现文章编号&""!CB%%&C（!""#）%"C"&FBC"%文献标识码G中图分类号HI%&&!"#$%&’(&)*+,#-&./01+&’#"23&4&1.,35"(*"&6178,38"4#"(91"21#（@+<6$(2J(4

3、**N5<<*7+:6(*53)+:565-5=+=(2M7)M*N=63E?6E3+:712(34567(171(3:+36(:7=?(9+31+OP1(O*+:)+$HM(E)M6M+54(E16(2<(6+1675**N95*E5-*+P1(O*+:)+?(16571+:71:(?E4+16?(**+?67(1=?51-+)3+56，6M+N53+(26+1:7227?E*66(515*NQ+$HM+3+2(3+，767=74<(365166(:+9+*(<4+6M(:=6(+227?7+16*N:7=?(

4、9+3P1(O*+:)++4-+::+:716M+=+:(?E4+163+<(=76(37+=，51:6+>647171)-+?(4+=5174<(365163+=+53?M53+56(($HM7=<5<+3:+=?37-+=515<<3(5?M2(347171)P1(O*+:)+23(4O+-<5)+=，56273=6，)+6=O+-<5)+=23(46M+O+--N=+53?M+1)71+’(()*+，6M+127*6+3=(E66M+733+*+9516:(?E4+16=，65P+=6+>6?56+)(37

5、Q567(1，+>635?6=712(34567(151:3+?()17Q+=6M++9+166N<+-N+<7=(:+，716+R)356+=51:471+=6M+:56571(3:+36(:7=?(9+31+OP1(O*+:)+$S715**N，5<3(6(6N<+-5=+:(16M7=6M+(3N7=:+9+*(<+:，51:6M+16M+3+=E*67=:+=?37-+:71:+657*$!&/$#.’+：=+53?M+1)71+，6+>6?56+)(37Q567(1，+<7=(:+，712(34567(

6、1+>635?67(1，P1(O*+:)+:7=?(9+3N&概述法进行数据挖掘（@565A7171)，@A），从而得到相关知识，并给越来越多的公司、组织、个体等都在网上发布信息，目前，出实现原型。全球最大的搜索引擎’(()*+已经收录了%%亿以上的,+-页面.&/。用户通过一些门户网站或基于关键词的搜索引擎来获取!搜索引擎的基本原理及’(()*+的特点信息，但是，常常由于返回的结果庞大，而使用户的查询十分低简而言之，搜索引擎的工作原理就是对016+31+6中的资源效甚至不得要领，远远不能满足用户对信息获取的要求

7、。这种建立索引信息，用户查询这些索引信息，获得源信息的引用信状况一方面造成信息过载（012(34567(189+3*(5:），另一方面却息.!/。一般情况下，搜索引擎是通过三个组件协同工作来实现使用户望洋兴叹，从而导致,+-信息闲置与浪费的情况非常的，它们分别是搜索机器人、索引软件和查询软件。严重。如何准确地从浩瀚的互联网上获取所需的信息，并挖掘搜索机器人是运行在搜索服务器上的软件，按照一定的规出知识，是人们越来越关注的重点。这就需要从海量信息中检则（如深度优先、广度优先、最佳优先等）访问016+31+6中的网索

8、到所需要的相关信息，进行信息过滤和分类或聚类，尽量排页，并将页面下载到搜索服务器中。由于网站的页面经常会进除掉不相关和相关度无足轻重的信息，然后，进一步抽取出所行一些更新，所以搜索机器人会定期重复爬行被搜索的网站，需要的信息，进行分析和提炼，从而得到知识。自然，自动、准以期达到被搜索信息的时效性。索引软件是以索引数据库为核确、快速地获取相关信息，对于科学决策、学术研究、电

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于搜索引擎的知识发现(1)

基于搜索引擎的知识发现(1)

相关文章

相关标签