E:FG*(H>(IJE>K<>(;$93D摘要,*1网上"> E:FG*(H>(IJE>K<>(;$93D摘要,*1网上" />
欢迎来到天天文库
浏览记录
ID:36770356
大小:261.12 KB
页数:6页
时间:2019-05-15
《基于兴趣模型的WEB信息预测采集过滤方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于兴趣模型的!"#信息预测采集过滤方法李振星&徐泽平!唐卫清!唐荣锡&(&北京航空航天大学机械工程及自动化学院,北京&"""C#)(!中国科学院计算所,北京&"""C")-8D;>E:FG*(H>(IJE>K<>(;$93D摘要,*1网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。该文提出一种基于用户兴趣模型的,*1文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对,*1站点结构进行分析的基础上,通过对网页的相关度的预测来控制信息的采集。在保持
2、定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。关键词信息采集兴趣模型文本过滤文章编号&""!8C##&8(!""#)"%8"""#8"#文献标识码L中图分类号7M#N&$#$%&’()*+),-$./+’&0’+1%-2%&!’34)5’6)+1’&.,5#)*’-%,7,+’&’*+’-0%-’/8.91’,:.,5;<=9’>.,5?@),5!’.A.,5?@),5B%,5:.;(&O9G33E3PQ*9G;(>9;E-(I>(**+>(IRLS)3D;)>3(,.ALL,.*>T>(I&"""
3、C#)(!’(<)>)S)*3P53D:S)>(I7*9G(3E3IU,5LO,.*>T>(I&"""C")C3*+&)(+:V3EE3W>(I+;:>=*H:;(<>3(3PGSI*>(P3+D;)>3(3(,*1,)G**PP>9>*(),*1>(P3+D;)>3(I;)G*+>(I3(<:*9>P>*=P>*E=<1*93D*D:3+);()>(>(P3+D;)>3(+*)+>*X;E+*<*;+9G$.;<*=3()G*>()*+*<)*=D3=*E3PS<*+,)G><:;:*+:+*<*()<)G*
4、V3+*9;<);(=V>E)*+Q*)G3=P3+,*1:;I*Y;)G*+>(I$7G*D*)G3=;::E>*<)*H)P>E)*+W>)G:ES<;(=D>(S<<*)<:+3X>=*=1US<*+)3=*<>I()G*>()*+*<)*=D3=*E$V3+*9;<)P3+)G*+*E;)>X>)U3P,*1:;I*93()+3EE*=)G*I;)G*+>(I,1;<*=3()G*;(;EU<><3P,*1<>)*<)+S9)S+*$Y;)G*+>(I)>D*5、*)+>*X;E<:**=*=,(*)+*<3S+9*<<;X*=$D’EF%&-*:’(P3+D;)>3(Y;)G*+>(I,’()*+*<)*=Q3=*E,7*H)V>E)*+>(I&领域讨论的热点/#0/40,文献/%0首先建立一种所谓的5678判定树引言随着’()*+(*)和,-.的飞速发展,,-.上的海量信息保(93(9*:)81;<*==*9><>3()+**,基于概念的判定树),然后进行持加速膨胀。基于’()*+(*)的各类信息检索得到了迅速的发概念扩充以便更好地表现用户的信息需求,计算待过滤文本的展,迫切需6、要建立针对特定领域信息的专用检索系统,实践证相似度,根据相似度阈值和匹配率阈值,最终将文本推送与其明这种,-.检索系统是一个非常有用的信息检索工具/&0。信息需求相符合的用户,这种过滤机制适合于多用户的信息分,*1检索系统通常由三个部分组成/!0:(&)在’()*+(*)网上流。文献/?0提出一种进化式的信息过滤方法,从多个角度描述搜索信息的信息采集工具2313);(!)把信息进行分类索引建立用户的信息需求,它们之间相互竞争又相互合作,使系统性能网页数据库的索引器;(#)通过,-.服务器为用户提供浏览达到最优,它从一个新的7、角度对过滤器的训练作了新的尝试。器界面下进行信息查询的检索器。传统的2313)的网页采集控制策略有两种:宽度优先策略和深有预测定向采集相关信息,避免无关信息的采集,可以缩度优先策略,文献/@0提出了一种基于A2B预测的优先级优先短采集时间、减少信息存储、加快检索时间,也节约了网络资策略。文献对于有预测的定向采集,*1信息,没有给出完善的源。信息采集工具采集到的网页质量直接关系到整个检索系统解决方法。已有的实现系统中,采集大都是给定限制全部下载是否能够为该领域的用户提供良好的检索服务。信息,然后分析,过滤,处理。特定领域的,8、-.信息采集主要涉及到两个方面的问题:该文在对,*1站点结构进行分析后,在正反集文本过滤一是如何对网页进行过滤的文本过滤技术,判断其相关性;二方法基础上,提出基于用户兴趣模型的特定领域,-.信息预是2313)的网页采集控制策略。由于’()*+(*)上大量的信息表测采集方法。这种方法首先设计出一种用户兴趣
5、*)+>*X;E<:**=*=,(*)+*<3S+9*<<;X*=$D’EF%&-*:’(P3+D;)>3(Y;)G*+>(I,’()*+*<)*=Q3=*E,7*H)V>E)*+>(I&领域讨论的热点/#0/40,文献/%0首先建立一种所谓的5678判定树引言随着’()*+(*)和,-.的飞速发展,,-.上的海量信息保(93(9*:)81;<*==*9><>3()+**,基于概念的判定树),然后进行持加速膨胀。基于’()*+(*)的各类信息检索得到了迅速的发概念扩充以便更好地表现用户的信息需求,计算待过滤文本的展,迫切需
6、要建立针对特定领域信息的专用检索系统,实践证相似度,根据相似度阈值和匹配率阈值,最终将文本推送与其明这种,-.检索系统是一个非常有用的信息检索工具/&0。信息需求相符合的用户,这种过滤机制适合于多用户的信息分,*1检索系统通常由三个部分组成/!0:(&)在’()*+(*)网上流。文献/?0提出一种进化式的信息过滤方法,从多个角度描述搜索信息的信息采集工具2313);(!)把信息进行分类索引建立用户的信息需求,它们之间相互竞争又相互合作,使系统性能网页数据库的索引器;(#)通过,-.服务器为用户提供浏览达到最优,它从一个新的
7、角度对过滤器的训练作了新的尝试。器界面下进行信息查询的检索器。传统的2313)的网页采集控制策略有两种:宽度优先策略和深有预测定向采集相关信息,避免无关信息的采集,可以缩度优先策略,文献/@0提出了一种基于A2B预测的优先级优先短采集时间、减少信息存储、加快检索时间,也节约了网络资策略。文献对于有预测的定向采集,*1信息,没有给出完善的源。信息采集工具采集到的网页质量直接关系到整个检索系统解决方法。已有的实现系统中,采集大都是给定限制全部下载是否能够为该领域的用户提供良好的检索服务。信息,然后分析,过滤,处理。特定领域的,
8、-.信息采集主要涉及到两个方面的问题:该文在对,*1站点结构进行分析后,在正反集文本过滤一是如何对网页进行过滤的文本过滤技术,判断其相关性;二方法基础上,提出基于用户兴趣模型的特定领域,-.信息预是2313)的网页采集控制策略。由于’()*+(*)上大量的信息表测采集方法。这种方法首先设计出一种用户兴趣
此文档下载收益归作者所有