主题web动态信息推荐技术研究 (1)

主题web动态信息推荐技术研究 (1)

ID:33689454

大小:4.87 MB

页数:50页

时间:2019-02-28

主题web动态信息推荐技术研究 (1)_第1页
主题web动态信息推荐技术研究 (1)_第2页
主题web动态信息推荐技术研究 (1)_第3页
主题web动态信息推荐技术研究 (1)_第4页
主题web动态信息推荐技术研究 (1)_第5页
资源描述:

《主题web动态信息推荐技术研究 (1)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第l章绪论以Go091e、Baidu为代表的第二代搜索引擎依据机器入抓取信息,采用关键词检索,是建立在超链接分析基础上的网页搜索,其信息服务深入、集中、更加专业化。第二代搜索引擎是目前信息检索领域的主流信息检索工具,尤其对搜索某一主题或者某一学科领域的web信息发挥着极为重要的作用。无论是第一代搜索引擎还是第二代搜索引擎,都存在二大问题:一是检全率不高;二是检准率太低。为了提高信息检索的检准率和检全率,人们渴望发展智能化、专业化的搜索引擎,即把基于关键词匹配搜索转变为基于主题概念搜索,满足用户个性化、专业化信息检索需求。以Askjeeves、2lilink、搜狗、1exxe为代表的

2、第三代搜索引擎——人一机互动式检索机制,在用户输入一个查询词时,尝试理解用户可能的查询意图,给出多个主题的搜索提示,引导用户快速准确地定位自己所关注的内容。第三代搜索引擎成为搜索引擎的发展趋势和重点研究对象。现有的搜索引擎的信息服务方式都是基于关键词检索的被动式信息服务模式,而且信息源都是基于整个Internet的,对硬件环境有着特殊的要求,查全率查准率不高。为了解决用户对特定网站某一主题信息实时搜集的需求状况,论文提出了主题web动态信息推荐技术研究,其目的是在人一机交互的基础上,通过跟踪用户的浏览记录,获取用户的主题偏好,建立一个小型化、专业化的信息搜集系统,实时推荐主题信息。

3、1.2研究现状论文针对国内外知名中文新闻门户网站,研究主题Web动态信息推荐技术,涉及主题web页面采集、web页面正文抽取、汉语分词、文本分类、未登陆词识别等诸多信息处理领域。1.2.1主题Web采集算法研究现状主题搜索引擎的任务是在尽可能短的时间内,采集尽可能多的主题相关网页。采集的过程中,采集器从URL队列里按顺序取出URL,获取其所指向的页面,然后从已获取的页面中提取出新的URL,并将它们继续按顺序放入到待采集URL队列中。如何将主题相关度大的URL排列在队列的前面,即URL的排第l章绪论序方法,将影响到采集的质量与速度(宗校军,2006)。目前有多种URL的排序方法,按照

4、所采用的领域知识和评价链接价值方法的不同,可分为两大类:(1)基于web结构评价ChoJ(1998)、PageL(1998)和Risvik(2002)分别提出了“back—link’’、“forward—link"和“pagerank”三种不同的URL排序依据。Back一1ink是所有指向一个URL的链接数量,值越大URL集中性越强;Pagerank是网页back—link值与forward—link值的比例。实验证明,Pagerank是URL队列排序的最好依据,它揭示了URL之间的相互关系。目前主流搜索引擎G009le使用的就是Pagerank技术。但是Pagerank技术需要网

5、页之间相关链接的信息,否则就无法计算出Pagerank的值。ChakrabartiS(1999)等在URL的排序中使用了Hub值作为参数依据,具有较好Hub值的URL是采集的较佳起点,能引导采集更多的主题相关网页。与Pagerank相似,这一方法需要预先获得网页之间的互相联系信息以便能计算Hub值。S.Mukherjea(2000)提出了用网页相似度的方法来确定相关网页,认为离主题相关页面近的网页(包括父节点、兄弟节点、子节点)才是相关网页,所包含的URL具有较高的主题相关性。Aggarwa等也认为如果位于同一父节点下的大量兄弟网页(Siblingpages)是主题相关的,那么位于

6、该父节点下的其他网页主题相关性的可能性就非常高。DeanJ(1999)称这种兄弟网页之间的关系为同引用性(Co—citation)。(2)基于内容相似度评价HersoviciM等人提出的“Shark—search”算法在URL的优先权计算时考虑了超链描述文字的提示作用,同时采用向量空间模型计算网页的相似度。网页相似度由主题相关词和网页内容比较得到,如果网页相似度高,那么该网页所包含的URL优先权也就相应较高。相似度包含两个部分,网页内容相似度和Archor文本相似度。网页内容相似度显示了网页与主题的相关性,Archor文本相似度显示了网页中URL与主题的相关性。3第2章搜索引擎技术

7、基础2.1搜索引擎2.1.1搜索引擎的含义搜索引擎(SearchEngine)是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统(刘延章,2007),是一些在web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前200至500个单词。当用户输入关键词(Keyword)查询时

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。