信息检索与搜索引擎课程报告

信息检索与搜索引擎课程报告

ID:47511727

大小:768.57 KB

页数:17页

时间:2020-01-12

信息检索与搜索引擎课程报告_第1页
信息检索与搜索引擎课程报告_第2页
信息检索与搜索引擎课程报告_第3页
信息检索与搜索引擎课程报告_第4页
信息检索与搜索引擎课程报告_第5页
资源描述:

《信息检索与搜索引擎课程报告》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、..《信息检索搜索引擎技术》期末考试报告学期:2016-2017学年第一学期任课教师:毛存礼专业年级:计科133学号:201310405339、201310405326、201310405330、201310405325学生姓名:李然、毛子铭、张倩、黄枫目录word教育资料..一、系统概述2二、系统需求分析32.1功能需求分析3三、程序实现33.1爬虫的实现33.1.1对网页进行分析33.1.2编写爬虫53.2索引的实现63.2.1分词的实现63.2.2索引的建立83.2.3检索索引83.3向量空间模型的实现93.3.1向量空间模型概述93.3.2建立向量空间模型103.4利用Lu

2、cene打分机制对文档打分13四、测试13五、心得体会16一、系统概述word教育资料..随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件或网络登录等方式,将Intenet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索做出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。本系统基于HTMLUNIT框架,构建爬虫

3、,基于LUCENE框架,构建索引,利用向量空间模型向量化表示文档间的相关性,利用LUCENE给相关文档打分。一、系统需求分析2.1功能需求分析该系统分为四个功能模块:(1)爬虫模块(2)索引模块(3)向量化表示模块(4)打分模块具体实现分工如下:①爬虫模块:该模块采用Htmlunit框架,主要负责爬取网页内容,在本地建立文档库,以便于索引功能模块,将文档库里的文档内容建立成索引。(毛子铭所做)②索引模块:该模块采用Lucene框架,功能分为两块:一是建立索引,将爬取的内容建立成索引。二是检索索引,即提供给用户检索索引。(张倩所做)③向量化表示模块:该模块采用向量空间模型,其功能是将

4、查询文本和文档向量化表示,以一种直观的表示方法,展示出文档间的相似度。(李然、黄枫合做)④打分模块:该模块采用Lucene打分系统,word教育资料..计算查询文本和文档的相似度,并对其文档打分。(李然、黄枫合做)一、程序实现3.1爬虫的实现3.1.1对网页进行分析(1)我们首先,对网页进行分析,昆工新闻上每一则新闻,都有相应的链接,通过点击链接查看相应的新闻。<1>昆工新闻网页截图word教育资料..<2>新闻内容截图(2)在浏览器中,查看新闻网的代码,确定我们所需要的内容并用XPATH表达式定位其内容。<3>新闻代码截图3.1.2编写爬虫(1)在这里,我们使用了HtmlUnit

5、作为我们爬虫的框架,并指定内容,对昆工新闻网进行爬取。word教育资料..<4>部分代码展示(2)编写XPATH表达式,定位所抓取的内容,在爬取过程中,首先要找到新闻的标题,然后,再模拟点击标题的动作,进入新闻页面。(3)爬取内容,并将其写入文本文档中。<5>写入文档word教育资料..<6>爬取内容3.2索引的实现3.2.1分词的实现(1)在建立索引之前,分词是必不可少的步骤,我们所采用的是基于Lucene框架的IK分词技术分词。<7>部分代码展示word教育资料..(2)对爬取的内容,进行分词测试。<9>测试3.2.2索引的建立(1)索引的建立,我们也是基于Lucene框架建立

6、的倒排索引,分词技术的不同索引的差别也是很大,因此,分词技术的选取一定要合理。<10>部分代码展示word教育资料..3.2.3检索索引(1)在这里,我们对爬取好的内容,已经建立好了索引,我们分别测试了“宇宙”、“人民”这两关键词进行检索。可以看见,符合“人民”这个关键词的文档有2个,符合“宇宙”这个关键词的文档不存在。<12>索引word教育资料..<13>索引结果3.3向量空间模型的实现3.3.1向量空间模型概述向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn,ωn(d)),其中ti(i=1,2,…,n)为一列互不雷同的词条项,ωi(d)为ti在d中的

7、权值,一般被定义为ti在d中出现频率tfi(d)的函数,即  。在信息检索中常用的词条权值计算方法为TF-IDF函数,其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式:根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。两文档之间的相似度可以用其对应的向量之间的夹角余

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。