基于web文本挖掘的主题搜索系统的研究与实现

基于web文本挖掘的主题搜索系统的研究与实现

ID:33145880

大小:3.42 MB

页数:47页

时间:2019-02-21

基于web文本挖掘的主题搜索系统的研究与实现_第1页
基于web文本挖掘的主题搜索系统的研究与实现_第2页
基于web文本挖掘的主题搜索系统的研究与实现_第3页
基于web文本挖掘的主题搜索系统的研究与实现_第4页
基于web文本挖掘的主题搜索系统的研究与实现_第5页
资源描述:

《基于web文本挖掘的主题搜索系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据基于Web文本挖掘的主题搜索系统的研究与实现目录目录摘要⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯IIIABSTRACT⋯⋯⋯.⋯⋯⋯⋯⋯⋯.⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯IV第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯..11.1课题背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯l1.2通用搜索引擎⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..11.3主题搜索引擎⋯⋯⋯⋯.....⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.31.4本文的组织结构和内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯6第二章Web文本挖掘和搜索引擎相关技术⋯⋯.

2、⋯⋯⋯⋯⋯⋯⋯⋯⋯.72,lWeb文本挖掘技术⋯⋯⋯.....⋯⋯⋯⋯⋯⋯⋯...⋯⋯..⋯⋯.72.2搜索引擎的基本结构⋯.⋯⋯.⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯..92.3搜索引擎的排序模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯102.4本文系统中使用的关键技术⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1l第三章主题搜索系统的需求分析⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..133.1系统设计目标⋯⋯⋯.⋯⋯....⋯⋯⋯⋯,⋯⋯⋯⋯.⋯⋯⋯133.2系统工作流程⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯133.3系统总体用例图⋯⋯⋯⋯⋯⋯⋯⋯⋯

3、⋯⋯..⋯⋯⋯⋯⋯⋯143.4系统各模块需求分析⋯⋯⋯⋯⋯⋯.⋯⋯⋯.⋯⋯⋯⋯⋯⋯..153.4.1网页下载模块的工作流程⋯⋯⋯⋯⋯⋯,⋯⋯⋯⋯⋯⋯⋯.153.4.2Web文本挖掘模块工作流程⋯..3.4.3索引模块⋯⋯⋯⋯⋯⋯..。3.4.4查询模块⋯⋯⋯⋯⋯⋯⋯第四章主题搜索系统的设计和实现⋯..4.1系统总体架构⋯⋯⋯.⋯⋯⋯..4.2网页下载模块⋯⋯⋯⋯⋯⋯⋯4.2.1}{eritrix的配置⋯⋯⋯.⋯.4.2.2使用HerJtrix建立抓取任务⋯.4.2.3改进Heritrix多线程性能⋯⋯4.3WEB文本挖

4、掘模块⋯⋯⋯⋯..⋯⋯.⋯⋯⋯⋯⋯.⋯.⋯⋯⋯.244.3.1网页解析器⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯.244.4索引模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..304.5查询模块的实现⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.3l4。6系统的应用效果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..3289Ol123l12●■●■●,■●■●■●■●■●■●,●,●■●■●,●拍打船一现一一实一一的器~器词取类分提分文征本中特文234文4万方数据基于Web文本挖掘的主题搜索系统的研究与实现目录第五章实验结果和分析⋯⋯⋯⋯⋯

5、⋯⋯⋯⋯.1lNilIIIIIIIIIIII111..355.1运行环境配置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.Y2704494..355.2分类评价标准⋯⋯⋯..⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯.355.3实验分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..36第六章结论和展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯.⋯⋯⋯.38参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯.39致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯.,41万方数据基于Web文本挖掘的主题搜索系统的研究与实现摘要摘要随着信息技术的飞速发展,因特网上的数据资源

6、也以极快的速度增长着,人们通过网络快速而又准确的找到有价值的信息也变得日益困难。Web搜索引擎往往是用户解决这个问题的第一选择。用户查询某个关键字的时候可能只关心某个主题的结果,但传统的基于关键字的搜索引擎会返回所有包括该关键字的页面,其中很多文档内容质量不高,与主题相关度低甚至毫不相关,并不能满足用户需求。用户需要更改查询条件多次搜索或者逐个查看网页,花费大量的时间来获取需要的信息。为解决这个缺陷,人们提出了基于主题的搜索技术,它可以提供个性化服务,让用户指定主题以更快的发现与主题相关的信息,从而提升用户满意度。We

7、b文本挖掘是Web挖掘领域的一个研究热点,在搜索引擎中可应用于自动文摘、自动网页分类和网页聚类等。采用Web文本挖掘技术,搜索引擎可以根据网页内容对网页按主题分类,从而提高搜索的准确度和效率。本文首先讨论通用搜索引擎的现状和面临的问题,阐述主题搜索技术的意义和价值。接着研究了通用搜索引擎和主题搜索引擎的现状及区别。随后介绍Web文本挖掘技术和搜索引擎技术。基于Web文本挖掘的原理,设计了一个面向新闻领域的主题搜索系统,包括其技术策略和结构框架。系统分为网页下载模块、Web文本挖掘模块、索引模块和查询模块。其中网页下载模

8、块由网络爬虫Heritrix实现、索引模块和查询模块则基于Lucene开发,w曲文本挖掘模块使用了HTMLParser来解析网页,“Paoding”分词算法进行中文分词,TF.IDF和向量空间模型进行文本特征选择,一种基于KNN和SVM算法的KNN.SVM算法进行文本分类。然后详细说明了各个模块的实现过程。最后通过实验对Web文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。