文本特征信息的搜索与分类系统设计开题报告

文本特征信息的搜索与分类系统设计开题报告

ID:479771

大小:59.50 KB

页数:7页

时间:2017-08-09

文本特征信息的搜索与分类系统设计开题报告_第1页
文本特征信息的搜索与分类系统设计开题报告_第2页
文本特征信息的搜索与分类系统设计开题报告_第3页
文本特征信息的搜索与分类系统设计开题报告_第4页
文本特征信息的搜索与分类系统设计开题报告_第5页
资源描述:

《文本特征信息的搜索与分类系统设计开题报告》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、开题报告文本特征信息的搜索与分类系统设计一、选题的背景、意义信息无时不在,无时不有,具有普遍性、载体依附性、价值的相对性、时效性、共享性、可伪性等一般特征。随着信息技术的应用与发展和互联网的普及,庞杂的文本信息流急剧增多,对于我们的认知与决策带来了很大的压力,如何有效地组织和管理这些信息并快速、准确、全面地从中找到用户所需要的信息是当前信息技术领域面临的一大挑战。文本信息是网络信息中很重要的一部分。对于文本信息的整理和显示,需要经过一定的步骤和方法来完成的。文本的搜索是要求用户提交查询关键词(文本特征)来查找与之匹配的一系列信息,通过相关的调整,进而能够让用户

2、有效、迅捷地为用户获取所要的文本信息。文本特征信息的搜索与分类离不开搜索引擎技术和文本挖掘相关的技术。这两者缺一不可。先谈一下搜索引擎技术的发展状况。现如今,搜索引擎已成为仅次于门户的互联网第二大核心技术。在短短十年的时间内,搜索引擎迅猛地发展起来。随着互联网的普及和网上信息的爆炸式的增长,搜索引擎越来越引起人们的重视,搜索引擎已成为一个非常热门的话题。搜索引擎技术现在已成为计算机产业界和学术界争相研究和开发的对象。通过对搜索引擎技术和检索任务方面的词语进行统计和分析,一方面可以反映出学术界对搜索引擎的关注程度,另一方面也能大致分析出搜索引擎的发展现状以及发展

3、趋势。搜索引擎的发展大致可以分割成3个阶段。第一个阶段里的搜索引擎以雅虎为标志,主要依靠人工分拣信息,用分类目录搜索信息。这一阶段的搜索引擎技术还处于萌芽阶段。虽然这样,但此时各种搜索引擎概念也相继出现了,如目录式搜索引擎、全文搜索引擎、元搜索引擎等。这一阶段,词频相对较高的关键词是全文检索、智能检索、多媒体、图像搜索、语义网络、分类目录、分类主题等。这个时期分类搜索是网络搜索的主流。搜索引擎在第二个阶段里开始迅速发展。最负盛名的搜索引擎当数Google,它在1999年以不可抵挡的势头走向世界,依靠机器抓取、分析进行网页搜索[1],带动了新技术PageRank

4、和锚文本技术的发展。此阶段的热点词语有关键词检索、倒排索引、全文索引、自动摘要、链接分析等。这段时期链接分析技术、PageRank算法以及Hit算法等如火如荼地展开。人们基本认为Web信息检索开始进入了新一代搜索引擎阶段[2]。第三个阶段里搜索引擎的研究变得非常火热,搜索引擎越来越向智能化、个性化、专业化的方向发展,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品。通过对文本分类、聚类、用户行为分析、分布式、相关反馈、智能代理、查询扩展等高频词的分析,我们可以看出,人工智能、数据库、数据挖掘、自然语言理解等领域的研究有力地促进了搜索引擎的发展。再谈一下文本挖掘

5、相关的发展。虽然信息通讯技术的发展及由此带来的信息量的增长,极大地促进了人们的沟通和交流,为人类的文明和发展做出了巨大的贡献。但同时,信息爆炸式增长带来的消极影响正在凸现。在此,国际上提出了多项文本挖掘计划,以期对网上“堆积如山”的巨大的信息矿床进行有效的过滤、开发与综合利用,把信息变成能够方便利用的知识和财富。NIST(美国国家技术标准局)和DARPA(美国国防高级研究计划局)组织的TREC(文本检索会议)会议是国际上文本挖掘领域的著名评测会议,从1992年起每年召开一次,迄今已经召开了13届。1991-1998年,DARPA资助了TIPSTER文本计划,主

6、要着眼于三项基础技术的评测:文档检测、信息提取、摘要。2003年,DARPA开始启动以机器学习为核心的计划PAL4,为期5年,首期(1-1.5年)投资2900万美元。PAL包含2个子计划:其中,CALO5子计划是整个PAL计划的核心(2200万),将机器学习技术放到了国家安全的角度来考虑。美国主要大学与公司参加这个子计划。由此可见,对海量网络信息的有效处理和深层次综合利用离不开文本挖掘技术,文本挖掘将成为人们应对信息时代挑战的强大利器之一[3]。二、研究的基本内容与拟解决的主要问题在该系统中要实现文本信息的搜索与分类,就必须期望实现以下功能:1)美观的搜索界面

7、,按文本关键字搜索;2)搜索引擎,完成把所要查询的关键字与网上文本信息进行匹配;3)数据库设计,实现把网上匹配的文本特征信息下载并记录,为显示结果提供依据;4)结果显示界面,显示项目包括关键字、相似度和网址,并按一定的顺序罗列。研究要求是在已有的专业理论知识和应用能力的基础上,掌握Java编程和WEB技术,能较熟练的运用Java开发工具Myeclipse及SQLSERVER2000数据库,研究开发出具有上述功能的文本特征信息的搜索与分类系统。在研究途中最主要的一个问题是如何设计一个搜索引擎来实现在网上根据文本特征搜索文本信息并进行分类。这一点很重要,但充满着困

8、难。第二个问题是如何构建数据库。搭建一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。