文本特征信息的搜索与分类系统设计文献综述

文本特征信息的搜索与分类系统设计文献综述

ID:479833

大小:54.00 KB

页数:4页

时间:2017-08-09

文本特征信息的搜索与分类系统设计文献综述_第1页
文本特征信息的搜索与分类系统设计文献综述_第2页
文本特征信息的搜索与分类系统设计文献综述_第3页
文本特征信息的搜索与分类系统设计文献综述_第4页
资源描述:

《文本特征信息的搜索与分类系统设计文献综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、文献综述文本特征信息的搜索与分类系统设计一、前言部分随着信息技术的应用与发展、互联网的普及,网络资源呈现一种爆炸式的增长态势,对于我们的认知与决策带来了很大的压力,如何有效地组织和管理这些信息并快速、准确、全面地从中找到用户所需要的信息是当前信息技术领域面临的一大挑战。网络中的资源不仅包括文本信息,声音信息,还包含了图像信息。对于此种情况,现特针对文本信息这一块进行研究和探索。文本信息的搜索要求用户提交查询关键词(文本特征)来查找与之匹配的一系列信息,通过相关的整理,进而能够让用户有效、迅捷地获取所要的文本信息。二、主题部

2、分文本特征信息的搜索与分类离不开搜索引擎技术和文本挖掘相关的技术。随着互联网的普及和网上信息的爆炸式的增长,搜索引擎越来越引起人们的重视。如今,搜索引擎已成为仅次于门户的互联网第二大核心技术。在短短十年的时间内,搜索引擎迅猛地发展起来。最近几年,搜索引擎已成为一个非常热门的话题。对于搜索引擎发展的几个阶段、各个阶段在年代上的划分以及各阶段的主要特点,并没有一个统一的说法。大部分人认为,第一代搜索引擎以雅虎为标志,主要依靠人工分拣信息。用分类目录搜索信息;第二代以Google为代表,依靠机器抓取、分析进行网页搜索[1]。对于

3、第三代和第四代搜索引擎,至今还没有明确的划分标准。也有人认为第三代搜索引擎是第一代与第二代搜索引擎的结合[1]。至于第四代搜索引擎,则更是说法不一。1999年和2001年把搜索引擎的发展分割成了3个阶段。第一个阶段里研究搜索引擎的期刊论文相对较少,大部分搜索引擎技术处于萌芽阶段。此时各种搜索引擎概念相继出现,如目录式搜索引擎、全文搜索引擎、元搜索引擎等。这一阶段,词频相对较高的关键词是全文检索、智能检索、多媒体、图像搜索、语义网络、分类目录、分类主题等。这个时期分类搜索是网络搜索的主流。搜索引擎在第二个阶段里开始迅速发展。

4、最负盛名的搜索引擎当数Google,它在1999年以不可抵挡的势头走向世界。Google的出现带动了新技术PageRank和锚文本技术的发展。此阶段的热点词语有关键词检索、倒排索引、全文索引、自动摘要、链接分析等。这段时期链接分析技术、PageRank算法以及Hit算法等如火如荼地展开。人们基本认为Web信息检索开始进入了新一代搜索引擎阶段[2]。第三个阶段里搜索引擎的研究变得非常火热,搜索引擎越来越向智能化、个性化、专业化的方向发展,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品。通过对文本分类、聚类、用户行为分析、分

5、布式、相关反馈、智能代理、查询扩展等高频词的分析,我们可以看出,人工智能、数据库、数据挖掘、自然语言理解等领域的研究有力地促进了搜索引擎的发展。搜索引擎技术现在已成为计算机产业界和学术界争相研究和开发的对象。通过对搜索引擎技术和检索任务方面的词语进行统计和分析,一方面可以反映出学术界对搜索引擎的关注程度,另一方面也能大致分析出搜索引擎的发展现状以及发展趋势。信息通讯技术的发展及由此带来的信息量的增长,极大地促进了人们的沟通和交流,为人类的文明和发展做出了巨大的贡献。但同时,信息爆炸式增长带来的消极影响正在凸现。在此,国际上

6、提出了多项文本挖掘计划,以期对网上“堆积如山”的巨大的信息矿床进行有效的过滤、开发与综合利用,把信息变成能够方便利用的知识和财富。NIST(美国国家技术标准局)和DARPA(美国国防高级研究计划局)组织的TREC(文本检索会议)会议是国际上文本挖掘领域的著名评测会议,从1992年起每年召开一次,迄今已经召开了13届[3]。1991-1998年,DARPA资助了TIPSTER文本计划,主要着眼于三项基础技术的评测:文档检测、信息提取、摘要。2003年,DARPA开始启动以机器学习为核心的计划PAL4,为期5年,首期(1-1.

7、5年)投资2900万美元。PAL包含2个子计划:其中,CALO5子计划是整个PAL计划的核心(2200万),将机器学习技术放到了国家安全的角度来考虑。美国主要大学与公司参加这个子计划。由此可见,对海量网络信息的有效处理和深层次综合利用离不开文本挖掘技术,文本挖掘将成为人们应对信息时代挑战的强大利器之一[4]。文本挖掘是以半结构(如Web网页)或者无结构(如纯文本)的自然语言文本为对象的数据挖掘。它是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在有用的规律的过程[5]。文本挖掘首先要从文本中提取适当的特征,将文本表示成

8、计算机能够理解的数字形式。根据处理速度和精度的需要,可以对文本中的特征进行选择优化。然后采用各种文本挖掘方法发现隐藏的知识模式,以满足用户评价标准的模式最终输出,成为指导人们实践的有用知识。特征[6]表示是指以一定特征项(如词条或描述)来代表文档,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。