基于xml的信息检索的研究-开题报告

基于xml的信息检索的研究-开题报告

ID:30988774

大小:62.75 KB

页数:8页

时间:2019-01-05

基于xml的信息检索的研究-开题报告_第1页
基于xml的信息检索的研究-开题报告_第2页
基于xml的信息检索的研究-开题报告_第3页
基于xml的信息检索的研究-开题报告_第4页
基于xml的信息检索的研究-开题报告_第5页
资源描述:

《基于xml的信息检索的研究-开题报告》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、毕业设计开题报告学生姓名:学号:学院、系:专业:设计题目:基于XML的信息检索的研究指导教师:2010年2月24日毕业设计开题报告1・结合毕业设计情况,根据所查阅的文献资料,撰写2000字左右的文献综述:文献综述研究现状:随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。I大I此人们对多媒体信息的检索需求也就随Z随Z变得特别迫切。但由于图像检索系统涉及了多学科的知识,实现和应用的难度相当高,所以已右的图像检索系统都右这样或那样的缺陷

2、。而传统的信息检索主要集中于文字的检索,在多媒体方面的研究并不是很多。互联网上的多媒体以图像为主,因此图像的检索就成为了目前研究的热点。图像检索经历了两个阶段:第一阶段是以文本为基础的检索。第二阶段是以图像自身的内容为基础的检索。上个世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术利用文木描述的方式描述图像的特征。到90年代以n,in现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索技术。而无论是什么引擎,它首先都必须遵循以下几个要点:⑴索引

3、文档的容量:现在最大的搜索引擎可能包含了超过100,000,000个链接,但这也只是整个Web网上的一小部分。因为收集资料的Robot,只能从“已知”的链接开始收集网页资料,而只有一小部分Web网页和这些“已知”的网页有连接;现在还没有一个搜索引擎能够随网页内容的更新比较及时地更新索引;(2)覆盖而:地理覆盖而和主题覆盖面;(3)索引更新频率:不同的搜索引擎,索引更新频率相差很大,右的是儿周,有的是一年。索引更新频率有两种定义,一种比较少用的定义是新的网页能被收录进索引数据库中,另一种是同一页多少吋间才被检查一次,有必

4、耍时更新索引。有的搜索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作;(4)采集过程:釆集过程有宽度优先、深度优先两种算法;一般认为宽度优先对扩大内容的覆盖面右利,深度优先算法右助于提供更多的细节资料;(5)索引算法:有的搜索引擎只处理元标记和一小部分文档内容,而有一些搜索引擎则是对全文进行索引;(6)结果显示:有的搜索引擎只显示网页的标题,有些则有更详细的一些信息,比如网页的内容,更新H期等;(7)查询算法:一个优秀的查询算法是很重要的,最基本的布尔查询,短语查询,有的搜索引擎还提供指定属性的查询,比

5、如可以指定对网页的作者、主题进行查询。另外有的搜索引擎还采用了相关度反馈、概念查询等算法;(8)用户界面:很多搜索引擎都提供了简单查询和高级查询两个界面。并口提供了必要的帮助和范例。在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方而是根据相似度算法,计算用户提问与索引数据库小记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出

6、。为了进一步提高检索的准确性,许多系统结合和关反馈技术來收集用户对检索结果的反馈信息,这在CBIR中显得更为突岀,因为CBIR实现的是逐步求精的图像检索过程,在同一次检索过程中需要不断地与用户进行交互。基于文本和基于内容是图像检索发展的两个分支,不过从门前图像检索研究的趋势而言,尤其结合网络环境下图像的特征——嵌入在具右文本内容的Web文档屮,出现了三个不同的研究着眼点。立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展己经成熟。如Page-Rank方法、概率方法

7、、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如宜方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。结合文木和内容,进行融合性研究。发挥各口的优势促进图像的

8、高效、简单检索方式的实现,尤其是网络环境下,结合图像所在Web文档的特征分析,推断图像的特征,同时结合对图像的内容分析,共同标引达到对图像的分析和检索。可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。发展趋势:rtr丁•传统的搜索引擎在设计方面存在同限性(集中式的体系机构,通过网络爬行器收

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。