欢迎来到天天文库
浏览记录
ID:15133775
大小:220.50 KB
页数:5页
时间:2018-08-01
《文本信息检索技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、期末课程论文论文标题:基于文本信息检索技术课程名称:信息检索技术课程编号:1220500学生姓名:学生学号:所在学院:计算机科学与工程学院学习专业:计算机科学与技术课程教师:2013年7月4日文本具有与平台无关、支持基于内容的联想式超链接信息组织方式以及多媒体化的人机界面,因此成为Interact上信息组织、存储与发布的主要方式之一。但是,由于文本是一种非结构化文档,一般仅适合于信息的浏览和导航,而无法像数据库那样实现基于主题、关键词、内容等的信息检索。其次,一张主页至少对应一个以上的文件,当信息规模较大时,不仅文件数量巨大,而且文件间存在的错
2、综复杂的链接关系也难以维护.在数字化图书馆、多媒体课件资源以及ICP(IntemetContentPmvider)网站构造等应用中,这种情况尤为突出.因此,如何实现超文档的规范化管理,并提供基于主题和全文的检索功能,已经成为数字图书馆、多媒体远程教育中课件资源管理以及ICP服务的一个重要问题。目前,实现文本信息的全文检索,一般有以下两种解决途径:①采用Web服务器自带的索引服务器,如MicrosoftIIS自带的IndexServer,这种方法只能实现字符串匹配查询,无法实现按主题查询,效率低下,无法跨平台,也无移植性;②通过将非结构化的文本文
3、件集转换成结构化数据库,并对数据库中文本记录的特征字段进行标引。形成完整的文本数据库.在此基础上开发相应的基于web的检索引擎,实现对超文本查询的目的。本文在分析文本信息检索功能需求的基础上,提出了一种将非结构化的超文本转换为结构化数据库的模型,并且提出了一种支持文本信息全文检索的解决方案,在数字图书馆系统和多媒体远程教育系统的课件资源管理与检索中得到了实际应用和验证。功能需求与模型一般地,对于一个规模较大的超文本信息群,应向用户提供以下检索功能。(1)信息分类.通过对信息进行分级、分类组织,为用户提供信息源选择的功能,以便为用户导航或查询界定
4、检索范围.对于范围过大的信息群,有必要采用二级甚至多级分类,使用户在进行具体检索前通过逐级选择信息类别达到缩小检索范围的目的。(2)组合条件.为用户提供不同源信息的组合检索,例如用户可以根据主题、作者、关键词、日期等栏目,提出综合检索要求。(3)全文检索.根据用户设定的条件,在全文范围内进行检索,并可按照检索词的特定指标评价检索匹配度,并实现检索结果的全文显示。(4)逐级检索.在信息检索中,首次检索可能因为条件不够精确而导致检索结果信息量过大,用户裔要在此基础上进行二次或多次检索,而每次检索都是以上次结果作为本次检索范围,以逐步缩小信息量.逐级
5、检索技术对于用户而言,还具有启发作用,根据每次得到的中间结果.适时调整检索方向,达到逐步求精检索目标的目的。(5)结果处理.对于最终获得的检索结果,除了提供显示功能外,还应提供保存、Email转发、打印等功能。为了满足以上需求,需要解决以下两个问题:一是如何将非结构化的超文本信息集转换成结构化的数据库;二是在结构化转换的基础上如何实现全文检索。首先,将超文本文件集转换成超文本数据库,除了要满足无损性、可还原性等要求外[4],为了实现对超文本数据库的有效管理,并且支持超文本信息查询,还应该具备以下功能。(1)特征标引.允许工作人员对转换后的超文本
6、记录进行特征标引,如关键词、主题词、摘要、作者、日期等。因为这些信息都是Web用户查询所需要的,但转换程序无法从超文本文件中直接获取这些信息.(1)安全刪除与替换.当刪除(或替换)超文本数据库中的一条记录时,系统将自动判断该记录对应的超文本是否和其他记录对应的超文本相关联。如存在关联,则给出瞢告,如果确认刪除,则由系统自动更新与此超文本相关的链接。(2)链接关系查看.以树状或网状形式反映出某一超文本和其他超文本文件之间的链接关系,工作人员可以一览全局。由此,可以得到如图1所示的超文本结构化转换与全文检索的实现模型。超文本检索引擎的原理为了有效说
7、明超文本检索引擎的实现原理,先对超文本检索问题进行形式化描述.超文本信息集可以用有向图H=(N,E)表示,其中N为超文本结点集,即HTML文件集,E表示结点间的链接关系,又n=
8、
9、N丨
10、,进一步定义以下术语及符号。(1)超文本文件地址:=URT(HTML)(2)超文本地址集U:U={所有HTML文件对应的地址}=(3)超文本获取操作Ⅳ:web浏览器根据地址Ui获得网页HTML文件的操作.表示为=(4)链接关系L():对于任意结点P∈N,可能存在若干指向其他结点的链接,设为(),则()={(),(),⋯,()}式中:()表示存在从指向的超链接。(
11、5)链接关系集L(N):表示整个超文本信息集中的链接关系集合,=由此,可以将超文本信息集进一步表示成为图1超文本结构化转换与全文检索的实现(1)措词提
此文档下载收益归作者所有