欢迎来到天天文库
浏览记录
ID:41530522
大小:249.01 KB
页数:65页
时间:2019-08-27
《信息组织(检索)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、2、7信息检索(二)1、信息检索模型(原理)2、信息检索方法1、信息检索模型(informationretrievalmodel)实现信息检索,就是要实现用户查询和文档集文档相似性匹配。检索系统采用的查询和文档集内部表示、相似匹配的方式决定所采用的检索策略和模式,从而引出各种不同的信息检索模型(informationretrievalmodel)。一个信息检索模型是将文档表示、查询以及它们之间的关系进行建模的框架,它由一个三元组表示:F[D,Q,R(qidj)]其中,D是文档的表示,Q是查询的表示。R(qid
2、j)是一个排序函数,该函数输出一个与查询表示qi∈Q和dj∈D的有关实数。这样就在文档之间根据查询qI定义了一个顺序。按照相似匹配度模式的不同可以分为:全文(full-text)检索内容(content-based)检索全文检索——以从文本中找出与查询表示的字符串完全一致的部分为目的,检索结果为包含查询字符串的文本及其位置。内容检索——不必像全文检索那样进行完全一致的匹配,而是着眼于找出与查询语义相似的文本。2、内容检索模型提取一组描述文本内容的词汇,称为索引项(term),用索引项的出现次数等来表示文本和
3、查询请求。计算文本和查询请求间的相似度并依据大小排序输出检索结果。内容检索的模型有:向量空间模型(vectorspacemodel)概率模型(probabilisticmodel)网络模型(networkmodel)向量空间模型:向量空间模型是GerardStalton等人在SMART系统中采用的模型,在信息检索领域为人们所熟知的一种传统的检索模型。向量空间模型的最大特点是用多维向量表示文档和查询,通过计算向量间的相似度实现文档的相似检索。涉及向量、矩阵、向量空间等线性代数知识。设矩阵D为索引项-文本矩阵。其
4、中各列是表示文本信息的文本向量,各行是表示索引项信息的索引项向量(其中索引项是经过权重处理的元素)d11d12…d1nD=[d1d2…dn]=d21d22…d2ndm1dm2…dmn查询语句与文本相同也用索引项权重为元素的向量表示。查询向量q表示如下:q1q=q2q3qm检索时,找出与给定的查询语句相似的文本,这是通过计算查询向量q与各个文本向量dJ间的相似度实现的。向量间相似度的计算方法有多种,文本检索中最常使用的是计算余弦和内积的相似度。计算两个向量夹角的余弦函数:其它信息检索数学模型概率模型网络检索模型
5、推理网络模型信念网络模型遗传算法(Holland,1975):交叉、变异、选择粗糙集(Pawlak,1980s):模糊性和不确定性3、其他信息检索的相关技术1)信息过滤:从大量的信息中提取有用的信息,去除无用的信息。当新的文档加入到系统中时,只提取符合用户需求的信息,去除不符合的信息。在信息过滤系统中,把检索需求称为用户描述,把不断产生的新信息成为信息流。过滤系统根据用户描述文件选择用户感兴趣的信息,删除用户不需要的信息。信息流过滤系统内部表示内部表示内部表示匹配内部表示新产生的文档用户描述1用户描述2用户描
6、述N与用户描述1相关的文档与用户描述2相关的文档与用户描述3相关的文档2)文本自动分类:为了对大规模的文档进行分类,需要由计算机进行自动处理,称为文本自动分类。大致分为两种:一种是按照预先设定文本内容的类别(如政治、经济、科学等),确定文本内容属于哪一类,将文本放到所属的类别中。一种是通过将相似的文本归为一组(聚类)的方法,把全体文档集合分为若干类。文本自动分类原理为计算两个文本间的相似度,或文本与文本类别间的相似度,所以基本上可以采取与信息检索相似的技术实现。如基于向量空间模型的方法;基于规律模型的方法;基
7、建于规则和基于识别学习的方法等。3)信息抽取信息抽取系统的重要功能是从文档中抽取出特定的事实信息。例如:从新闻报道中抽取恐怖时间的详细情况,如时间、地点、做案者、袭击目标等。被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析。因此可以把信息抽取系统看做是把不同文档中的信息转换成数据库记录的系统。近年来,信息抽取的处理对象已经扩展到图像、视频、音频等其他媒体类型的数据。目前的研究侧重于:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理技术、We
8、b信息抽取等。信息抽取技术对搜索引擎、信息安全、企业智能信息系统等许多应用领域具有相当重要的作用。至今,已有不少公司以信息抽取技术产品为主。四、信息检索的主要方法常规法回溯法循环检索法常规检索法——以主题、分类、作者等为检索点,利用检索工具获得信息的方法。利用此法要熟悉主要的检索工具的编排体例和作用。根据检索要求常规法又分为:顺查法、倒查法、抽查法。回溯法——又称追溯法、引文法。以文献后面所附的参考
此文档下载收益归作者所有