《自然语言》PPT课件

《自然语言》PPT课件

ID:39681389

大小:1.05 MB

页数:87页

时间:2019-07-09

《自然语言》PPT课件_第1页
《自然语言》PPT课件_第2页
《自然语言》PPT课件_第3页
《自然语言》PPT课件_第4页
《自然语言》PPT课件_第5页
资源描述:

《《自然语言》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第四章自然语言与信息组织14.1自然语言是一种发展趋势4.2自然语言的应用方式4.3汉语自然语言的特殊问题及分词技术4.4单汉字检索4.5后控词表4.6自然语言检索的效率问题4.7自然语言与分类主题语言的比较4.8大众分类法-TAG24.1概述自然语言在信息组织与检索方面的应用是以计算机检索为前提的;自然语言本身有突出的优点;研究广泛;汉语分词技术的发展;节省时间,建检索系统速度快;多数数据库都具有自然语言检索功能。34.2自然语言的应用方式自然语言在信息组织与检索中大致有三种应用方式:不标引(无标引)方式自动抽词标引方式人工标引方式44.2自

2、然语言的应用方式不标引(无标引)方式文本关键词匹配检索单汉字检索文本检索作为辅助检索途径标引对信息单元的内容进行调查,形成其相应概念——概念标引,主题分析;将概念转换为检索语言标识——符号标引5文本关键词匹配数据库中存储的是文本(全文、摘要、标题),不进行任何标引,检索时用关键词进行匹配,多称为文本检索;如果是针对全文数据库,则称为全文检索;检索表达式可以是词、词的组配;最普通的应用方式。6字符串匹配检索算法精确匹配检索假设两个串t和p:t=t0t1t2…tn-1目标p=p0p1…pm-1模式其中,1

3、式p完全相同的子串的过程叫做模式匹配。匹配结果有两种:如果t中存在等于p的子串,就指出该子串在t中的位置,称为匹配成功;否则称为匹配失败。7(1)朴素模式匹配用p中的字符依次与t中的字符比较。每次顺序比较p和t的对应字符,如果所有得字符都相同,就说明发现了一个匹配。这种算法效率不高,主要原因在于执行中有回溯,一旦比较不等,就将p所指的串右移一个字符,并从p0开始比较。最坏的情况是,每次比较都在最后出现不等,最多比较n-m+1趟,总比较次数为m*(n-m+1)。8(2)KMP算法每当匹配过程中出现字符串比较不等时,不需回溯i指针,而是利用已经得到

4、的“部分匹配”结果将模式向右“滑动”尽可能远的一段距离后,继续进行比较。9(3)BM算法10模糊匹配模糊匹配检索的效率与精确匹配检索相比要低很多,当进行二叉树搜索时耗费时间将随着数据库的增长呈现出对数增长;模糊检索提高了检全率;其原理简单来说就是给定两个字符串,如何找到一个最经济的操纵序列,使得一个字符串可以转换为另一个字符串。这组操作的成本就是两个字符串的相似度。也就是说,转换成本越低,两个字符串的相似度就越高;反之就相似度越低。基本的转换操作是插入、删除和替换。1112单汉字检索汉语自然语言检索的特有方式;原理类似与文本关键词匹配;处理单位

5、是“字”,不是“词”;数据库采用“全标引”,即所有汉字(除禁用词)都做倒排索引;单个汉字表达概念能力较弱,因此几乎等同于不标引。13铃101,102,203……马101,201,324……薯101,521,458…………14文本检索作为辅助途径信息单元用检索语言进行标引;但是题名,摘要等用自然语言提供自由匹配检索。15全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字

6、表查字的过程。全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。16174.2自然语言的应用方式2.自动抽词标引方式自动抽词标引自动赋词标引自动赋分类号标引自动聚类标引人机结合抽词标引18自动抽词标引最早出现的自动标引方式;从标题--摘要--全文中抽词;拼写文字中,从空格识别词;而汉语则存在分词问题;根据非关键词表筛选抽取出的词;抽取出的关键词做倒排索引。19自动赋词标引在自动抽词的基础上,根据自然

7、语言词与规范的检索词之间的对应关系,将自然语言词转换为规范词,并建立倒排索引;是自然语言与检索语言的结合;检索时可以从自然语言词、规范词入手。20自动赋分类号一种自动分类方法;根据自动抽词结果,对照自然语言词与分类号的对照关系以及自动分类规则,将抽取出的自然语言词转换为分类号,并建立倒排文件;两种语言的结合;检索有两个入口:分类号和自然语言词。21自动聚类自动分类的一种方法;这里的类是语义上描述同一类事物的一组词的语词类集;在自动抽词的基础上,进行词频分析和语词共现频率的统计分析,判别出若干最能表达信息单元内容的词;与语词类集进行相似性比较,确

8、定信息单元属于那个类;从而实现相关文献的聚集22人机结合抽词标引采取一定措施,提高自动抽词的质量。人工鉴别抽词结果;对文本添加抽词标识;……234.2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。