资源描述:
《潜伏语义分析的理论以及其应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、潜伏语义分析的理论以及其应用ok3ais(1997)指出,一个问题是我们不知道某一个制约是否真正存在;少年儿童虽然假定相同的物体只有一个名称,但是他们所接触的语言是否也是这样呢?又如某一种制约的产生是逐步进化的,还是通过认知而起作用的一种普遍性制约?还有一个问题是,某些制约的存在和产生出于逻辑的需要,但这又是不够的,可以从3方面看:1)某一套制约是否逻辑上和语用上充分,也就是说使用了它们以后是否就能解决问题?例如儿童认为没有同义词,这在多大程度上能帮助他们学习词汇?2)和方法论有关,怎样才能获得前一个问题的答案?怎样知道某一些特定制约的
2、组合应用到自然环境的输入时才能解决问题?3)怎样决定一个提出来的模型是否具有心理现实性?landauer认为要解决这些问题必须使用模拟的模型。而他和其他几个研究人员foltz、dumais、deeranticanalysis,lsa)。这是一个多维数的线性组合模型,“这个模型只是一个普遍的学习机制,本身并不体现人类知识,但是它通过分析一个很大的自然语言文本语料库来生成一个足以体现词语和文本片段的相似性的表征。”2.lsa的理据从潜伏性语义分析的角度看来,归纳就是减少维数(reductionofdimensionality)。landau
3、er举了一个形象的例子,一个人站在高原上打电话告诉他的朋友三间房子的位置,a和b、a和c的距离都是5个单位,而b和c的距离则是8个单位。在他的朋友脑海里就形成一个两个维数的三角形。如果他继续补充说,这三间房子是在一条直线上,他的朋友就会说,他一定是看错了这三个房子的距离。a和b、c的距离应该是4.5个单位,而b和c的距离应该是9个单位。因为在一个两维数的三角形里,其底边应该是其他两个边的和。这说明,减少维数可改善估算。在研究工作中,研究人员往往通过减少维数来降低计算的复杂性,即把数据作平滑化处理:简化数据并填补所缺的节点。在东京召开的联
4、合国大学主持的混沌对科学和社会的冲击学术会议上,两个着名的混沌学专家feigenbaun和aihara就一致认为,人脑由100亿个神经元组成,而我们要对它的相互作用进行观察只能选取一个极低的维数。(注:这次大会的文集我国已由杨立、刘巨彬等译,刘式达、杜先之等校,湖南科学技术出版社出版,题为《混沌:对和社会的冲击》,两人的对话见该书394-395页。)在统计学中,这种减少维数的方法,例如因子分析、多维数量表也经常被采用,osgood(1971)在70年代所做的语义微分分析就用过因子分析。同样地,我们也可以把两个词的语义相似性表示为距离:距
5、离越近,相似性就越强。假定两个词在一个语篇单位(短语、句子或段落)中出现的频率和它们的语义距离成反比例(频率越多,距离越近),那它们就和语义相似性直接相关。我们可以通过观察两个词在同一单位中出现的相对频率来估算出其语义相似性。因为人们进行交际时,都会使用一些基本成分(如词),使两个词语中存在某种相对的相似性。发送者会选择同一语义空间彼此相近的词,它们就会有不同的语义距离;而接收者则会按照它们在同一上下文中的相对频率来估算这些距离。但是自然语言中的词语数量极为庞大,而接收到的词语却数量极少,例如两个词的频率都是百万分之一,它们虽然有相关的
6、意义,也不大可能会一起发生。可是如果我们的接收机制按照统计知识把接受到的词语表示为相似的语义空间,即同一个维数的各个节点,情况就会大大改善。附图基于上述的假设,潜伏性语义分析可以用来比较不同语篇的语义相似性。研究语篇理解的首要目标是:了解有哪些足以影响读者从文本材料中抽取和保存信息的能力的因素,例如让受试写一篇文本材料的摘要,然后再看他们从文本中获取了什么信息。这意味着把读者的文本表征(认知模型)和原来的文本表征加以比较,即把摘要中每一个句子的信息和文本中的句子信息加以比较。但是要对信息进行比较并非易事,它要求扫描原文,找出信息的所在。
7、而且受试所写的摘要往往并不全都采用原文中的词语。所以光比较词语也不成。研究人员要比较的是摘要和原来文本的语义内容。kintsch(1988,1998)所提出的构建整合模型(construction-integrationmodel)就是一个观察读者对文本表征的认知模型,它把读者摘要的语义表示为一些语义成分组合,称之为命题(prepositions)。文本中的每一个子句是一个命题(如theredrose和theroseisred,都属于一个命题)。这些命题根据各种范畴连接起来,例如看它们是否共享中项(arguments)和指称(refer
8、ents)。一个文本的所有命题组合起来就成为文本结构。不少实验都证明命题是人们的心理处理单位(如graesser1981)。对文本和受试对它回述进行命题分析可以对一系列语义基本元素加以比较,其好处是这种比较