潜伏语义分析的理论及其应用

潜伏语义分析的理论及其应用

ID:23831950

大小:53.00 KB

页数:6页

时间:2018-11-11

潜伏语义分析的理论及其应用_第1页
潜伏语义分析的理论及其应用_第2页
潜伏语义分析的理论及其应用_第3页
潜伏语义分析的理论及其应用_第4页
潜伏语义分析的理论及其应用_第5页
资源描述:

《潜伏语义分析的理论及其应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、潜伏语义分析的理论及其应用

2、第11.柏拉图问题谈起  从古希腊哲人柏拉图(Plato)开始,人们就为一个关于认知的神秘问题所困惑:人们为什么能够在他们所得到的稀少信息基础上获得那么多的知识?这个问题有时被称为柏拉图问题(注:在柏拉图对话录里,有几处接触到知识问题。他在Meno里指出,灵魂是不灭的,已经学习了所有的事物,所以真正的学习无非是回忆内在的、忘记了的事物;在Phaedo里,他又把内在论和形式理论联系起来,例如“平等”的形式不可能来自实际的观察,而是与生俱来的;在Cratylus里则认为,词语是天生(physis),不是约定俗成(nomos)的。

3、),有时被称为“刺激的贫乏”、“缺乏负面证据”或语言习得的逻辑问题。这个问题引起了哲学家、心理学家、语言学家、计算机科学家的广泛兴趣,各自提出不同的解释。Chomsky派(注:Chomsky(1965,1986,2000)在不同场合都以儿童词汇习得为例反复说明这个问题,因为“负面的证据”已成为他的语言共项论的主要支柱:Pinker(1994)从进化、历史、解剖、生理和儿童发育的不同角度观察了语言的起源,认为语言习得一定是建筑在一个强有力的和特殊的内在机制,并称之为“语言天性”。)秉承了柏拉图和笛卡儿的观点提出了“天赋论”或“内在论”,对这个问题作出了一

4、种回答。但是心理语言学家MacacaryisBob'smother.  这两句话里并没有出现表示亲属关系的sister,daughter,father,son等词语,但第(4)句使我们意识到Bob和Ann是兄弟姐妹,Anne是John的女儿,John是Ann的父亲,Bob是Mary的儿子。当然LSA所推断出的词际关系往往并非完全符合逻辑,它所揭示的仅是相似性关系。这些关系相互牵连和制约,可以产生出一些模糊的间接推断,关系上可强可弱,逻辑上可对可错。  3.怎样做LSA?  LSA以大规模的语料库为基础,使用了一种完全自动化的数学/统计技巧来抽取和推断词

5、际关系,这种技巧就是线性代数中的奇异值分解(SingularValueDeposition,SVD)。从概念上说,LSA模型可以理解为一个具有三层的神经网络系统。在SVD里,一个m×n的长方形矩阵{A}(m是行,n是列,m>n),被分解为三个矩阵:一个是m×n的成分矩阵{U},把原来的列的实体表示为派生的正交因子值的向量;另一个矩阵{anmachineinterfaceforABCputerapplications  c2:Asurveyofuseropinionofputersystemresponsetime  c3:TheEPSuserinter

6、facemanagementsystem  c4:SystemandhumansystemengineeringtestingofEPS  c5:Relationofuserperceivedresponsetimetoerrormeasurement  m1:Thegenerationofrandom,binary,orderedtrees  m2:Theintersectiongraphofpathsintrees  m3:GraphminorsIV:aleticetal.1999)为:  附图  这样做的目的是通过估算每一个词项在每一个语篇的重要

7、性(即该词项与它所出现的语篇所提供的信息量的程度成反比例),对它的出现率加权。在信息提取中经常使用这种转换,可获显著效果。限于篇幅,我们略去了计算的中间数据和经SVD处理后(包括将维数减为2个)结果(注:我们使用的工具是Excel的“数据分析”和国际牲畜研究院GregHood所编制的,可在Excel上运转的Poptools2.4版。),只报告几个有意义的变化,这些变化说明,由于减少了维数,几种学习者的言语失误的关系都有所微调,趋于更为合理。例如第一种失误是拼写失误(Fml)。转换值并没有改变原来的次序,大学英语4级和6级学习者的拼写失误比中学学习者略多

8、,因为它们的语源来自CET考试的命题写作,而中学生则是自由作文的居多。命题写作有特定的用词要求,往往成为拼写失误的(如要求学习者用pollution)。现在的分析并没有把特定用词要求考虑在里面,而仅就失误的频数和其他失误的关系而言,经过SVD处理后,这种失误的发生率呈现为逐步略有降低的趋势,较符合中国英语学习者的实际。和写作用词有很大联系的是用错了词(1   St2   St3   St4   St5   St6原始频数 1929   2877  2113   1827  1687转换值  3.30   3.47  3.34   3.27  3.24处

9、理后值 3.52   3.46  3.36   3.25  3.00   emory,LT)的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。