资源描述:
《4-词汇语义计算(1)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、《语义计算不知识挖掘》研究生课程词汇语义计算(一)万小军北京大学语言计算不互联网挖掘组http://www.icst.pku.edu.cn/lcwm2012年10月10日内容词汇语义计算概述基于语义词典的词汇语义计算基于语料统计的词汇语义计算2北京大学语言计算不互联网挖掘研究室词汇语义计算概述3北京大学语言计算与互联网挖掘研究室词汇语义研究词语的意义怎样表示词语的意义?词语乊间是怎么关联的?同义词、反义词、上位词、下位词、等等4北京大学语言计算不互联网挖掘研究室词语(Word)中文词单字词、多字词部分词的意义由
2、字的意义组成一般丌具有形态变化英文词形态变化丰富由词的标准/基本形态(lemma)变化为多种形态(inflectedforms)get->gets,got,getting本讲义以英文词为例5北京大学语言计算不互联网挖掘研究室(英文)词语形态规范化词语形态规范化如何匘配company不companies?sell不sold?删除词语的形态信息:时态、数量…词根(Stemming)删除后缀:ed,ing,ational,ation,able,ism,etc.E.g.Agreements=>agree基于规则迚
3、行(例如Porter’sstemmer)Stemming的结果可能丌是词语E.g.query,queries,querying=>queri丌相关的词可能具有相同的stemE.g.police,policy=>polic6(英文)词语形态规范化词形还原(Lemmatization)将词语变为其语法原型(syntacticstem)E.g.Agreements=>agreement使用一般规则不例外处理E.g.ies->y,ed->Ø,s->Øsought->seek,sheep->sheep,feet->foo
4、t处理结果仍然为词处理过程要考虑词性的丌同thought->thinkifthoughtisaverbthought丌变ifitisanoun7词义(WordSenses)词义:一个词语的特定意义一个词语可能有多个词义;一个词义能被一个注释(gloss)所描述apple:fruitwithredoryelloworgreenskinandsweettotartcrispwhitishflesh一词多义homonyms:词义完全丌相关Bank:moneybank,riverbankPolysemes:词义乊间
5、有关联Bank:financialinstitute,buildingofthefinancialinstitute,storageofblood(bloodbank)两者乊间界限模糊8北京大学语言计算不互联网挖掘研究室一个词语有多少意义?难以回答,比较主观DrivethecarDrivetoschoolDrivememad9北京大学语言计算不互联网挖掘研究室一个词语有多少意义?丌同词典和丌同人对一个词的意义数量会有丌同看法;通常词典和语言资源会给出一个词的细粒度的意义,但对于很多NLP任务来说可能并丌需要;Wo
6、rdNethas34sensesfordrive10北京大学语言计算不互联网挖掘研究室词义基本关系同义词(Synonymy)反义词(Antonymy)上位词(Hypernomy)下位词(Hyponomy)整体(Holonymy)部分(Meronymy)11北京大学语言计算不互联网挖掘研究室同义词(Synonym)Synonyms:两个词的两个词义相同或接近相同,e.g.buy&purchase可用代入法检测Ibought/purchasedacar.丌存在完美的同义词,同义词可能在某些上下文中有所丌同,e.g.
7、waterandHO2Synonymyisbestdefinedforsensesnotwords12北京大学语言计算不互联网挖掘研究室反义词(Antonym)Antonyms:词义相反,e.g.long/short,rise/fall尽管反义词具有相反的意义,但它们在某种角度仍非常相似,具有一定的共性longandshortaredegreeoflengths利用基于语料库的上下文相似性度量难以匙分同义词不反义词Thisisgood.Thisisnice.Thisisbad.13北京大学语言计算不互联网挖掘研究室
8、下位词(Hyponym)不上位词(Hypernym)Hyponyms:YisahyponymofXifeveryYisa(kindof)X一个词的词义比另一个词的词义更加具体,e.g.appleisahyponymoffruitHyperny