欢迎来到天天文库
浏览记录
ID:37122279
大小:1.23 MB
页数:40页
时间:2019-05-18
《规则与统计相结合的兼类词处理机制》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、规则与统计相结合的蒲类词处理机制摘簧词性标注是自然语言处理中的一项基础性课题,词性标注的正误对汉语谬料库标注、机器翻译和大规模文本的信息检索等都有重臻的意义。本文对词性标、矬的方法进行了研究,分析了基于规则的方法和基予统计的方法的饶缺点。在此基础上提燃了规则和统计媚结合的摊歧策略。在规则方法中,改遗了规剐痒的构愆方法,用兼类词词性代替兼类词本身,并尝试使用统计辅助构建规则库;在统计方法中,在二元语法模型基礁上萼
2、入了学习瓿铡豹壤念,摄据学习结果对词性概率和词汇概率的获取方法进行了修正。按照上述策略,实
3、现了一个兼类词处理系统,闭式标注正确率达97。85%,开式标注正确率这96.71%。试验测试结暴标明撬剃帮统计糟结合的兼类词处理机制可以有效地提高词性排歧正确率和词性标注正确攀。关缝翊:溺悭掭洼;n一元摸墼;裁列;学习壤裁;兼类竭、⋯鲤!!皇熊盐塑煞宣照整娄翼垫蹩煎趔⋯⋯轰bstriI菠Part-of-speechtaggingisafundmnentalthemeinnattwallanguageprocessing.Itissignific剥at协thelagging醴Chinesecorpus-
4、based,machinetranslatfonand{nformationinde。xing蹬iargescaletext.Inthispaper,westudythemethodofthepart-of-speechtaggingand嚣疆{戳therulemethodand,hestatisticsmethod。Basingoil巍webringforwardthedisambiguationstrategYusingruteteclmiquesandstalisticstechniques.k
5、rulemodel。theacqusitionmethodofrulesbaseisimproved,甍鼍瓣thepart-of-speechofsyntae'dccategorytoreplacethesymacticcategory.Inaddmon.smtisfiesmethodisusedtohelp掷e。.qristr'actthet"11lebase.秘statisticsmodel。theConceptoflearningmachine-made扭presented。酝according
6、蝤穗薄restfltofIearrdng,themethodofealcul剐jn壁transitionprobabilitiesandsymbolprobabilities嚣撼araeaded+碱袋the建瓣摊meted,摹gystera醴镬szmNguation强materialized。Tbeoverallaccuracyofclose捃s£is筋.SS%andthe.accttracyofopelltestis96、7l%。砒1eexperimentalresultsshowthetaggin
7、gaccuracy瓣disarnbiguationae21.1racy瓣raised磅灏建葚atletechniquesandstaffsticsteClmiques.Key鬻站曜霹嚣{Part-of碡peeeh垂建
8、舞稿鐾;N-gram;rul鐾;learningmeehanism;sylatacticcategoW;规则与统计相结岢的兼类词处理机制O引言O。1自然语害理鳃援述自然语言理解是人工智能和信息处理领域中的一顶重要而富有挑战性戆漂蘧。蹶谌蠡然诿富是耀瓣于诗辣辊语言懑吉静,糖赫是人餐霹露镬熏
9、的语畜,例如汉语、菠语、日谮等。计算机系统内部熄通过特定形式的“语言”(二逶割载磷序涮)传递清息、蛰调动箨豁。为了让诗篓飘为天娄激务,人同计算机电必须进行通讯。当前在绝大多数情况下。人同计算机避行通讽时,特裂是当太告{j搴计算槛“徽什么”和“怎么擞”豹对候,所锼爝豹语言仍然局黻于程序渡计语藩、操作系统的命令语言以及使褥数据库驻及窗口界面上盼菜单。盎lj果计算机能够“理解”自然语瓷,用户就能够通过塞然语言霞藤备释软彳牛,菠诗簿巍酶捷雳环撬变褥更搬弓;J天入涟。嚣览“叁然语言理解”~直是计算机科学中的~个
10、重熏而富有挑战性的课题。麸诗冀枫辩学酌臻爱看,彦然语骞溪籍弱彳芏务就是建立~静琵够像太~样“理解”自然语言的计算模型。关于计辫机对自然语言的“理解”一般可以攫据实髑豹接囊处理懿蕊点进行评判。鲡果谤嚣褪实现了(1)人辊对话;(2)梳器翻译;(3)蟊动文摘;(4)带有感情遗朗读文章等语言信息处理功能,戟认为计算机具备了一定程度的自然语蓦理解姻能力。技匿研究鑫蒸语言静藩惑处理当然以汉语彳謇鸯主瑟研衮对象。我藩在1957年就开始进行机器翻译的研究,魁世界上最早开
此文档下载收益归作者所有