资源描述:
《基于扩张矩阵理论的汉语韵律短语分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第26卷第1期计算机学报Vol.26No.12003年1月CHINESEJOURNALOFCOMPUTERSJan.2003基于扩张矩阵理论的汉语韵律短语分析谌卫军林福宗李建民张钹(清华大学计算机科学与技术系北京100084)(清华大学智能技术与系统国家重点实验室北京100084)摘要提出了一种新的、基于扩张矩阵理论的归纳学习算法:分组覆盖算法,并将其应用于汉语文语转换系统中的韵律短语分析问题.算法以扩张矩阵为基础,在反例样本集背景下,将正例样本集划分为若干个一
2、致的组,每一组对应于一个一致的规则,它覆盖了这组正例而且不覆盖任何的反例;建造了一个用于韵律短语分析的语料库,并提出了一组与韵律有关的特征;将数据分为训练集和测试集对算法进行了验证.实验结果表明,新算法在正确率、规则个数和可懂性等各方面均优于传统的决策树方法,并接近于手工制定的规则.关键词归纳学习;扩张矩阵;文语转换;韵律短语分析中图法分类号TP18ChineseProsodicPhrasingBasedonExtensionMatrixTheoryCHENWeiJunLINFuZong
3、LIJianMinZHANGBo(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084)(StateKeyLaboratoryofIntelligentTechnologyandSystems,TsinghuaUniversity,Beijing100084)AbstractThispaperpresentsanewinductivelearningalgorithmbasedontheextens
4、ionmatrixtheory,andusesittosolvetheprosodicphrasingproblemforChineseTexttoSpeechsystems.Firstly,theextensionmatrixtheoryforruleinductionisbrieflyoutlined.Secondly,authorsproposeanoveldefinitionoftheconsistencyofaruleandofasetofpositiveexamples,and
5、revealtheirrelationshipusingatheorem:thesetofpositiveexamplescoveredbyaconsistentruleisalsoconsistent.Basedonthisconclusion,anewinductivelearningalgorithmispresented:bydividingthepositiveexamplesofaspecificclassinagivenexamplesetintoconsistentgroupsa
6、ndadoptingasimplestrategytofindaconjunctiveruleforeachgroupwhichcoversallthegroup!spositiveexamplesandnoneofthenegativeexamples,thealgorithmfindsasetofconsistentrulesintheformofvariablevaluedlogic.Thirdly,authorscollect937sentencesofdifferentgenres(
7、about78minuteslength)fromCCTVnewsprogramandbuiltalargespeechcorpus.Thentheprosodicboundariesaremanuallymarkedontherecordspeech,andwordidentification,partofspeechtaggingandsyntacticanalysisarealsodoneonthecorrespondingtext.Agroupoffeaturesformodeling
8、prosodyarealsoproposed,andtheireffectivenessismeasuredbytheinterpretationoftheresultingrules.Lastly,aserialofexperimentsareconductedtocomparetheperformanceofthisalgorithmwithothercommonlyusedmachinelearningalgorithms,suchasC4.5,CART,CN2,OC1and