资源描述:
《作为人工智能分支自然语言处理停滞技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、作为人工智能分支的自然语言处理:停滞的技术赵海上海交通大学计算机科学与工程系zhaohai@cs.sjtu.edu.cn沈阳2010.09.18起源以人工智能的知识工程的角度来看待分析当前的自然语言处理技术。当前的自然语言处理被机器学习为代表的自动化数据挖掘技术所严重渗透。可将其归结为一种知识获得和学习分离的智能系统处理方法。忽略了基本的机器学习原则而导致低效的知识处理两个关联但是有区别的困境单一的数据挖掘方式的自然语言处理未能从根本上改变知识表示和知识获取的人工智能困难。以监督学习为代表的统计机器学习方法并
2、不能带来真正的实用化的推广性能增长。我们的建议。2内容自然语言处理中的机器学习技术的兴起被忽略的准则没有免费的午餐丑小鸭Zipf律困境的实例学习性能增长根本来源是语料增长指数增长的语料带来线形的性能提升结语3机器学习的兴起现代方法最大熵用于词性标注AdwaitRatnaparkhi,JeffreyC.Reynar,SalimRoukos.AMaximumEntropyModelforPrepositionalPhraseAttachment.HLT1994机器翻译FranzJosefOch,HermannN
3、ey.DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation.InACL2002:Proc.ofthe40thAnnualMeetingoftheAssociationforComputationalLinguistics(bestpaperaward),pp.295-302,Philadelphia,PA,July2002.CoNLLTheConferenceonComputationalLanguageLe
4、arning(CoNLL-97)washeldonJuly11,1997inMadrid,Spain.Namedentityrecognition,chunking,semanticrolelabeling,dependencyparsing,jointlearningofsyntacticandsemanticdependencies,etc4机器学习方法的兴起中文处理Bakeoff-1:2003分词Bakeoff-2:2005分词,统一的机器学习方法Bakeoff-3:2006分词,命名实体识别Bake
5、off-4:2007,2008分词,命名实体识别,词性标注5为什么要机器学习样本比规则好定义规则会忽略低频情形语言的解释涉及的因素过多FernandoPereiraMachineLearninginNaturalLanguageProcessingUniversityofPennsylvaniaNASSLLI,June20026为什么要机器学习机器学习降低了知识表示的难度!7机器学习方法的特征标注数据:语料知识表示学习方法知识获取8机器学习方法的特征机器学习针对于传统的人工智能。知识表示和获取的分离语料构建:
6、专注于知识表示机器学习:专注于知识获取对比:专家系统规则的获取和表示是同步的。规则的管理是低效率的,困难的。9机器学习和知识源从知识工程看待机器学习规则1学习模型本身/特征体系规则2-n标注语料10学习模型学习模型的三要素目标函数:知识源特征体系:部分的知识源参数估计算法:与知识源基本无关11机器学习:数据假定已有数据合理近似现实世界?拥有数据训练数据集(trainingsetdata):训练测试数据(testingdata):评估验证集[validationset]:避免过拟合[overfitting]。真
7、实数据(realdata):最终的检验12学习模型并不重要定理:没有免费的午餐结论描述byDavidWolpertandWilliamG.Macready由于对所有可能函数的相互补偿,最优化算法的性能是等价的。没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。该定理只是定义在有限的搜索空间,对无限搜索空间结论是否成立尚不清楚。参考文献Wolpert,D.H.,Macready,W.G.(1995),NoFreeLunchTheoremsforSearch,TechnicalReportSFI-T
8、R-95-02-010(SantaFeInstitute).Wolpert,David(1996),"“TheLackofAPrioriDistinctionsbetweenLearningAlgorithms,"NeuralComputation,pp.1341-1390.Wolpert,D.H.,Macready,W.G.(1997),"NoFreeLunchTheoremsforOptimiz