基于大规模自然标注Web资源 的自然语言处理: 一 …

基于大规模自然标注Web资源 的自然语言处理: 一 …

ID:8268241

大小:3.16 MB

页数:34页

时间:2018-03-15

基于大规模自然标注Web资源 的自然语言处理: 一 …_第1页
基于大规模自然标注Web资源 的自然语言处理: 一 …_第2页
基于大规模自然标注Web资源 的自然语言处理: 一 …_第3页
基于大规模自然标注Web资源 的自然语言处理: 一 …_第4页
基于大规模自然标注Web资源 的自然语言处理: 一 …_第5页
资源描述:

《基于大规模自然标注Web资源 的自然语言处理: 一 …》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于大规模自然标注Web资源的自然语言处理:一种可能的新的研究范式MaosongSun(孙茂松)DepartmentofComputerScience&TechnologyTsinghuaUniversityRound-tableConferenceonLinguisticCorpusandCorpusLinguistics,HongKong,May6-8,2011Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextofChinese,inpartic

2、ular)2.基于Web的流行语句自动发现3.基于Wikipedia的词语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextofChinese,inparticular)2.基于Web的流行语句自动发现3.基于Wikipedia的词

3、语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)从词法谈开去……汉语语义构词法?以“猪肉”为例=>语义类+语义类BK10+BI06(同义词词林)BK+BI(同义词词林)鸭肉、马肉、驴肉、鸟肉……猪皮、猪蹄、猪心、猪肝……鸭皮、马心、鸭肝、鸟蹄……斑羚尸体125白马屁股15白羊肚子46斑马尸体15白鼠皮肤40斑马身体14白羊神经

4、39白羊血液13白马全身27白羊眼里13白鼠心肌26斑马脊梁13白马脖子25贝类肌肉12爱犬皮肤25白马额头12白马浑身24白马一身12白马尸体23白羊绒毛12白羊心里20白羊睾丸12白鲸皮肤19爱犬鸡肉11斑马上身19斑马芳心11白羊脑子18斑马耳朵11白鼠表皮15斑马屁股111、海量数据产生智能1、海量数据产生智能1、海量数据产生智能1、海量数据产生智能1、海量数据产生智能1、海量数据产生智能Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextof

5、Chinese,inparticular)2.基于Web的流行语句自动发现3.基于Wikipedia的词语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)折射社会热点问题……城市,让生活更美好1140000你知道我是谁吗?我是局长!41700忻州限价房成公务员小区31200记者证在此无用2750姑娘,别闹了,闵行长是有背景的1780财产公示

6、会引起混乱637记者证在我们这里没用的607Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextofChinese,inparticular)2.基于Web的流行语句自动发现3.基于Wikipedia的词语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebresources)由此及彼:词与词之间的关系

7、从Wikipedia词条中提取的汉语词约有70多万,通过链接提取的词有170万左右。Outline1.Web辅助语言研究(Web-aidedlinguisticstudy,inthecontextofChinese,inparticular)2.基于Web的流行语句自动发现3.基于Wikipedia的词语关联分析4.一种新的研究范式—基于大规模自然标注Web资源的自然语言处理(Naturallanguageprocessingbasedonlarge-scalenaturallyannotatedWebreso

8、urces)上述工作的若干共同点自然标注的Web资源“…”Wikipedia人类智能+机器智能大规模资源+简单分析(+抗干扰)(1)自然标注资源的基本类型显式标注:标点符号,如句子结束符,“”,()等;空格(1)自然标注资源的基本类型隐式标注:例“是一种”苹果是一种水果苹果是一种广泛使用的天然美容水果苹果是一种营养丰富的水果苹果是一种维生素含量极高的水果苹果是一种手机乔布斯本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。