基于维基百科的语义知识库及其构建方法研究

基于维基百科的语义知识库及其构建方法研究

ID:34197623

大小:61.66 KB

页数:5页

时间:2019-03-04

基于维基百科的语义知识库及其构建方法研究_第1页
基于维基百科的语义知识库及其构建方法研究_第2页
基于维基百科的语义知识库及其构建方法研究_第3页
基于维基百科的语义知识库及其构建方法研究_第4页
基于维基百科的语义知识库及其构建方法研究_第5页
资源描述:

《基于维基百科的语义知识库及其构建方法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于维基百科的语义知识库及其构建方法研究张海粟1,马大明2,邓智龙1(1解放军理工大学指挥自动化学院计算机系,南京210007;2.65044部队,辽宁大连116021)摘要:维基百科(Wikipedia)是规模最大的在线网络百科全书之一采用群体在线合作编辑的Wiki机制,具有质量高、覆盖广、实时演化和半结构化等特点,是用来构建语义知识库的优质语料来源。分析了维基百科语料库的基本情况,综述了目前基于维基百科所构建的多种语义知识库及其概念抽取和关系抽取方法,讨论了各类方法的优缺点、开放问题和可能的研究方向。关键词:维基百科;

2、语义挖掘;知识库;文本挖掘中图分类号:TP311文献标志码:A文章编号:1001-3695(2011)08-2807~05doi:10.3969/j.issn.1001-SemanticknowledgebasesconstructionbasedonWikipediaZHANGHai-su1,MADating2,DENGZhi-long1(1DeptofComputer,InstituteofCommandingAutomation.PLAUniversityofScience&Technology.Nanjing210

3、007,China;2Unit65044ofPLA,DalianLiaoning116021,China)Abstract:Wikipediaisoneofthelargestonlineencyclopedias,whichtakesthemechanismofonlinecooperatingediting.Itishigh-quantity,widetoverage,evolvingandsemi-structural,andhasbecomeawellcorpusofsemanticknowledgebases・T

4、hispaperanalysedthestaticsandmechanismofWikipedia,summariedthesemanticknowledgebasesandtheirconstructiontech-niques,concludingconceptsandrelationshipsmining,atlastdiscussedtheopenproblemsinknowledgeconstructionbasedorWikipedia.Keywords:Wikipedia;semanticmining;kno

5、wledgebase;textmining收稿日期:2011-02-14;修回日期:2011-03-17基金项目:国家‘973’重点基础研究项目(2007CB310800);国家自然科学基金重大资助项目(61035004);国家自然科学基金面上资助项目(69120912)作者简介:张海粟(1982・).男.安徽巢湖人.博士研究生.主要研究方向为网络化数据挖掘(zhanghaisu@139・com);马大明(I960-),男.高级工程师,主要研究方向为知识工程;邓智龙(1986-),男,硕士研究生,主要研究方向为知识工程.W

6、iki是-•种“允许互联网上多个不同的用户,以浏览器作为客户端道接编辑网页内容”的机制。这种分布在客户端、自发协作的编辑行为,没有集中控制,是一种面向社区、人众参与的对等生产(peerproduction)山,非常适合于聚集互联网用户的群体智慧来建立大规模、随时间演化的语料库或知识库。维基百科(Wikipedia)是Wiki机制最为知名的应用之一,创建于2001年,定位为人人都可以编辑和分享的网络百科全书,由非盈利的Wikimedia基金会维护,数据完全开放冃前,维基百科网站浏览量全球排名第5眄显示了巨大的影响力。维基百科

7、可被视做一种质量较高的语料库,而且具有半结构化、随时间演化的特点,因此引起了语义知识库自动构建研究者的关注。在维基百科中词条正文和词条中所包含的各类链接、子标题、分类、模板和信息框等耍素,都可看成是対语义信息的一种半结构化组织。在自动构建语义知识库的语料來源选择上,比起结构性较弱的普通网页,维基百科词条更易处理,挖掘难度有所降低,但同时较高的词条质量乂可以保证所得到语义知识的精度。此外,维基百科随时间演化的特点,可在很人程度上避免语义知识库的更新滞后并降低维护代价。冃前,基于维基百科己经构建起了DBpedia.YAGO和W

8、ikinet等多个语义知识库。构建此类语义知识库要解决的问题是如何准确地从维基百科中挖掘和提取结构化语义信息(包括概念及其属性、概念间的关系等),进而组织成词典或本体库等强结构化形式。据此,本文详细分析了冃前己经上线运行的九个基于维基帀科的典型语义知识库及其构建方法。1维基百科语料库分析1.1Wiki基

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。