knowledge+extraction+using+a+semantic+learning+approach

knowledge+extraction+using+a+semantic+learning+approach

ID:33799968

大小:5.42 MB

页数:54页

时间:2019-03-01

knowledge+extraction+using+a+semantic+learning+approach_第1页
knowledge+extraction+using+a+semantic+learning+approach_第2页
knowledge+extraction+using+a+semantic+learning+approach_第3页
knowledge+extraction+using+a+semantic+learning+approach_第4页
knowledge+extraction+using+a+semantic+learning+approach_第5页
资源描述:

《knowledge+extraction+using+a+semantic+learning+approach》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于语义学习的知识抽取⑧重庆大学硕士学位论文(学术学位)学生姓名:KWABENAAMOAKONUAMAH指导教师:傅鹂教授专业:软件工程学科门类:工学重庆大学软件工程学院二O一二年六月KnowledgeExtractionusingaSemanticLearningApproachAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheAwardoftheMaster’SDegreeofEngineeringinSoftwareEn

2、gineeringByKWABENAAMoAKoNUAMAHSupervisedbyProf.FuLiSpecialty:SoftwareEngineeringSchoolofSoftwareEngineering,ChongqingUniversityChongqing,China.Iune2012中文摘要摘要形形色色的数据已经成为组织和个人数字生活的一部分。全球的思维也己逐步转到知识经济上。在知识经济中,数据是组织最重要的资产,即便不是唯一地。大数据更是如此。数据不仅具有可用金钱衡量的价值,而且对我们如何理解周围世界也有巨大影响

3、。我们的数据的来源有多种:社会媒体传播,网络论坛,博客,电子商务反馈系统。无论哪种,每天收集的数据都是海量的。由于这些数据往往是非结构化的,其分析和理解通常十分困难。这类数据包含人类的自然语言,因而受到如语种、文化以及上下文等诸多因素的影响。这是在自动获取大规模文本中的包含的意思时遇到的困难之一。已有一些研究工作朝着在这类数据中提取知识的方向努力。提取出来的知识可以作为知识库供其他系统使用,比如问答系统、诊断系统,以及科教系统。从文本中提取知识从而建立知识库或本体,可使得互联网具有更好的语义结构,正如语义万维网所倡导的那样。本文探索

4、非结构化的文本的无监督知识(概念及概念间的关系)提取。作者从三个视角讨论知识提取:语义、语法和时间视角。由此提出了知识提取系统,可从文本语料库中找出概念及概念对之间的关系。本文知识提取过程的关键环节是作者提出的偏好增量聚类算法,加上同现度量计算方法。前者用于识别语料库中的相似或相关概念,而后者用于找出概念对以便此后进一步确定两个概念间的关系。作者的目标是建立具有最基本形式的知识库,即领域概念和关系。通过知识扩展和链接,就可以建立更完全的知识库。本文利用快速索引和语义向量方法,给出了语料库的计算表示,从而实现了相关计算操作。最终得出了

5、采用OWL2描述的领域本体。关键词:知识抽取,聚类,语义向量,机器学习,本体学习AbstractABSTRACTDataofallkindshavebecomeanintegralpartofbusinesses,organizationsandindividualdigitallives.Ourglobalthinkinghasgraduallyshiftedintotheknowledge—basedeconomy,wheredataisoneof,ifnotthemostimportantassetoforganization

6、s;especiallybigdata.Notonlydoesdatahavemonetaryvalue,butalsohasagreatimpactonhowwellweunderstandtheworldaroundUS.DataiscollectedthroughseveralinstrumentationsaroundUS:socialmediainteractions,websiteforums,blogs,ecommercefeedbacksystemsamongothers,allofwhichcollectvasta

7、mountsofdataonadailybasis.Mostoften,muchofsuchdataareverydifficulttoanalyzeormakesenseofbecausetheyareusuallyunstructured.ItiSmadeupofnaturalhumanlanguagewhichvariesonvariousfactorssuchaslanguage,culture,andcontextoftopicdiscussions.Thisisoneofthemanydi伍cultiesthataree

8、ncounteredwhentryingtomakemeaningoftextualdataautomaticallyandonaverylargescale.Severalresearcheffortshavebeendirecte

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
相关文章
更多
相关标签