城市百科知识库自动的构建系统

城市百科知识库自动的构建系统

ID:32656546

大小:2.90 MB

页数:60页

时间:2019-02-14

城市百科知识库自动的构建系统_第1页
城市百科知识库自动的构建系统_第2页
城市百科知识库自动的构建系统_第3页
城市百科知识库自动的构建系统_第4页
城市百科知识库自动的构建系统_第5页
资源描述:

《城市百科知识库自动的构建系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中图分类号:TP391.3学校代码:10213UDC:621.3密级:公开硕士学位论文城市百科知识库自动构建系统硕士研究生:杨海军导师:王晓龙教授申请学位:工学硕士学科、专业:计算机科学与技术所在单位:深圳研究生院答辩日期:2010年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.3UDC:621.3DissertationfortheMasterDegreeofEngineeringCITYENCYCLOPEDIAAUTO-CONTRUCTIONSYSTEMCandidate:HaijunYangSupervisor:Prof.XiaolongWangAcad

2、emicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScience&TechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2010Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着互联网技术的迅速发展,互联网对人们生活的影响力越来越大,用户对从互联网中获得全面、权威、地域性信息的需求越来越强烈,比如生活在深圳的人对深圳的信息的兴趣更大。这就提出了新

3、的互联网应用需求,如何满足不同城市的人对所在城市知识的需求,如何对海量的数据分类并挖掘出满足条件的词条是本课题的主要研究内容。本文以自然语言处理的相关技术对百度百科近300万词条进行中文信息处理,主要包括两个方面的内容:一是构建百科知识检索系统;二是构建城市百科分类系统。1.构建百科知识检索系统:主要包括百度百科数据爬虫、网页净化、正排索引、倒排索引及数据检索。所实现的网络爬虫爬取了近300万百度百科词条;建立了相应的检索系统,对索引的粒度进行了优化,采取了以段落为索引和检索的基本单位,实验证明在其它条件相同的情况下,该系统的检索精度比以文章为索引单位的系统提高了近50%。2.构建城市百科分

4、类系统:主要包括文本的城市空间分类和百科知识条目分类。本文对特征词提取方法和文本分类算法做了改进,实验证明改进后的特征提取方法比使用单一的特征提取算法的效果得到较大提高,平均F值提高了近10%。针对特定条件下的分类需求,使用不同的分类算法并进行改进得到了较好的实验效果。最后,我们将上述分类算法应用到了城市百科知识库自动构建系统。百科知识检索系统和城市百科分类系统的协同工作完成了城市百科知识库的自动构建。本文所介绍的技术都已经应用到了海天园城市百科知识库自动构建系统中。关键词:信息检索;文本分类;特征提取;城市百科I哈尔滨工业大学工学硕士学位论文AbstractWiththerapiddeve

5、lopmentofinternettechnology,theinfluenceofinternetonpeople’slifeismoreandmore,usershavemoreintensetogainthecomprehensive,authoritativeandregionalinformationfrominternet.Forexample,peoplewholiveinshenzhenhavemoreinterestininformationsaboutshenzhen.Howtomeetpeople’sdemandofregionalinformation,andhowt

6、oclassifytext,thesearethemainresearchcontentsofthepage.Thepaperwillautomaticallyconstructcityencyclopediaknowledgebasedonthedataofbaiduencyclopedia.Thepaperdealwithwebs’sinfomationbasedontherelevanttechnologyofnaturallanguageprocessing.Thepapermainlyincludestwoaspects:constructinginformationretriev

7、alsystemandconstructingcityclassificationsystem.(1)CityencyclopediainformationretrievalsystemThepaperfocusesonthedataprocessinganalysisofbaiduencyclopedia.Thepaperrealizethedatainformationretrievalsystembas

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。