半结构化中文简历的信息抽取

半结构化中文简历的信息抽取

ID:37046500

大小:6.72 MB

页数:80页

时间:2019-05-15

半结构化中文简历的信息抽取_第1页
半结构化中文简历的信息抽取_第2页
半结构化中文简历的信息抽取_第3页
半结构化中文简历的信息抽取_第4页
半结构化中文简历的信息抽取_第5页
资源描述:

《半结构化中文简历的信息抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文半结构化中文简历的信息抽取作者姓名晏文坛学科专业控制理论与控制工程指导教师乔宇鹏所在学院自动化科学与工程学院论文提交日期2018年4月23日InformationExtractionForSemi-structuredChineseResumeADissertationSubmittedfortheDegreeofMasterCandidate:YanWentanSupervisor:Prof.QiaoYupengSouthChinaUniversityofTechnologyGuangzhou,China分类号:T

2、P391学校代号:10561学号:201520112512华南理工大学硕士学位论文半结构化中文简历的信息抽取作者姓名:晏文坛指导教师姓名、职称:乔宇鹏副研究员申请学位级别:学术型学位硕士工程领域名称:控制理论与控制工程研究方向:半结构化文本信息抽取论文提交日期:2018年4月23日论文答辩日期:2018年6月5日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:胥布工委员:谢巍乔宇鹏祁恬摘要简历是一种常见的半结构化文本,是求职者向用人单位介绍自身基本信息和过去经历的重要载体。随着互联网技术的广泛应用,企业招聘时

3、会收到种类繁多,数量巨大的简历电子文档,依靠人工筛选和储存简历需要花费大量的时间和精力,并且效率低下。因此,研究如何使用计算机快速、准确地从简历中自动抽取出主要的字段内容,并且按照企业需求对抽取结果进行统一结构化是很有必要的。本文从分析半结构化中文简历的结构特征出发,提出中文简历内容按结构层次划分及按内容类划分的思路,给出了简历内容结构描述方法。建立信息抽取词典时,为了解决传统的单独依靠人工建立词典时的繁琐及耗时等问题,研究了基于词法分析的简历关键字提取算法,提出合并简历文本处理的思路,基于N-Gram模型对合并后的简历文本进行

4、全切分,并计算切分所得词条的词内凝固度、词外自由度及词频指标,再根据半结构化简历的特点制定筛选条件及阈值,之后使用基于字符串编辑距离和基于N-Gram模型的字符串相似度计算方法对词典进行扩充。在信息抽取过程中,结合文本信息抽取通用流程和半结构化简历文本的特点,制定了适用于半结构化中文简历的信息抽取方案,研究了基于标题关键字匹配和按文本格式匹配的文本分割算法。在内容识别与抽取时,根据简历内容的强规则性和内容之间的相关性特点,采用基于词典匹配、基于规则和基于统计模型相结合的思路,针对简历中基本信息部分通过建立详细抽取规则进行抽取,针

5、对简历中复杂项信息的抽取,归纳提出了简历复杂项的三条主要特征,按照这些特征使用基于词典匹配和基于文本分块的隐马尔科夫模型相结合的方法对简历内容进行识别和提取,并且对模型训练过程中存在的数据稀疏问题进行数据平滑处理。在前文工作的基础上,本文使用Java编程语言实现了一套中文简历信息抽取系统,该系统有友好的人机交互界面,可以动态管理抽取词典、抽取规则及简历信息,实现了对word、PDF及HTML格式中文简历的自动信息抽取,另外系统还实现了跟随网页简历信息更新本地库的功能。最后,本文利用大量样本对模型参数进行了训练,通过该系统对待抽取

6、简历进行抽取测试,并对准确率和召回率进行了统计汇总,抽取结果令人满意。关键词:半结构化简历;文本分割;规则;统计模型;正则匹配IAbstractResumeisacommonsemi-structuredtext.Itisanimportantcarrierforjobseekerstointroducetheirbasicinformationandexperiencetoemployers.WiththewideapplicationofInternettechnology,enterprisewillreceivealar

7、genumberofChineseresumesintheformofelectronicdocumentswhenrecruiting.Classificationforthemorhandlingthemrequirestheusertomanuallyopenthefiles,readitswholestructure,selecttheinterestedinformationandclosethem.Thismanuallabortakesalotoftimeandscaleslinearlywiththenumber

8、oftargetfields.Therefore,itisnecessarytostudyhowtousethecomputertoextractthemainfieldcontentautomaticallyfromtheresume,andtounifyth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。