基于Hadoop平台的人才发现与推荐系统研究-论文.pdf

基于Hadoop平台的人才发现与推荐系统研究-论文.pdf

ID:53569960

大小:230.62 KB

页数:3页

时间:2020-04-18

基于Hadoop平台的人才发现与推荐系统研究-论文.pdf_第1页
基于Hadoop平台的人才发现与推荐系统研究-论文.pdf_第2页
基于Hadoop平台的人才发现与推荐系统研究-论文.pdf_第3页
资源描述:

《基于Hadoop平台的人才发现与推荐系统研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第13卷第1期软件导刊Vo1.13NO.12014年1月SoftwareGuideJan.20l4基于Hadoop平台的人才发现与推荐系统研究王孟顿,邰泳,薛安荣(江苏大学计算机科学与通信工程学院,江苏镇江212013)摘要:随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基

2、于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。关键词:人才推荐系统;Hadoop平台;网络爬虫;信息抽取;相似项中图分类号:TP303文献标识码:A文章编号:l672—7800(2014)O01-0004—030引言_f⋯一+(i)一⋯竺兰兰竺f随着互联网的发展,博客已经成为众多网民的重要网一一i络应用工具,博客作为网民记录生活和发表评论的载体,⋯其自身蕴含着许多非常有价值的信息,如何充分识别、提取并分析利用这些信息,成为当前摆在研究人员面前的重『l:[=_:——Jl']一一一一一fl\口f_Tf十一If’I1f要课题。设计一个基于互联网的人才信息获取、提取、分

3、析和推荐平台,可改变传统的人才招聘模式,缩短招聘周~掌赢期,改善企业的人力资源管理,同时个人也可以从中发现同行,互相交流知识经验,拓宽人脉。图1人才推稃系统结构本文结合Hadoop技术,实现了一个利用互联网资源网络爬虫组件爬取网页,存放到抓取库;信息抽取组向企业提供人才推荐服务的分布式平台。系统利用网络件从抓取库中取出页面,抽取页面中的重要文本信息,并爬虫程序寻找网页,通过信息抽取技术获取页面信息,利将其存放到文章库;知识挖掘组件从文章库里取出文章,用lucene的分词器提取文本中的关键词,根据关联规则算提取出反映作者知识的关键词,存放到知识库;关联知识法挖掘关联关键词,采

4、用基于相似项策略推荐人才。该系挖掘组件利用语料库中的信息挖掘出关联规则,存放到关统具有网页数据的抓取、网页内容的分析存储、人才数据联规则库中;推荐组件综合利用知识库和关联规则库中的的提取和挖掘,以及具有一定特征人才信息的推荐功能。内容结合用户的需求,向用户推荐人才。用户能够根据所定义的人员特征,如知识领域、分布范围、各个库里存放的内容及格式如下:教育背景或者能力水平等,通过对互联网中网页内容的收(1)抓取库存放爬虫爬取到的页面信息,用于信息抽集和分析,寻找出具有指定特征的人才数据。取。格式为:(页面,页面ur1)。(2)文章库存放页面的文本信息,用于提取关键词。1系统架构格

5、式为:(文章所在页面url,文章内容,作者信息)。(3)知识库存放提取的关键词,用于发现人才信息。系统综合运用爬虫技术、信息抽取技术、文本挖掘技格式为:(文章所在页面url,作者信息,关键词)。术、推荐技术实现人才发现和推荐功能,系统结构如图1(4)语料库存放人工搜集的技术类文章,用于发现关所示。联规则。格式为:(技术类文章)。作者简介:王孟顿(1992一),女,江苏大学计算机科学与通信工程学院学生,研究方向为数据挖掘与机器学习;邰泳(199O一),男,江苏大学计算机科学与通信工程学院硕士研究生,研究方向为数据挖掘与机器学习;薛安荣(1964一),男,江苏大学计算机科学与通

6、信工程学院教授,研究方向为数据挖掘与机器学习。第1期王孟烦,邰泳,薛安荣:基于Hadoop平台的人才发现与推荐系统研究.5.(5)关联规则库存放关联规则,用于推荐人才信息。章存放到抓取库中,可供信息抽取模块提取页面内容。该格式为:(关键词1,关键词2,⋯),(关键词3,关键词4)。模块输入数据是URI集,输出数据是存有网页数据的爬取库。2组件实现2.2信息抽取信息抽取组件利用AI、计算机视觉技术、机器学习、2.1网络爬虫自然语言处理技术从Web页面中抽取信息。其抽取流程爬虫模块是在Nutch的基础上进行二次开发,由4个如下:主要的数据结构提供数据支撑,分别是WebDB、Li

7、nkDB、(1)渲染页面。从抓取库中取出一个页面,利用web—Segments和Index。WebDB用来存储从抓取开始看到的kit渲染页面中的javascript、CSS、图片,丢弃不必要的元所有URL的相关信息;LinkDB用来存储链接信息;一次素。爬行会产生很多个段(segment),段存储的是爬虫在一次(2)页面分类。确定页面类型来优化页面元素的识别抓取过程中抓到的网页以及这些网页的索引;Index是爬和提取。虫抓取的所有网页的索引,它是将所有segment中的索引(3)对象分类。识别单个页面的元素,如图片

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。