欢迎来到天天文库
浏览记录
ID:6073481
大小:32.50 KB
页数:10页
时间:2018-01-02
《基于hadoop平台人才发现和推荐系统探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Hadoop平台人才发现和推荐系统探究 摘要:随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。关键词:人才推荐系统;Hadoop平台;网络爬虫;信息抽取;相似项中图分类号:TP303文献标识码:
2、A文章编号文章编号:16727800(2014)001000403作者简介作者简介:王孟頔(1992-),女,江苏大学计算机科学与通信工程学院学生,研究方向为数据挖掘与机器学习;邰泳(1990-),男,江苏大学计算机科学与通信工程学院硕士研究生,研究方向为数据挖掘与机器学习;薛安荣(1964-),男,江苏大学计算机科学与通信工程学院教授,研究方向为数据挖掘与机器学习。0引言10随着互联网的发展,博客已经成为众多网民的重要网络应用工具,博客作为网民记录生活和发表评论的载体,其自身蕴含着许多非常有价值的信息,如何充分识别、提取并分析利用这些信息,成为当前摆在研究
3、人员面前的重要课题。设计一个基于互联网的人才信息获取、提取、分析和推荐平台,可改变传统的人才招聘模式,缩短招聘周期,改善企业的人力资源管理,同时个人也可以从中发现同行,互相交流知识经验,拓宽人脉。本文结合Hadoop技术,实现了一个利用互联网资源向企业提供人才推荐服务的分布式平台。系统利用网络爬虫程序寻找网页,通过信息抽取技术获取页面信息,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘关联关键词,采用基于相似项策略推荐人才。该系统具有网页数据的抓取、网页内容的分析存储、人才数据的提取和挖掘,以及具有一定特征人才信息的推荐功能。用户能够根据所
4、定义的人员特征,如知识领域、分布范围、教育背景或者能力水平等,通过对互联网中网页内容的收集和分析,寻找出具有指定特征的人才数据。1系统架构系统综合运用爬虫技术、信息抽取技术、文本挖掘技术、推荐技术实现人才发现和推荐功能,系统结构如图1所示。图1人才推荐系统结构10网络爬虫组件爬取网页,存放到抓取库;信息抽取组件从抓取库中取出页面,抽取页面中的重要文本信息,并将其存放到文章库;知识挖掘组件从文章库里取出文章,提取出反映作者知识的关键词,存放到知识库;关联知识挖掘组件利用语料库中的信息挖掘出关联规则,存放到关联规则库中;推荐组件综合利用知识库和关联规则库中的内容
5、结合用户的需求,向用户推荐人才。各个库里存放的内容及格式如下:(1)抓取库存放爬虫爬取到的页面信息,用于信息抽取。格式为:(页面,页面url)。(2)文章库存放页面的文本信息,用于提取关键词。格式为:(文章所在页面url,文章内容,作者信息)。(3)知识库存放提取的关键词,用于发现人才信息。格式为:(文章所在页面url,作者信息,关键词)。(4)语料库存放人工搜集的技术类文章,用于发现关联规则。格式为:(技术类文章)。(5)关联规则库存放关联规则,用于推荐人才信息。格式为:(关键词1,关键词2,…),(关键词3,关键词4)。2组件实现2.1网络爬虫10爬虫模
6、块是在Nutch的基础上进行二次开发,由4个主要的数据结构提供数据支撑,分别是WebDB、LinkDB、Segments和Index。WebDB用来存储从抓取开始看到的所有URL的相关信息;LinkDB用来存储链接信息;一次爬行会产生很多个段(segment),段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引;Index是爬虫抓取的所有网页的索引,它是将所有segment中的索引合并处理后得到的。在此基础上,页面抓取的工作流程如图2所示。(1)建立初始URL集。操作结果:生成一个txt文件,上面记录了爬虫初始访问的URL地址集。(2)将URL集注入
7、crawldb数据库,使用injector、nutch核心包之一crawl包中的类。操作结果:crawldb数据库内容得到更新,包括URL及其状态。(3)根据crawldb数据库创建抓取列表,使用generate、crawl包中的类generator。操作结果:创建了抓取列表,存放在segment文件夹下,以时间为文件夹名称。循环抓取多少次,segment文件夹下就会有多少个以时间为名称的文件夹。(4)执行抓取,获取网页信息,使用fetch、fetcher包中的类以及parsesegment、parse包中的类。操作结果:将页面内容抓取下来,并解析内容,解析
8、结果分别存放在text和data文件中,存于segm
此文档下载收益归作者所有