中国知网的数据采集攻略

中国知网的数据采集攻略

ID:10902784

大小:1.26 MB

页数:11页

时间:2018-07-08

中国知网的数据采集攻略_第1页
中国知网的数据采集攻略_第2页
中国知网的数据采集攻略_第3页
中国知网的数据采集攻略_第4页
中国知网的数据采集攻略_第5页
资源描述:

《中国知网的数据采集攻略》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、通过对知网数据的采集和分析,集搜客数据分析实验室得到两篇分析文章。第一篇文章是《学生群体关于大数据毕业论文发展趋势——以中国知网为例》学生群体在研究大数据时都在研究些什么呢?集搜客数据分析实验室对此展开调研分析。第二篇文章是《毕业论文写什么,集搜客告诉你——微博数据挖掘篇》采集了2010年至2015年11月有关微博数据挖掘的相关论文并对其进行分析,总结了微博数据挖掘论文的九大研究方向供学子们的选题做参考。知网数据采集攻略在中国知网通过高级检索,输入关键词后抓取相关文章的标题、作者、摘要、关键词等信息。但是中国知网在输入关键词搜索后网址并不会发生变化,所以在抓取的时候我们需

2、要爬虫自动输入目标关键词搜索后,开始抓取数据。要抓取到标题、作者、摘要、关键词等信息,我们一共需要做四个规则:第一个规则“知网_搜索”负责输入关键词并搜索;第二个规则“知网_搜索结果”用来抓取第一个规则“知网_搜索”输入关键词后搜索到的数据,抓取的是每篇文章详情页的链接,作为第三个规则“知网_文章数据_更多”的线索,但是第二级规则直接抓取下来的链接不能像层级抓取那样直接给第三个规则使用,需要使用Excel统一修改一下链接参数才能作为第三个规则的线索,下文会为大家提供具体操作方式;Tips:有些文章的摘要需要点击“更多”才能显示全部,为了抓取完整的摘要我们需要做一个规则来点

3、击这个“更多”.第三个规则“知网_文章数据_更多”负责模拟点击展开完整摘要。第四个规则“知网_文章数据”抓取点击“更多”后的文章摘要、标题、作者、关键词等信息。图1一、第一个规则——知网_搜索1.以中国知网高级检索文献文章为例,将文献高级检索的链接:http://epub.cnki.net/kns/brief/result.aspx?dbPrefix=scdb&action=scdbsearch&db_opt=SCDB粘贴到谋数台中。第一个规则的主要工作是为了搜索关键词,但是为了规则有效执行,在一个规则中我们抓取文章类型,在这里以文献为例我们抓取的内容就是“文献”并且勾上

4、关键内容。图2如图2所示,具体操作如下:#1.将目标抓取网页粘贴到谋数台网址栏处,并回车。#2.看到网页加载完成。#3.将抓取内容“文献”映射到整理箱中。#4.将文献勾选关键内容。2.跳转到连续动作工作台输入关键词及其动作自动输入关键词的要点是要建立两条步骤,第一条步骤通过输入框的定位表达式来找到输入框后输入关键词。第二条步骤则是通过定位表达式找到搜索按钮然后爬虫自行点击按钮。2.1建立输入步骤图3如图3所示,具体操作如下:#1.输入目标主题名也就是第二个规则主题名,表示搜索关键词后由第二个规则来执行抓取#2.点击谁在用查看输入的主题名是否有被别人占用,如果被别人已经占用

5、则需要更换别的主题名。#3.新建一条输入步骤,上文已经提到首先是进行输入动作,所以这里是新建一条输入步骤。#4.输入要搜索的关键词。#5.根据网页结构填写输入框的定位表达式也就是能够在网页上定位到输入框的XPath表达式,写好一个表达式后,可以利用MS谋数台的搜索功能,验证一下是否定位准确,具体参看搜索网页内容的使用方法。2.2建立提交步骤gong图4如图4所示,具体操作如下:#1.根据网页结构填写检索的定位表达式也就是能够在网页上定位到输入框的XPath表达式,写好一个表达式后,可以利用MS谋数台的搜索功能,验证一下是否定位准确,具体参看搜索网页内容的使用方法。存规则后

6、知网_搜索这个规则就完成了。二、第二个规则——知网_搜索结果这个规则负责来抓取由知网_搜索进行关键词搜索后的页面,该规则和定义普通规则操作相同。将要抓取的内容映射到整理箱中,我们要抓取每篇文章的详细数据摘要作者等,则需建立层级抓取,在当前规则抓取每篇文章的详细数据页面的网址来为知网_文章数据生成线索。图5如图5所示,具体操作如下:#1.将要抓取的下级链接映射到整理箱中#2.勾关键内容#3.点击整理箱顶节点做样例复制,要抓取当前页面所有文章的下级链接就需要做样例复制,详细参看教程:样例复制#4.跳转到爬虫路线工作台做翻页线索,要抓取翻页后的文章就要做翻页线索,详细参看教程:

7、翻页抓取存规则后知网_搜索结果规则就完成了,接下来就需要做文章详细页面的抓取规则。三、第三个规则——知网_文章数据_更多1.将网页上的“更多”按钮做内容映射映射到整理箱中,并勾选关键内容。2.在爬虫路线工作台做模拟点击,即为将“更多”作为记号做一条记号线索。图6如图6所示,具体操作如下:#1.新建一条记号线索,并勾选连贯抓取,表示在执行抓取任务时,爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。#2.点击“更多”按钮,自动定位到网页标签节点,展开节点,找到包含“更多”的text节点。#3.右击te

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。