欢迎来到天天文库
浏览记录
ID:50846079
大小:38.95 KB
页数:3页
时间:2020-03-15
《网络矿工采集器数据加工操作详解.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、网络矿工采集器数据加工操作详解网络矿工采集器提供了强大的数据编辑功能,在采集数据的同时即可完成数据加工操作,最终输出高质量的数据结果,下面对数据编辑的操作进行详细解释:1、输出时去掉网页符号很容易理解,如果采集的数据含有网页符号,则会自动删除,何为网页符号,系统定义为一个完成的<>>标签,或>标签。2、输出时附加前缀也很容易理解,在采集的数据前面增加字符串;3、输出时附加前缀在采集的数据尾增加字符串;4、左起去掉字符从采集的数据起始位置开始,删除指定数量的字符;5、右起去掉字符从采集的数据尾开始,删除指定数量的字符;6、替换其中符合条件的字符2、Value:>OldValue:原有字符;NewValue:新字符譬如采集的数据是:网络矿工数据采集软件,需要将“数据采集软件”替换成“采集器”,最终字符串味:网络矿工采集器如果替换成空字符,则等同于删除某些字符。注意:此方式不支持通配符;7、去掉字符串的首尾空格不解释;1、输出时采用正则表达式进行替换也是字符串替换,但支持正则,意味着替换的字符换可以更加灵活和方便。OldValue:原有字符匹配的正则;NewValue:新字符。可3、以全部替换,全部替换则意味着可以输入一个固定值。替换成空字符也等同于删除。2、根据指定的条件删除整行采集数据的时候,规则相同,数据就全部采集下来了,但有时有些数据我们并不一定全部需要,就可以通过此进行处理,譬如:如果为空的数据我们可以删除,指定此选项即可,或者包含某些字符的数据我们也不需要,也可以指定条件删除即可。3、必须包含指定的条件原理同上,只是换了一种条件的指定方式,必须包含某个字符串,不包含的全部删除。4、将符合条件的数据置为空实际就是第5项的选择,直接将指定的字符串替换成空。更容易理解。5、将Unicode码转换成汉字U码转汉字,如果网页源码中的汉4、字使用U码显示,可以用此来转换。譬如:u7f51u7edcu77ffu5de5,代表的就是“网络矿工”6、需进行HTML解码严格讲不是解码,是转码,网页中有可能存在很多字符在网页中都是以编码后的形式显示,浏览器在展示数据的时候会自动转换成字符,但采集的时候,就需要此选项进行转换了。譬如:"代表的是“0代表的是0,如果不转换,我们是无法识别的。7、去除网页代码,但保留段落换行符号保留段落,可以还原原文,但去掉网页符号,实际相当于去掉了对文章的格式化处理,同时也去掉了无用的数据。8、去除网页符号,但将段落换行符号替换成r同上,只是换5、行不是网页符号了,是文本符号;1、自动编号起始值对采集的数据增加一列输出自动编号;2、将指定的符号替换成分行符号,并进行拆分行处理对采集的数据,按照标记进行拆行处理,但为何要进行拆行处理呢?可以实现数据一对多的采集,也可以对无明确标记的数据进行统一采集并进行分拆。
2、Value:>OldValue:原有字符;NewValue:新字符譬如采集的数据是:网络矿工数据采集软件,需要将“数据采集软件”替换成“采集器”,最终字符串味:网络矿工采集器如果替换成空字符,则等同于删除某些字符。注意:此方式不支持通配符;7、去掉字符串的首尾空格不解释;1、输出时采用正则表达式进行替换也是字符串替换,但支持正则,意味着替换的字符换可以更加灵活和方便。OldValue:原有字符匹配的正则;NewValue:新字符。可
3、以全部替换,全部替换则意味着可以输入一个固定值。替换成空字符也等同于删除。2、根据指定的条件删除整行采集数据的时候,规则相同,数据就全部采集下来了,但有时有些数据我们并不一定全部需要,就可以通过此进行处理,譬如:如果为空的数据我们可以删除,指定此选项即可,或者包含某些字符的数据我们也不需要,也可以指定条件删除即可。3、必须包含指定的条件原理同上,只是换了一种条件的指定方式,必须包含某个字符串,不包含的全部删除。4、将符合条件的数据置为空实际就是第5项的选择,直接将指定的字符串替换成空。更容易理解。5、将Unicode码转换成汉字U码转汉字,如果网页源码中的汉
4、字使用U码显示,可以用此来转换。譬如:u7f51u7edcu77ffu5de5,代表的就是“网络矿工”6、需进行HTML解码严格讲不是解码,是转码,网页中有可能存在很多字符在网页中都是以编码后的形式显示,浏览器在展示数据的时候会自动转换成字符,但采集的时候,就需要此选项进行转换了。譬如:"代表的是“0代表的是0,如果不转换,我们是无法识别的。7、去除网页代码,但保留段落换行符号保留段落,可以还原原文,但去掉网页符号,实际相当于去掉了对文章的格式化处理,同时也去掉了无用的数据。8、去除网页符号,但将段落换行符号替换成r同上,只是换
5、行不是网页符号了,是文本符号;1、自动编号起始值对采集的数据增加一列输出自动编号;2、将指定的符号替换成分行符号,并进行拆分行处理对采集的数据,按照标记进行拆行处理,但为何要进行拆行处理呢?可以实现数据一对多的采集,也可以对无明确标记的数据进行统一采集并进行分拆。
此文档下载收益归作者所有