欢迎来到天天文库
浏览记录
ID:32412030
大小:1.47 MB
页数:3页
时间:2019-02-04
《网络店铺信息自动提取》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、24福建电脑2011年第2期网络店铺信息自动提取郑思婷121,杨烜会,王周敬(1.厦门大学自动化系福建厦门3610052.厦门理工学院商学系福建厦门361024)【摘要】:以国内C2C行业最具代表性的交易平台--淘宝网为例,设计了针对网络店铺的信息自动提取流程,并利用Python语言实现了对网络店铺信息的自动采集和结构化输出。【关键词】:信息提取;网络店铺;正则表达式;Python0.引言随着电子商务的蓬勃发展,网络购物日渐兴旺,网络店铺(以下简称网店)页面中所包含的店铺信息、商品信息,以及服务信息也不断积累,形成了巨大的信息资源库。信息提取(
2、informationextraction)--利用计算机自动从网店页面中收集有用信息,是利用该信息资源库的必由之路,是商业智能和管理研究的数据源头。网络爬虫抓取是通用技术,有多种成熟的实现,本为方便从海量的网店页面中快速、准确地获取信文不再赘述。下文将结合淘宝网店页面规范,重点介绍息,本文设计了流水线式提取流程,并用Python语言网店信息提取特有的技术细节--信息过滤和匹配提实现了自动提取工具。取。1、网店页面的特点2.2HTML文件的信息过滤网店页面具有半结构化特征。通用的信息提取技术有很多[3],但针对网店信息提一方面,网店页面包罗万象
3、。网店页面本身是大量取的目标和网店页面的特点,我们选用HTML标记和文本、图片或其它多媒体字符流的集合,因此无法通过关键信息的正则表达式过滤方法。结构化查询语句来处理网页信息[1]正则表达式通过分析各种信息元素所特有的呈现。同时,网店页面中还包含大量广告、导航等与商业主题不相关的信息[2]方式,构造字符串模式,在文本中检索或替换符合该模,这些信息会干扰理解网店页面中所包含的商业意义。式的文本,它是从非结构化文本中提取有用信息的利另一方面,网店页面有一些规律可用于信息提取。器[4]。淘宝网使用独立的CSS文件将页面渲染格式剥网店页面和其它Web网
4、页一样,都用HTML书写而离出来,而用HTML主文件存放店铺信息、商品信息和成,遵从W3C规范。其次,C2C网店平台要求网店套用服务评价信息。所以,我们可以用正则表达式将HTML平台模板,网店页面要遵循平台提供者(如淘宝、拍拍主文件中的格式控制、HTML标记等无关信息过滤掉。等)规定的框架规则,这些规则也可为信息提取提供启现代的程序设计语言,大都配备了正则表达处理模块,发线索。这里选用灵活的动态语言Python作为实现工具[5]。2、网店信息自动提取的设计与实现HTML文件过滤的关键程序如下:基于网店页面的半结构化特征,本文设计了一个①forl
5、ineinread.readlines():网店信息自动提取流程,先过滤掉无关信息,然后利用②line=re.sub('<[^>]+>','',line)特定标记匹配有用的网店信息。③line=re.sub('.+;','',line)2.1网店信息提取流程④line=re.sub('&.+;','',line)我们设计的网店信息自动提取流程如图1所示。⑤line=re.sub('+
6、t+','',line)首先,利用网络爬虫(webcrawler)获取并保存网店页面⑥ifline[:-1].strip():到HTML文件;其次,通过过滤
7、器去掉HTML格式标⑦write.writelines(line)记和无关信息,形成页面信息的文本文件;最后,利用图2:HTML文件过滤代码页面信息文件中语义标记来匹配和提取网店信息到特图2中的代码逐行读入HTML主文件(行①),然定的数据结构,进行CSV格式化输出。该提取流程采后运用Python正则表达式处理模块re中的替换功能,用流水线(pipeline)架构,以文本文件为处理媒介。将HTML标签中的内容(行②),以及特殊字符串、空本文得到厦门理工学院高层次人才项目(YSK09004R)资助2011年第2期福建电脑25格、制表符和空行(行③
8、④⑤⑥)等噪声替换为空字符格式,以方便后续的数据处理。Python有专门的csv模串进行删除;最后将剩下的内容写入页面信息文本文块支持CSV格式读写,稍加改造以支持中文编码,就件中(行⑦),从而完成HTML文件过滤。可进行格式化输出。在过滤HTML文件的过程中,要对图片所包含的3、网店信息提取实例信息进行特殊处理。例如,淘宝店铺中商家的信用信息图4的实例说明了提取淘宝网某店铺信息的过是用淘宝专有的信用等级图标(红心、蓝钻、蓝冠、黄程。该网店页面的局部截图如图4(a)。网店页面的冠)来表示的。在过滤HTML文件的时候,需要提前注HTML文件片段如
9、图4(b)。可以看出,除了有用信息,意到这些图形化信息,并使用特定字符串来替换这些该HTML片段还包括了大量的噪声字符串。HTML文图片,才能顺利地实
此文档下载收益归作者所有