欢迎来到天天文库
浏览记录
ID:53270239
大小:340.96 KB
页数:5页
时间:2020-04-17
《在线商品的潜在语义信息提取及分类研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Vo1.42No.1计算机与数字工程总第291期112Computer&DigitalEngineering2014年第1期在线商品的潜在语义信息提取及分类研究蒋建洪罗玫(1.桂林电子科技大学商学院桂林5410O4)(2.西北工业大学管理学院西安710129)摘要在基于Web的电子商务数据挖掘过程中,如何从大量的商品交易记录中发掘出有用的信息是目前研究的主要课题,通过对目前网络交易的商品名称信息的特征进行分析,使用自定义的网页抓取工具获取在线商品交易的信息,分词处理后使用潜在语义分析方法对数据集的
2、类别进行分析,实现了一个商品类别分类算法。从划分结果来看,该算法能较好地清除冗余信息,有效地区分不同类别的商品。关键词电子商务;数据挖掘;潜在语义分析;商品分类中图分类号TP311DOI:10.3969/j.issn1672—9722.2014.01.030LatentSemanticInformationExtractionandClassificationofOnlineProductJIANGJianhongLUOMeiz(1.Businesscollege,GuilinUniversity
3、ofElectronicTechnology,Guilin541004)(2.SchoolofManagement,NorthwesternPolytechnicalUniversity,Xi’an710129)AbstractInweb-basede-commercedataminingprocess,howtodiscovertheusefulinformationfromalargenumberofcommoditytradingrecordsisthemainsubjectofcurren
4、tresearch.Throughanalyzingthecharacteristicsofonlinetradeprod—uctnameinformation,acustomwebpagecrawlerisusedtOgatheronlinecommoditytradinginformation,thenwordsegmen—tat~onisusedtoprocesstheproductnamesdata,atlastlatentsemanticanalysisismadetoanalyzeth
5、etypeofdatasetanda—chieveaproductcategoryclassificationalgorithm.Fromthedivisionresults,thealgorithmcanremoveredundantinforma~tion,effectivelydistinguishdifferentcategoriesofgoods.KeyWordse-commerce,datamining,latentsemanticanalysis,classificationofgo
6、odsClassNumberTP3】]语义分析的方法,增强语义相近词语的相关性,降低1引言语义无关词语的相关性,以便后期的分析。从现有从海量的商品交易信息中,如何通过商品的描的研究来看,潜在语义分析技术对于文本的分类是述获取正确的商品类别,是对交易数据进行更深入有效果的,能够通过语义分析提取出文本的主题,但分析研究的基础。同时也是Web挖掘时遇到的问是对根据商品的名称语义进行分类的方法还较少,题之一,而目前的C2C电子商务网站还没有较为准本文通过运用潜在语义分析方法,对C2C(客户到客确地对商品信
7、息进行分类。目前有较多的学者对潜户)网络交易的商品数据集进行分析,最后实现通过在语义用于文本分类进行了研究_1^4]。此外还研究商品名称对商品进行分类的目的,降低商品分类的了用于分析文本的主题[5],陈江涛[7]等利用潜在复杂l生,为进一步的数据分析提供支持_8]。收稿日期:2013年7月11日,修回日期:2013年8月22日基金项目:广西高等学校人文社会科学研究项目(编号:SK13Yt~36);桂林电子科技大学博士启动基金(编号:US12010Y)资助。作者简介:蒋建洪,男,博士,讲师,研究方向
8、:电子商务、数据挖掘。罗玫,女,博士研究生,研究方向:管理信息系统。2014年第1期计算机与数字工程113影响,找出词在文档和查询中真正的含义,也就是2潜在语义分析潜在语义,提高文本表示的准确性。在文本信息的处理上,主要采用向量空间模型LSA首先构造词一文档矩阵(term-document(VectorSpaceMachine,VSM)来进行处理,向量matrix):A—la一,其中m代表词汇总量,代空间模型是一种广泛应用于ad-hoc类信息检索的表文档个数,ct为非负值,表示第i
此文档下载收益归作者所有