互联网商品评论情感倾向性分析系统

互联网商品评论情感倾向性分析系统

ID:6036600

大小:1.02 MB

页数:60页

时间:2017-12-31

上传者:U-2437
互联网商品评论情感倾向性分析系统_第1页
互联网商品评论情感倾向性分析系统_第2页
互联网商品评论情感倾向性分析系统_第3页
互联网商品评论情感倾向性分析系统_第4页
互联网商品评论情感倾向性分析系统_第5页
资源描述:

《互联网商品评论情感倾向性分析系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

第六届浙江省大学生电子商务竞赛参赛作品第六届浙江省大学生电子商务竞赛作品名称:互联网商品评论情感倾向性分析系统作品类别:技术类2011年3月15日59 第六届浙江省大学生电子商务竞赛参赛作品目录第1章项目概要51.1项目背景51.2项目意义71.3研究目的81.4项目主要内容8第2章现状分析102.1国内外研究现状102.2未来发展趋势122.3竞争影响力分析132.4SWOT分析142.5市场需求分析152.5.1针对大型评价网站的市场需求152.5.2针对商品生产商的市场需求152.6市场定位及特点162.7市场优势16第3章平台模块与整体架构183.1爬虫模块193.2分析模块193.3展示模块20第4章关键技术介绍224.1网页评论自动获取与预处理224.2利用自然语言处理技术抽取文本的语义信息234.3基于情感词典的情感词极性分类与情感强度定量计算方法研究244.4基于特征的情感量化分类计算方法的研究254.5基于半监督机器学习方法的特征与情感信息的识别254.6文本倾向性分析的服务化封装29第5章平台的详细功能展示3059 第六届浙江省大学生电子商务竞赛参赛作品5.1搜索305.2对比315.3查看评论325.4可定制的特征分类方法335.5查看分析后评论345.6提交评论35第6章创新和特点分析366.1全自动的评论情感倾向性分析366.2基于多种自然语言处理和机器学习技术366.3细粒度情感倾向性分析方法366.4人性化的评论浏览方式376.5多种发展模式并行376.6独特的营销方法38第7章营销策略397.1市场定位397.2市场推广397.3市场策略407.3.1渠道策略407.3.2定价策略407.3.3广告策略41第8章财务分析428.1融资情况428.2股本结构428.3资金运用438.3.1预计财务报表438.3.2项目销售预测表448.3.3预计损益表458.3.4预计资产负债表4659 第六届浙江省大学生电子商务竞赛参赛作品8.3.5项目投资效益分析488.3.6回收期498.3.7净现值(NPV)498.3.8内含报酬率(IRR)50第9章风险分析与对策519.1经营风险与对策519.1.1经营业绩的风险与对策519.1.2客户的风险与对策519.1.3产品技术方面的风险与对策529.1.4融资的风险与对策529.2行业风险与对策539.2.1产业政策的风险与对策539.2.2行业内部竞争的风险与对策539.3其他风险与对策54第10章总结与展望5510.1项目成果5510.2未来工作55参考文献5659 第六届浙江省大学生电子商务竞赛参赛作品表索引表21项目SWOT分析14表41标注集及相关说明27表42标注扩展集及相关说明27表81公司股本结构表(单位:万元)42表82期初资金用途表43表83人民币贷款利率表44表84项目销售预测表(单位:万元)44图索引图11中国网民与普及率5图31整体框架示意图18图32爬虫模块19图33分析模块19图34展示模块20图41文本倾向性分析框架图25图42特征情感词对提取过程26图51搜索功能30图52高级搜索功能31图53两家酒店对比图示31图54评论列表32图55详细评论内容32图56数值化、图形化分析结果33图57特征分类33图58分析后评论34图59评论提交35图71互联网情感分析系统推广流程图39图81公司股本结构与规模4259 第六届浙江省大学生电子商务竞赛参赛作品第1章项目概要1.1项目背景随着互联网在全球范围内的快速发展和普及,网络媒体已经成为了继报纸、广播和电视之后的“第四媒体”。根据中国互联网络信息中心(CNNIC)2010年12月发布的《第27次中国互联网络发展状况统计报告》,截止2010年12月我国网民数达到4.57亿,互联网普及率持续上升增至34.3%。其中网络新闻用户达到3.53亿人,信息检索用户达到3.75亿人,即时通信用户达到3.53亿人,中国网页总数已经超过600亿个,其中文本内容占网页总数的80%以上。另外,截至2010年12月,网络购物用户规模达到1.61亿,使用率提升至35.1%,上浮了7个百分点,2010年用户增长48.6%,增幅在各类应用中居于首位,是用户增长最快的应用,而网上支付和网上银行也以45.8%和48.2%的年增长率,远远超过其他类网络应用,我国更多的经济活动正在加速步入互联网时代。网络购物用户规模较快增长,显示出我国电子商务市场强劲的发展势头。中国网民与普及率如图1-1所示。图11中国网民与普及率59 第六届浙江省大学生电子商务竞赛参赛作品如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用,使网络内容的数量和网络信息的访问量都以前所未有的速度增长,互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的主观性文本大量存在,信息形式多种多样,如新闻、博客文章、产品评论、论坛帖子等等。随着电子商务的发展,主观性评论文章越来越多,在一定程度上帮助了潜在消费者购买抉择,同时也对产品商家和服务商提供了很好的反馈意见。如果评论信息只有几十条,普通浏览者还能应付,但如果是数以千、万计的信息量,就难以全部浏览。再加上一些枪文(收买别人帮自己做广告写的文章)等噪音的出现,并且这些噪音往往穿插在前几页,这将严重影响浏览者获取信息的全面性和判断的正确性。另外,产品商家、服务提供商也非常需要从评论中获取到顾客评价的第一手资料,以帮助其提高产品质量和改进服务。例如,阿里巴巴、淘宝、卓越等电子商务网站每天新增的评论数量十分庞大,如果所有评论中的情感信息只通过人工分析和判定得出,则人力、物力将消耗巨大。当然有些网站在用户评论时,也往往要求用户给出评论对象的整体量化评分,如果只针对这些评分进行简单统计而对具体评论信息不进行语义分析和信息挖掘,则不能获取到基于商品属性的细粒度情感倾向性分析结果,而这些结果往往是用户和企业最关心的,是用户选择商品的重要参考建议,也是企业改进商品质量和服务的重要资讯来源。近年来,电子商务在第三产业迅猛发展,同时其惊人的发展速度带动了相关行业的繁荣,电子商务服务行业由此形成。这种电子服务面向电子商务应用,成为信息服务业发展中的新亮点。电子商务服务业正在崛起,政府的支持、应用的丰富、分工的精细、跨界合作的实现、各类企业的涌现推动整个行业滚雪球式向前发展。本系统的创业计划以商品(包括服务性商品)评论分析为主,并逐步扩散到舆情、影评分析等各个领域,为普通消费者、企业乃至政府提供精确而全面的决策依据。本系统在传统的数据挖掘分析基础上另辟蹊径,它不仅令用户摆脱了信息轰炸的困扰,其对信息监控、民意调查、电子学习、报刊编辑、企业管理等方面也有着重要的作用和意义。59 第六届浙江省大学生电子商务竞赛参赛作品1.1项目意义目前,政府和公司企业对市场信息及用户信息的掌握主要来源于调查问卷等传统形式,这类传统方式耗费了大量的财力人力物力,但其结果并非尽如人意。如果采用本项目的文本情感倾向性分析系统,就可以更方便快捷地掌握互联网各个领域的信息,更全面系统地了解公众舆论对商品的情感倾向。电子商务的快速发展使其已经拥有庞大的用户群体,电子商务的发展势头决定其潜在客户数量众多。对于这两类群体,他们可以利用本系统直观地了解到其余用户对互联网商品的评价的整体信息,帮助他们做出最优购买选择。互联网商品情感倾向性分析,就是对这些商品评论信息进行有效的分析和挖掘,识别出其情感趋向,或得出其观点是“赞同”还是“反对”,甚至情感随时间的演化规律。通过该技术的应用,本系统可以从大量商品评论文章中自动识别出情感语句以及分析出相应评价对象的倾向性结果,大大节省了人力、物力和时间。通过分析得到的数据,很容易了解用户的消费需求,同时为企业、政府等机构提供重要的决策依据。因此,近年来文本情感倾向性分析已引起了人们越来越多的重视,已经成为信息检索和自然语言处理领域的热点研究问题。从近年来在ACL、WWW、SIGIR、CIKM等顶级国际会议上的文章发表情况就可以看出已经开始吸引越来越多的学者加入这方面的研究,成果也越来越丰富。同时,由于其在企业的商品评价、政府部门的网络舆情监管等方面的应用,吸引越来越多的企业参与到该领域的研发中来,如国外的Google、Autonomy公司,国内的阿里巴巴、北京拓尔思、北大方正等。本系统主要以用户的主观性文本为研究对象,由于其信息量大、非结构化等特点,文本情感倾向性分析还存在不少的问题和难点,如词汇的情感强度量化、特征识别、倾向性分析具体实现方法等,导致现有文本情感倾向性分析的准确率不高,影响了实际的使用。通过研究文本情感倾向性分析的新方法,提高分析的准确率,最后在商品评价中进行示范应用,为商业推广奠定基础。综上所述,互联网商品情感分析是当今信息检索和自然语言处理领域研究的热点问题,具有59 第六届浙江省大学生电子商务竞赛参赛作品重要的科学意义和实际应用价值。通过在商品评论中的示范应用,本项目将进一步推动浙江省乃至全国电子商务的发展。1.1研究目的随着电子商务飞速发展,商品评论中的情感倾向性分析逐渐成为当前的研究热点。目的是利用网络上丰富的顾客评论资源,进行商品的市场反馈分析,为生产商和消费者提供直观的针对商品各个特性的网络评价报告。当前,不少网站在提供主观性文本评论发布的基础上,还提供了针对评价对象的总体量化评分功能,如亚马逊,商品评论进行了五星制评级,5星为最好,1星为最差;还有部分网站推出了针对评价对象各个属性(特征)的细粒度评价功能,如携程网,它实现了对宾馆的房间卫生、酒店服务、周边环境、设施设备这四方面的5分制评级,并给出综合得分。但由于各个网站的细粒度评价结果基本建立在人工判定基础之上且标准不够统一,所以针对评论的细粒度倾向性自动分析是一个重要的研究趋势。在这个信息爆炸的时代,本项目的商品情感分析系统能优化商品评论分析,为互联网用户提供直观、便捷的商品评价信息,为企业提供全面、系统的商品评价报告。1.2项目主要内容本项目主要内容为:研究并创建一个具有普适性的互联网商品评价情感分析系统。此系统能够自动分析来自互联网的海量评论,同时根据不同的需求提供不同的分析结果的表达方式。本系统利用语言学知识,对句子进行了语义分析,并在此基础上结合机器学习方法实现产品评价的意见挖掘和倾向性分析。本项目的自然语言处理技术具有先进性,对文本进行句法结构分析和语义理解(主要利用语义角色标注技术)。本系统采用细粒度情感分析方式,以句子为单位,挖掘出主观句中评价对象的特征及其对应的情感词,如评价对象为酒店,其特征有设施,环境,交通,服务等。本系统为用户提供了可视化、细节化的分析结果展示。用户可以自主选择自己所偏重的特征进行个性化分析,同时还能够针对同类商品的不同品牌或型号进行横向比对。而产品评价的情感倾向性分析系统分析获得的分类统计结果,59 第六届浙江省大学生电子商务竞赛参赛作品既提供给厂商以进一步改进产品的质量,又提供给潜在的顾客作为选择购买产品的参考,同时还可以提供给代销商作为进货品种和数量的依据。本系统还能够提供热门商品排行。用户可以随时了解到热卖产品的信息;此外,用户还可参照本项目系统做出的趋势预测,对商品未来的发展方向有所了解。对于本项目的内容,可举下例加以说明。某用户需要了解某酒店的用户反馈情况,包括酒店的环境、设备、服务、服务等等。目前人们一般只能通过浏览各个网站上的评论信息进行决策,而评论信息数量往往十分庞大。本项目的目标就是提供一个评论分析系统,用户只要设定感兴趣的酒店,本系统将会提取互联网中各大网站中关于此酒店的评论信息,并将经过分析后的分类量化结果提供给用户。用户若有个性化需求,可以设置对于此酒店的某方面信息,如设备、环境,系统将会有针对性的对这几方面进行量化分析,并根据需要列出这些评论的详细内容。同时本系统还提供对比信息,如用户需要对比酒店A和酒店B的评价分析结果,系统可以根据用户的选择,将分析结果用不同方式展现给用户,让用户有一个直观、简便的体验。此外,本系统提供的热门酒店排行可供用户参考。第1章59 第六届浙江省大学生电子商务竞赛参赛作品现状分析当前,商品评论中的情感倾向性分析成为研究热点。但由于各个网站的评价标准不够统一,再加上原本的细粒度评价结果更多的是建立在人工判定基础之上,所以针对评论的细粒度倾向性自动分析是一个重要的研究趋势。从文本倾向性分析方法的研究趋势来看,更多的是利用自然语言处理技术和机器学习方法相结合,面向基于句子的细粒度倾向性分析研究。目前文本倾向性分析的方法大致有以下三类:(1)基于一般性统计方法。主要对所有情感项进行简单的倾向性统计,统计方法有求和法和向量空间模型法,根据最终得分与事先设定阈值比较得出倾向评价,一般用于篇章级的粗粒度情感倾向性分析。(2)基于机器学习的方法。通过对大量标注语料的训练,生成倾向分析模型,用来对测试文本进行情感分类。该方法主要依赖标注语料库,目前专门应用于情感倾向性分析的语料库非常少,所以半监督机器学习方法的研究是一种趋势。(3)基于自然语义处理技术的方法。利用成熟的自然语言处理技术,在一定程度上实现了文本的语义理解,帮助更正确的分析情感倾向性,更多的应用于句子级的细粒度情感倾向性分析。该方法一定程度上更接近人的思维和判断,它首先进行文本的语义分析,然后挖掘其中的语义关系,最后分析出评价对象的情感倾向性。1.1国内外研究现状目前,国内外已有不少学者和机构开展了主观性文本倾向性分析研究,并设计出了一些系统应用于商品评价、舆情分析等不同领域。现将当前国内外主观性文本倾向性分析研究与应用现状和发展趋势进行总述和分析。从具体的应用来看,NEC美国研究所Dave等人研究并开发的ReviewSeer59 第六届浙江省大学生电子商务竞赛参赛作品是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统,通过对评论性文章的语义倾向分析,为商品的受欢迎程度进行打分评价,该评价结果是极具价值的商业信息。微软研究院的Gamon等人研究利用聚类、半监督学习方法进行句子的语义分类,并开发了Pulse系统实现自动挖掘网上用户所上载的自由文本中有关汽车评价中的褒贬信息和强弱程度。美国伊利诺大学的LiuBing等人研究并开发了OpinionObserver系统,实现网上顾客的在线商品评价处理,对评论中出现的产品各个属性(特征)的用户褒贬意见进行统计,给出友好的产品特征分类可视化界面展示,同时还提供了同类产品之间的评价比对功能,使各部分属性(特征)优劣一目了然,极大帮助了用户的购买决策。IBM研究中心的Yi等人研究并开发了一个面向在线评论的情感分析系统(SentimentAnalyzer),该系统利用自然语言处理技术建立情感词库和情感语言模式库,对在线评论进行特征术语抽取、观点提取以及观点和特征关系的关联性分析,最终实现在线评论的情感分析。美国匹兹堡大学的Wilson等人研究并开发了OpinionFinder系统,它实现了主观性句子自动识别以及句子中各种与主观性有关的成分(例如,意见源、直接的主观性表达、说话事件(SpeechEvent)、情感等)挖掘。英国科波拉软件公司于2005年推出了一套舆情感情色彩分析软件,它主要是通过网络舆情过滤和分级技术实现的。该技术可自动分辨语法成分,例如名词、动词和形容词,并确定动词的主语和宾语,因此可以去除一些与文章主要内容无关的词语,从而判断文章的感情色彩是正面、负面还是中立的,以帮助政府和一些大公司了解民意。另外美国国土安全部于2006年起利用能概述和分析新闻报道中公众意见的情感分析软件获取民众意愿,把握社情民意的走向。59 第六届浙江省大学生电子商务竞赛参赛作品从国内来看,文本倾向性分析技术更多是应用于网络舆情监控系统,如方正的智思系统、厦门美亚柏科、邦富软件和谷尼国际软件等。针对网络舆情中各类评论的情感分析,必然要用到文本倾向性分析技术,但由于上述软件更多的是基于篇章的粗粒度情感倾向性分析,从技术实现上相对比较简单和传统。近几年,已有不少学者开始细粒度情感倾向性分析方法,如上海交通大学的姚天昉等研究开发了用于汉语汽车论坛的意见挖掘系统,可以实现在电子公告板、门户网站等各大论坛上的意见挖掘,对褒贬信息进行综合统计后给出可视化结果。香港城市大学的Tsou等人设计了一个面向报刊上关于政治人物具有褒贬性的报告的情感分类系统,通过利用统计分析方法得到最终的文本褒贬分类和强度。清华大学的孟凡博等人设计了一个基于关键词模板的电影评论褒贬倾向判定系统,从结果来看,集外测试的效果不够理想,主要缺乏对句子的语义理解。哈尔滨工业大学的徐军等人使用机器学习方法实现了一个新闻情感自动分类系统,在一定实验环境下,最高达到了90%的准确率,领先于其他基于篇章的情感倾向性分析方法。1.1未来发展趋势情感挖掘方面的研究刚刚起步,针对情感分析领域的研究现状,以下几个方面是未来研究中值得关注的方向:情感资源的建设和评价体系的建立。语料库的建设是相关工作顺利开展的基础,语料标注是语料库建设的关键技术,应进一步研究情感标注体系,考虑如何从包括词汇层(如词性标注)、句法层(如语法分析)和语义层(如属性和情感的对应关系)的多个分析层次体现主观性文本的语言现象,形成较细颗粒度的公开语料库。也应进一步丰富词典资源,一方面是静态层面的研究,即词语在静态词典中所表现出的褒义、贬义等情感属性,这些属性可以直接在语法信息词典中描述;另一方面是描述词语的情感信息在进入句子框架下发生的偏移现象,即词语褒贬倾向的动态句法(框架)研究。统一的评价体系是对方法进行客观评价的前提,也是不可忽视的基础性工作,对相关研究的开展具有重要的意义。语句中各语义成分及其对应关系识别。情感分析的最终目标是挖掘消费者对商品属性、功能等的态度或评价。可在现有句法分析研究(如依存分析等)的基础上,结合情感知识,获得针对情感分析问题的方法或模型。系统研究的开展。目前,相关工作比较零散,而情感分析领域的问题之间具有紧密的联系,系统性地研究非常重要。一方面应该着手建立初始的情感词典资源,为较细粒度的句子情感分析提供支持,另一方面也应依据句子水平的分析结果,对词语在具体上下文中的褒贬性以及情感性进行判断。在线商品评论经济价值的研究。在线评论对消费者购买行为有着巨大的影响,而相关的理论研究才刚刚起步。由于缺少对在线评论以外影响商品销售因素的控制,如商品物理属性、市场需求环境和目标客户群特征等,现有研究获得的结论并不一致,规律性的发现还不多见。因此,对在线商品评论与销售情况的影响关系及其作用机制的研究尚需进一步深入,企业应如何管理和利用在线商品评论的研究仍略显不足,这些都是值得关注的课题。59 第六届浙江省大学生电子商务竞赛参赛作品1.1竞争影响力分析根据著名的战略管理学者迈克·波特的观点,在一个行业中,存在五种基本的竞争力量,即潜在的新进入者、替代品、买主、供应商以及现有行业竞争者间的抗衡。潜在的新进入者:现阶段互联网情感分析系统的开发尚处于起步阶段,所以面对巨大的市场,会有很强的资金和技术投入。但是由于情感分析信息系统这个行业本身的特殊性,它要求企业不仅要有研发资金,还需要比较强的技术力量,并且拥有一些该行业的相关从业经历以及背景了解,能够很好的了解客户真正的需求,所以相对来说进入这个行业的技术以及资金要求比较高。同时一些大型的专业的软件开发公司也逐渐开始向这块业务发展,将成为潜在的进入者。替代品:目前由于情感分析系统本身就是一个新兴的事物,它的替代品很少,所以需求弹性很小。买主:分为带有电子商务业务的大、中、小型企业。大型企业:购买力巨大,尤其是一些专业化很强的电子商务企业,但是他们对技术的需求也很高。中型企业:潜力很大,对与产品成本的选择稍低,购买力和上升潜力巨大。小型企业:本身处于上升阶段,追求资金和规模的积累,一旦形成规模经济,就可以考虑引入相关的系统。59 第六届浙江省大学生电子商务竞赛参赛作品1.1SWOT分析表21项目SWOT分析外部环境条件匹配自身因素条外件部匹环配境自身因素O:机会市场:极具潜力的目标市场。同时,市场刚开辟,竞争力弱。消费群体:消费者的消费导向很大一部分依据网络评价。企业公司急需基于市场真实的反馈信息。T:威胁竞争对手:来自国内与国际竞争对手的威胁。人员素质:项目人员初步接触数据挖掘技术领域,专业性以及实施能力相对薄弱。S:优势项目基础:互联网在全球范围内的快速发展和普及,用户基数庞大。技术:可依托的技术研发人员力量雄厚。人力:指导老师尽心尽力,团结进取,专业知识扎实。SO:强项与机会技术先进项目创新老师谆谆教导ST:强项与威胁市场定位专利机制团队年轻有活力W:劣势融资:初期融资渠道不畅。产品:初期系统功能不完善,市场认可低。团队:团队管理经验不足。销售渠道:建立销售渠道有一定难度。WO:弱项与机会项目开发市场认可拓宽融资渠道WT:弱项与威胁欠缺资金支持广告宣传项目管理难点59 第六届浙江省大学生电子商务竞赛参赛作品1.1市场需求分析1.1.1针对大型评价网站的市场需求根据上文提到,截止2010年12月我国网民数达到4.57亿,互联网普及率持续上升增至34.3%。网民当中很大一部分的网络行为为娱乐、商务、交易、沟通等。在如今网络当中充斥着铺天盖地的网络信息,想要在这些商务信息当中获得自己需要的,就必须花费大量的时间与精力进行网络信息收集,而对于大多数网民来说,信息检索技术并不是每个人都有相应的了解与运用。基于此问题,口碑网、大众点评网等大型评价网的出现在很大程度上解决了这个难题,但是问题仍未解决。比如,在现今电子商务网站提供主观性文本评论发布的基础上,还提供了针对评价对象的总体量化评分功能,如亚马逊,商品评论进行了五星制评级,5星为最好,1星为最差;还有部分网站推出了针对评价对象各个属性(特征)的细粒度评价功能,如携程网,它实现了对宾馆的房间卫生、酒店服务、周边环境、设施设备这四方面的5分制评级,并给出综合得分。这个决策从表面上可以认为解决了对商品评论的评级机制,然而,我们忽略了一点,人是一种复杂的生物,他们的思维与行动有可能会背道而驰,真正能展示一个真实情感的路径,就是通过对主观性文本分析。现今的评论网站可以看到不同人对网络商品不同的评价,但是缺少一个系统的、直观的、整体的评价。因此,通过本项目开发一种高效的主观性文本情感倾向分析软件迫在眉睫。对大型评价网站来说,使用本系统可以提高在电子商务领域的竞争力,使网站更具有客观真实的参考价值。用户更可以一键获取有关商品的整体评价。1.1.2针对商品生产商的市场需求商品的生产商或者服务的提供商通过本项目的预期成果,能够及时了解本企业所提供的商品或服务的反馈信息,为改善产品性能、提高服务质量赢得更快和更有效的机遇,这相当于为企业节约了大量的市场调研和市场反馈信息获取的成本,间接地加快了企业产品、服务升级的进程。59 第六届浙江省大学生电子商务竞赛参赛作品1.1市场定位及特点本系统的应用范围相当广泛,目标用户可以是普通个人和企业。对于普通个人用户,利用本系统所提供的功能,可以直观的了解到目标商品(服务)的细粒度量化评价结果,而不需要逐句浏览大量的评论来全面获取此商品(服务)的评价信息,同时还可以根据不同的商品特性进行分类查看。系统的自动比对功能也给用户在不同商品进行艰难抉择的困境下提供有力的支持,根据选择自己感兴趣的商品特性,真正做到适合自己的才是最好的。对于企业用户,此分析结果无形中节省了他们大量的市场调查费用,从此评论分析系统中他们可以了解到消费者关注的是哪些商品,这些商品的哪些特性是消费者重视的,哪些问题是消费者敏感的,哪些商品易于被消费者接受等等。这些信息对于一个企业来说无疑是一笔巨大的财富。同时对于有特殊要求的企业,本系统可以提供更详细的评论分析服务。对他们有针对性的要求,进行系统升级、改造。特别对于大型评论网站,可以直接引用系统的分析结果,或者与本团队合作,根据不同的需要对系统进行特殊化调整,以适应网站的运行策略。根据不同的侧重面,此系统还能够提供网络舆情分析、网络信息抽取、竞争新报系统等方面的应用。1.2市场优势随着电子商务的不断发展,用户对目标商品的已有评论数据越来越关注,利用本项目的研究结果可以帮助电子商务网站针对本地海量评论数据实现自动化统计分析和可视化结果展示,使顾客可以一目了然的了解各种商品的细粒度评价结果,节省了大量的时间和精力,从而一定程度上也提高了该电子商务网站的点击率和人气。当前,电子商务发展迅猛,网站数量与日俱增,本项目的市场前景十分看好。互联网上的信息日新月异,政府相关部门针对网络舆情有监控和分析的需求,如宣传系统、关注民情和民生部门、监督监察部门、产业经济部门等等,这些部门机构在省市县三级都有设置,全国的市场容量和潜力是巨大的。59 第六届浙江省大学生电子商务竞赛参赛作品本项目研究的文本情感倾向性分析技术可以应用于舆情信息的极性判断及热点事情的发现和追踪,具有重要性意义。因此,本项目的研究内容市场前景良好。59 第六届浙江省大学生电子商务竞赛参赛作品第1章平台模块与整体架构平台整体架构分为三大模块:爬虫模块(crawler)、分析模块(analyser)、展示模块(layout)。框架如图3-1所示。图31整体框架示意图59 第六届浙江省大学生电子商务竞赛参赛作品1.1爬虫模块图32爬虫模块(1)文本提取模块该模块用于提取指定网页中的评论内容,可根据不同的页面编辑不同的模板精确提取目标内容。(2)预处理模块预处理提取的文本评论:去除HTML标签,去除重复标点符号,去除空行,去除多余空格,断句,分词,POS标注,SRL标注(POS,SRL为自然语言处理技术,在第四章详细介绍),最后将文本评论结构化后存入数据库供进一步分析使用。1.2分析模块图33分析模块分析模块是整个系统的核心部分,承担着分析自然语言的任务。在此模块中对评论文本进行“流水线”处理。59 第六届浙江省大学生电子商务竞赛参赛作品(1)关键词(特征-情感词对)提取模块将爬虫模块处理过的结构化文本评论转化为机器学习要求的格式,并使用机器学习技术提取关键词(包括特征词,情感词,程度副词等),最后将提取的关键词存入数据库。(2)情感倾向性分析与量化模块此模块分词特征-情感词对的情感倾向性,使用基于字频的倾向性分析,并配合《哈工大同义词林》进行情感倾向的量化计算。(3)特征词聚类模块此模块将根据需要对特征进行归类,既将描述类似或相同特征的词归为一类。需要分为两种,其一为特征预先设定(由系统直接设定,或由用户设定),其二为选择出现频率靠前的一些特征,最后将归类结果储存进数据库。(4)评论整体倾向性计算模块该模块基于以上模块分析计算结果,根据不同特征设定不同权重,对评论中所有特征-情感词对进行计算,得出评论整体情感倾向性,存入数据库。1.1展示模块图34展示模块展示模块使分析结果具有灵活的表现形式,可根据不同需求使用相对应的展现方式。(1)图形化显示模块以图形方式显示评论情感倾向性,包括显示评论整体情感倾向性,特定句子情感倾向性,以及特定特征情感倾向性。59 第六届浙江省大学生电子商务竞赛参赛作品(1)颜色标记模块用户可根据个人喜好设定不同颜色标记不同的关键词,以便于评论的阅读。(2)摘要模块综合显示某商品的所有评论分析结果,使用图形化显示模块显示所有特征情感倾向性结果,并以颜色标记模块显示包含特征-情感词数量较多的评论内容。(3)对比模块由用户选择要对比的商品,使用图形化显示模块在同一页面中列出这些商品特定特征的情感倾向性结果,助于用户直观感受评论结果。59 第六届浙江省大学生电子商务竞赛参赛作品第1章关键技术介绍1.1网页评论自动获取与预处理(1)自动获取评论内容浩瀚如海的互联网有无穷无尽的用户评论,纯粹人工获取并不现实。爬虫技术就是将特定页面中有用信息的“位置”告诉计算机,计算机将从类似网页中自动抓取目标信息。以往所使用的技术为人工分析页面结构、编写标识符来定位目标信息。而本系统使用了xpath以及python的扩展库lxml,极大的提高了编写抓取程序的效率和程序运行速度、可读性。XPath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。而lxml库则可以快速正确地分析xml文档。具体到项目中,将HTML看成是XML的特殊形式,所以可以使用Xpath来表示一个评论在此HTML文档中的具体位置,并且xpath可以使用工具自动生成,保证了准确率和效率。此后使用lxml提供的方法,可以高效的提取出需要的信息。(2)预处理在获取需要的文本信息后,必须进行预处理。预处理包含两个步骤,第一步骤,去除噪音字符。例如从网页中抽取出的文本可能含有HTML标记“
”,“

”等等,如果不把这些字符去除,将会影响之后的分析。此外,在预处理中还应该去除重复的标点符号。由于抽取出的文本是自然文本,不含有结构化信息,之后的“断句”处理是根据文本的标点符号进行判断,若有两个重复的标点势必造成断句错误,影响进一步的分析。此外还要去除多余空格,多余空行。第二步骤“断句”和“分词”。在汉语中一个句子可以表达一个完整的意思,所以关键词抽取以“句”为基础,逐个分析句中词汇,若断句或分词错误,势必影响系统的最终结果。所以预处理是整个系统的前提,也是关键。59 第六届浙江省大学生电子商务竞赛参赛作品1.1利用自然语言处理技术抽取文本的语义信息分词和词性标注是自然语言处理中的基本问题。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。词性标注(Part-of-Speechtagging)是指对于句子中的每个词都指派一个合适的词性,也就是一个确定每个词是名词、动词、形容词或其他词性的过程。一般的情感倾向性分析或多或少用到自然语言处理技术,在英文处理中用到最多的是词性标注(POS),中文处理则还需用到分词。POS和分词是自然语言处理技术中最基本的工具,可以实现对文本的一般性分析。有一些学者利用这些分析结果进行了细粒度文本情感分析,但由于这些方法处理的结果对象只是词汇,缺乏对句子的整体结构和语义上下文关系的研究,所以在处理细粒度文本情感倾向性分析过程中往往不能精确定位分析,单靠规则方法效果非常有限。本项目提出利用更先进的自然语言处理技术对文本进行句法结构分析和语义理解(主要利用语义角色标注技术)。本文中定义的细粒度情感分析是以句子为单位,挖掘出主观句中评价对象的特征及其对应的情感词,如评价对象为酒店,其特征有设施,环境,交通,服务等。语义角色标注(SemanticRoleLabeling)是浅层语义分析的一种实现方式,该方法并不对整个句子进行详细的语义分析,而是在句子级别进行浅层的语义分析。具体而言,即标注句子中的一些成分为给定谓词的语义角色,这些成分作为此谓词框架的一部分被赋予一定的语义含义。此工具还包含了分词、词性标注、句法分析等功能,并且已有相关论文在国际重要会议上发表。对情感的倾向性细粒度分析,传统方法多是在对句子POS标注后,利用词性的特点进行属性和情感词的识别,这个过程一般只考虑词的特性,缺乏对句子的整体语义理解。以索尼DSC-H9P相机评论中的一个句子为例,“佳能A530P的镜头比它的好,价格还比它便宜”,如果仅按照POS标注的方法来判断属性的极性的话,就会简单的判断出“镜头好”,“价格便宜”,刚好跟本意相反的结果。而通过SRL标注处理后,[佳能A530P的镜头Arg0][比它的ARGM-ADV][好V],[价格Arg0][还ARGM-ADV][比它ARGM-ADV][便宜V]。只要对59 第六届浙江省大学生电子商务竞赛参赛作品“ARGM-ADV”这一语义角色所对应的内容进行指代消解处理,然后通过对比较级的正确分析,即可抽取出两个特征的情感倾向性。同时从分析的结果也可以非常清晰的看出“镜头”和“价格”为产品的特征,他们所属的语义角色均为“Arg0”,“好”、“便宜”为情感词汇,所属角色均为“V”(“好”、“便宜”均属于谓词性形容词,在宾州中文语料库中的词性标注为VA)。这句话中特征与情感词的关联信息可以通过挖掘角色Arg0和V之间的依存信息进行抽取,也可以利用机器学习的方法进行识别。1.1基于情感词典的情感词极性分类与情感强度定量计算方法研究通常进行文本倾向性分析时,无论是句子还是篇章都强依赖于情感词典。因此,情感词典的好坏直接影响情感倾向性判断的正确性。另外,在很多应用中,情感强弱的判断也是非常重要。比如在产品评论中,如果某商品评论是强烈好评,往往此商品是不二之选;相反如果仅为一般好评,则还需要货比三家。因此,在情感词典生成及扩展过程中还需要进行情感强弱的定量计算。本项目的情感词典建立在现有的一些情感语料库基础上(如《知网》的情感分析用语词集、哈工大的《同义词林》),抽取出7926个词语的基本极性词表,其中表达正面的评价和情感的词1993个,表达负面的评价和情感的词5936个。另外还建立了程度级别词词典和否定词词典,程度级别词库主要参考《知网》情感分析用语词集中的中文程度级别词语219个。由于否定表达的用语相对有限,所以主要通过人工收集,并利用《知网》、哈工大的《同义词林》进行扩展。中文情感词汇的极性分类方法大多是根据与基准词的语义相似度计算结果来判定,但分类结果往往跟所选基准词有关,不同的基准词选择往往产生不同的结果,所以这种方法的正确性不高。本项目提出的方法是基于这样的结论:字是词的最小组成单元,语言学者认为相同的字往往分布在同一极性的词中。为此,本项目在已有的算法基础上提出了改进方法,即利用现有情感词典的极性分类,统计情感词典中出现的每个字的情感强度值,将这个数据结合情感词的组词特点,进行分类计算现有情感词典中每个词的情感强度。同时利用该方法,可以对新词进行极性分类和情感量化计算,从而达到情感词典的自动扩展。59 第六届浙江省大学生电子商务竞赛参赛作品本系统重点考虑了情感词中字的多种组合模态,根据不同情感组合分别进行计算方法的设计,从而提高计算正确率。1.1基于特征的情感量化分类计算方法的研究本项目主要利用情感词典,以及自然语言处理技术,本项目设计了文本情感倾向性分析的基本框架,如图4-1所示。图41文本倾向性分析框架图特征库建设由于不是本项目的研究内容,所以只简单地参考了现有方法来实现,并结合哈工大的《同义词林》,通过对大量的商品评论数据进行统计分析,抽取出了指定商品的特征库。本系统基于识别出来的评价对象特征与情感的关联信息,针对不同的句子结构和句型,利用相应的语言学规律,研究利用不同的计算方法实现最终的情感量化计算。1.2基于半监督机器学习方法的特征与情感信息的识别评价对象特征与情感信息的关联识别是本项目的关键,当前多为采用基于规则、概率统计的方法来实现,利用POS、SRL等结果直接进行相关的概率统计,找出一些识别规则。这种方法对规则的依赖很强,规则设计的好坏直接影响识别性能。此外,规则的调整也比较复杂,往往需要改动程序的设计逻辑。本项目提出了利用半监督学习方法实现训练语料的自动化扩展,59 第六届浙江省大学生电子商务竞赛参赛作品利用条件随机场(CRF)实现特征与情感信息的关联识别。“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马模型(HMM),基于类的中文分词。但隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。整个过程如图4-2所示。下面对有关的主要内容进行解释。图42特征情感词对提取过程(1)评论信息的格式化标注参考Fu等的定义方法[38],本项目设计了属性(Attribute)和情感(Opinion)这两种实体的一套标注集,如表4-1,4-2所示。59 第六届浙江省大学生电子商务竞赛参赛作品表41标注集及相关说明标注集相关说明商品属性正面评价负面评价情感程度修饰词其他背景词汇表42标注扩展集及相关说明实体标注扩展集相关说明<>单一实体<—BOE>实体开始部分<—MOE>实体中间部分<—EOE>实体结尾部分表2是针对两种实体的标注扩展。具体以下面的句子为例进行说明。“手机的外形很漂亮,屏幕也很清晰”。标注的结果为:手机外形漂亮屏幕清晰(1)利用SRL和POS信息进行CRFs模型设计本项目通过抽取文本的语义信息(如POS和SRL信息)并结合分词结果生成相应的特征集,然后利用现有的CRFs工具(CRF++)进行分类模型设计。每句评论句由(wi,POS(wi),SRL(wi))表示,其中wi是词,POS(wi59 第六届浙江省大学生电子商务竞赛参赛作品)和SRL(wi)分别是词wi的POS和SRL结果。所以本系统的任务就可以转化为:给定文本W=w1w2w3…wn,以及相应的POS结果O=o1o2o3…on和SRL结果S=s1s2s3…sn,找出最大概率的标注结果T=t1t2t3…tn,也就是(5)根据CRFs模型的定义可以得出:(6)(7)其中,是特征函数的权重系数。是第k个特征函数。通过定制相应的模板文件,现有的CRFs工具(CRF++)可以方便地增删特征信息(包括文本的上下文特征信息)。(1)Bootstrapping方法实现训练预料的自动化扩展当前,用于训练的格式化语料非常少,本项目的方法首先通过人工标注一部分原始评论语料,随机平分为两个子集,分别进行训练,生成相应的CRFs模型;然后利用各自的CRFs模型标记相同的原始评论语句(完成分词以及POS和SRL的特征信息提取),如果两个CRFs模型的预测结果一致,则把这句评论语句的标注结果放入训练集中。这个过程循环多次,直到没有可标注的原始训练语句。最后利用扩展的训练预料和初始训练预料一起训练生成最终的CRFs模型,用于“属性-情感”词对的识别。(2)后处理针对利用上述方法识别出来的结果,有时还比较粗糙,还需要利用相应的规则进行细化和过滤。如“手机的外形很漂亮”的识别结果为:手机外形漂亮这里的对象属性标注结果是“手机的外形”,而真正的属性只有“外形”59 第六届浙江省大学生电子商务竞赛参赛作品。由此可以进一步借助于文本的上下文知识和文本的词性标注信息进行规则设定,研究最终结果的过滤和细化。另外,如果文本中出现指代词的话,研究利用指代消解链结果确定真实的对象属性,从而提高对象属性识别的正确率。1.1文本倾向性分析的服务化封装本项目所提出的文本情感倾向性分析方法可应用于各类电子商务网站的商品评价分析,而这些应用系统往往是分布、异构的。为了方便本项目研究成果的推广使用,本项目采用面向服务架构(SOA)将文本情感倾向性分析方法封装为Web服务资源,以屏蔽分析方法自身的复杂性,对外呈现统一的调用接口,各种商务网站可以按标准的WEB形式进行访问,而不需要考虑分析方法的具体实现,实现了在网络环境中的共享,可适应不同的应用需求。文本倾向性分析的服务化封装关键在于服务接口的定义,考虑到实际应用,本项目将主要提供两种接口。一种是用户提供待评价的商品名称、商品评论数据源,系统将通过采集给定数据源相关的信息,分析处理后返回待评价商品的倾向性结果;另外一种是用户提供具体的商品评论文本,系统对给定的文本分析后获取特征与情感的关联信息,并给出每个特征的倾向性结果。第2章59 第六届浙江省大学生电子商务竞赛参赛作品平台的详细功能展示1.1搜索用户可以在系统中根据商品名称、评论内容进行搜索。例如用户需要搜索包含关键词“酒店”的商品评论信息,在搜索栏中输入“酒店”,点击搜索后系统将会列出所有与“酒店”相关的评论分析结果,如图51所示。图51搜索功能为了节省用户的时间,提高搜索准确度,系统提供“高级搜索”功能,如图5-2所示:(1)商品名关键词搜索:此选项搜索系统中所有商品名称,对商品名进行匹配,若发现匹配则列出。例如,系统中有“北京快捷酒店”,“上海快捷酒店”等,搜索“快捷”则会列出这些酒店。(2)商品特征关键词搜索:此选项搜索系统中所有商品的特征,列出含有此关键词属性的商品以及信息。例如,系统中相机的特征为“价格”,“功能”等,手机的特征也有“价格”,“59 第六届浙江省大学生电子商务竞赛参赛作品功能”。搜索“功能”,则这两种商品都会在搜索结果列表中出现。此功能主要为辅助定位某商品的特定特征。(1)商品评论关键词搜索:此搜索功能搜索系统中所有的评论,对评论内容进行匹配,既在评论内容中发现此关键词,则将这些评论内容以及商品信息列出。如图5-2所示。图52高级搜索功能1.1对比用户勾选需要对比的商品,系统会分别列出各个商品的商品属性、评论数、分析结果(包括不同属性的分类结果)。例如需要对比两家酒店,则系统将会列出两家酒店不同特征上的评分情况。演示效果如图5-3所示。图53两家酒店对比图示59 第六届浙江省大学生电子商务竞赛参赛作品1.1查看评论(1)分页显示所有商品评论系统分页显示所有商品的评论信息以及整体得分情况(如图5-4所示)点击相应商品名后转到评论列表,系统将会分页显示此商品的所有评论,并以数值化方式显示评论的情感倾向(如图5-5所示)。图54评论列表图55详细评论内容(2)排序系统默认根据商品的评论得分从高至低排序,用户可根据需要对商品进行排序,例如根据评论数,评论长度,评论相关特征数等进行排序。(3)数值化分析结果59 第六届浙江省大学生电子商务竞赛参赛作品系统将同时以图形化和数值化形式显示分析结果,若指定要查看的特征,则还会显示与其相关的评论数。如图5-6所示。图56数值化、图形化分析结果(1)查看指定特征系统根据设定将商品评论归类,此过程将会根据评论中出现的特征对评论进行归类,用户点击对应的特征,系统将会列出此与此特征相关的评论分析结果,以及重点评论摘要。例如以酒店评论对象,将分为设施、位置、交通、价格、餐饮、服务六种特征,若用户选择了“设施”,则系统将显示出与“设施”相关评论的得分情况,以及相关评论摘要(如图5-7所示)。图57特征分类1.1可定制的特征分类方法不同商品用户关心的特征并不相同,所以根据不同情况采用不同的分类方法必不可少。分类方法有两种,第一种系统根据评论中出现的特征进行自动分类,既先将所有评论中出现的同义词归为一类。第二种用户自行设定,用户根据需求输入想要查看的特征类别,系统将根据这些类别重新进行分类。例如,针对酒店,用户可能会关心如下特征:设施,环境,交通,设施,卫生,服务等,于是在设定特征分类后,系统重新归类,之后给出分析结果。如图5-3所示。59 第六届浙江省大学生电子商务竞赛参赛作品1.1查看分析后评论该页面显示分析后的评论,系统使用不同颜色来区分不同句子成分。例如图5-8所示,蓝色代表着评论者的情感词,既评论者最直接的情感体现,例如“完美”、“不错”等。红色代表评论者的评论对象,或是对象特征,例如“服务态度”、“酒店设置”等。绿色代表评论者的感情强度,常见于语法中的副词,例如“非常”、“相当”等。如此,用户可以清晰地看到评论当中的中心词汇,来判断系统做出的分析是否符合常理。图58分析后评论1.259 第六届浙江省大学生电子商务竞赛参赛作品提交评论用户可自行提交评论供系统分析,分析结果将会在处理完成后显示在评论列表中(如图5-9所示)。现网络上出现的系统大多通过雇佣员工人工进行评论标注的方式来处理用户提交的评论,而本系统最大的优点既发挥计算机善于处理重复,大量信息的能力,全自动分析处理用户评论,并且在最短时间内将分析结果展示在界面中。图59评论提交59 第六届浙江省大学生电子商务竞赛参赛作品创新和特点分析1.1全自动的评论情感倾向性分析本系统利用计算机适合处理大量、有规律的信息的特点。旨在利用人工智能技术全自动分析海量的网络评论,挖掘隐含于评论中的信息价值。克服了人工阅读大量评论的繁琐和低效,同时利用图形化显示,颜色标识等技术将分析结果直观清晰地展现给用户,提升用户的网上购物体验,对电子商务的发展起到很好的促进作用。1.2基于多种自然语言处理和机器学习技术自然语言就是人们交流所用的语言,自然语言处理意在研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,它是计算机科学领域与人工智能领域中的一个重要方向。机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。本系统以自然语言处理技术中较成熟的POS(词性标注),句法分析,SRL(语义角色标注)等技术为基础,借助并修改机器学习方法使之适合自然语言处理,使得系统的普适性,准确率得到很好的改善。1.3细粒度情感倾向性分析方法目前电子商务评论的现状基本为人工标记商品分数,同时标记结果仅仅指出此评论整体好坏,无法深入评论详细内容,对于句子甚至词语的分析任务只能留给用户,以至于用户获取的信息不直观、详细。本项目本着细粒度分析的原则,在自动分析的同时,力求分析详细——提取、标记关键词,关键词包括特征词,情感词,程度副词等。基于词语的分析较基于篇章、段落的分析主要具有两方面优势。59 第六届浙江省大学生电子商务竞赛参赛作品一方面在对评论打分时详细考虑不同特征对应的权值,使得整体分数更具科学性和有效性。另一方面由颜色标记技术标识出的关键词便于用户阅读评论,使得评论关键内容一目了然。1.1人性化的评论浏览方式用户体验是一种用户在使用产品过程中建立起来的感受,本系统着力于为用户建立良好的用户体验。主要体现在两个方面。第一,根据用户需要设定分类。系统根据需求对商品的特征进行分类,分类方式可由系统设定或由用户自行设定,之后系统将分类后的特征全部列出供用户选择,用户此时可以自由选择查看所有分类,或特定分类。第二,展示方式人性化。系统的评论展示以方便用户,节省用户时间为出发点,将评论分析的结果图形化,数值化现实,使得评论结果清晰、直观、一目了然。网上购物商品之间的对比必不可少,系统可由用户自行选定需要对比的商品,然后将分析结果以柱状图方式显示给用户,用户根据图表内容可获得商品评论中体现出的商品各方面优劣。1.2多种发展模式并行本系统核心服务为提供评论分析,在此基础上的发展模式大致归为三类。其一,将系统服务接口公开,供电子商务网站调用。各个电子商务网站调用本服务接口即可获取评论的分析结果,既可以保护了自身网站评论机密性,又可以得到评论分析结果。其二,将建立独立网站。网站设定爬虫模块,自动定期从互联网上提取评论内容,将分析结果储存于数据库中,供用户查看。同时用户可提交需要分析的网站网址,系统将会分析用户所指定的评论,最后展示分析报告。其三,扩展其他应用,比如可将本系统扩张为舆情分析系统,基于位置的服务系统(LBS),等等。59 第六届浙江省大学生电子商务竞赛参赛作品1.1独特的营销方法在营销方面,本项目采用跟踪营销方式。以增加会员积分的方式鼓励用户为该商品(服务)再次评价,最大可能获取系统反馈意见。会员积分可以兑换项目合作商中的商品抵价券等一系列奖励。通过这种方式可以吸引更多用户使用此系统,同时能网罗互联网上更多的商品(服务)评价,使系统更加完善。第2章59 第六届浙江省大学生电子商务竞赛参赛作品营销策略1.1市场定位公司宗旨:一切为用户考虑,从用户的方便使用和直观可视角度出发,力求用最直观的方式向用户呈现互联网商品的意见评价以及商品的特征。市场目标:针对网络上大量的商品评论进行分类分析和处理为购物者提供一个直观的面向目标商品各个特性的细粒度情感倾向性分析结果,从而帮助购物者选择到满意的商品。同时,通过利用评论的分析结果为相应的商品生产供应商或者服务提供商提供更直接、更细化、更科学的意见反馈,帮助他们改进生成、改善服务。1.2市场推广在市场推广中本项目分为前期,中期和后期(如图7-1所示)。1免费体验服务活动宣传2扩大目标市场开设增值性服务口碑推广3网络广告的投放友情链接策略会员制度初期推广中期推广后期推广图71互联网情感分析系统推广流程图59 第六届浙江省大学生电子商务竞赛参赛作品前期,本项目建设初期,以增加人气、推广系统为主,吸引目标客户,所以采取免费体验政策,新用户可以免费体验服务半个月。如果要继续使用,需向网站提出延期申请。本服务系统主要采取的是租赁方式,租金会通过对特定企业做相关调查来拟定。同时,为了推广本服务系统,将大力进行活动宣传,鼓励用户进行尝试。前期先积累人气,为中后期的发展做铺垫。中期,目标为扩大目标市场。采取促销策略,在保持一定市场占有率的基础上开设增值性服务。于此同时,不断更新完善服务系统,为用户提供最优质的服务,以此取得互联网上良好的口碑,在本服务行业中占据主导优势。后期,采取一定的措施来稳固之前建立扩大的市场,最典型的制度就是会员制,不断的完善会员制度,使用户拥有更好的忠诚度。当前,国内各大中小型企业举不胜举。如果我们的产品得到认可,那么在本项目的系统覆盖面能达到一定程度后,即使我们采用低价租赁,本项目所带来的利润也是非常可观的。1.1市场策略1.1.1渠道策略(1)人员上门推销方式,我们将让员工到各个互联网企业推销我们的系统。(2)网上销售方式,顾客可以通过网上销售平台,下载该产品的适用版本,或是租用该软件并可在线观看该软件的使用视频。(3)通过与知名大学合作,收纳人才,壮大公司实力,为企业后期发展做准备。1.1.2定价策略发展初期,由于新产品与其它产品相比,具有竞争程度低,技术领先的优点,但同时也会有不被电子商务企业认同和产品成本高的缺点,因此在为新产品定价时,既要考虑能尽快收回投资,获得利润,又要有利于电子商务企业接受此服务。鉴于此,决定首先采用试销价格,既在一限定的时间内把本服务的价格维持在较低的水平,以赢得企业对该服务的认可和接受,降低企业的购买风险,同时根据59 第六届浙江省大学生电子商务竞赛参赛作品企业的反馈信息对系统进行升级完善。中期,于成功打入市场,占有一定市场份额后,采取三级价格歧视。由于电子商务企业规模和实力参差不齐,如果采取单一高价,那么将会阻碍购买力有限的中小型企业,若统一实施低价,那么又无法使本企业的利润最大化。因此我们根据电子商务企业的规模和财力状况,向他们索要不同的价格,以实现企业利润的最大化。对于普通消费者采用免费试用,及会员式定价。首次注册会员可免费试用系统全部功能,待用户熟悉系统并对系统产生依赖后,既免费试用期限满。转而采取免费用户部分功能受限制度,仅对于付费用户(会员)开放所有功能。此举既保证了广大普通消费者能够体验本服务所带来的便利,又为企业带来利润,在项目初期和中期是个不错的选择。后期,企业利润主要来自广告商和为各电子商务提供服务,此时企业已经具备足够软硬件实力,完全有能力为普通消费者提供全部功能。为了占有更广大的市场,在普通消费者中心建立名牌形象,免费开放系统全部服务;吸引更多消费者使用,提高网站的知名度和浏览量,提高广告收入占整体利润比重。1.1.1广告策略由于软件行业具有较低的需求价格弹性,除了必要的支出和软件开发及服务开展费用外,本公司将会把广告销售投入比率定在较高水平,其它投入最大的部分是选择在专业的信息行业期刊刊登,如《科技咨询》、《中国新技术新产品》、《科技传播》或一些专业的网站进行广告投放。另外,我们将采用电子邮件促销方式,我们将利用网络爬虫从一些专业的电子商务网站获得那些企业管理者的邮箱号码,并向他们发送介绍该软件的电子邮件。59 第六届浙江省大学生电子商务竞赛参赛作品第1章财务分析1.1融资情况本公司为有限责任公司,注册资本为25万。本公司总资产为55万人民币,其中创业团队自有资金15万,无形资产10万。根据《大学生创业资助资金实施办法》向杭州市政府申请10万元大学生创业无偿项目资助。另外,从银行申请三年期20万元长期贷款,满足创业初期资金需求。1.2股本结构总股本为25万元人民币,由创业团队入股。公司股本结构表如表8-1所示,股本结构与规模如图8-1所示。表81公司股本结构表(单位:万元)资本来源创业团队资金入股创业团队技术入股金额1510比例60%40%图81公司股本结构与规模59 第六届浙江省大学生电子商务竞赛参赛作品1.1资金运用公司成立之初投入资金用于购买计算机、空调、复印机等设备,作为固定资产投资,而对于服务器、办公室等固定资产,采取经营租赁的方式,以避免创业初期出现流动资金短缺的现象。其余资金作为流动资金维持企业日常运营。表8-2为公司在成立初期的资金用途:表82期初资金用途表支出项目金额:万元备注服务器租赁5.0网站运行硬件设施固定资产3.5电脑、空调等办公用贵重物品房租6.0办公用地水电费、杂费0.60办公用品0.24纸笔等日常办公必需品合计15.341.1.1预计财务报表主要会计假设1.公司注册地址在杭州市经济技术开发区,适用的营业税税率为3%,企业所得税享受前两年免税,第三至五年15%税率的优惠政策。另外,公司属于大学生创业,根据国家相关政策,前三年免工商登记等费用。2.固定资产采用直线法摊销,折旧期为5年,办公设备的净残值为0;无形资产采用直线法摊销,预计使用年限为5年,净残值为0。3.开办费计入第一年的管理费。4.按照工资的14%提取福利费,2%提取工会经费,1.5%提取教育经费。5.公司从第四年起按净利润的10%分红。6.法定盈余公积以按净利润的10%提取。7.综合多方面因素,设定贴现率为7%。59 第六届浙江省大学生电子商务竞赛参赛作品银行贷款利率(以2011年3月为准)如表8-3所示。表83人民币贷款利率表种类项目年利率(%)一、短期贷款六个月(含)5.60六个月至一年(含)6.06二、中长期贷款一至三年(含)6.10三至五年(含)6.45五年以上6.601.1.1项目销售预测表表84项目销售预测表(单位:万元)第一年第二年第三年第四年第五年高级信息费1.353.612.731.892.1租赁费6.7222.8450.69229.88535.38广告费7.517.634.7068.54其它收入1.43.36.5612.4230.3总收入9.4737.2487.55308.8726.3259 第六届浙江省大学生电子商务竞赛参赛作品预计损益表表85预计损益表(单位:万元)第一年第二年第三年第四年第五年一、营业收入9.4737.2487.55308.8726.32减:营业成本7.758.6917.2643.22160.51营业税金及附加0.291.172.659.3421.82销售费用4.5310.7216.9122.0025.00管理费用9.5412.6428.0337.7549.86财务费用1.221.302.003.003.00二、营业利润-13.862.7222.7193.49466.13减:所得税--3.429.0269.9三、净利润-13.862.7219.3164.47396.2359 第六届浙江省大学生电子商务竞赛参赛作品1.1.1预计资产负债表表86预计资产负债表(单位:万元)资产第一年第二年第三年第四年第五年负债和所有者权益(或股东权益)第一年第二年第三年第四年第五年流动资产:流动负债:货币资金25.9427.5132.4852.87103.73短期借款-----交易性金融资产-----交易性金融负债-----应收票据-5575135应付票据-----应收账款--2050155应付账款-----预付账款-----预收款项----40应收利息-----应付职工薪酬--9.1217.128.5应收股利-----应交税费-----其他应收款-----应付利息-----存货-----应付股利-----一年内到期的非流动资产-----其他应付狂---0.82.3非流动资产-----一年内到期的非流动负债-----其他流动资产-----其他流动负债-----流动资产合计25.9432.5157.48177.87393.73流动负债合计--9.1225.970.8非流动资产:非流动负债:可供出售金融资产-----长期借款202020--持有至到期投资-----应付债券-----长期应收款----50长期应付款-----长期股权投资-----专项应付款-----投资性房地产-----预计负债-----固定资产2.82.11.43.56.3递延所得税负债-----59 第六届浙江省大学生电子商务竞赛参赛作品在建工程-----其他非流动负债-----工程物资-----非流动负债合计202020--固定资产清理-----负债合计20202025.970.8生产性生物资产-----所有者权益(或股东权益):油气资产-----实收资本(或股本)2525252525无形资产864108资本公积1010-49.34118.87开发支出---57减:库存股-----商誉-----盈余公积--3.9532.8979.24长期待摊费用-----未分配利润-7.26-3.3915.8182.24198.12递延所得税资产-----所有者权益(或股东权益)合计27.7431.6154.76189.47421.23其他非流动资产1111111927非流动资产合计21.819.116.437.598.3资产总计47.7451.6173.88215.37492.03负债和所有者权益(或股东权益)总计47.7451.6173.88215.37492.0359 第六届浙江省大学生电子商务竞赛参赛作品1.1.1项目投资效益分析表87投资效益分析表(单位:万元)初期第一年第二年第三年第四年第五年合计固定资产/无形资产投资13.520.0050.0038.00流动资金投入41.55.0010.00销售收入9.4737.2487.55308.8726.32-变动成本8.3319.5249.85100.31245.19-固定成本15.0015.0015.0015.0015.00税前利润-13.862.7222.7193.49466.13-税收--3.429.0269.9税后利润-13.862.7219.3164.47396.23+折旧2.72.72.75.48.1追加投资前净现金流量-55-11.165.4222.00169.87404.33-分红1.9316.4539.62追加投资及分红后净现金流量-11.1685.4220.07168.42364.71通过计算项目的预计收入、成本相关的现金流,运用专门的投资评价指标与方法,对项目的效益与可行性进行分析,能充分权衡其风险与收益,并对整个计划给与财务指标上的指导。这里我们从回收期、净现值、内部收益率三种角度进行分析。59 第六届浙江省大学生电子商务竞赛参赛作品1.1.1回收期为第k期的现金净流量为初始投资额为回收期所谓回收期,是指全部收回某一投资方案的初始投资额所需要的时间。根据各年的现金流量,由计算得回收期为3.23,所以在4年内可收回成本。这说明,该投资方案成长性较好,在预测期内就可以收回全部的投资,该方案可行。1.1.2净现值(NPV)所谓净现值,是指在特定方案未来资金流入量的现值与未来现金流入量之间的差值,即投资后各年现金净流量之和超过初始投资额现值的部分。它体现了投资能取得的收益水平,其公式为:NPV为净现值为第k期的现金净流量为初期投资额为贴现率计算后可得该计划前五年的NPV约为41.7万,说明在此期间,即能获得一定程度的收益,公司在第一个五年计划内有能力站稳脚跟。59 第六届浙江省大学生电子商务竞赛参赛作品1.1.1内含报酬率(IRR)内含报酬率是指未来现金流入量现值与未来现金流出量现值相等时(即净现值为零)所用的贴现率,它反映的是项目投资自身内在的投资报酬率。其计算方法为:令,此时的i即为内含报酬率。NPV为净现值为第k期的现金净流量为初期投资额计算后可得该计划内含报酬率约为15.42%,高于既定的贴现率10%,表明该计划收益性良好,预期企业将获得较高投资回报。以上三项财务指标分析均表明,本项目投资效益高,具有可行性。59 第六届浙江省大学生电子商务竞赛参赛作品第1章风险分析与对策1.1经营风险与对策1.1.1经营业绩的风险与对策(1)风险由于互联网商品评价情感倾向性分析行业正处于发展阶段,规模、应用范围等方面与实际预期效用存在一定的差距。同时,互联网市场受其它互联网企业的影响较大。虽然本项目的商业产出是现商品评价情感分析行业的代表,但仍然受到目前国内互联网行业总体经济效益水平不高和一股“免费”热潮的制约。这在一定程度上影响了本公司的经营利润,短期内改变这种状况有一定的难度。(2)对策本公司将充分利用在同行中业技术领先的优势,坚持以市场为导向,致力于提供最优质的商品服务,发挥公司社会绩效的作用。针对服务单一的弱点,本公司将不断挖掘项目潜力,力求能提供深层次、多元化的服务,进一步扩大公司产品的市场占用率。在巩固国内同行领先地位,不断提高企业经济效益的同时,以积极稳妥的方式寻求跨行业的多元化经营格局,拓宽本公司的收入来源。1.1.2客户的风险与对策(1)风险本项目的针对客户主要分布在购物、餐饮、住房、政府等各个互联网电子商务企业及国防政府部门。项目建设初期,本公司与客户保持良好合作关系。其中,一些主要客户对公司经营状况影响较大,他们对类似本公司的服务商的选取,将会对本公司的销售经营产生一定影响。(2)对策本公司将采取“互利共赢”的方式与目标客户建立起长期、稳固的合作关系。59 第六届浙江省大学生电子商务竞赛参赛作品在服务方面继续发扬本公司的特点,以全方位的市场策略与用户建立捆绑式的供求关系。同时公司将加大营销力度,积极开展客户关系管理,从更多、更深、更久三个方面管理客户。1.1.1产品技术方面的风险与对策(1)风险本公司自研究初期经过一定规模的技术改造,项目技术含金量提高,技术水平在国内同行业中居领先地位。但随着国外商品评论分析技术的进一步更新换代及国内其他竞争者加强技术改进,会对本公司的技术竞争力构成一定影响。(2)对策本公司将组建技术开发中心,实施技术发展改造工程,积极与各高等院校携手合作,吸纳先进人才与技术,研制高新技术,并采取不断引进国外先进技术的办法来保持公司服务的技术竞争力。1.1.2融资的风险与对策(1)风险本公司在创业初期,融资渠道和融资能力受限,经营所需的流动资金和技术改造资金主要通过银行贷款来解决。对于银行贷款,公司在起步阶段规模较小,成熟度不高,信誉担保有限,存在一定的风险。此外,金融市场上可能出现利率上涨、通货膨胀等难以控制的变化,这些因素会引发项目的金融风险,对公司的发展会构成一定影响。(2)对策本公司是新型信息技术服务企业,针对融资渠道受限,公司将建立良好的企业形象和崇高的企业社会责任感,发展项目潜力,扩大营业利润。与当地金融机构保持良好的银企关系,维持稳定的融资来源;同时,本公司还将不断努力,争取步入上市公司队列,增加直接融资比例,探索新的融资渠道来满足公司的资金需求。59 第六届浙江省大学生电子商务竞赛参赛作品1.1行业风险与对策1.1.1产业政策的风险与对策(1)风险本公司为互联网商品和服务提供评论情感倾向性分析,属于电子商务服务行业。迄今为止,互联网产业在国民生产生活中的特殊优势得到了广泛认可。今年的全国两会期间,围绕着电子商务,诚信体系、移动互联网、就业、国家竞争力、云计算等成为热门关键词。代表们从科学发展观出发,纷纷建议加大对电子商务产业的扶持力度。但如果国家产业政策发生变化,可能会对本公司的发展产生影响。(2)对策本公司将加强政策研究力度,提高经营决策水平,运用现代化管理手段,适时调整经营策略。公司瞄准国内外先进文本分析技术水平,加快技术改造和技术创新步伐,加强内涵改造及管理创新力度,建立现代化企业制度,成为自我约束,自我发展的规范公司,从而增强抵御产业政策风险能力,逐步摆脱对政策的依赖。1.1.2行业内部竞争的风险与对策(1)风险本公司主营业务所处互联网行业,市场竞争非常激烈。本公司系高新技术、技术创新优势企业,处于行业领先地位,其主导服务的丰厚利润,必然导致潜在追随者的挑战,可能给本公司业务发展产生影响。(2)对策本公司将不断引进先进管理思想和先进行业技术,保持自己在同行业的领先地位,不断提高服务质量,降低服务成本,形成规模经济优势。在保证市场占有率的基础上,对相近、市场相关的同行企业结成企业联盟,组建商业集团;对服务相同的直接市场竞争对手则采用领先一步战略,以此来降低行业内部竞争风险。59 第六届浙江省大学生电子商务竞赛参赛作品1.1其他风险与对策(1)风险本公司还将面临因自然条件或不可抗力因素造成的突发性事故的影响,如地震、水灾、火灾、雷灾、信息系统故障以及技术专利、经营秘密被窃或丢失等。(2)对策本公司将对公司的财产和人员实施必要的保险,并对公司全员进行教育和训练,建立完备的安全生产体系、安全防火体系、信息管理运作体系、技术保密体系等。努力防范各种突发性事件的发生,增强抗击突发性风险的能力。59 第六届浙江省大学生电子商务竞赛参赛作品第1章总结与展望1.1项目成果对评论进行简单分析统计而对具体评论信息不进行语义分析和信息挖掘,则不能获取到基于商品属性的细粒度情感倾向性分析结果,而这些结果往往是用户和企业最关心的,是用户选择商品的重要参考建议,也是企业改进商品质量和服务的重要资讯来源。本项目基于自然语言处理、机器学习技术,使用文本倾向性分析技术,自动分析提取评论中的关键内容,为用户量身定制商品特征分类规则,颜色标记评论关键信息,图形化显示评论结果,最终设计并实现商品评论倾向性分析系统。使得用户可以快速获取海量评论信息的真正价值,其分析结果直观、清晰、界面友好。可根据用户需要对商品特征进行归类,对于类似商品的对比功能更是给用户提供了极大的方便,使得用户在选购商品时更加高效、科学、方便。1.2未来工作未来工作主要集中为两点:在实际系统运行中改进用户体验,设置用户反馈论坛,积极听取用户意见,改善系统功能,提升用户体验。进一步研究和改进机器学习技术,提升机器学习的效率以及准确率,包括多种机器学习技术协同工作,监督与半监督学习方法的使用,特征的选择与优化等等,使得系统整体分析得到有效的提高。59 第六届浙江省大学生电子商务竞赛参赛作品参考文献[1]许洪波,姚天昉,黄萱菁等.第二届中文倾向性分析评测技术报告[M].COAE’2009,1-23.[2]刘群和李素建.基于知网的词汇语义相似度的计算[M].第三届汉语词汇语义学研讨会,2002,59-76.[3]姚天昉,聂青阳,李建超,李林琳,娄德成,陈珂和付宇.一个用于汉语汽车评论的意见挖掘系统[M].北京:中文信息处理前沿进展—中国中文信息学会二十五周年学术会议,2006,260-281.[4]应英,周峰和周昌乐.汉语情感意义的机器标注研究初探[J].中文信息学报,2002,16(2):27-33.[5]朱嫣岚,闵锦,周雅倩,黄萱菁和吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20.[6]蒋溢,丁优,熊安萍和王化晶.一种基于知网的词汇语义相似度改进计算方法[J].重庆邮电大学学报(自然科学版),2009,21(4):533-537.[7]徐琳宏,林鸿飞和杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100.[8]徐琳宏,林鸿飞和赵晶.情感语料库的构建和分析[J].中文信息学报,2008,22(1):117-122.[9]孟凡博,蔡莲红,陈斌和吴鹏.文本褒贬倾向判定系统的研究[J].小型微型计算机系统,2009,30(7):1458-1462.[10]魏慧萍.关于汉语字词关系的再思考[J].南京师大学报(社会科学版),2004,(1):135-140.[11]韩琳.黄侃字词关系研究学术史价值考察[J].湖北民族学院学报(哲学社会科学版),2007,25(6):92-96.[12]娄德成和姚天昉.汉语句子语义极性分析和观点抽取方法的研究[A].计算机应用,2006,26(11):2622-2625.[13]CNNIC,2011第27次中国互联网络发展状况统计报告[R].http://research.cnnic.cn[14]KuLW,LiangYTandChenHH.OpinionExtraction,SummarizationandTrackinginNewsandBlogCorpora[M].AAAI’2006,100-107.59 第六届浙江省大学生电子商务竞赛参赛作品[1]BaccianellaS,EsuliAandSebastianiF.Multi-facetRatingofProductReviews[M].ECIR’2009,461-472.[2]WiebeJandMihalceaR.WordSenseandSubjectivity[M].COLING-ACL’2006,1065-1072.[3]GyamfiY,WiebeJ,MihalceaRandAkkayaC.IntegratingKnowledgeforSubjectivitySenseLabeling[M].NAACL-HLT’2009,10-18.[4]DevittAandAhmadK.SentimentPolarityIdentificationinFinancialNews:ACohesion-basedApproach[M].ACL’2007,984-991.[5]EsuliAandSebastianiF.PageRankingWordNetSynsets:AnApplicationtoOpinionMining[M].ACL’2007,424-431.[6]HuMandLiuB.a.MiningandSummarizingCustomerReviews[M].KDD’2004,168-177.[7]HuMandLiuB.b.MiningOpinionFeaturesinCustomerReviews[M].AAAI’2004,755-760.[8]KimSMandHovyE.DeterminingtheSentimentofOpinions[M].COLING’2004,1367-1373.[9]YuHandHatzivassiloglouV.TowardsAnsweringOpinionQuestions:SeparatingFactsfromOpinionsandIdentifyingthePolarityofOpinionSentences[M].EMNLP’2003.[10]ZhuangL,JingFandZhuXY.MovieReviewMiningandSummarization[M].CIKM’2006,43-50.[11]TurneyPD.ThumbsuporThumbsdown?SentimentOrientationAppliedtoUnsupervisedClassificationofReviews[M].ACL’2002,417-424.[12]SuQ,XuXY,GuoHL,GuoZL.,WuX,ZhangXX,SwenBandSuZ.HiddenSentimentAssociationinChineseWebOpinionMining[M].WWW’2008,959-968.[13]GuoHL,ZhuHJ,GuoZL,ZhangXXandSuZ.ProductFeatureCategorizationwithMultilevelLatentSemanticAssociation[M].CIKM’2009,1087-1096.[14]TangHF,TanSBandChengXQ.ResearchonSentimentClassificationofChineseReviewsbasedonSupervisedMachineLearningTechniques[J].JournalofChineseInformationProcessing,2007,21(6):88-94,108.[15]PangB,LeeL.,andVaithyanathanS.Thumbsup?SentimentClassificationUsingMachineLearningTechniques[M].EMNLP’2002,79-86.[16]PangBandLeeL.SeeingStars:ExploitingClassRelationshipsforSentimentCategorizationwithRespecttoRatingScales[M].ACL’2005,115-124.59 第六届浙江省大学生电子商务竞赛参赛作品[1]WhitelawC,GargNandArgamonS.UsingAppraisalGroupsforSentimentAnalysis[M].CIKM’2005,625-631.[2]LiuB,HuMandChengJS.OpinionObserver:AnalyzingandComparingOpinionsontheWeb[M].WWW’2005,342-351.[3]KobayashiN,IidaR,InuiKandMatsumotoY.OpinionExtractionUsingaLearning-BasedAnaphoraResolution[M].ACL’2005,173-178.[4]KuL.W,HuangTHandChenHH.UsingMorphologicalandSyntacticStructuresforChineseOpinionAnalysis[M].EMNLP’2009,1260-1269.[5]MullenTandCollierN.SentimentAnalysisusingSupportVectorMachineswithDiverseInformationSources[M].EMNLP’2004,412-418.[6]StoyanovVandCardieC.a.TowardOpinionSummarization:LinkingtheSources[M].ACL’2006.9-14.[7]StoyanovVandCardieC.b.PartiallySupervisedCoreferenceResolutionforOpinionSummarizationthroughStructuredRuleLearning[M].EMNLP’2006,336-344.[8]FuGandLukevKK.ChineseNamedEntityRecognitionusingLexicalizedHMMs[M].KDD’2005,19-25.[9]WeiJ,HungHHandRohiniKS.OpinionMiner:ANovelMachineLearningSystemforWebOpinionMiningandExtraction[M].KDD’2009,1195-1204.[10]MiaoQ,LiQandDaiR.AMAZING:ASentimentMiningandRetrievalSystem[J].ExpertSystemswithApplications,2009,36(3):7192-7198.[11]LiuYandetal.TheCCDConstructionModel&itsAuxiliaryToolVacol[J].AppliedLinguistics,2003,45(1):83-88.[12]ChaovalitPandZhouL.MovieReviewMining:AComparisonbetweenSupervisedandUnsupervisedClassificationApproaches[A].In:Proceedingsofthe38thHawaiiInternationalConferenceonSystemSciences[C].2005,1-9.[13]NasukawaTandYiJ.SentimentAnalysis:CapturingFavorabilityusingNaturalLanguageProcessing[A].In:Proceedingsofthe2ndInternationalConferenceonKnowledgeCapture[C],2003,70-77.[14]TsouBKY,YuenRWM,KwongOY,LaiTBYandWongWL..PolarityClassificationofCelebrityCoverageintheChinesePress[A].In:Proceedingofthe2005InternationalConferenceonIntelligenceAnalysis[C].2005.[15]DasSandChenM.Yahoo!forAmazon:ExtractingMarketSentimentfromStockMessageBoards[A].In:Proceedingsofthe8thAsiaPacificFinanceAssociationAnnualConference[C].59 第六届浙江省大学生电子商务竞赛参赛作品[1]KimSMandHovyE.ExtractingOpinions,OpinionHolders,andTopicsExpressedinOnlineNewsMediaText,InProceedingsoftheWorkshoponSentimentandSubjectivityinTextatthejointCOLING-ACL’2006[Z],2006.[2]XiaF,PalmerM,XueN,OkurowskiME,KovarikJ,ChiouFD,HuangS,KrochTandMarcusM.DevelopingGuidelinesandEnsuringConsistencyforChineseTextAnnotation[Z].LREC’2000,Athens,Greece,2000.59

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭