欢迎来到天天文库
浏览记录
ID:43564017
大小:174.98 KB
页数:4页
时间:2019-10-11
《达观分析文档》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、达观数据竞品分析文档一、市场背景二、产品分析1、产品简介达观数据专注于人工智能领域的文本挖掘处理,利用NLP(口然语言处理)、机器学习、深度学习等技术,旨在为应用方提供文本挖掘、搜索引擎、推荐系统、数据采集、数据统计等大数据技术服务。为企业开发出文字数据处理、企业知识管理的解决方案,提升企业数据化运营能力和经营业绩。2、产品主要功能及流程2.1达观数据文本挖掘1、文本审核检测:文本自动审核系统利用高复杂的智能算法对文本内容做涉黄涉政检测,同时给出违规的严重程度,满足相应政策要求,大幅减少人力成本。达观数据提供使用非常便捷的
2、文本审核接口(API),客户网站使用时,只需要将待审核的文木和相关的信息(比如发弹幕人的昵称、IP、UID、IMEI等信息)作为POST内容,进行HTTP调用后,达观的系统可以在儿十毫秒内能够准确识别文本是否包含违规内容、违规类型(垃圾广告、色情、粗口等),通知使用方是否需要予以拦截。2、垃圾评论过滤:垃圾评论过滤系统可精准识别垃圾评论,在论坛发言或用户评论中,过滤文本中的垃圾广告,提升文本总体质量;3、情感倾向分析:对用户评论等文本内容做情感分析,有助于了解产品反馈,指导决策与运营。情感分基于分词和情感词典,即可以根据人
3、们平时的语言表达习惯设置一些规则来计•算文本的情感倾向,比如每遇到一个正面情感词则+1分,遇到负面情感词则J分,遇到否定词则乘以将情感反转,遇到程度副词则将情感分数乘以一个放大系数。最后根据计算出的分数判断情感倾向,分数为正数则判断为正面情感,负数则判定为负面情感,正负相抵则判定为中性。情惑倾向4、自动标签提取:口动提取文本重要内容生成关键性标签,在此基础之上拓展更多功能形式;5、文本自动分类:通过对文本内容进行分析,给出文本所属的类别和置信度,支持二级分类,提升文本分类的精度,提高文本数据管理和使用的效率。6、网络舆情分
4、析:针对网络舆论数据进行分析,了解行业动态,跟踪负而信息,协助政府机构检测敏感事件和舆论热点。7、深度学习a、词语转成词向量使用目前应用最广泛的词向量生成算法google的word2vec算法,包含了CBOW(ContinuousBag-o仁Word)模型和Skip-gram(ContinuousSkip-gram)模型。CBOW模型的作用是已知当前词Wt的上下文环境(Wt・2,Wt-1,Wt+1,Wt+2)来预测当前词,Skip-gram模型的作用是根据当前词Wt来预测上下文(Wt-2,Wt-1,Wt+1,Wt+2)。b
5、、利用深度学习框架进行训练词转成固定维度的词向量之后,一个文本也就自然而然可以形成一个矩阵。以矩阵作为输入的深度学习算法,第一个想到的自然是在图像识别领域获得过成功的卷积神经网络(CNN)。但CNN在文本挖掘领域的运用具有一定局限性,因其每层内部的节点Z间是没有连接的,即又丢失了词与词之间的联系。词语的上下文关系对文本挖掘是至关重耍的,尤其对情感分析,情感词(“喜欢”)和否定词(“不”)、程度词(“很”)的搭配会对情感倾向产生根本性的影响。因此目前比较广泛使用的是LSTM(LongShort-TermMemory,长短吋记
6、忆),LSTM能够“记住”较长距离范围内的上下文对当前节点的影响。rentZAMWWEAM基于词向童的CNN模粮
此文档下载收益归作者所有