逻辑回归分析及其在文本片断聚类中的应用.ppt

逻辑回归分析及其在文本片断聚类中的应用.ppt

ID:49500041

大小:240.50 KB

页数:21页

时间:2020-02-06

逻辑回归分析及其在文本片断聚类中的应用.ppt_第1页
逻辑回归分析及其在文本片断聚类中的应用.ppt_第2页
逻辑回归分析及其在文本片断聚类中的应用.ppt_第3页
逻辑回归分析及其在文本片断聚类中的应用.ppt_第4页
逻辑回归分析及其在文本片断聚类中的应用.ppt_第5页
资源描述:

《逻辑回归分析及其在文本片断聚类中的应用.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、逻辑回归分析及其在文本片断聚类中的应用徐永东2004,6,12内容简介研究背景逻辑回归分析文本片断聚类语言特征选择特征自动融合聚类试验结果结论研究背景多文档自动文摘技术的两个主要任务关键信息抽取内容重组MajorityorderingChronologicalOrderingAugmentedChronologicalOrdering关键信息抽取的几种方法TextSurfaceFeaturesInformationStatisticsmethodDiscourseStructureLexicalChainsInformationExtractionvs.

2、InformationRetrievalInformationFusion文本片断聚类的特点:输入是面向同一主题的文档集,文本之间相似度较高,因此文本片断之间的区别较小,难以实现进一步的聚类处理;研究背景文本片断聚类——信息融合的关键任务多文档自动文摘技术的特点文本间的重复信息被认为是重要的文摘候选生成的文摘不能有冗余内容信息融合技术的特点——文本重组文本片断聚类的特点:输入是面向同一主题的文档集,文本之间相似度较高,因此文本片断之间的区别较小,难以实现进一步的聚类处理;从长度上看,文本片断要远远小于文本,因此进行相似度识别时可利用的信息较少,因此尽可能

3、地利用多特征是解决上述难题的很好的途径逻辑回归分析回归分析Regressionanalyze:研究一个或一组变量的变动对另一个变量的变动的影响程度的方法用来研究可以测量的变量之间的关系的一个数学工具研究者遇到的问题自变量和因变量是否有联系这种联系是强是弱能否根据自变量来预测因变量如果能,如何预测,预测误差是多少,有效性如何?逻辑回归分析对上述关系进行定量描述的数学模型为回归模型其中,Y为因变量,E(Y/X)为给定x的条件下Y的条件均值,ε为随机变量,且E(ε)=0相应的回归方程逻辑回归分析当时,称之为线性回归方程,这里回归分析的步骤:收集这些变量在一组单

4、元或案例中的每一个数据。对Y和X分别进行k次独立观测,得到一个训练样本集(Yi,Xi)对回归参数进行估计:估计方法有很多种,对于线性回归分析主要采用最小二乘法,即选择参数估计量,使得随机误差项εi(因变量的观测至于模型估计值之间的差值)的平方和达到最小。假设检验用于检验拟合模型对被研究的关系是否合适、有用。逻辑回归分析大多数统计方法中,因变量是一个分类变量categoricalvariable而不是连续变量continuousvariable在分析分类变量时,通常采用的一种统计方法是对数线性模型(log-linearmodel),本文中,我采用它的一种特

5、殊形式,logistic回归模型Logistic模型:其中为一系列影响事件发生的概率的因素的线性函数逻辑回归分析逻辑函数的分布曲线逻辑回归分析Logistic回归的logit变换也称自然对数转换,将非线性函数转变为线性函数对于k个自变量的情况相应的逻辑回归模型逻辑回归分析Logistic回归模型的估计通常采用最大似然估计——统计分析中的另一常用的模型参数估计方法假设由n个样本组成的样本空间Y,其观测值为各项观测值相互独立,他们的联合分布可以表示为各边际分布的乘积其中该公式也称为似然函数,估计的过程就是求出能够使这一似然函数的值最大的参数估计逻辑回归分析L

6、ogistic回归系数的意义Logistic回归中的常数项α表示,在自变量不起任何作用时(β=0时),因变量发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数β表示当自变量改变一个单位时,因变量发生与不发生事件的概率之比的对数变化值。例如,当β=0.693时,则当自变量变化一个单位时,因变量事件发生与不发生的概率比为(0.667/0.333)逻辑回归分析Logistic回归系数的统计推断,包含两个方面:显著性检验和参数估计显著性检验:讨论在模型中自变量x对logit作用的显著性检验,一个自变量是否与因变量显著相关的统计假设。包括:wal

7、d检验、L.R.检验等等回归参数的置信区间:为了得到关于估计精度的测量,或者说是估计参数和实际参数的具体误差。回归系数的置信区间:得到实际参数距离估计参数的范围,当α=0.05时,参数β的置信区间是发生比率的置信区间:可以通过对应的回归系数的置信区间的上下限求指数幂的方法取得事件概率的置信区间:得到因变量实际发生概率距离估计概率的范围模型的扩展:对于先拟合成功的一个初始模型,再添加若干自变量成为扩展模型,然后对两者加以比较、调整,重复多次最终达到确定最终模型.片断聚类参数的选择词向量相似度:为每一个片断构造一个词向量,每个元素的权重取每个词的tf.idf

8、值名词向量相似度动词向量相似度名实体向量相似度同义词向量相似度:为每个片断构造一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。