《web 信息处理与应用》复习提纲

ID：34524271

大小：140.37 KB

页数：4页

时间：2019-03-07

资源描述：

《《web 信息处理与应用》复习提纲》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、《Web信息处理与应用》复习提纲PART1：WebSearch一．Introduction1.Web搜索的概念与挑战2.信息检索（IR）的概念、与Web搜索之间的关系3.IR与DB之间的区别4.IR的任务与基础性问题二．WebCrawler1.网络爬虫的概念和基本过程2.网络爬虫的主要需求3.网络爬虫的常用策略4.网络爬虫涉及的协议5.分布式爬虫与一致性Hash的概念三．TextProcessing1.文本处理的概念2.字符编码：ASCII、Unicode、UTF‐83.分词、分词歧义、未登录词、停用词等概念4.中文分词的挑战5.常用的分词方法6.词根化（Stemming）和编辑距离的概念四

2、．Indexing1．布尔检索、关联矩阵的概念2．倒排索引：概念、结构、构建算法、存储等五．Queries1.查询表达的难点2.相关性反馈：概念、基本过程3.相关性反馈的分类及其各自的概念与特点4.Ricchio算法5.查询扩展的概念6.查询扩展的几种方法六．Ranking1.Ranking的难点2.信息检索模型的概念、分类3.Jaccard系数4.tf、df、tf‐idf的概念与计算5.向量空间模型6.余弦相似度的定义7.概率模型的概念8.PageRank9.HITS七．Evaluation1.信息检索评价概述2.信息检索评价指标的分类3.Precision、Recall、F‐measur

3、e的定义4.P@N、R@Precision、AP的定义5.MAP、MRR6.NDCGPART2：WebInformationExtraction一、NamedEntityRecognition1.信息抽取（IE）的概念以及与IR的关系2.MUC‐7定义的信息抽取任务3.信息抽取的内容4.NER的概念与难点5.MUC‐7中定义的NER内容6.NER的性能评价指标7.NER的常用方法二、RelationExtraction1.关系抽取的概念和意义2.关系的表示方法3.关系抽取的常用方法PART3:WebMining一．Introduction1.网络挖掘的概念，包含哪些方面的内容，分别有哪些重要

4、应用？二．WebContentMining数据(Data)1.概念：数据对象(Objects)，属性(Attributes)，维度(Dimensions)，特征(features)2.高维诅咒(Curseofdimensionality)现象。3.对于数据的预处理有哪些方法？其中需要掌握采样(Sampling)，特征选择(Featureselection)及降维(Dimensionalityreduction)的基本原理。分类(Classification)4.监督学习(Supervisedlearning)与无监督学习(Unsupervisedlearning)的关系与区别。5.分类(Cl

5、assification)的基本原理。6.数据的向量表示(Vectorspacerepresentation)7.熟练掌握k近邻算法，包括影响算法性能的要素——近邻个数及距离（相似度）度量。8.熟练掌握最小二乘算法——推导过程，闭式解，规范化之后的求解推导。9.过拟合现象出现的原因。10.如何评价分类效果？理解训练错误率，测试错误率以及泛化错误率的区别。聚类(Clustering)11.聚类(Clustering)的基本原理及准则。12.层次式聚类算法流程，两个类之间的距离定义。13.熟练掌握K‐means算法——算法流程，优化目标，收敛性分析。14.聚类算法的评价标准。三．WebStruc

6、tureMining1.网络结构如何用图来表示？图的组成部分以及相关性质。社区分析(Community)2.社区(Community)的概念3.社区发现与聚类的关系。4.如何计算结构相似度？5.图分析的一些重要矩阵：邻接(Affinity)矩阵，拉普拉斯(Laplacian)矩阵，以及它们的一些重要性质。6.Cut概念；ratiocut以及normalizedcut的定义及推导。7.Modularity概念及其推导。与spectralclustering的相同点及不同点。影响力分析(Influence)8.几种度量节点中心性的标准。9.两种影响力传播模型——线性阈值模型(LinearThre

7、sholdModel)，层级传播模型(IndependentCascadeModel)的传播过程及区别。10.最大影响节点集(Mostinfluentialset)——问题建模，贪心算法以及算法的近似度。11.子模性质(submodularity)。四．WebRecommendation1.推荐系统基本模型以及一般工作流程。2.基于内容的推荐算法流程及优缺点3.协同过滤推荐算法流程及优缺点

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

《web 信息处理与应用》复习提纲

《web 信息处理与应用》复习提纲

相关文章

相关标签