欢迎来到天天文库
浏览记录
ID:34524271
大小:140.37 KB
页数:4页
时间:2019-03-07
《《web 信息处理与应用》复习提纲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、《Web信息处理与应用》复习提纲PART1:WebSearch一.Introduction1.Web搜索的概念与挑战2.信息检索(IR)的概念、与Web搜索之间的关系3.IR与DB之间的区别4.IR的任务与基础性问题二.WebCrawler1.网络爬虫的概念和基本过程2.网络爬虫的主要需求3.网络爬虫的常用策略4.网络爬虫涉及的协议5.分布式爬虫与一致性Hash的概念三.TextProcessing1.文本处理的概念2.字符编码:ASCII、Unicode、UTF‐83.分词、分词歧义、未登录词、停用词等概念4.中文分词的挑战5.常用的分词方法6.词根化(Stemming)和编辑距离的概念四
2、.Indexing1.布尔检索、关联矩阵的概念2.倒排索引:概念、结构、构建算法、存储等五.Queries1.查询表达的难点2.相关性反馈:概念、基本过程3.相关性反馈的分类及其各自的概念与特点4.Ricchio算法5.查询扩展的概念6.查询扩展的几种方法六.Ranking1.Ranking的难点2.信息检索模型的概念、分类3.Jaccard系数4.tf、df、tf‐idf的概念与计算5.向量空间模型6.余弦相似度的定义7.概率模型的概念8.PageRank9.HITS七.Evaluation1.信息检索评价概述2.信息检索评价指标的分类3.Precision、Recall、F‐measur
3、e的定义4.P@N、R@Precision、AP的定义5.MAP、MRR6.NDCGPART2:WebInformationExtraction一、NamedEntityRecognition1.信息抽取(IE)的概念以及与IR的关系2.MUC‐7定义的信息抽取任务3.信息抽取的内容4.NER的概念与难点5.MUC‐7中定义的NER内容6.NER的性能评价指标7.NER的常用方法二、RelationExtraction1.关系抽取的概念和意义2.关系的表示方法3.关系抽取的常用方法PART3:WebMining一.Introduction1.网络挖掘的概念,包含哪些方面的内容,分别有哪些重要
4、应用?二.WebContentMining数据(Data)1.概念:数据对象(Objects),属性(Attributes),维度(Dimensions),特征(features)2.高维诅咒(Curseofdimensionality)现象。3.对于数据的预处理有哪些方法?其中需要掌握采样(Sampling),特征选择(Featureselection)及降维(Dimensionalityreduction)的基本原理。分类(Classification)4.监督学习(Supervisedlearning)与无监督学习(Unsupervisedlearning)的关系与区别。5.分类(Cl
5、assification)的基本原理。6.数据的向量表示(Vectorspacerepresentation)7.熟练掌握k近邻算法,包括影响算法性能的要素——近邻个数及距离(相似度)度量。8.熟练掌握最小二乘算法——推导过程,闭式解,规范化之后的求解推导。9.过拟合现象出现的原因。10.如何评价分类效果?理解训练错误率,测试错误率以及泛化错误率的区别。聚类(Clustering)11.聚类(Clustering)的基本原理及准则。12.层次式聚类算法流程,两个类之间的距离定义。13.熟练掌握K‐means算法——算法流程,优化目标,收敛性分析。14.聚类算法的评价标准。三.WebStruc
6、tureMining1.网络结构如何用图来表示?图的组成部分以及相关性质。社区分析(Community)2.社区(Community)的概念3.社区发现与聚类的关系。4.如何计算结构相似度?5.图分析的一些重要矩阵:邻接(Affinity)矩阵,拉普拉斯(Laplacian)矩阵,以及它们的一些重要性质。6.Cut概念;ratiocut以及normalizedcut的定义及推导。7.Modularity概念及其推导。与spectralclustering的相同点及不同点。影响力分析(Influence)8.几种度量节点中心性的标准。9.两种影响力传播模型——线性阈值模型(LinearThre
7、sholdModel),层级传播模型(IndependentCascadeModel)的传播过程及区别。10.最大影响节点集(Mostinfluentialset)——问题建模,贪心算法以及算法的近似度。11.子模性质(submodularity)。四.WebRecommendation1.推荐系统基本模型以及一般工作流程。2.基于内容的推荐算法流程及优缺点3.协同过滤推荐算法流程及优缺点
此文档下载收益归作者所有