欢迎来到天天文库
浏览记录
ID:12637860
大小:84.02 KB
页数:8页
时间:2018-07-18
《数据挖掘系统实现图书馆书目推荐基于sql server 2005》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一、绪论数据挖掘(DMdatamining)是从大量的,不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的有用的信息和知识的过程。而我们的图书馆的数据库中积累了大量的读者借阅历史数据,这些数据中隐藏着大量重要信息,利用这些信息我们可以挖掘出读者对图书资源的借阅偏好模式。于是我们便利用微软SQLSERVER2005中的数据挖掘关联规则模块建立一个在线书目推荐服务系统,以提高图书馆的服务水平。二、问题分析 关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。
2、在SQLSERVER2005中的关联规则用的是优先关联族算法,即FP-树频集算法[HPY00]。该算法在从大数据量中寻找频繁项集非常有效,在效率上较之Apriori算法有巨大的提高。具体运作时分两步分析:第一步通过已过精确计算的表达式寻找出项集;第二步是基于频繁项集产生规则。第二步需要的时间会明显少于第一步。下面我们了解下该算法涉及的一些关键指标:指标名含义支持度(Support)支持度对项集形成有影响。用于描述项集出现频度的指标,最低支持度(Minimum_Support)意为只对达到指定频度的项集感兴趣,如果指定最低支持度为小于1的值则微软关联规则认为你只对频度达到指定百分比的项集感
3、兴趣。比如0.03表示项集支持度只有占到总项集数的3%才能形成项集。最大支持度(Maximum_Support)则指定了项集出现频度的上限,超过上限的项集也不是我们感兴趣的。概率(Probability)概率对规则的形成有影响。一条规则中有A的条件下会有B(A=>B)的概率是指Probability(A=>B)=Probability(B
4、A)=Support(A,B)/Support(A)指定一定的最低概率值就可以限制形成的规则数。重要性(Importance)重要性对项集和规则形成均有影响。它的定义如下:Importance(A=>B)=log(p(B
5、A)/p(B
6、notA))从定
7、义知如果该值为0表示A和B没有关联性,正值表示一旦拥有A则再拥有B的概率会增长,负值表示一旦拥有A则再拥有B的概率会降低。三、 数据准备我们收集了兰州商学院图书馆2002年到2005年的读者借阅数据,数据库具体关系如下: “一次借阅标识”意义在于形成用户借阅的项集,举例说:甲乙(单次借阅标识分别是1和2)两人一次都借了3本书丙(单次借阅标识分别是3)一次借了两本,得到如下表所示记录:借阅历史表借阅流水号(主键)单次借阅标识(外键)书名11C#编程事件21.Net核心编程31.Net网络编程42ASP.NET高级编程52.Net核心编程62.Net网络编程73WindowsAPI速查手
8、册83C#编程事件 级联表约束单次借阅标识表单次借阅标识(主键)123如此我们便只要通过“单次借阅标识”即可区分不同用户的单次借阅。因为在每次借阅书籍时会先在单次借阅标识表中插入自增标识码,当借阅历史表增加新记录时便使用刚插入的自增标识码作为“单次借阅标识”,这样两张表便形成一对多的关系。之所以要有上面两张表,是因为SQLSERVER2005在训练关联规则模型时要有事例表和嵌套表。所谓事例表即存放鉴定一次事务的标识信息的表,用户完成他的一次借阅(当然可以不止借一本)就是一次事务,一次事务只用一个标识。我们设定单次借阅标识字段为自增字段就恰恰满足这点,所以单次借阅标识表就成了我们的事例表。
9、嵌套表即为事例表中事务的具体细节内容表,其间用“单次借阅标识”来将各条记录形成项集。四、开发步骤我们用“SQLServerBusinessIntelligenceDevelopmentStudio”建立书目推荐服务程序,具体步骤如下:一、训练模型1.选择商业智能项目中AnalysisServices项目,建立BookHistoryAS项目2.建立数据源,指定我们的SQLServer2005实例为数据源,并指定初始数据库为我们存放借阅历史数据的数据库。3.建立数据源视图,将上面提及的“借阅历史”表“单次借阅标识”表都选择进来。4.建立挖掘结构① 选择“从现有关系数据库或数据仓库”中训练和开
10、发模型。② 选择“Microsoft关联规则”挖掘模型。③ 指定“单次借阅标识”表为事例表,“借阅历史”表为嵌套表。④按图(一)设定键列和可预测列。 图(一)之所以设定书名为可预测列是为后面的关联预测作准备。⑤ 为自己设定的规则命名。5.设置关联规则算法的参数。具体参数如图(二),各参数含义前面已做解释,在此不赘述。值得说明的是因为我们的借阅历史和书目数据量都较大,我们将最大项集计数(MAXIMUM_ITEMSET_CO
此文档下载收益归作者所有