文档详情

SQL Server 2008 R2关联规则研究.doc

发布:2018-03-14约4.42千字共7页下载文档
文本预览下载声明
SQL Server 2008 R2关联规则研究   摘要:关联规则挖掘在数据挖掘中占有非常重要的地位,它可以从大量的数据中发现数据项之间的关联关系,而某些关联关系可以辅助企业制定决策。通过实例研究表明,SQL Server 2008 R2平台下的关联规则挖掘具有很高的计算精度,生成的某些关联规则也是有效的。   关键词:关联规则;数据挖掘;SQL Server   中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)16-3774-03   Research on Association Rules of SQL Server 2008 R2   WANG Ming   (School of Management, China University of Mining and Technology, Xuzhou 22116, China)   Abstract: Association rules plays an important role in data mining, it can find out some association rules among items from huge of data, the rules are helpful for making decision. Case study shows that Microsoft Association Rules of SQL Server 2008 R2 has high accuracy, which generating association rules, some of the rules are also effective.   Key words: association rules; data mining; SQL Server   1 概述   随着信息化技术和数据库管理系统的快速发展,大量的企业现已拥有海量的数据。中华人民共和国国民经济和社会发展第十二个五年规划纲要,简称 “十二五”规划,在第十三章提出全面提高信息化水平的要求,这必将促使我国企业的数据量急剧增长。如何从海量的数据中发现有效的、具有潜在应用价值的知识,对于政府部门和企业而言,都具有重要的现实意义。   数据挖掘[1]是数据库技术、人工智能、机器学习和统计学等学科相结合的产物。所谓的数据挖掘,一般是指一个非平凡过程,具体而言就是从数据库海量数据中提取出隐含的、事先未知的、具有潜在应用价值的信息。关联规则挖掘,率先由Rabesh Agrawal等人在1993年提出,是数据挖掘技术中一个非常重要的研究方向,借助它可以从海量的数据中发现数据项之间的关联关系,而某些关联关系可以辅助企业制定相关的决策。国内外学者对于关联规则进行了大量的研究,成果丰硕。国内目前对于基于SQL Server 2008 R2平台下的关联规则研究还比较少,本文对于在SQL Server 2008 R2平台下采用关联规则进行数据挖掘的用户来说,具有一定的参考价值。   2 关联规则基本概念   SQL Server是一个关系型数据库,下面从关系型数据库的角度来介绍关联规则的相关概念。假设SQL Server数据库中有一事务集合T={T1,T2,T3,…,Tn},n是总事务数;要进行关联规则挖掘的数据项(即字段的值)构成的一个集合I={I1,I2,I3,…,Im},m是总数据项个数,显然T?哿I。一条关联规则就是具有“A?圯B”的蕴涵式,其中A?哿I,B?哿I,且A∩B=?堙。   若事务Ti?哿T,A∪B?哿Ti,则记为A?圯B在事务Ti上成立。在事务集合T中,A?圯B支持度为s%,则表明A?圯B在事务T中成立的个数占总事务数的s%。支持度可用下式表示:   P(A,B)为事务T中同时出现A和B的概率。   置信度可用下式表示:   若规则A?圯B在事务集合T中具有c%的置信度,则表明在事务集合T中,包含A的事务有c%的事务同时包含B。值得一提的是,在SQL Server 2008 R2中,置信度被称为概率。   重要性在一些文献中被称为兴趣度分数或者增益(lift),重要性可以用于度量项集和规则。项集是一个数据项的集合,每个数据项都是一个属性值。项集的重要性可以用下面的公式来表示:   若重要性=1,则A和B是相互独立的项;若重要性1,则A和B是正相关的,即消费者购买A的时候,可能同时也购买B。   规则的重要性由下式来定义:   若规则重要性=0时,则表明A和B没有任何关联;若规则重要性0,则表明当A发生时,B发生的概率会变大;若规则重要性0,则表明当A发生时,B发生的概率会变小。   满足最小支持度阈值的项集被称作频
显示全部
相似文档