文档详情

高效的关联规则挖掘算法.pdf

发布:2017-07-16约1.05万字共3页下载文档
文本预览下载声明
第29卷 第13期 计算机工程与设计 2008年7月 VO1.29 NO.13 Computer Engineering and Design July 2008 高效的关联规则挖掘算法 郭健美, 宋顺林, 肖仁财 (江苏大学计算机学院,江苏镇江212013) 摘 要:4-]-g~-Apriori算法多次扫描数据库且生成的候选项集数量大的缺陷,提出了一种数据库优化策略,并结合修剪频繁集 和连接优化策略,得到一种新的关联规则挖掘算 -NApdoff算法。该算法减小了数据库的规模以及候选项集的数目,避免了 连接过程中相同项目的重复比较。实验表明此方法比Apriori算法有更好的性能。 关键词:数据挖掘;关联规则;频繁项集:事务数据库;最小支持数 中图法分类号:TP311,13 文献标识码:A 文章编号:1000—7024(2008)13—3378—03 Efficient algorithm for mining association rules GU0 Jian—mei. SONG Shun—lin. XIAO Ren—cai (College ofComputer,Jiangsu University,Zhenjiang 212013,China) Abstract:Aimed at the disadvantages of scanning the database multiply and generating a large quantity ofthe candidate sets in the Apriori algorithm,a strategy ofdatabase optimization is presented,and frequent set pruning is combined andjoin optimization strategy.A new algorithm of mining association rule—NApriori algorithm is presented,The algorithm could reduce the size of the database gradually andthenumberofthe candidateitemsets,avoidthe repeated comparisonofthe sameitemsetsinthejoinprocedure.The experimentin- dicates that this method has a better performance than the Apriori algorithm, Key words:data mining;association rules;frequent itemset;transaction database;minimum support number 选项集的数目,避免了连接过程中相同项目的重复比较。实 0 引 言 验表明此方法比Apriori算法有更好的性能。 数据挖掘是从大型数据库中的大量原始数据中提取人 l 改进的Apriori算法的基本思想及其分析 们感兴趣的、隐含的、具有潜在应用价值的信息和知识,被认 为是目前解决数据丰富而信息贫乏的~种有效方法。R.Ag— 1.1 修剪频繁集策略 rawal等首先提出了挖掘关联规则的Apriori算法 ,Apriori算 为了提高按层次搜索并产生相应频繁项集的处理效率, 法是挖掘布尔关联规则频繁项集的最有影响的数据挖掘算 Apriori算法利用了以下几个重要性质0 : 法之一,其基本思想 是重复扫描数据库,根据一个频繁集
显示全部
相似文档