基于改进遗传算法的多维关联规则挖掘方法及应用.doc
文本预览下载声明
第 23卷 第 4期
Vo l. 23 No. 4
重 庆 工 学 院 学 报 (自然科学 )
Jou rna l of Chongq ing In stitu te of Techno logy (N a tu ra l Sc ience)
2009年 4月
Ap r. 2009
3
基于改进遗传算法的多维关联规则挖掘方法及应用
王仲君 ,程
涤
(武汉理工大学 理学院 ,武汉 430063)
M e thod an d A pp l ica t ion of M in in g A ssoc ia t ion Ru le s Ba sed on
Im proved Gen e t ic A lgor ithm
WAN G Zhong2jun, CH EN G D i
(D ep t. of Sta tistic s, Schoo l of Sc ience, W uhan U n ive rsity of Techno logy, W uhan 430063, Ch ina)
A b stra c t: Th is p ap e r imp rove s gene tic a lgo rithm and app lie s it in m u lti2d im en siona l a ssoc ia tion ru le
m in ing. A new se lec tion stra tegy ba sed on imm une m echan ism is p ropo sed, random num be r is in troduced, and au to2adap ted m e thod dynam ica lly and stocha stica lly se lec ting c ro ssove r p robab ility and m u ta tion p robab ility a re u sed. The new a lgo rithm no t on ly re stra in s p rem a tu re conve rgence effec tive ly, bu t a lso ra ise s the sea rch effic iency grea tly.
Key word s: da ta m in ing; m u lti2d im en sion a ssoc ia tion ru le; gene tic a lgo rithm
A grawa l等人于 1993 年首先提出了挖掘顾客
交易数据库中项集间的关联规则问题 , 以后众多 学者又对此进行了大量的研究 , 引入了随机采样 和并行思想 , 优化了原有的算法 , 提高了挖掘算法 的效率 , 促进了关联规则的广泛应用. 遗传算法是 一种基于群体的进化算法 , 具有很强的随机性、鲁
棒性和隐含并行性 , 能快速、有效地进行全局优化
搜索 , 是处理大规模数据项目集的有效方法.
本文中详细讨论了遗传算法在关联规则提取 方面的应用 , 针对事务型数据库的特点 , 提出了使 用实数数组的编码方法 , 并在此基础上 , 讨论了适 应度函数的构造 , 然后 , 通过引入免疫机制 , 对选
3 收稿日期 : 2009 - 01 - 25
基金项目 :国家科学技术协会重点研究课题 ( 2007DCTJ08)
作者简介 :王仲君 (1964—) ,女 ,博士 ,教授 ,主要从事数据挖掘、智能优化算法、复杂性科学、计算机仿真等方面研究.
摘要 :对遗传算法进行改进 ,并应用于多维关联规则挖掘中. 在该算法中提出了一种基于免疫机 制的新选择策略 ,并引入随机数 ,采用自适应方法随机动态选取交叉和变异概率. 这种新算法不 仅有效地抑制了早熟收敛现象 ,而且大大提高了搜索效率.
关 键 词 :数据挖掘 ;多维关联规则 ;遗传算法
中图法分类号 : TP301. 6 文献标识码 : A 文章编号 : 1671 - 0924 ( 2009 ) 04 - 0055 - 05
例给出了新算法的具体实现过程 , 不仅验证了新
算法的有效性和可行性 , 而且对数据挖掘技术在 科研领域的应用进行了初步的尝试.
这样庞大的数据集 , 无法用简单的目测方法找出
其规律 , 需要进行大量的数据挖掘. 针对多维关联 规则挖掘的特点 , 本研究中构造了求解该问题的 遗传算法.
2. 1 编码方法的确定
用遗传算法进行关联规则挖掘怎样编码是要 解决的首要问题. 本研究中采用实数数组的编码 方法. 实数数组的元素
显示全部