基于Eclat算法的海量数据库..doc
文本预览下载声明
摘 要
数据挖掘一般是指从大量的数据中通过算法发现隐藏于其中信息的过程。关联规则是数据挖掘的重要研究及应用领域,近几年,许多学者对关联规则挖掘做了大量的研究,关联规则主要用于发现数据库中不同属性或者不同数据项之间的关联关系。随着“大数据”时代的到来,人们也越来越关注对关联规则的研究。本文在前人的基础上,进行了一些关于提高关联规则挖掘算法性能和功能完善的研究工作。
本文首先总结了关联规则挖掘算法的研究成果,分析了AIS、Apriori、FP-Growth等算法的实现方式以及特点,通过对经典算法的分析为提出性能更优、更易实现的挖掘算法做好理论方面的准备。本文提出基于数据垂直分布的深度优先关联规则挖掘算法DS-Eclat(Directed Segmenting-Eclat),采用关联矩阵描述数据项间的关联关系,并利用关联矩阵约束候选项集的产生;同时,采用深度优先的挖掘模式,提高生成K-频繁项集的效率。该算法另一个创新点在于对数据进行有向分割,并通过连接得到最大频繁项集。该算法利用布尔矩阵存储频繁项集支持集,减小了内存开销,而且改进算法不需要对数据库进行多次扫描,大幅降低了系统I/O的负载,同时也减少了候选项集的产生。
依据关联规则,实现了DS-Eclat算法在图书馆管理系统中的应用。对各类图书之间的关联规则进行挖掘,实验结果表明各类图书之间具有关联性,并得出五类(即C、I、O、P及T)具有强关联性的图书。通过挖掘读者及借阅图书之间内在的关联性,可以指导配置图书馆资源,提高馆藏利用率,进而提高图书馆的个性化服务水平。实验表明,将DS-Eclat算法应用在图书馆管理系统中,在效率和性能上可以满足读者的实时性等需求,更好地促进图书馆的数字化、个性化服务。
关键词:关联规则挖掘;数据垂直分布;布尔矩阵;图书馆管理;个性化服务
Abstract
Data mining generally refers to through the algorithm to get the potential information from large amounts of data.Association rules is an important research?and application fields of data mining, in recent?years,?many?scholars have done a lot?of research on?mining of association rules, it is mainly used for?discovery in databases?of different?attribute or?relationship?between different?data items.With?the arrival of the era of?“Big?Data”,?people pay more attention to?the research of association rules. Based on the previous research,?this paper?conducted a series of research work in improving the?association rule mining algorithm?performance and?function.
?This paper?first summarizes the latest research results in?algorithms for mining association rules and analyzes the?ways of realization and?characteristics of AIS,?Apriori,?FP-Growth?algorithm, to prepare good theoretical basis for presenting better algorithm.?This paper proposed DS-Eclat mining algorithm,?which applied for vertical data based on incidence matrix depth-first, using the?correlation?matrix to describe the?relationship?between?data?items, and use it?to constraint?the candidate items.?At the same time, the Algorithm uses the depth fi
显示全部