探究3G通信中数据挖掘方法的应用.doc
文本预览下载声明
探究3G通信中数据挖掘方法的应用
摘要: 一、引言 “3G”(英语 3rd-generation)或“三代”是第三代移动通信技术的简称是指支持高速数据传输的蜂窝移动通讯技术。 为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的的高效率服务。 二、数据挖掘技术 1.数据挖掘 数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。2.数据挖掘过程 挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。 (1)数据预处理。实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。 (2)模式发现。模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。 (3)模式分析。模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。 三、 关联规则是数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域间的依赖关系。关联规则挖掘对象一般是大型数据库,该规则一般表示式为:A1A2∧…Am=B1∧B2∧…Bm,其中,Ak(k=1,2,…, m),Bj(j=1,2,…,n)是数据库中的数据项。有Support(A=B)=P(AB),Confidence(A=B)=P(A|B)。数据项之间的关联,即根据一个事务中某些数据项的出现可以导出另一些数据项在同一事务中的出现。 关联分析的目的是挖掘出隐藏在数据间的相互关系。关联规则用于寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。关联分析的典型例子是购物篮分析,描述顾客的购买行为,可以帮助零售商决定商品的摆放和捆绑销售策略。如著名的(面包+黄油→牛奶)例子就属于关联分析:在超市中,90%的顾客在购买面包和黄油的同时,也会购买牛奶。直观的意义是:顾客在购买某种商品时有多大的倾向会购买另外一些商品。找出所有类似的关联规则,对于企业确定生产销售、产品分类设计、市场分析等多方面是有价值的。
图1-1
我们选择“11”、“1”、“9”及“4”进行分析,其最后结果如下图1-2所示。
图1-2
这里得到了六个关联规则:
If“11”then“1”;
If“1”then“11”;
If“9”then“1”;
If“1”then“9”;
If“4”then“1”;
If“1”then“4”。
其中序列规则If“11”then“1”的支持度和置信度是最大的,分别为27.80488﹪和86.36364﹪。就以上数据分析可以得出这样的结论:业务11和业务1、业务9与业务1、业务4与业务1有着很强的关联。
此外,STATISTICA还以“Network gragh”的形式给出结果。单击“ASC Results”窗口中的“Rule network”按钮,就可得到2维的“Rule graph”,如下图1-3所示。
图1-3
上图形象地概括了所得的关联规则的所有重要信息。图中的圆点表示支持度的大小,圆点越大表明支持度越大,左边表示“Body”的支持度,右边白哦是“Head”的支持度,中间表示“Body”和“Head”同时发生的支持度,如图所示,支持度最大的是:11,和它存在强关联的
显示全部