文档详情

基于数据挖掘技术的客户流失分析-计算机应用技术专业论文.docx

发布:2019-03-29约3.38万字共47页下载文档
文本预览下载声明
南京航空航天大学硕士学位论文摘要 南京航空航天大学硕士学位论文 摘要 数据挖掘是指从大型数据库或者数据仓库中提取具有潜在价值的知识或模式。本 文以江苏移动通信经营分析系统作为背景.研究了数据挖掘技术在客户流失分析主题 中的应用。作者以CRISP—DM作为数据挖掘过程的参考模型。在实施数据挖掘过程中, 根据神经网络和决策树方法各自固有的优点,将神经网络运用于属性的规约,而将决 策树用于产生规则模型。建立的模型无论在生成速度上,还是在预测的准确性以及生 成模型的易理解方面都得到了进一步的改进。最后作者给出了模型的应用实现。 关键词:神经网络,决策树,数据挖掘,分类 基于数据挖掘技术的客户流失分析Abstract 基于数据挖掘技术的客户流失分析 Abstract Data mining is the extraction of patterns representing valuable knowledge implicitly stored in large databases data warehouses.This paper introduces how the data mining technology apply in the prediction of customer churn.The author takes CRISP—DM as the referenced model of the data mining process.In the execution process of data mining,the author reduces the dimensions with the method of neural network learning and produce rule with the method of decision learning.The resulting modeI iS improved only the speed of training but also the classification precision and intelligibility. Lastly the paper discusses how develop data mining applications with the model and gives the realization in real project. Key words:Neural network,Decision tree,Data mining,Classification 南京航空航天人学硕士学位论文第一章绪论 南京航空航天人学硕士学位论文 第一章绪论 1.1研究背景 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越 来越多。例如:企业的信息化程度的提高,科学研究和政府部门中电子化事务处理技 术的运用,以及数据收集工具和技术的多元化(从文本扫描到卫星遥感)等等。除此 之外,互联网的发展更是为我们带来了海量的数据和信息。但存储在各种数据媒介中 的海量的数据,在缺乏强有力的工具的情况下,已经远远的超出了人的理解和概括的 能力。为此,这种大量的原始数据和对功能强大的数据分析工具的需求共存的局面, 被描述为“数据丰富,但信息贫乏” (data rich but information poor)。许多的数据库 也就成了“数据坟墓”(datatomb)。换句话说,这些数据很少被再访问。 激增的数据背后隐藏着许多重要的信息,拥有这些数据库的决策者们,在做决策 时不是基于数据库中蕴含的大量信息,而是基于决策者的直觉。因为决策者缺乏从海 量数据中提取有价值知识的工具。传统的数据库管理系统可以高效地实现数据的录 入,查询,统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据 预测未来的发展趋势,缺乏发现数据背后隐藏的知识的手段。数据与信息之间的鸿沟 要求有更强用力的数据分析工具,将数据坟墓转换成知识“金块”12“。 在数据库技术飞速发展的同时,人工智能领域的一个分支——机器学习的研究自 50年代玎始以来也取得了很大进展。用数据库管理系统来存储数据,用机器学习的 方法来分析数据,挖掘大量数据背后的知Ji:}{,这两者的结合促成了数据库中的知识发 现(KnowledgeDiscoveryinDatabases,简记KDD)的产生。多数人认为数据挖掘(DM) 是KDD过程中的一个基本步骤,也是KDD的最重要环节12Ⅱ“J。现在人们往往不加 区分使用KDD和DM这两个术语。 数据挖掘是信息技术自然演化结果。信息技术的发展大致可以描述为如下的过 程:初期的是简单的数据收集和数据库的构造;后来发展到对数据的管理,这包
显示全部
相似文档