文档详情

数据挖掘系统设计技术分析.pdf

发布:2025-01-08约6.47千字共5页下载文档
文本预览下载声明

好学近乎知,力行近乎仁,知耻近乎勇。——《中庸》

数据挖掘系统设计技术分析

【摘要】数据挖掘技术则是商业智能(BusinessIntelligence)中最高端的,

最具商业价值的技术。数据挖掘是统计学、机器学习、数据库、模式识别、人工

智能等学科的交叉,随着海量数据搜集、强大的多处理器计算机和数据挖掘算法

等基础技术的成熟,数据挖掘技术高速发展,成为21世纪商业领域最核心竞争

力之一。本文从设计思路、系统架构、模块规划等方面分析了数据挖掘系统设计

技术。

【关键词】数据挖掘;商业智能;技术分析

引言

数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学

科。它可广泛应用于电信、金融、银行、零售与批发、制造、保险、公共设施、

政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。数据

挖掘应用的领域非常广阔,广阔的应用领域使用数据挖掘的应用前景相当光明。

我们相信,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,

使企业管理者得到更多的商务智能。

1、参考标准

1.1挖掘过程标准:CRISP-DM

CRISP-DM全称是跨行业数据挖掘过程标准。它由SPSS、NCR、以及

DaimlerChrysler三个公司在1996开始提出,是数据挖掘公司和使用数据挖掘软

件的企业一起制定的数据挖掘过程的标准。这套标准被各个数据挖掘软件商用来

指导其开发数据挖掘软件,同时也是开发数据挖掘项目的过程的标准方法。挖掘

系统应符合CRISP-DM的概念和过程。

1.2olefordm

olefordm是微软于2000年提出的数据挖掘标准,主要是在微软的SQL

SERVER软件中实现。这个标准主要是定义了一种SQL扩展语言:DMX。也就

是挖掘系统使用的语言。标准定义了许多重要的数据挖掘模型定义和使用的操作

原语。相当于为软件提供商和开发人员之间提供了一个接口,使得数据挖掘系统

能与现有的技术和商业应用有效的集成。我们在实现过程中发现这个标准有很多

很好的概念,但也有一些是勉为其难的,原因主要是挖掘系统的整体概念并不是

非常单纯,而是像一个发掘信息的方法集,所以任何概念并不一定符合所有的情

况,也有一些需要不断完善和发展中的东西。

1.3PMML

好学近乎知,力行近乎仁,知耻近乎勇。——《中庸》

PMML是1999年由DMG发布了1.0版本,他主要是一个基于XML的模型

描述语言,利用XML的描述能力来表达各种挖掘模型和规则。标准化的描述使

得各个不同的厂商的软件之间可以共享,交换这些挖掘模型。所以他主要是一种

模型和规则的描述语言。

1.4对于标准的基本判断

CRISP-DM的流程已经成为业界的基本认识,但他更像一个项目指导思想,

而不是单纯硬性规范。olefordm规范了挖掘模型和操作原语,使挖掘软件能有

效,简单的整合进现有的企业软件架构,对于推动挖掘软件的使用和普及意义非

凡。但olefordm的规则模型对于结构复杂,形态各异的模型规则用简单的平面

表来表示就显得非常怪异,而PMML正好弥补了这个缺陷,PMML利用了XML

的描述能力,能有效的描述挖掘模型和规则。

挖掘服务器主要以上我们对于这些标准的基本判断为基础,吸收CRISP-DM

和olefordm的核心的优良概念,在实际开发中我们也是根据实际需求来拓展了

一些概念和修正了一

显示全部
相似文档