文档详情

数据挖掘之聚类分析算法综述_杨佳润.pdf

发布:2021-09-23约4.39千字共1页下载文档
文本预览下载声明
年 月下 2017 8 论述 291 数据挖掘之聚类分析算法综述 郑州外国语新枫杨学校,河南郑州 ) 杨佳润( 450000 【摘 要】数据挖掘又称为数据采集或者数据收集,它是数据库知识发现( )中的一个步骤。简单来说,数据挖 Knowledge-Discovery in Databases 掘指使用算法从大量的数据中搜索隐藏在其中的信息的过程。在本文中,着重介绍了数据挖掘中的聚类分析阶段。 【关键词】数据挖掘;聚类分析 【中图分类号】 【文献标识码】 【文章编号】 ( ) TP311.1 A 1006-4222 2017 16-0291-01 我们生活在信息爆炸的时代, 每时每刻都在产生海量的 该算法来源于扎德的模糊集合论。 模糊C-均值算法,是 数据。 我们在微博、微信、社交网站、 门户网站、移动终端等众 指该算法的聚类(簇)的界限是模糊的,不同于K-均值中的簇 多的设备商产生的海量数据,面临着无法处理数据的困境。 例 是确定的,以质心为中心,确定的簇。 也就是说:模糊 C-均值 如电商行业,每天客户的注册、建议、投诉、订单以及喜好等行 中,每个数据对象到每个簇都存在一个隶属度,但是每个数据 为都会被记录下来, 几乎每一个大公司都拥有自己庞大的客 对象到所有簇的隶属度之和为 1。 其中,隶属度又叫做隶属权 户数据信息。 如何从海量的数据中提取有用的知识或者模式 值(用W 表示)。 来改善企业的管理或提高团队运行效率, 已成为如今亟待解 它的思想是: 先人工随机指定每个数据到各个簇的隶属 决的问题,数据挖掘技术正是解决这一难题的有效方法。 度,然后根据隶属度计算每一个簇的质心,接着更新隶属度矩 1 数据挖掘与聚类分析概述 阵,直到质心不变化(变化的绝对值都低于阈值)。 1.1 数据挖掘概述 其缺点是不能确保模糊C-均值算法收敛于一个最优解, 算法的性能依赖于初始聚类中心。 因此,我们可以用另外的快 数据挖掘是指从原始的、 未加工的海量数据中提取出有 速算法确定初始聚类中心, 然后在运行模糊C-均值算法;或 用信息。 简言之,数据挖掘是有目的的收集数据,并对数据进 者每次用不同的初始聚类中心,通过多次启动模糊C-均值算 行分析,从中找到有价值的信息或者模式。 数据挖掘吸收了统 法来获得结果。 计学、机器学习、模式识别、数据库和数据仓库、信息检索等技 2.3 基于密度的DBSCAN 算法 术,所以,它是一门综合学科。 数据挖掘现已在商业智能(BI )、 远程医疗、教育和电子商务等领域成功应用。 特别的,随着互 DBSCAN 是一种基于密度的聚类算法, 主要用于处理噪 声。 对象 的密度可以用靠近 的对象数来度量,算法的核 联网的发展,电子商务领域对数据挖掘的需求日益增长。 O O 数据挖掘需要具备良好的数学素养,统计学、概率论的知 心思想是找出所有核心点、边界点、噪声点。 去除噪声点,连接 识也必不可少,同时数据挖掘还涉及到数据库、机器学习、信 核心对象和它的邻域,进而形
显示全部
相似文档