文档详情

数据挖掘综述.docx

发布:2021-09-22约1.68万字共12页下载文档
文本预览下载声明
数据挖掘算法中聚类算法研究综述 摘 要: 数据挖掘技术可以从大量数据中发现潜在的、有价值的信息,为信息时代的数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要的组成部分,聚类技术已经得到广泛应用。本文在回顾数据挖掘技术的基础上,就聚类算法中基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法等进行了详细的梳理综述,综合对比分析了不同聚类算法所特有的优势和劣势,并通过对传统聚类方法的回顾和总结,介绍了近年来出现研究发展趋势和热点。 关键词: 数据挖掘;聚类算法;密度;层次;网格 中图法分类号: A review of Clustering Algorithms in Data Mining Abstract: Data mining technology can discover potential and valuable information from a large amount of data, giving new meaning to data in the information age. With the rapid development of data mining technology, as an important part of it, clustering technology has been widely used. Based on the review of data mining technology, this paper reviews clustering algorithms based on partitioning, hierarchical clustering algorithms, density-based clustering algorithms, grid-based clustering algorithms, model-based clustering algorithms, etc. It carried out a detailed combing review, comprehensively compared and analyzed the unique advantages and disadvantages of different clustering algorithms, and reviewed and summarized the traditional clustering methods to introduce the research development trends and hot spots in recent years. Keyword: data mining;clustering algorithm;density;hierarchy;grid 0 引 言 互联网、移动互联网、人工智能和5G等技术持续驱动,大量的数据得以产生,尤其是随着共享经济,平台经济的不断成熟完善,以及5G、物联网、智慧城市的不断发展,整个社会的数据量进一步增长,大数据时代已经来临,如何运用计算机信息技术进行数据挖掘,从海量的数据中为用户提供有效的数据支持,帮助用户了解、探索数据中内在的信息,成为信息科技社会的一大挑战。 作为信息科技领域的前沿技术,数据挖掘技术集合了人工智能、机器学习、模式识别、统计学、数据库、可视化技术等众多学科领域,可以从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息,已经成为引领当今世界信息技术领域的关键科技,引起了学术界和工业界的广泛关注与研究应用 REF _Re\r \h [1]。 目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等算法 REF _Re\r \h [2]。其中,聚类分析作为数据挖掘的一个重要分支,是一种非监督模式识别,至今已提出了大量的理论基础和实现算法,取得了可喜的研究成果 REF _Re\r \h [3]。但是,聚类分析还存在着许多广为人知的问题,随着信息量的飞涨以及数据对象的日趋复杂,聚类分析面临着更多新的内容和挑战。因此,本文对聚类算法进行综述,探讨聚类算法的研究前沿,以期为研究者提供理论和方法的指导。 1 数据挖掘技术 数据挖掘是指利用算法从海量数据中搜索隐藏于其中信息的过程,其通常与计算机科学和数学等有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多技术方法来实现数据挖掘目标。 1.1 数据挖掘的基本概念 二十世纪九十年代末期, 数据库技术和网络技术的
显示全部
相似文档