文档详情

基于KNN的分布式分类算法研究.pdf

发布:2025-03-05约6.79万字共67页下载文档
文本预览下载声明

摘要

如今大数据时代已经到来,数据量的剧增+定程度…I:增加r赋存,当面对数

百万个样本时,所需的计算量就成为了瓶颈。另一方面,传统的批量学习算法需

要完整的数据集,现实情况并不能满足所需,所以本文提出了一种基于KNN(k

最近邻)算法的大数据分布式分类器来解决分类算法在大数据下的问题。

相比于非分布算法(所有数据用一台机器处理),分布式KNN体现出明显的

优势。数值实验的结果表明,对于一个有海量样本的数据集来说,经过基于KNN

的分布式分类算法训练,可以节省大约99%的时问成本,节省后的时间是传统

KNN算法的百分之一,并且能够保证当样本量足够大的时候,分类准确度和传统

的KNN算法相差无几。

关键词:大数据;KNN分类;分布式学习

ABSTRACT

Nowthattheeraofhasofdata

b碴dataarriVed,theVolumehas

expJosion

a

increasedthetocertainwhenfacedwithm-llionsof

storageextent,andsamples,the

amountofhasbecomeabottleneck.Thebasicclassincation

colllputingrequired

adaIathecannotmeetthethis

set,andneeds,so

aIgorithmrequirescompletereality

thesisadatacIassiner

distributedbasedonnearest

proposesbigKNN(kneighbor)

tosolVetheofclassincationunderdata.

algorithmproblemalgorithmbig

tonon—distr.butedalldataisone

Comparedalgorithms,whereprocessedby

KNNofkrs

machine,distr.butedresultsofnumerical

signincantadVantages.The

showthattheofthedistributedcIassincationbasedon

experimentstrainingaIgorithm

cansaVe99%ofthetime

KNNaboutisoneofthetraditionalKNN

cost,which

percent

canensurethatwhenthesizeisclassincation

algo

显示全部
相似文档