基于KNN的分布式分类算法研究.pdf
摘要
如今大数据时代已经到来,数据量的剧增+定程度…I:增加r赋存,当面对数
百万个样本时,所需的计算量就成为了瓶颈。另一方面,传统的批量学习算法需
要完整的数据集,现实情况并不能满足所需,所以本文提出了一种基于KNN(k
最近邻)算法的大数据分布式分类器来解决分类算法在大数据下的问题。
相比于非分布算法(所有数据用一台机器处理),分布式KNN体现出明显的
优势。数值实验的结果表明,对于一个有海量样本的数据集来说,经过基于KNN
的分布式分类算法训练,可以节省大约99%的时问成本,节省后的时间是传统
KNN算法的百分之一,并且能够保证当样本量足够大的时候,分类准确度和传统
的KNN算法相差无几。
关键词:大数据;KNN分类;分布式学习
ABSTRACT
Nowthattheeraofhasofdata
b碴dataarriVed,theVolumehas
expJosion
a
increasedthetocertainwhenfacedwithm-llionsof
storageextent,andsamples,the
amountofhasbecomeabottleneck.Thebasicclassincation
colllputingrequired
adaIathecannotmeetthethis
set,andneeds,so
aIgorithmrequirescompletereality
thesisadatacIassiner
distributedbasedonnearest
proposesbigKNN(kneighbor)
tosolVetheofclassincationunderdata.
algorithmproblemalgorithmbig
tonon—distr.butedalldataisone
Comparedalgorithms,whereprocessedby
KNNofkrs
machine,distr.butedresultsofnumerical
signincantadVantages.The
showthattheofthedistributedcIassincationbasedon
experimentstrainingaIgorithm
cansaVe99%ofthetime
KNNaboutisoneofthetraditionalKNN
cost,which
percent
canensurethatwhenthesizeisclassincation
algo