文档详情

8.1SparkMLlib简介-厦门大学数据库实验室.ppt

发布：2018-10-20约4.99万字共120页下载文档

文本预览下载声明

此处?|D||D|?是语料库中总的文档数。公式中使用log函数，当词出现在所有文档中时，它的IDF值变为0。加1是为了避免分母为0的情况。 * Spark.mllib 中实现词频率统计使用特征hash的方式，原始特征通过hash函数，映射到一个索引值。后面只需要统计这些索引值的频率，就可以知道对应词的频率。这种方式避免设计一个全局1对1的词到索引的映射，这个映射在映射大量语料库时需要花费更长的时间。但需要注意，通过hash的方式可能会映射到同一个值的情况，即不同的原始特征通过Hash映射后是同一个值。为了降低这种情况出现的概率，我们只能对特征向量升维。i.e., 提高hash表的桶数，默认特征维度是 2^20 = 1,048,576. * 可以看到，分词序列被变换成一个稀疏特征向量，其中每个单词都被散列成了一个不同的索引值，特征向量在某一维度上的值即该词汇在文档中出现的次数。 * 可以看到，特征向量已经被其在语料库中出现的总次数进行了修正，通过TF-IDF得到的特征向量，在接下来可以被应用到相关的机器学习方法中。 * DataFrame里面是一个个元组，所以，需要把Array()数组中的元素，通过Tuple1.apply转换得到一个个元组 * 线性判别式分析(Linear Discriminant Analysis, LDA)，也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD)，是模式识别的经典算法，它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。因此，它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大，并且同时类内散布矩阵最小。就是说，它能够保证投影后模式样本在新的空间中有最小的类内距离和最大的类间距离，即模式在该空间中有最佳的可分离性。 * 导入spark.implicits._，使其支持把一个RDD隐式转换为一个DataFrame。我们用case class定义一个schema:Iris，Iris就是我们需要的数据的结构；然后读取文本文件，第一个map把每行的数据用“,”隔开，比如在我们的数据集中，每行被分成了5部分，前4部分是鸢尾花的4个特征，最后一部分是鸢尾花的分类；我们这里把特征存储在Vector中，创建一个Iris模式的RDD，然后转化成dataframe；最后调用show()方法来查看一下部分数据。 * 因为我们现在处理的是2分类问题，所以我们不需要全部的3类数据，我们要从中选出两类的数据首先把刚刚得到的数据注册成一个表iris，注册成这个表之后，我们就可以通过sql语句进行数据查询，比如我们这里选出了所有不属于“Iris-setosa”类别的数据选出我们需要的数据后，可以把结果打印出来看一下，这时就已经没有“Iris-setosa”类别的数据 * 导入spark.implicits._，使其支持把一个RDD隐式转换为一个DataFrame。我们用case class定义一个schema:Iris，Iris就是我们需要的数据的结构；然后读取文本文件，第一个map把每行的数据用“,”隔开，比如在我们的数据集中，每行被分成了5部分，前4部分是鸢尾花的4个特征，最后一部分是鸢尾花的分类；我们这里把特征存储在Vector中，创建一个Iris模式的RDD，然后转化成dataframe；然后把刚刚得到的数据注册成一个表iris，注册成这个表之后，我们就可以通过sql语句进行数据查询；选出我们需要的数据后，我们可以把结果打印出来查看一下数据。 * 从上述结果可以看到模型的预测准确率为 0.8648648648648649以及训练的决策树模型结构 * 与MLlib版的教程类似，我们使用了filter算子，过滤掉类标签，正则表达式\\d*(\\.?)\\d*可以用于匹配实数类型的数字，\\d*使用了*限定符，表示匹配0次或多次的数字字符，\\.?使用了?限定符，表示匹配0次或1次的小数点。 * 与MLlib版本类似，ML包下的KMeans方法也有Seed（随机数种子）、Tol（收敛阈值）、K（簇个数）、MaxIter（最大迭代次数）、initMode（初始化方式）、initStep（KMeans||方法的步数）等参数可供设置，和其他的ML框架算法一样，用户可以通过相应的setXXX()方法来进行设置，或以ParamMap的形式传入参数，这里为了简介期间，使用setXXX()方法设置了参数K，其余参数均采用默认值 * 8.4.2 决策树分

显示全部

相似文档