文档详情

Spark MLlib算法调用展示平台及其实现过程.doc

发布：2017-05-19约1.24万字共11页下载文档

文本预览下载声明

Spark MLlib算法调用展示平台及其实现过程 1. 软件版本： IDE：Intellij IDEA 14，Java：1.7，Scala：2.10.6；Tomcat：7，CDH：5.8.0； Spark：1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ； Hadoop：hadoop2.6.0-cdh5.8.0；(使用的是CDH提供的虚拟机) 2. 工程下载及部署： Scala封装Spark算法工程：/fansy1990/Spark_MLlib_Algorithm_1.6.0.git ；调用Spark算法工程：/fansy1990/Spark_MLlib_1.6.0_.git ；部署（主要针对Spark_MLlib_1.6.0工程）： 1）配置好perties中相应用户名密码／数据库等参数； 2）第一次启动tomcat，修改hibernate.cfg.xml文件中的hibernate.hbm2ddl.auto值为create，第二次启动修改为update； 3) 打开集群参数页面，点击初始化，初始化集群参数，如果集群参数和当前集群不匹配，那么需要做相应修改；暂时考虑使用配置文件的方式来配置集群参数，如果要调整为数据库配置，那么修改Utisl.dbOrFile参数即可；即，暂时只需修改perties文件； 4）拷贝Spark_MLlib_Algorithm_1.6.0工程生成的算法到到3）中spark.jar所在路径； 5）拷贝集群中的yarn-site.xml到3）中spark.files所在路径； 6）拷贝spark-assembly-1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0.jar到3）中spark.yarn.jar所在路径； 3. 工程实现原理： 3.1 Scala封装Spark算法工程： 3.1.1 工程目录 1. 工程目录如下所示：其中，data目录为所有的测试数据所在目录，这里针对不同的算法建立了不同的目录，主要有5类：分类与回归／聚类／协同过滤／降维／频繁项集挖掘； main／scala里面就是所有封装Spark源码中的代码； test／scala里面对应每个封装代码的测试； 2. 工程采用Maven构建，直接根据pom文件加载对应依赖； 3. 该工程需要经过maven打包，把打包好的jar包放到CDH的虚拟机中的HDFS上某一固定目录，方便Spark算法调用工程调用（具体目录下文有说）； 3.1.2 单个算法实现（封装／测试），比如针对逻辑回归 1. 针对逻辑回归，其封装代码如下所示：代码清单3-1 逻辑回归算法封装（Scala） [plain] view plain copy 在CODE上查看代码片派生到我的代码片 package com.fz.classification import com.fz.util.Utils import org.apache.spark.mllib.classification.{LogisticRegressionWithSGD, LogisticRegressionWithLBFGS} import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.{SparkConf, SparkContext} /** * 逻辑回归封装算法 * Labels used in Logistic Regression should be {0, 1, ..., k - 1} for k classes multi-label classification problem * 输入参数： * testOrNot : 是否是测试，正常情况设置为false * input：输出数据； * minPartitions : 输入数据最小partition个数 * output：输出路径 * targetIndex：目标列所在下标，从1开始 * splitter：数据分隔符； * method：使用逻辑回归算法：SGD or LBFGS * hasIntercept : 是否具有截距 * numClasses: 目标列类别个数； * Created by fanzhe on 2016/12/19. */ object LogisticRegression { def main (args: Array[Strin

显示全部

相似文档