文档详情

Spark MLlib算法调用展示平台及其实现过程.doc

发布:2017-05-19约1.24万字共11页下载文档
文本预览下载声明
Spark MLlib算法调用展示平台及其实现过程 1. 软件版本: IDE:Intellij IDEA 14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;(使用的是CDH提供的虚拟机) 2. 工程下载及部署: Scala封装Spark算法工程:/fansy1990/Spark_MLlib_Algorithm_1.6.0.git ; 调用Spark算法工程:/fansy1990/Spark_MLlib_1.6.0_.git ; 部署(主要针对Spark_MLlib_1.6.0工程): 1)配置好perties中相应用户名密码/数据库等参数; 2)第一次启动tomcat,修改hibernate.cfg.xml文件中的hibernate.hbm2ddl.auto值为create,第二次启动修改为update; 3) 打开集群参数页面,点击初始化,初始化集群参数,如果集群参数和当前集群不匹配,那么需要做相应修改; 暂时考虑使用配置文件的方式来配置集群参数,如果要调整为数据库配置,那么修改Utisl.dbOrFile参数即可;即,暂时只需修改perties文件; 4)拷贝Spark_MLlib_Algorithm_1.6.0工程生成的算法到到3)中spark.jar所在路径; 5)拷贝集群中的yarn-site.xml到3)中spark.files所在路径; 6)拷贝spark-assembly-1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0.jar到3)中spark.yarn.jar所在路径; 3. 工程实现原理: 3.1 Scala封装Spark算法工程: 3.1.1 工程目录 1. 工程目录如下所示: 其中,data目录为所有的测试数据所在目录,这里针对不同的算法建立了不同的目录,主要有5类:分类与回归/聚类/协同过滤/降维/频繁项集挖掘; main/scala里面就是所有封装Spark源码中的代码; test/scala里面对应每个封装代码的测试; 2. 工程采用Maven构建,直接根据pom文件加载对应依赖; 3. 该工程需要经过maven打包,把打包好的jar包放到CDH的虚拟机中的HDFS上某一固定目录,方便Spark算法调用工程调用(具体目录下文有说); 3.1.2 单个算法实现(封装/测试),比如针对逻辑回归 1. 针对逻辑回归,其封装代码如下所示: 代码清单3-1 逻辑回归算法封装(Scala) [plain] view plain copy 在CODE上查看代码片派生到我的代码片 package com.fz.classification import com.fz.util.Utils import org.apache.spark.mllib.classification.{LogisticRegressionWithSGD, LogisticRegressionWithLBFGS} import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.{SparkConf, SparkContext} /** * 逻辑回归封装算法 * Labels used in Logistic Regression should be {0, 1, ..., k - 1} for k classes multi-label classification problem * 输入参数: * testOrNot : 是否是测试,正常情况设置为false * input:输出数据; * minPartitions : 输入数据最小partition个数 * output:输出路径 * targetIndex:目标列所在下标,从1开始 * splitter:数据分隔符; * method:使用逻辑回归算法:SGD or LBFGS * hasIntercept : 是否具有截距 * numClasses: 目标列类别个数; * Created by fanzhe on 2016/12/19. */ object LogisticRegression { def main (args: Array[Strin
显示全部
相似文档