文档详情

数据仓库1实验报告.doc

发布：2017-11-04约5.42千字共18页下载文档

文本预览下载声明

甘肃政法学院本科生实验报告（一）姓名: 学院:计算机科学学院专业:11级信息管理与信息系统班班级:11级信管一班实验课程名称: 数据仓库与数据挖掘实验日期: 2013年 4月26日指导教师及职称: 实验成绩: 开课时间：2012―2013学年第二学期甘肃政法学院实验管理中心印制实验题目 weka软件的安装与使用否姓名班级信管一班学号实验目的 1、掌握在Eclipse下安装Weka的步骤。 2、掌握Weka的运行环境以及各个界面的含义。 3、掌握在Weka下如何打开相应的文件并作出简单的操作。二．实验环境 Windows 7电脑一台三、实验内容与步骤在Eclipse下新建一个java项目,点击完成图1_1 图1_2 选中Weka项目，单击右键选择新建“source folder”文件夹，单击完成图2_1 图2_2 把解开压缩的源文件目录，即weka目录，在资源管理器中拖入到src目录中图3_1 图3_2 图3_3 打开weka.gui包，找到GUIChooser,并运行所得截图如下图4_1 5、打开WEKA，首先出现一个命令行窗口。原以为要在这个命令行下写java语句呢，不过稍等一秒，WEKA GUI Chooser的出现了。这是一个很简单的窗体，提供四个按钮：Simple CLI、Explorer、Experimenter、KnowledgeFlow。Simple CLI应该是一个使用命令行的界面，有点像SAS的编辑器；Explorer是则是视窗模式下的数据挖掘工具；Experimenter和 KnowledgeFlow的使用有待进一步摸索.... 图5_1 Explorer 使用 WEKA 探索数据的环境。在这个环境中，WEKA提供了数据的预处理，数据格式的转化（从CSV格式到ARFF格式的转化），各种数据挖掘算法（包括分类与回归算法，聚类算法，关联规则等），并提供了结果的可视化工具。对于一个数据集，通过简单的数据的预处理，并对数据挖掘算法进行选择（在WEKA3.5版本之后，加入了算法的过滤功能，可以过滤掉那些不适合当前数据集类型的算法），接着通过窗口界面对算法的参数进行配置。可视化工具分为对数据集的可视化和对部分结果的可视化，并且我们可以通过属性选择工具(Select Attribute)，通过搜索数据集中所有属性的可能组合，找出预测效果最好的那一组属性。 Explorer是普通用户最常用的一个界面。用户可以从ARFF文件(Weka使用的一种文本文件格式)、网页或数据库中读取数据集。打开数据文件后，可以选择算法对数据进行预处理。这时窗体上给出了这个数据集的一些基本特征，如含有多少属性，各属性的一些简单统计量，右下方还给出一些可视化效果图。这些都是比较直观的分析，如果想发现隐藏在数据集背后的关系，还需要选择Weka提供的各种分类、聚类或关联规则的算法。所有设置完成后，点击Start按钮，就可以安心地等待weka带来最终的结果。哪些结果是真正有用的还要靠经验来判断。（2）Experimenter 运行算法试验、管理算法方案之间的统计检验的环境。Experiment环境可以让用户创建，运行，修改和分析算法试验，这也许比单独的分析各个算法更加方便。例如，用户可创建一次试验，在一系列数据集上运行多个算法（schemes），然后分析结果以判断是否某个算法比其他算法（在统计意义下）更好。 Explorermenter主要包括简单模式，复杂模式和远程模式。复杂模式是对简单模式的基本功能的扩充，而远程模式允许我们通过分布式的方法进行实验。就功能模块而言，分为设置模块，运行模块和分析模块。在设置模块中我们可以自定义实验，加入多个算法和多方的源数据（支持ARFF文件，CSV文件和数据库），在运行模块中我们可以运行我们的实验，而在分析模块中，我们可以分析各种算法的的准确性，并提供了各种统计方法对结果进行检验比较。值得一提的是，我们可以把实验的各种参数，包括算法，数据集等，保存以方便下一次相同实验的进行；也可以把各种算法保存，方便应用在不同的数据集上；如果数据集来源于数据库的话，实验在过程中可以中止并继续（原因可以是被中止或者是扩展了实验），这样就不用重新运行那些已实验过的算法/数据集祝贺，而仅计算还没有被实验的那些。（）KnowledgeFlow Explore，，，，Knowledge Flow提供了一个用于处理大型数据集的递增算法，这个环境本质上和 Explorer所支持的功能是一样的，但是它有一个可以拖放的界面。它有一个优势，就是支持增量学习（incremental learning）。 KnowledgeFlow 为WEKA 提供了一个＂数据流＂

显示全部

相似文档