数据仓库1实验报告.doc
文本预览下载声明
甘肃政法学院
本科生实验报告
(一)
姓名:
学院:计算机科学学院
专业:11级信息管理与信息系统班
班级:11级信管一班
实验课程名称: 数据仓库与数据挖掘
实验日期: 2013年 4月26日
指导教师及职称:
实验成绩:
开课时间:2012―2013学年第二学期
甘肃政法学院实验管理中心印制
实验题目 weka软件的安装与使用 否 姓名 班级 信管一班 学 号 实验目的 1、掌握在Eclipse下安装Weka的步骤。
2、掌握Weka的运行环境以及各个界面的含义。
3、掌握在Weka下如何打开相应的文件并作出简单的操作。 二.实验环境 Windows 7电脑一台 三、实验内容与步骤 在Eclipse下新建一个java项目,点击完成
图1_1
图1_2
选中Weka项目,单击右键选择新建“source folder”文件夹,单击完成
图2_1
图2_2
把解开压缩的源文件目录,即weka目录,在资源管理器中拖入到src目录中
图3_1
图3_2
图3_3
打开weka.gui包,找到GUIChooser,并运行所得截图如下
图4_1
5、打开WEKA,首先出现一个命令行窗口。原以为要在这个命令行下写java语句呢,不过稍等一秒,WEKA GUI Chooser的出现了。这是一个很简单的窗体,提供四个按钮:Simple CLI、Explorer、Experimenter、KnowledgeFlow。Simple CLI应该是一个使用命令行的界面,有点像SAS的编辑器;Explorer是则是视窗模式下的数据挖掘工具;Experimenter和 KnowledgeFlow的使用有待进一步摸索....
图5_1
Explorer
使用 WEKA 探索数据的环境。在这个环境中,WEKA提供了数据的预处理,数据格式的转化(从CSV格式到ARFF格式的转化),各种数据挖掘算法(包括分类与回归算法,聚类算法,关联规则等),并提供了结果的可视化工具。对于一个数据集,通过简单的数据的预处理,并对数据挖掘算法进行选择(在WEKA3.5版本之后,加入了算法的过滤功能,可以过滤掉那些不适合当前数据集类型的算法),接着通过窗口界面对算法的参数进行配置。可视化工具分为对数据集的可视化和对部分结果的可视化,并且我们可以通过属性选择工具(Select Attribute),通过搜索数据集中所有属性的可能组合,找出预测效果最好的那一组属性。
Explorer是普通用户最常用的一个界面。用户可以从ARFF文件(Weka使用的一种文本文件格式)、网页或数据库中读取数据集。打开数据文件后,可以选择算法对数据进行预处理。这时窗体上给出了这个数据集的一些基本特征,如含有多少属性,各属性的一些简单统计量,右下方还给出一些可视化效果图。这些都是比较直观的分析,如果想发现隐藏在数据集背后的关系,还需要选择Weka提供的各种分类、聚类或关联规则的算法。所有设置完成后,点击Start按钮,就可以安心地等待weka带来最终的结果。哪些结果是真正有用的还要靠经验来判断。
(2)Experimenter
运行算法试验、管理算法方案之间的统计检验的环境。Experiment环境可以让用户创建,运行,修改和分析算法试验,这也许比单独的分析各个算法更加方便。例如,用户可创建一次试验,在一系列数据集上运行多个算法(schemes),然后分析结果以判断是否某个算法比其他算法(在统计意义下)更好。
Explorermenter主要包括简单模式,复杂模式和远程模式。复杂模式是对简单模式的基本功能的扩充,而远程模式允许我们通过分布式的方法进行实验。
就功能模块而言,分为设置模块,运行模块和分析模块。在设置模块中我们可以自定义实验,加入多个算法和多方的源数据(支持ARFF文件,CSV文件和数据库),在运行模块中我们可以运行我们的实验,而在分析模块中,我们可以分析各种算法的的准确性,并提供了各种统计方法对结果进行检验比较。
值得一提的是,我们可以把实验的各种参数,包括算法,数据集等,保存以方便下一次相同实验的进行;也可以把各种算法保存,方便应用在不同的数据集上;如果数据集来源于数据库的话,实验在过程中可以中止并继续(原因可以是被中止或者是扩展了实验),这样就不用重新运行那些已实验过的算法/数据集祝贺,而仅计算还没有被实验的那些。
()KnowledgeFlow
Explore,,,,Knowledge Flow提供了一个用于处理大型数据集的递增算法,这个环境本质上和 Explorer所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习(incremental learning)。
KnowledgeFlow 为WEKA 提供了一个"数据流"
显示全部