weka下载-weka软件(数据挖掘)下载v3.8.0 官方最新版-附使用教程-绿色资源网

软件介绍

软件标签: weka 数据挖掘

weka是一款功能强大的数据挖掘软件，这款软件具有、分类、回归、聚类、关联分析、数据预处理、评估等特色功能，是数据挖掘分析的必备工具，需要的朋友欢迎来绿色资源网免费下载使用。

weka官方介绍

Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品--Clementine ）的，基于JAVA环境下开源的机器学习（machine learning）以及数据挖掘（data mining）软件。它和它的源代码可在其官方网站下载。有趣的是，该软件的缩写WEKA也是New Zealand独有的一种鸟名，而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。

weka下载

weka软件功能介绍

原理与实现

聚类分析中的“类”（cluster）和前面分类的“类”（class）是不同的，对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇，使得同一个簇的实例聚集在一个簇中心的周围，它们之间距离的比较近；而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说，这个距离通常指欧氏距离。

模型应用

现在我们要用生成的模型对那些待预测的数据集进行预测了。注意待预测数据集和训练用数据集各个属性的设置必须是一致的。即使你没有待预测数据集的Class属性的值，你也要添加这个属性，可以将该属性在各实例上的值均设成缺失值。

在“Test Opion”中选择“Supplied test set”，并且“Set”成你要应用模型的数据集，这里是“bank-new.arff”文件。

现在，右键点击“Result list”中刚产生的那一项，选择“Re-evaluate model on current test set”。右边显示结果的区域中会增加一些内容，告诉你该模型应用在这个数据集上表现将如何。如果你的Class属性都是些缺失值，那这些内容是无意义的，我们关注的是模型在新数据集上的预测值。

现在点击右键菜单中的“Visualize classifier errors”，将弹出一个新窗口显示一些有关预测误差的散点图。点击这个新窗口中的“Save”按钮，保存一个Arff文件。打开这个文件可以看到在倒数第二个位置多了一个属性（predictedpep），这个属性上的值就是模型对每个实例的预测值。

建模结果

OK，选上“Cross-validation”并在“Folds”框填上“10”。点“Start”按钮开始让算法生成决策树模型。很快，用文本表示的一棵决策树，以及对这个决策树的误差分析等等结果出现在右边的“Classifier output”中。同时左下的“Results list”出现了一个项目显示刚才的时间和算法名称。如果换一个模型或者换个参数，重新“Start”一次，则“Results list”又会多出一项。

weka关联规则又称购物栏分析

目前，WEKA的关联规则分析功能仅能用来作示范，不适合用来挖掘大型数据集。

我们打算对前面的“bank-data”数据作关联规则的分析。用“Explorer”打开“bank-data-final.arff”后，切换到“Associate”选项卡。默认关联规则分析是用Apriori算法，我们就用这个算法，但是点“Choose”右边的文本框修改默认的参数，弹出的窗口中点“More”可以看到各参数的说明。

背景知识

首先我们来温习一下Apriori的有关知识。对于一条关联规则L->R，我们常用支持度（Support）和置信度（Confidence）来衡量它的重要性。规则的支持度是用来估计在一个购物栏中同时观察到L和R的概率P(L,R)，而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。

有几个类似的度量代替置信度来衡量规则的关联程度，它们分别是

Lift: P(L,R)/(P(L)P(R))

Lift=1时表示L和R独立。这个数越大，越表明L和R存在在一个购物栏中不是偶然现象。

Leverage:P(L,R)-P(L)P(R)

它和Lift的含义差不多。Leverage=0时L和R独立，Leverage越大L和R的关系越密切。

Conviction（更不知道译了）：P(L)P(!R)/P(L,!R) （!R表示R没有发生）

Conviction也是用来衡量L和R的独立性。从它和lift的关系（对R取反，代入Lift公式后求倒数）可以看出，我们也希望这个值越大越好。

值得注意的是，用Lift和Leverage作标准时，L和R是对称的，Confidence和Conviction则不然。

参数设置

现在我们计划挖掘出支持度在10%到100%之间，并且lift值超过1.5且lift值排在前100位的那些关联规则。我们把 “lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1，“metricType”设为 lift，“minMetric”设为1.5，“numRules”设为100。其他选项保持默认即可。“OK” 之后在“Explorer”中点击“Start”开始运行算法，在右边窗口显示数据集摘要和挖掘结果。

下面是挖掘出来的lift排前5的规则。

Best rules found:

1. age=52_max save_act=YES current_act=YES 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)

2. income=43759_max 80 ==> age=52_max save_act=YES current_act=YES 61 conf:(0.76) < lift:(4.05)> lev:(0.08) [45] conv:(3.25)

3. income=43759_max current_act=YES 63 ==> age=52_max save_act=YES 61 conf:(0.97) < lift:(3.85)> lev:(0.08) [45] conv:(15.72)

4. age=52_max save_act=YES 151 ==> income=43759_max current_act=YES 61 conf:(0.4) < lift:(3.85)> lev:(0.08) [45] conv:(1.49)

5. age=52_max save_act=YES 151 ==> income=43759_max 76 conf:(0.5) < lift:(3.77)> lev:(0.09) [55] conv:(1.72)

对于挖掘出的每条规则，WEKA列出了它们关联程度的四项指标。

命令行方式

我们也可以利用命令行来完成挖掘任务，在“Simlpe CLI”模块中输入如下格式的命令：

java weka.associations.Apriori options -t directory-path"bank-data-final.arff

即可完成Apriori算法。注意，“-t”参数后的文件路径中不能含有空格。