基于weka的数据分类和聚类分析实验报告.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于weka的数据分类和聚类分析实验报告.doc》由会员分享,可在线阅读,更多相关《基于weka的数据分类和聚类分析实验报告.doc(11页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、. .基于weka的数据分类分析实验报告1实验根本内容本实验的根本内容是通过使用weka中的三种常见分类和聚类方法决策树J48、KNN和k-means分别在训练数据上训练出分类模型,并使用校验数据对各个模型进展测试和评价,找出各个模型最优的参数值,并对三个模型进展全面评价比拟,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进展预测。2数据的准备及预处理2.1格式转换方法(1)翻开“data02.xls另存为CSV类型,得到“data02.csv。(2)在WEKA中提供了一个“Arff Viewer模块
2、,翻开一个“data02.csv进展浏览,然后另存为ARFF文件,得到“data02.arff。3. 实验过程及结果截图3.1决策树分类(1)决策树分类用“Explorer翻开数据“data02.arff,然后切换到“Classify。点击“Choose,选择算法“trees-J48,再在“Test options选择“Cross-validationFlods=10,点击“Start,开场运行。系统默认trees-J48决策树算法中minNumObj=2,得到如下结果= Summary =Correctly Classified Instances 23 88.4615 %Incorrect
3、ly Classified Instances 3 11.5385 %Kappa statistic 0.7636Mean absolute error 0.141 Root mean squared error 0.3255Relative absolute error 30.7368 %Root relative squared error 68.0307 %Total Number of Instances 26 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure ROC Area Class
4、 0.824 0 1 0.824 0.903 0.892 N 1 0.176 0.75 1 0.857 0.892 YWeighted Avg. 0.885 0.061 0.913 0.885 0.887 0.892= Confusion Matrix = a b - classified as 14 3 | a = N 0 9 | b = Y使用不同的参数准确率比拟:minNumObj2345Correctly Classified Instances2388.4615 %2284.6154 %2388.4615 %2388.4615 %由上表,可知minNumObj为2时,准确率最高。根据
5、测试数集,利用准确率最高的模型得到的结果:分析说明:在用J48对数据集进展分类时采用了10折穿插验证Folds=10来选择和评估模型,其中属性值有两个Y,N。一局部结果如下:Correctly Classified Instances 23 88.4615 %Incorrectly Classified Instances 3 11.5385 %= Confusion Matrix =a b - classified as 14 3 | a = N 0 9 | b = Y这个矩阵是说,原来是“Y的实例,有14个被正确的预测为“Y,有3个错误的预测成了“N。原本是“NO的实例有0个被正确的预测成
6、为“Y,有9个正确的预测成了“N。“14+3+0+9=26是实例的总数,而14+9/26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。(2)K最近邻分类算法用“Explorer翻开数据“data02.arff,然后切换到“Classify。点击“Choose,选择算法“lazy-IBk,再在“Test options选择“Cross-validationFlods=10,点击“Start,开场运行。训练结果:系统默认lazy-IBk K最近邻分类算法中KNN=1,得到如下结果= Summary =Correctly Classified Insta
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 weka 数据 分类 聚类分析 实验 报告
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内