"Weka Weka基于Java开发，是一款开源且免费的软件。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则 .."

jiangzhucao 北京
乾学院 1061 号会员
1,357 浏览 • 3 年前

13 款轻量级桌面数据挖掘工具

推广

Weka

Weka基于Java开发，是一款开源且免费的软件。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。此外，用户还可以在Weka论坛可以找到很多扩展包，比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。

YModel易明建模

YModel是一款专注于自动建模的软件，在自动建模领域表现非常不错。YModel的主要优势就是自动化能力强，可以实现一键式建模，对初级用户非常友好。

YModel基于Java和Python开发，支持Windows和Linux。YModel是一款轻巧便捷的工具，使用灵活，安装简单，可以独立安装，也可以嵌入到企业的自有系统。在算法上，YModel支持分类、回归和时间序列的常用算法。

PSPP

PSPP是对采样数据进行统计分析的程序。它有一个图形用户界面和传统的命令行界面。它用C语言编写，使用GNU科学图书馆的数学例程，并绘制UTILS来生成图表。它是专有程序SPSS（来自IBM）的免费替代品，可以自信地预测接下来会发生什么，以便您可以做出更明智的决策，解决问题并改进结果。

Rapid Miner

RapidMiner是一个开源的数据挖掘软件，由Java语言编写而成，提供一些可扩展的数据分析挖掘算法，旨在帮助开发人员更加方便快捷地创建智能应用程序。该款工具最大的好处就是，用户无需写任何代码。它是作为一个服务提供，而不是一款本地软件。

作为一种开源的数据挖掘工具，RapidMiner可与R和Python无缝地集成。它通过提供丰富的产品，来创建新的数据挖掘过程，并提供各种高级分析。

Knime

KNIME的原始开发团队来自硅谷的一家公司，最初为制药行业提供软件，目前已发展成一个高度可扩展和开放的数据处理平台。

KNIME允许用户直观地创建数据流（或管道），有选择地执行一些或所有分析步骤，然后检查结果，模型和交互式视图，也就是支持拖拉拽式的图形化建模方式。KNIME采用Java编写，并且基于Eclipse，利用其扩展机制来添加提供附加功能的插件。核心版本已经包含数百个数据集成模块（文件I / O），数据转换（过滤器，转换器，组合器）以及常用的数据分析和可视化方法。

Orange

Orange是一个开源数据可视化和分析工具。数据挖掘通过可视化编程或Python脚本完成。该工具具有用于机器学习的组件，用于生物信息学的附加组件和文本挖掘，并且具有用于数据分析的功能。Orange是一个Python库。Python脚本可以在终端窗口，PyCharm和PythonWin等集成环境或iPython这样的shell中运行。

Rattle

它是一个免费的开源软件，为使用R语言执行数据挖掘操作提供了一个非常好的GUI。它提供数据的统计和可视化汇总，将数据转换为可以轻松建模的表单，从数据中构建无监督模型和监督模型，以图形方式呈现模型的性能，并对新数据集进行评分。

Rattle主要被美国和澳大利亚的用户用于企业商业与学术目的。R的计算能力能够为用户提供诸如：聚类、数据可视化、建模、以及其他统计分析类功能。

KEEL

KEEL，Knowledge Extraction based on Evolutionary Learning 的简称，是一款开源的Java数据挖掘软件工具，也是与WEKA一样出名的分析和实验环境，它提供了简洁的 GUI，用于执行包括回归、分类、聚类、监督学习等多种数据挖掘任务。它包含了各种经典的知识提取算法、预处理技术（训练集选择、特征选择、离散化、缺失值的推算方法等）、基于计算智能的学习算法、混合模型、对比实验的统计方法等。KEEL的用户定位是研究者和学生。

ADaMSoft

ADaMSoft是一款用Java开发的开源数据挖掘软件，由CASPUR(一个大学间超级计算联盟，在罗马，靠近萨皮恩扎大学)的一个统计学家团队开发。ADaMSoft提供的程序有：主成分分析、文本挖掘、网络挖掘、三路时间数组分析、模糊因变量线性回归、实用程序、合成表、在ADaMSoft中导入数据表（文件）（创建字典）、图表、神经网络（MLP）、定性变量的关联测量。线性代数、评估函数逼近的结果、数据管理、函数拟合、误差定位和数据推算、决策树、定量变量的统计、记录联系、评估分类模型的结果、聚类分析（k-means法）、对应分析、等。。。。。。

TANAGRA

TANAGRA是一个用于学术和研究目的的数据挖掘软件。它提供了探索性数据分析、统计学习、机器学习和数据库领域的多种数据挖掘方法。Tanagra包含一些监督学习，但也包括其他范例，如聚类，因子分析，参数和非参数统计，关联规则，特征选择和构建算法。

TANAGRA使用图形界面的数据挖掘软件，采用了类似Windows资源管理器中的树状结构来组织分析组件。Tanagra缺乏高级的可视化能力，但它的强项是统计分析，提供了众多的有参和无参检验方法。同时它的特征选取方法也很多。

ELKI

ELKI是一个用Java编写的开源(AGPLv3)数据挖掘软件。ELKI的重点是算法的研究，主要是聚类分析和离群点检测中的无监督方法。ELKI允许任意算法、数据类型、距离函数和索引的组合，并评估这些组合。当开发新的算法或索引结构时，现有的组件可以重复使用和组合。ELKI是围绕数据库核心建模的，它采用垂直数据布局，将数据存储在列组中。

Databionic ESOM

Databionics ESOM工具提供了许多使用新兴自组织地图（ESOM）的数据挖掘任务。使用数据仿生学原理对高维数据进行可视化、聚类和分类，可以交互式或自动进行。它的功能包括ESOM训练、U-Matrix可视化、探索性数据分析和聚类、ESOM分类以及U-Maps的创建。Databionic ESOM Tools是一套程序，用于执行数据挖掘任务，如使用新兴自组织地图（ESOM）进行聚类、可视化和分类。其特点包括使用不同的初始化方法、训练算法、距离函数、参数冷却策略、ESOM网格拓扑结构和邻域核来训练ESOM。

CMSR Data Miner

CMSR是Cramer Modeling, Segmentation和Rules的缩写。对于分裂准则，使用了克莱默系数CMSR的主要特性是规则引擎。这个数据挖掘工具提供了一个IDE来执行不同的操作，如分割、预测建模、集成分析和可视化。