13 款轻量级桌面数据挖掘工具
Weka
Weka基于Java开发,是一款开源且免费的软件。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。此外,用户还可以在Weka论坛可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。
YModel易明建模
YModel是一款专注于自动建模的软件,在自动建模领域表现非常不错。YModel的主要优势就是自动化能力强,可以实现一键式建模,对初级用户非常友好。
YModel基于Java和Python开发,支持Windows和Linux。YModel是一款轻巧便捷的工具,使用灵活,安装简单,可以独立安装,也可以嵌入到企业的自有系统。在算法上,YModel支持分类、回归和时间序列的常用算法。
PSPP
PSPP是对采样数据进行统计分析的程序。 它有一个图形用户界面和传统的命令行界面。 它用C语言编写,使用GNU科学图书馆的数学例程,并绘制UTILS来生成图表。 它是专有程序SPSS(来自IBM)的免费替代品,可以自信地预测接下来会发生什么,以便您可以做出更明智的决策,解决问题并改进结果。
Rapid Miner
RapidMiner是一个开源的数据挖掘软件,由Java语言编写而成,提供一些可扩展的数据分析挖掘算法,旨在帮助开发人员更加方便快捷地创建智能应用程序。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供,而不是一款本地软件。
作为一种开源的数据挖掘工具,RapidMiner可与R和Python无缝地集成。它通过提供丰富的产品,来创建新的数据挖掘过程,并提供各种高级分析。
Knime
KNIME的原始开发团队来自硅谷的一家公司,最初为制药行业提供软件,目前已发展成一个高度可扩展和开放的数据处理平台。
KNIME允许用户直观地创建数据流(或管道),有选择地执行一些或所有分析步骤,然后检查结果,模型和交互式视图,也就是支持拖拉拽式的图形化建模方式。KNIME采用Java编写,并且基于Eclipse,利用其扩展机制来添加提供附加功能的插件。核心版本已经包含数百个数据集成模块(文件I / O),数据转换(过滤器,转换器,组合器)以及常用的数据分析和可视化方法。
Orange
Orange是一个开源数据可视化和分析工具。数据挖掘通过可视化编程或Python脚本完成。该工具具有用于机器学习的组件,用于生物信息学的附加组件和文本挖掘,并且具有用于数据分析的功能。Orange是一个Python库。Python脚本可以在终端窗口,PyCharm和PythonWin等集成环境或iPython这样的shell中运行。
Rattle
它是一个免费的开源软件,为使用R语言执行数据挖掘操作提供了一个非常好的GUI。 它提供数据的统计和可视化汇总,将数据转换为可以轻松建模的表单,从数据中构建无监督模型和监督模型,以图形方式呈现模型的性能,并对新数据集进行评分。
Rattle主要被美国和澳大利亚的用户用于企业商业与学术目的。R的计算能力能够为用户提供诸如:聚类、数据可视化、建模、以及其他统计分析类功能。
KEEL
KEEL,Knowledge Extraction based on Evolutionary Learning 的简称,是一款开源的Java数据挖掘软件工具,也是与WEKA一样出名的分析和实验环境,它提供了简洁的 GUI,用于执行包括回归、分类、聚类、监督学习等多种数据挖掘任务。它包含了各种经典的知识提取算法、预处理技术(训练集选择、特征选择、离散化、缺失值的推算方法等)、基于计算智能的学习算法、混合模型、对比实验的统计方法等。KEEL的用户定位是研究者和学生。
ADaMSoft
ADaMSoft是一款用Java开发的开源数据挖掘软件,由CASPUR(一个大学间超级计算联盟,在罗马,靠近萨皮恩扎大学)的一个统计学家团队开发。ADaMSoft提供的程序有:主成分分析、文本挖掘、网络挖掘、三路时间数组分析、模糊因变量线性回归、实用程序、合成表、在ADaMSoft中导入数据表(文件)(创建字典)、图表、神经网络(MLP)、定性变量的关联测量。线性代数、评估函数逼近的结果、数据管理、函数拟合、误差定位和数据推算、决策树、定量变量的统计、记录联系、评估分类模型的结果、聚类分析(k-means法)、对应分析、等。。。。。。
TANAGRA
TANAGRA是一个用于学术和研究目的的数据挖掘软件。 它提供了探索性数据分析、统计学习、机器学习和数据库领域的多种数据挖掘方法。Tanagra包含一些监督学习,但也包括其他范例,如聚类,因子分析,参数和非参数统计,关联规则,特征选择和构建算法。
TANAGRA使用图形界面的数据挖掘软件,采用了类似Windows资源管理器中的树状结构来组织分析组件。Tanagra缺乏高级的可视化能力,但它的强项是统计 分析,提供了众多的有参和无参检验方法。同时它的特征选取方法也很多。
ELKI
ELKI是一个用Java编写的开源(AGPLv3)数据挖掘软件。ELKI的重点是算法的研究,主要是聚类分析和离群点检测中的无监督方法。ELKI允许任意算法、数据类型、距离函数和索引的组合,并评估这些组合。当开发新的算法或索引结构时,现有的组件可以重复使用和组合。ELKI是围绕数据库核心建模的,它采用垂直数据布局,将数据存储在列组中。
Databionic ESOM
Databionics ESOM工具提供了许多使用新兴自组织地图(ESOM)的数据挖掘任务。使用数据仿生学原理对高维数据进行可视化、聚类和分类,可以交互式或自动进行。它的功能包括ESOM训练、U-Matrix可视化、探索性数据分析和聚类、ESOM分类以及U-Maps的创建。Databionic ESOM Tools是一套程序,用于执行数据挖掘任务,如使用新兴自组织地图(ESOM)进行聚类、可视化和分类。其特点包括使用不同的初始化方法、训练算法、距离函数、参数冷却策略、ESOM网格拓扑结构和邻域核来训练ESOM。
CMSR Data Miner
CMSR是Cramer Modeling, Segmentation和Rules的缩写。对于分裂准则,使用了克莱默系数CMSR的主要特性是规则引擎。这个数据挖掘工具提供了一个IDE来执行不同的操作,如分割、预测建模、集成分析和可视化。