国内数据挖掘产品综述
随着人工智能技术的发展,近年来国内市场上出现了很多数据挖掘类的产品,本文总结了几种常见的产品特点,以供有需求的小伙伴参考。
BAT
作为互联网公司巨头,BAT 有着天然的数据优势,比如阿里在零售、消费金融领域有极大优势,百度在用户搜索,交通等领域较强,而腾讯则在社交、游戏等方面见长。借助自身的数据资源三大巨头已基本完成布局,纷纷进入了应用落地时代。在数据挖掘产品方面各家也都有自己的特色产品。
百度的 BML 全功能 AI 开发平台
BML 全功能 AI 开发平台是一个面向企业和个人开发者的机器学习集成开发环境,为经典机器学习和深度学习提供了从数据处理、模型训练、模型管理到模型推理的全生命周期管理服务。同时也向用户提供算力资源服务。使用 BML 建模的流程大概如下:
上传并标注数据:
用户首先需要在平台创建自己的数据集,然后进行数据标注以及清洗的一些工作,为建模提供合适的数据。数据格式支持图片和文本数据。
构建和训练模型:
用户有两种可选的建模方式,一种是脚本调参,一种是 Notebook 自定义作业。脚本调参功能里有一些标准化的算法脚本模块,用户可以直接调用。Notebook 自定义作业则支持用户自由编程建模。
模型管理:
在该步骤,用户可以看到自己的模型表现指标,进行模型评估和管理。同时也支持导入 BML 平台以外训练的模型。
模型部署:
将模型仓库中的模型部署到需要的位置并进行监控与管理。
收费情况:
作为一个商业平台,BML 的模型训练和预测都是收费的,收费方式根据使用的计算资源,时长和节点来计算。例如脚本调参和自定义作业的部分收费标准如下图:
阿里云机器学习平台 PAI
PAI(Platform of Artificial Intelligence)是面向企业客户及开发者的云原生机器学习平台,涵盖 PAI-DSW 交互式建模、PAI-Studio 拖拽式可视化建模、PAI-DLC 分布式训练到 PAI-EAS 模型在线部署的全流程,支持千亿特征、万亿样本规模加速训练。
PAI 包含特征工程、数据预处理、统计分析、机器学习、深度学习框架、预测与评估这一整套的机器学习算法组件,共 100 余种。
PAI-Studio 可视化建模
采用图形化界面,拖拽式建模,可以在设定条件下自动调参,支持大规模分布式的传统机器学习、深度学习、强化学习训练;支持流批一体训练。Studio 除了标准化的模块组件,还支持用户自定义组件。
PAI-DSW 交互式建模
自由编程的机器学习开发环境,内置 JupyterLab、WebIDE 及 Terminal。
PAI-DLC 云原生深度学习平台
包含 Tensorflow、Caffe、MXNet 这三款主流的机器学习框架,底层提供 M40 型号的 GPU 卡进行训练。
PAI-EAS 在线部署
PAI 平台的模型在线预测服务,支持异构硬件(CPU/GPU)的模型加载,高吞吐,低延迟,支持大规模复杂模型的一键部署,实时自动扩缩容,全自动部署更新模型服务版本;支持高速直连调用,并提供全方位、高可靠的运维监控保障体系。
收费情况:
阿里的 PAI 按照功能模块,使用计算资源和时长进行收费,部分收费标准如下:
腾讯智能钛机器学习平台
腾讯智能钛机器学习平台是为 AI 工程师打造的一站式机器学习服务平台,为用户提供从数据预处理、模型构建、模型训练到模型评估的全流程开发支持。基本功能有:
图形化操作
TI-ONE 支持可视化拖拽,自由绘制任务流,用户通过设计工作流,拖拽节点,配置节点参数就可以进行数据的探索,模型的训练,在线推理,例行化执行等。
交互式建模
Notebook 是智能钛机器学习平台的交互式开发工具,用户可以在智能钛 Notebook 中完成数据准备、数据预处理、算法调试与模型训练,
自动建模
TI-ONE 具备自动建模功能。AutoML 节点的参数栏中,只需指定输入路径,进行简单的参数设置(迭代次数 / 迭代时间等)和资源参数设置,便可完成建模流程。
算法库
TI-ONE 支持从传统的机器学习算法到深度学习,图片分类、GAN、目标检测、NLP 等。同时,支持用户自定义算法到 TI 平台执行,给专业用户带来很大的灵活性。
多种机器学习框架
TI-ONE 囊括多种框架:PySpark/Spark/Pycaffe/PyTorch/Tensorflow/XgBoost/MXNet 等,满足不同开发者的使用需求与习惯。
模型管理
可将模型保存到模型仓库进行多版本的管理。同时,还支持将模型导出,应用到用户的其他系统。
数据源
TI-ONE 支持本地数据上传,手动在线建表,以及与 COS 对象存储服务进行对接。
团队合作
TI-ONE 提供节点收藏,模型收藏功能,收藏后可直接复用。
多种调度方式
TI-ONE 有 4 种驱动方式:手动,定时,参数驱动和重跑,可以并发执行。
手动:单次调试和执行,各节点都支持单点运行。
定时: 支持周期性调度策略,可支持自定义时间粒度。
参数驱动:支持以 KV 方式在运行过程中的参数替换。
重跑:支持对历史时段的数据进行重新处理(还支持中断后续跑功能)。
计费模式
腾讯智能钛机器学习平台提供按量计费的付费模式,按实际使用的时长付费,按小时结算。
综合点评:三家的平台都支持从数据处理,模型构建、模型管理和部署的全流程操作,在算法上都可以实现经典机器学习和深度学习的常用算法,并且支持用户自定义算法。平台功能都比较丰富,但是部署复杂,需要专业人员部署和维护。在建模方式上阿里和腾讯都采用了图形化的拖拽式操作界面,百度则提供标准化的脚本来降低代码量。和 Python 相比图形化的操作可以在一定程度上方便建模,但是仍然具备较高的门槛,使用者需要具备较高的统计学或数据挖掘能力,主要用户为高级开发者,适合有专业数字化团队的企业客户。
第四范式
第四范式是一家专门提供人工智能解决方案的创业公司。4Paradigm Sage EE 先知系统是其开发的人工智能平台。产品的主要功能有:
基于可视化计算图(DAG)的模型开发
通过 Python 等编程语言建模的方式门槛高且不直观,业务人员很难胜任。可视化计算图(DAG)将模型训练的全流程用可视化、易理解的方式进行展示,用户通过简单的拖拉拽即可进行建模,无需繁琐的代码调试,可以更加聚焦于业务。
基于 Notebook 的交互式模型开发
用户可以基于 Notebook 一站式、交互式地完成代码编写、运行、数据可视化、结果反馈的过程。能力覆盖数据清理、统计分析、数据可视化、构建机器学习模型、等开发流程。
自动建模功能
大型企业内场景多且杂,建模专家贵且少,模型探索周期长,效果不理想 自动模型开发,用 AI 来训练 AI 模型,旨在降低建模门槛,帮助建模人员解决高维特征衍生、特征组合扩展和训练超参数调节等高难度问题,在大幅缩短项目周期的同时,提升模型效果和整体 ROI
算法
支持分类、回归、分类和深度学习。有自主研发的超高维 AI 算法,模型维度可达万亿,优点是可以提高模型精度,但是会比较耗费计算资源和时间。 支持分布式计算。
模型评估指标
IDE 提供组件,用图形将 AUC/ROC、准确率、召回率等多类评估指标进行呈现
低门槛 – 简单脚本生成高维海量特征
先知的特征工程引擎内置特征工程方法,以方便易用的函数表达形式使用
收费情况:提供解决方案,按项目情况收费。
综合点评:第四范式的操作界面比较美观,具备自动化建模功能可以在很大程度上降低人才门槛,节省人才成本。在特征工程上可以方便的生产大量特征,但是各种高维度的计算使得计算成本上升,计算时间增加,同时平台部署和维护起来也比较麻烦。
易明建模
YModel 是易明公司开发的一款专注于自动建模的软件,在自动建模领域有着很大优势。
与大多数拖拉拽式建模不同的是,YModel 的自动建模可以真正实现一键式操作,既数据预处理,算法选择调参,模型选择和评估等一系列流程完全由软件自动完成,不需要用户去设定任何算法参数。这对于初级用户来说是非常友好的,确实降低了数据挖掘的门槛,也很适合没有专业数据团队中、小企业快速实现数字化应用。
YModel 的自动建模最大的特点就是不仅模型精准,而且由于它的寻参方式采用自主研发的智能寻参,因此建模速度很快,非常节省计算资源。例如大多数的自动建模时间至少以小时起计算,而 YModel 可能几分钟就建好了。为保证模型的泛化能力,YModel 会将几个优质模型自动融合,这也是几乎所有自动建模产品所不具备的功能。
和国内市场普遍提供解决方案的厂家不同,YModel 是一款轻巧的数据挖掘工具,安装简单,一台笔记本就能运行。YModel 基于 Java 和 Python 开发,有 Windows 版本和 Linux 版本。使用 YModel 可以解决分类、回归、时间序列等问题。
YModel 产品分为个人版和企业版,个人版是完全免费的,数据量和功能上也没有限制,只是不能连接数据库。企业版则可以支持各种 JDBC 标准接口的数据库以及并行运算,虽然企业版是收费的但是也相当便宜,一年才几千块人民币。对于企业来讲,可以单独使用,也可以集成到企业的自有数据平台。
综合点评:YModel 虽然功能不像大型平台那样完善但是在自动化建模领域能力很强,建模效率也高。YModel 轻巧便捷部署或集成都很方便,经济性也强,适合中小企业、初学者和普通职场人士使用。
星环科技
星环科技的 Sophon 是一款场景化的人工智能平台,提供多场景的实验加工模板。在建模方式上 Sophon 同样提供可视化建模和代码建模两种建模方式。
Sophon Base 数据科学基础平台
作为基础平台,可满足一站式机器学习建模需求,操作流程包括数据导入、数据探索、实验管理、任务流调度、用户资产、智能分析等。用户可在交互式建模界面通过托拉拽方式,快速建立模型。Sophon Base 的数据探索支持 SQL 探索和 Notebook 探索,用户可查看每列数据的分布以及描述统计值,也可对多列数据进行多维度的交叉分析,支持柱状图、饼图、散点图等多种可视化展现方式,从而为后续的数据预处理和特征工程做准备。
Sophon EP 实体画像模块
这是一款面向全行业的标签管理及画像系统。基于该系统,用户可以实现基础数据到标签数据的加工。支持银行、证券、公安等多行业中常用的实体模板,实体覆盖基础数据结构、标签体系结构及画像展现模板。
Sophon CV 视频分析模块
Sophon CV 是一款图像数据分析组件,支持各类视频图像数据接入,满足各类应用场景需求,同时还支持定制化视频算法及优化。
Sophon KG 知识图谱模块
Sophon KG 依托于 Sophon Base 基础平台,集知识的获取、融合、存储、计算以及应用为一体。支持拖拽式图谱构建、分布式图谱存储、分布式图谱计算以及交互式图谱分析等功能。
Sophon Edge 边缘模块
Sophon Edge 利用 Sophon Base 的模型加工和模型上线能力,将模型部署至边缘端,实现传统设备的智能化改造,解决了物与物的连接、物与人的连接、物与 AI 的连接以及物与云的连接。
Sophon Cloud 云端模块
Sophon Cloud 负责模型上线管理。提供了模型镜像版本管理、模型线上监控、线下统计、横向扩容、滚动升级、A/B 测试等功能。
综合点评:星环科技的 Sophon 平台更加注重场景化的服务,在一些特定的场景下会有优势。
九章云极
DataCanvas APS 是九章云极开发的一款数据分析平台,它是集数据准备、特征工程、算法实现、模型开发、模型发布、模型生产化管理于一体的机器学习平台,能够帮助企业快速构建数据分析应用。
APS 平台支持拖拽式、配置式数据挖掘工作流设计,使数据科学家能更加高效的完成从模型训练到模型生产应用的工作任务。一般而言,实现一个完整的工作流,包括如下几个重要步骤:
APS 的操作界面和其他厂家也比较类似,采用拖拽标准模块建立图形化操作流程建模,同时也支持 R、Python、Scala 等语言自定义算法。
综合点评:九章云极 DataCanvas 的客户主要集中在金融、运营商及互联网等行业,主要为客户提供解决方案。
美林数据
美林数据是一家专门提供数据服务的公司,TempoAI 是其开发的做数据挖掘的平台,平台支持图形化的操作界面,主要工作流程如下图:
建模界面图形化,拖拽式建模,支持分布式存储、分布式并行计算、内存计算。在算法上支持回归、分类、聚类、关联、时间序列、文本、深度学习。平台内置多种分析挖掘模板,用户可以快速引用,可以为用户提供直接或间接的行业分析解决方案。
综合点评:美林数据的平台功能很全,具备特色场景的标准模板,主要面向制造和能源领域企业客户提供解决方案。
思迈特
Smartbi Mining 支持多种机器学习算法,包含分类、回归、聚类、预测、关联,5 大类机器学习的常用算法。除提供主要算法和建模功能外,Smartbi Mining 数据挖掘平台还提供了必不可少的数据预处理功能,包括字 段拆分、行过滤与映射、列选择、随机采样、过滤空值、合并列、合并行、JOIN、行选择、去除重复值、排序、增加序列号、增加计算字段等。
Smartbi Mining 同样采用基于 Web 的图形化界面建模,内置了很多功能组件,包括“数据源接入”、“数据预处理”、“统计分析”、“特征工程”、“机器学习算法”、“文本分析”等。针对个性化算法需求,支持使用 Python 扩展算法。 平台基于 Spark 分布式云计算,支持大数据量的数据挖掘。
综合点评:Smartbi Mining 使用者同样是需要具备数据挖掘经验的高级用户。采用基于 Spark 的分布式架构支持海量数据的运算,但是部署和维护起来会比较复杂。
总结
本篇文章介绍的几款产品中总体上可以分为两类,平台和工具。其中易明建模的 YModel 是工具类产品,而其他产品都属于平台类产品。
工具类产品的特点就是轻巧便捷,安装灵活,操作简单,个人和企业用户都能够单独使用,也可以集成到自有系统。工具类产品由于提供的是标准化的软件,价格会很便宜,但是缺点就是无法满足用户一些个性化的需求。
平台类产品功能比较多,会提供一些个性化的服务,但是这类产品通常很重,部署和维护会比较麻烦,用户难以自己完成,同时操作也会相对复杂,需要专门培训。因此做平台的企业通常向客户提供的都是解决方案,是服务,需要投入很多人工成本和时间成本,当然这种商业模式的价格也会比较高。
需要注意的是目前国内做平台的公司非常多,产品质量也是鱼龙混杂,有些企业甚至自身并没有什么核心技术,只是拿着开源包封装一下,或者搞一些自认为看起来似乎很炫的界面或功能,用户真正使用起来才发现各种踩坑。
因此用户在选择数据挖掘产品时,还是需要擦亮眼睛,明确自己需要的核心功能是什么,关注产品本身的性能如何,而不要被表面的东西迷惑。