Google automl 适合小白使用吗?
提到 automl 名气最大的当属 Google automl 了,但是很多人并不真正了解 Google automl 到底能做什么,适不适合小白使用。今天就来详细介绍下 Google automl。
我们先来看产品的操作流程和界面体验,Google automl 是基于 Google cloud 建立的一个端到端的机器学习平台,流程上主要包括准备数据,训练模型,预测结果三大部分。准备数据就是使用 BigQuery 和 Cloud Storage 准备和存储数据集,然后使用 Data Labeling Service 为训练数据添加标签,数据格式支持图片、视频、表格和文本数据。数据准备好后选择 automl 功能进行自动建模,自动建模之前需要指定模型类型(分类,回归),目标变量,训练集和验证集划分方式,训练时间(最少 1 小时)和优化指标,搭建模型的过程由 automl 自动完成。模型训练好以后可以看到模型的表现指标和变量的重要度,如果模型达到要求就可以用来部署和预测了。整个流程和界面体验来说是非常友好的,操作也很简单,可以做到不用编程也能建出优质模型,普通小白也能使用。
再来看产品的技术特点。Google automl 采用的基于 Tensorflow 的神经网络模型,它会根据数据大小和时间来自动搭建合适的神经网络结构(术语称为 NAS)。这种技术的优点就是优化程度极高,用单个高度复杂的神经网络模型得到最好的结果,通俗点说就是可以得到精度很高的模型。但是任何事物都是具有两面性的,优点的背后就是缺点。采用 NAS 技术虽然能够得到非常好的模型,但是需要海量的算力支持,背后是 Google 强大的计算机工程,建立成百上千 cpu、gpu 集群才行,一般的企业和个人很难落地投产,即使是买 Google 的服务也是非常贵的,以个人测试的一个只有几万行十几列的表格数据为例,仅训练模型至少要花费 20 美金。其实在大量的商业场景中,普通的机器学习算法反而更为合适,一方面它们对算力要求不高,普通配置的电脑就能训练模型,实施起来比较容易,另一方面在商业表格数据中会存在大量的噪音,相比于神经网络,普通机器学习算法的更不容易过拟合,模型的泛化能力更强。而神经网络则更适合于计算机视觉、语音识别、记忆网络、自然语言处理等领域。
那么,对于一般的商业预测,有没有简单实用的 automl 工具呢,有的,易明 YModel 就是一款不错的工具,它是一款轻量级的软件,安装在笔记本就能运行。整个建模流程和 Googel 类似,操作起来也很简单,将数据导入软件,定义好目标变量就可以一键式建模了。模型建好后也会自动计算各种模型指标帮助用户做决策。与 Google 的 automl 相比,YModel 建模效率更高,因为它是基于普通的机器学习算法而建的,测试同样一个几万行十几列的数据几分钟就建好了,而 Google 基于神经网络的建模方式通常要花费几个小时。在价格方面 YModel 也相当便宜,与 Google 安装模型收费的方式不同,YModel 是按年计费,对于模型训练数据和预测数量没有限制,以个人版为例一年的费用也才不到 100 美金。甚至还有免费版可以用。
因此,如果是一般的商业表格数据,使用基于普通的机器算法的 YModel 非常合适,既方便又便宜,如果是图像,语音类数据那么 Google 的深度学习算法则更有优势。两种工具都非常适合没有基础的小白使用。