计算&AI •
874 引用 •
939 回帖 •
447 关注
博客
关注
-
将两个表或者多个表关联在一起是常见的运算,这时通常使用 SQL join 的方式进行关联并进行后续计算。但有时数据并不存储在数据库,而是以文件的形式存储在文件系统,单纯为了计算而把数据存储到数 ..
-
前言 大数据时代,数据挖掘技术也从科研实验室走向了各种商业化的应用。但是, 对于我们大部分没有专业背景的人来讲,对数据挖掘的理解可能还是一个非常模糊的概念,仅仅知道数据科学家是一个高薪职业,自 ..
-
Case 1 背景:某银行个人分期违约数据,预测个人用户违约概率 数据集:290 万行,37 列, 477MB 目标变量:是否违约 评估内容: 测试集上模型表现:AUC、前 10%Lift、模 ..
-
一、 问题描述 键值查询是很常见的查询场景,在数据表上建有索引后,即使表中数据记录数巨大(几亿甚至几十亿行),用键值查询出单条记录也会很快,因为建立索引后的复杂度只有 ..
-
[图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [ ..
-
问题描述 X 公司资产负债表,访问人员众多,访问频次很高,明细数据约 6000 万,业务人员要等待 60 秒以上才能看到结果,响应速度严重影响业务,急需优化。 报表表样如下: [图片] 解决过 ..
-
对于一个数据挖掘项目而言,我们可以选择的模型众多,比如我们可以选择:线性回归、Logistic 回归、决策树、集成算法等,同样对于一个模型而言,也有很多参数和图形来评估模型好坏。数据挖掘的目的 ..
-
Pandas 是 python 的一个数据分析包,是基于 NumPy 的一种数据分析工具,其中纳入了大量库和一些标准的数据模型,提供了快速便捷地处理数据的函数和方法,是高效地操作结构化数据集所 ..
-
数据挖掘模型建好后,我们通常会关注建模时的准确率查全率等指标,但是常常会忽略模型另一个重要指标:模型的衰减程度,也就是模型在实际应用中预测能力的变化(一般都会越用越差)。 为什么会发生模型衰减 ..
-
如今,提到人工智能,几乎无人不谈深度学习,似乎不用深度学习就不好意思谈人工智能。今天我们就用几分钟的时间来讲一下深度学习到底是什么,有什么用。 首先深度学习并不等于人工智能,它只是一种算法,和 ..
-
目前,由于数据挖掘技术的门槛较高,实现起来复杂度较大,因此一般一个数据挖掘项目通常就是建立一个模型,这个模型要尽量有更广泛的应用范围。这样做其实会导致模型的适应能力下降,而多个模型适用效果就远 ..
-
我们知道一个完整的数据挖掘项目通常包含以下流程(1)业务理解、(2)数据理解、(3)数据准备、(4)数据预处理和建模、(5)模型评估、(6)模型部署应用。而要完成一个数据挖掘任务,必须要具备两 ..
-
看看问题 S银行POS交易情况报表很慢,业务人员要等待一个多小时(3700秒)才能看到结果,严重影响业务。报表表样如下: [图片] 解决步骤 首先,要理解业务和计算特征。POS交易情况表连接数 ..
-
随着人工智能技术的火热,各种 AI 培训也应运而生,翻阅各种社交网站和 APP,几乎每天都能刷到 Python、人工智能相关的文章,点进去很大一部分都是培训机构给自家 AI 课程打的广告。那么 ..
-
机器学习发展到今天已经有众多优秀前辈给我们贡献了各种各种现成的开源包 以最流行的 Scikit-learn 为例,提供了包括回归 (Regression)、降维(Dimensionality ..
-
【摘要】 C 银行的资金头寸报表很慢,严重影响业务,如何解决?点击了解 ${article} 看看问题 C银行有个资金**报表很慢,业务人员要等待1分30秒才能看到结果。资金**报表非常重要, ..
-
我们知道,数据挖掘的基本流程包括:(1)业务理解、(2)数据理解、(3)数据准备、(4)数据预处理和建模、(5)模型评估、(6)模型部署应用。其中第 4 步,数据预处理和建模是整个流程的核心部 ..
-
为了回答这个问题,我们先来了解一下建模的流程,通常一个完整的数据挖掘项目包含以下流程(1)业务理解、(2)数据理解、(3)数据准备、(4)数据预处理和建模、(5)模型评估、(6)模型部署应用。 ..
-
当前,提到人工智能、数据科学几乎就一定会提到 Python,很多人工智能相关的课程实质上也都在大篇幅的讲 Python,有的初学者甚至认为人工智能和 Python 是划等号的,随着人工智能概念 ..
-
数据挖掘通常需要结构化数据才能建模,而不是近些年来热闹的非结构化数据,预测建模仍然是结构化数据上的运算! 所谓结构化数据,是指表现为二维形式的数据,一般特点是:数据以行(也称样本)为单位,一行 ..
-
各行各业都对数据挖掘表现出极大兴趣,也纷纷展开了应用尝试,但成功案例并不多,这是为什么呢? 1. 数据质量差 玩数据就像挖金矿。如果含金量高,那么挖掘难度就小,出金率就高,如果含金量低,那么就 ..
-
数据挖掘其实是个“古老”的技术,已经有几十年历史了,近年来红火的人工智能又让这个古老技术有了更多关注。 那么,到底什么是数据挖掘呢?它又能做什么事呢? 傍晚小街路面上沁出微雨后的湿润,和煦的细 ..
-
【摘要】 大表自己关联自己的情况是比较常见的需求,关系数据库实现起来性能不尽如人意。有没有更好的计算方法,可以快速计算大数据量明细表的自关联性能问题?点击 ${article} 了解集算器高性 ..
-
集算器提供了标准的 JDBC\ODBC 驱动,实现了规范的元数据接口,支持常见的 JAVA\ 非 JAVA BI 工具。集算器以高性能文件存储和高效压缩存储为基础,支持宽表预汇总、关联表预关联 ..
-
[图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片][图片] ..