计算&AI •
990 引用 •
1070 回帖 •
471 关注
博客
关注
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID ProductID Quantity … 2022/6/1 10:20 1072755 1 7 … 2022/6/1 1 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID ProductID Quantity … 2022/6/1 10:20 1072755 1 7 … 2022/6/1 1 ..
-
用户画像分析需要使用众多标签来描述用户属性,通常有两类标签。一类用户标签的值可能有多个,比如用户学历是中学、大学、研究生、博士等,年龄段是 children、juvenile、youth、mi ..
-
高并发帐户查询的应用场景有很多,例如:手机银行查流水、电商系统查购物订单、手游帐户查充值记录等等。这些场景一般会涉及众多帐户,数据总量非常大,需要外存。每个帐户的数据量通常不大(几条到几千条) ..
-
观察一些大型用户的 BI 系统,经常会发现数据仓库中有很多快照表。如某交易业务的 BI 系统,交易明细表很大,被按月存储成多个分段表。还有一些相对不太大的表,计算时要和交易明细表关联,比如客户 ..
-
用户分析(或帐户分析),是指对用户、帐户明细数据进行统计分析计算。常见的有:用户行为分析、银行帐户统计、漏斗转化率、保险单分析等等。 这类场景涉及众多用户的历史数据,总数据量巨大(几千万甚至上 ..
-
很多数据仓库产品都采用了列式存储。如果数据表的总列数很多而计算涉及的列很少,采用列存就只读取需要的列即可,能够减少硬盘访问量,提高性能。特别是数据量非常大时,硬盘扫描和读取的时间占比很大,这时 ..
-
物理上存储数据的表(简称物理表)往往会采用一些有利于提升性能、减小空间占用的存储机制。 但是,这些机制往往会降低数据可读性,且增加使用的复杂度。比如用整数代替枚举值,或者用整型字段的二进制位存 ..
-
与以磁盘存储为主的普通数据库相比,内存数据库的数据访问速度可以高出几个数量级,能大幅提高运算性能,更适合高并发、低延时的业务场景。 不过,当前大部分内存数据库仍然采用 SQL 模型,而 SQL ..
-
概要 通过调用java.sql.DatabaseMetaData 类中的各种方法,程序可以动态了解数据库,获取数据源连接到的数据库表结构等信息。 本文主要介绍如何在 JAVA 中使用 Data ..
-
基于 JVM 的开源数据处理语言主要有 Kotlin、Scala、SPL,下面对三者进行多方面的横向比较,从中找出开发效率最高的数据处理语言。本文的适用场景设定为项目开发中常见的数据处理和业务 ..
-
**【摘要】** 集算器 SPL 语言支持多样性数据源,通过 SPL 对 MongoDB 多个集合进行 join 关联, ..
-
我们工作中写 SQL 处理数据是家常便饭,不管是应用内数据处理还是临时查询分析都可以用 SQL 完成,相对其他技术(如 Java 等高级语言)也更简单。不过,SQL 的简单只限于简单需求,有些 ..
-
多维分析(OLAP)通常要求极高的响应效率,当涉及的数据量很大时,每次都基于明细数据汇总效率就会很低,人们会考虑采用预汇总的方式加快查询速度,即事先将要查询的结果计算好,使用时直接读取预汇总结 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID ProductID Quantity 2022/6/1 10:20 1072755 3 1000 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID ProductID Quantity 2022/6/1 10:20 1072755 3 1000 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID EventType Product Quantity Unit Price … 2022/6/1 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID EventType 2022/6/1 10:20 1072755 3 Search 2022/6 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID EventType 2022/6/1 10:20 1072755 3 Search 2022/6 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventType 2022/6/1 10:20 1072755 Search 2022/6/1 12:12 10780 ..
-
JOIN 一直是数据库性能优化的老大难问题,本来挺快的查询,一旦涉及了几个 JOIN,性能就会陡降。而且,参与 JOIN 的表越大越多,性能就越难提上来。 其实,让 JOIN 跑得快的关键是要 ..
-
数据湖概述 提到数据湖就要先说一下数据仓库,数据仓库是集成多业务系统数据、面向主题的、专门用于数据查询分析的数据组织形式。当业务系统数据量不断增大、业务系统数量不断增多以后,数据仓库的出现就会 ..
-
在 JAVA 应用中经常要处理 txt\csv\json\xml\xls 这类公共格式的数据文件,直接用 JAVA 硬写会非常麻烦,通常要借助一些现成的开源包,但这些开源包也都有各自的不足。 ..
-
依据用户、帐户明细数据做统计分析的场景比较常见。比如:用户行为分析、银行帐户统计、漏斗转化率、保险单分析等等,我们统称为帐户分析。这类场景的特征是:总数据量巨大但单个帐户数据量相对很小;数据涉 ..
-
连接(JOIN)用于把来自两个或多个表的记录结合起来。本文将探讨对于连接问题,SPL 的解决方案和基本原理。 表之间存在 ..