计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
问题描述 国家天文台有个聚类任务:共 11 份数据,每份数据是从一张照片中提取出来的,包含 500 多万条记录,每条记录是一个天体的坐标及属性。11 张“照片”中有些天体坐标是重复的,但这些重 ..
-
HTAP(Hybrid Transaction and Analytical Process,混合事务和分析处理)自 2014 年明确提出以后成为了很多数据库厂商努力的方向。其实 HATP 并 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventType … 2022/6/1 10:20 1072755 Search … 2022/6/1 12:12 1 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventType … 2022/6/1 10:20 1072755 Search … 2022/6/1 12:12 1 ..
-
在 Java 下实现以数据库为核心的业务逻辑,需要具备三项要素:数据库表的对象化、结构化数据计算能力、流程处理能力。Hibernate 是老牌技术,很早就具备了三项要素,已经在众多项目中实现了 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventType OS Browser … f1 f2 f3 f4 f5 … 2022/6/1 10:20 10727 ..
-
开源分析数据库 ClickHouse 以快著称,真的如此吗?我们通过对比测试来验证一下。 ClickHouse vs Oracle 先用 ClickHouse(简称 CH)、Oracle 数据 ..
-
SQL 作为目前最常用的数据处理语言,广泛应用于查询、跑批等场景。当数据量较大时,使用 SQL(以及存储过程)经常会发生跑得很慢的情况,这就要去优化 SQL。优化 SQL 有一些特定的套路,通 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID ProductID Quantity … 2022/6/1 10:20 1072755 1 7 … 2022/6/1 1 ..
-
我们工作中写 SQL 处理数据是家常便饭,不管是应用内数据处理还是临时查询分析都可以用 SQL 完成,相对其他技术(如 Java 等高级语言)也更简单。不过,SQL 的简单只限于简单需求,有些 ..
-
基于 JVM 的开源数据处理语言主要有 Kotlin、Scala、SPL,下面对三者进行多方面的横向比较,从中找出开发效率最高的数据处理语言。本文的适用场景设定为项目开发中常见的数据处理和业务 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID ProductID Quantity … 2022/6/1 10:20 1072755 1 7 … 2022/6/1 1 ..
-
用户画像分析需要使用众多标签来描述用户属性,通常有两类标签。一类用户标签的值可能有多个,比如用户学历是中学、大学、研究生、博士等,年龄段是 children、juvenile、youth、mi ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID ProductID Quantity 2022/6/1 10:20 1072755 3 1000 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID ProductID Quantity 2022/6/1 10:20 1072755 3 1000 ..
-
高并发帐户查询的应用场景有很多,例如:手机银行查流水、电商系统查购物订单、手游帐户查充值记录等等。这些场景一般会涉及众多帐户,数据总量非常大,需要外存。每个帐户的数据量通常不大(几条到几千条) ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID EventType Product Quantity Unit Price … 2022/6/1 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID EventType 2022/6/1 10:20 1072755 3 Search 2022/6 ..
-
物理上存储数据的表(简称物理表)往往会采用一些有利于提升性能、减小空间占用的存储机制。 但是,这些机制往往会降低数据可读性,且增加使用的复杂度。比如用整数代替枚举值,或者用整型字段的二进制位存 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventTypeID EventType 2022/6/1 10:20 1072755 3 Search 2022/6 ..
-
目标任务 用户事件表T结构和部分数据示例如下: Time UserID EventType 2022/6/1 10:20 1072755 Search 2022/6/1 12:12 10780 ..
-
观察一些大型用户的 BI 系统,经常会发现数据仓库中有很多快照表。如某交易业务的 BI 系统,交易明细表很大,被按月存储成多个分段表。还有一些相对不太大的表,计算时要和交易明细表关联,比如客户 ..
-
在 JAVA 应用中经常要处理 txt\csv\json\xml\xls 这类公共格式的数据文件,直接用 JAVA 硬写会非常麻烦,通常要借助一些现成的开源包,但这些开源包也都有各自的不足。 ..
-
用户分析(或帐户分析),是指对用户、帐户明细数据进行统计分析计算。常见的有:用户行为分析、银行帐户统计、漏斗转化率、保险单分析等等。 这类场景涉及众多用户的历史数据,总数据量巨大(几千万甚至上 ..
-
依据用户、帐户明细数据做统计分析的场景比较常见。比如:用户行为分析、银行帐户统计、漏斗转化率、保险单分析等等,我们统称为帐户分析。这类场景的特征是:总数据量巨大但单个帐户数据量相对很小;数据涉 ..