数据蒋堂 •
175 引用 •
108 回帖 •
590 关注
博客
关注
-
就是非常不起眼的帐号去重计数,用 SQL 写就是 COUNT(DISTINCT …)。 帐号去重计数在商业分析中很常见也有重要的业务意义。这里的帐号可能是用户 ID、银行帐户、手机号、车牌号、 ..
-
很多小微型应用程序也需要一些数据处理和计算能力,如果集成一个数据库就显得太沉重了,小巧轻量的 SQLite 是个不错的选择,因而被广泛应用。 不过,SQLite 也有些不方便的地方。SQLit ..
-
Oracle 是普遍使用的数据库,它不是专业的分析型数据库,在数据量较大时常常会计算性能不佳,影响用户体验。现在有不少新的分析型数据库在性能上比 Oracle 更快,甚至可以说远超。那么在 O ..
-
Hibernate,Mybatis 以及新兴的 JOOQ 等 ORM 技术能够方便地将数据库表映射成 Java 对象,并提供自动读写能力。ORM 技术使得用 Java 开发数据库应用变得更为高 ..
-
大数据时代的分布式数仓(如 MPP)是个热门技术,甚至到了提到数据仓库言必称分布式的地步。 但是,分布式数仓真有必要吗?毕竟这些分布式数仓产品都不便宜,无论是采购成本还是运维成本都很高。是不是 ..
-
年代久远的数据使用频率通常会变低,这时候怎么存储和计算就是个问题。 使用频率低并不等于完全不再使用。如果把这些数据都从数据库中归档出去,再查询统计时又要再次导入数据库,费时费力。经常会发生查询 ..
-
微服务这些年比较时髦,用 Java 取代 SQL 及存储过程开发业务逻辑,确实能获得架构上的优势,细节这里就不展开了,微服务能流行当然有它的道理。 但微服务真地“微”吗? 我们知道,面对同样业 ..
-
存储过程是个让人爱恨交加的东西。 它的意义自不必提,各大老牌数据库都支持,而且经常以此来挤兑一些还不支持存储过程的新数据库。反过来,它的缺点也很明显,能见到很多开发团队在努力拆除存储过程,在应 ..
-
任意的 SQL 语句都可移植是做不到的。因为各种数据库的功能并不一样,某些数据库的语法在另一种数据库中根本就没有对应的实现机制,这时当然就不可能移植了。 如果我们不用数据库的特殊功能,只在国际 ..
-
更多地使用 Java 而避免存储过程和复杂 SQL 是当前应用开发的一个潮流,这会在架构上带来优势,但用 Java 实现 SQL 式的运算并不是非常方便,很多任务要从头写起,开发效率其实反而会 ..
-
ClickHouse 是近年来分析型数据库的热点,一向以快著称,很多其它以性能为卖点的分析型数据库也常常会用它作为一个对比标杆。很多用户碰到数据库运算性能问题时,也会考虑转向求助于 Click ..
-
这几天有机缘结识了一位 AI 领域的大牛师弟,普及了一些 GPT 大模型的知识,趁着风头正热,做了些简单研究。 现在的神经元函数通常都是一个多元线性函数再加一个非线性的激活函数,之所以要加后者 ..
-
作为程序语言,SPL 有一些自有的特点,不了解这些并不影响上手学习,但在架构设计或代码编写上都难以充分发挥其功能。这里试图为初步者建立一套 SPL 的基本概念骨架,其它更多的内容再根据实际需求 ..
-
市场上绝大多数(甚至可以说是全部)云数据仓库都是基于 SQL 的,毕竟数据仓库的主要功能是分析计算,其它 NoSQL 技术的优势主要在 TP,在 AP 方面远远不敌 SQL。参与竞争的云服务商 ..
-
[链接] [链接]以下是附录 我们在摘要中说,离散数据集的设计目标是为了解决关系代数的各种问题。但前面的文字仅是在定义离散数据集的数据类型及其上的运算,并没有涉及背后的原因。仅仅阅读上面的正文 ..
-
自从 Hadoop 兴起之后,业界好象就有了这么一种共识:不再关注单机的运算性能,全靠集群堆。大家都在比谁的集群能更大,至于单机能力是否被充分发挥了,那没人关心。Hadoop 体系的诸多技术都 ..
-
SPL?不是经常宣传来用于数据仓库计算的、叫板 SQL 的语言吗?还能做量化? 没错,SPL 不仅能做大数据高性能算法,还能做股票量化交易策略,不仅可以做,而且方便得很。 长话短说。近三两年来 ..
-
BI 和 AI 中都有个 I,对应的英文单词都是 Intelligence,看起来是同一个意思。 其实不然,即使我们只在商业领域中讨论问题,BI 和 AI 中的 I 也有很大的不同。 广义地来 ..
-
所谓低代码,直观来讲,就是让代码写起来更简单容易。完成同样的任务时,代码量(也就可以理解为工作量)会比其它技术更少;另外,还有个重要指标是要对开发人员的要求足够低,如果都要 N 年经验的高手来 ..
-
数据库可以说是通用软件领域中最挣钱的产品了,这些年的市场也是相当热闹。这个时刻说数据库会消失,是不是有点胡扯了? 且听我一家之言。 数据库的任务主要是解决数据的存储和计算,只要应用软件还在做, ..
-
我们之前做过一些性能优化的案例,不算很多,还没有失手过。少则提速数倍,多则数十倍,极端情况还有提速上千倍的。提速一个数量级基本上是常态。下面是一些案例材料: [链接] [链接] [链接] [链 ..
-
低代码这个词突然热闹起来,冒出一堆创业团队搞这东西。以前只知道代码有长短,现在才知道代码还有高低。 低代码是干吗的?说是用来做某种软件的开发平台,某种软件主要是指管理信息系统,俗称 MIS。M ..
-
[链接] [链接]八、有序归并 我们再来看同维表和主子表的 JOIN,这两种情况的优化提速手段是类似的。 我们前面讨论过,HASH JOIN 算法的计算复杂度(即关联键的比较次数)是 sum( ..
-
[链接] [链接]七、进一步的外键关联 我们继续讨论外键 JOIN,并延用上一篇的例子。 当数据量大到无法全部放进内存时,前述的地址化方法就不再有效了,因为在外存无法保存事先算好的地址。 一般 ..
-
[链接] 我们再来研究如何利用 JOIN 的特征实现性能优化,这些内容的细节较多,我们挑一些易于理解的情况来举例,更完善的连接提速算法可以参考乾学院上的《性能优化》图书及课程。 [链接]六、外 ..