数据蒋堂 •
175 引用 •
108 回帖 •
593 关注
博客
关注
-
多维分析一般是交互式操作的,也就要求有极高的响应速度,而多维分析涉及的数据量常常很大,几千万上亿行甚至更大都有,临时统计很可能跟不上界面的操作。为了保证性能,一些多维分析产品采用了预汇总方案, ..
-
这几天有机缘结识了一位 AI 领域的大牛师弟,普及了一些 GPT 大模型的知识,趁着风头正热,做了些简单研究。 现在的神经元函数通常都是一个多元线性函数再加一个非线性的激活函数,之所以要加后者 ..
-
[链接] [链接]以下是附录 我们在摘要中说,离散数据集的设计目标是为了解决关系代数的各种问题。但前面的文字仅是在定义离散数据集的数据类型及其上的运算,并没有涉及背后的原因。仅仅阅读上面的正文 ..
-
自从 Hadoop 兴起之后,业界好象就有了这么一种共识:不再关注单机的运算性能,全靠集群堆。大家都在比谁的集群能更大,至于单机能力是否被充分发挥了,那没人关心。Hadoop 体系的诸多技术都 ..
-
BI 和 AI 中都有个 I,对应的英文单词都是 Intelligence,看起来是同一个意思。 其实不然,即使我们只在商业领域中讨论问题,BI 和 AI 中的 I 也有很大的不同。 广义地来 ..
-
所谓低代码,直观来讲,就是让代码写起来更简单容易。完成同样的任务时,代码量(也就可以理解为工作量)会比其它技术更少;另外,还有个重要指标是要对开发人员的要求足够低,如果都要 N 年经验的高手来 ..
-
[链接] [链接]八、有序归并 我们再来看同维表和主子表的 JOIN,这两种情况的优化提速手段是类似的。 我们前面讨论过,HASH JOIN 算法的计算复杂度(即关联键的比较次数)是 sum( ..
-
[链接] [链接]七、进一步的外键关联 我们继续讨论外键 JOIN,并延用上一篇的例子。 当数据量大到无法全部放进内存时,前述的地址化方法就不再有效了,因为在外存无法保存事先算好的地址。 一般 ..
-
[链接] 我们再来研究如何利用 JOIN 的特征实现性能优化,这些内容的细节较多,我们挑一些易于理解的情况来举例,更完善的连接提速算法可以参考乾学院上的《性能优化》图书及课程。 [链接]六、外 ..
-
http://c.raqsoft.com.cn/article/1620171465902 五. 解决关联查询 我们重新审视和定义了等值 JOIN 运算,并简化了语法。一个直接的效果显然是让语 ..
-
[链接] [链接]四. 维度对齐 我们再回顾前面的双子表例子的 SQL: SELECT Orders.id, Orders.customer, A.x, B.y FROM Orders LEF ..
-
[链接] [链接]三. JOIN 的简化 我们先看如何利用关联都涉及主键这个特征来简化 JOIN 的代码书写,分别讨论这三种情况。 1. 外键属性化 先看个例子,设有如下两个表: employ ..
-
[链接] [链接]二. 等值 JOIN 的剖析 我们来考察下面三种等值 JOIN: 1. 外键关联 表 A 的某个字段和表 B 的主键字段关联(所谓字段关联,就是前一节说过的在等值 JOIN ..
-
[链接] 连接运算(JOIN)一直是 SQL 中的老大难问题。在关联表稍多一点的时候,代码书写就变得很容易出错了。而且因为 JOIN 语句的复杂,导致关联查询也一向是 BI 软件的软肋,几乎没 ..
-
报表的业务稳定性天生很差,业务开展过程中会催生出许多新的查询统计需求,这就会造成了没完没了的报表,这也是许多行业软件开发商头疼的事情。投入很多人力依然搞得灰头土脸,也花了不少钱买了报表工具和 ..
-
当前市场上有不少基于 Hadoop 的商用数据仓库产品,大部分都是有投资背景的,通常来讲,投资这种东西主要是因为有某种技术门槛,指望有过人的技术来挣大钱。但是,仔细分析这个业务,却很难想出它的 ..
-
中学的哲学课就说过,事物是普遍联系的,所以,很多有业务意义的查询都会涉及多个数据表的关联。 数据分析以及 BI 类软件通常会提供自助查询功能,有些软件还能支持关联查询,但实际使用的大多数还是单 ..
-
如果说有什么通用软件领域是国内产品的技术要比国外产品更好,那估计只有报表工具了。 数据库、操作系统这些耳熟能详的基础软件,国产货和外国货相比是个什么状态,大家也都心知肚明;开发工具、编译器、甚 ..
-
[图片] 我们在学习 SQL 时,常常会看到这样的论调:SQL 是一种描述性语言,你只需要告诉它要做什么,而不需要告诉它怎么做,它会自己找到实现方法。也就是说,你要只用它描述任务目标,而不需要 ..
-
[图片] 我们知道,数据库的数据处理能力是封闭的。所谓封闭性,这里是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。 数据库一般有 OLTP 和 OL ..
-
按:在敏捷 BI 横行的年代,报表这个概念也有了更大的外延,很多用户甚至技术人员都会将由复杂格式报表与 BI 系统中拖拽出来的报表混为一谈。这是一篇 2004 年底写的老文,现在重读,对于理解 ..
-
[图片] 当我们要对数据做一些非常规的复杂运算时,通常要将数据装入内存。现在也有不少程序设计语言提供了内存数据集对象及基本的运算方法,可以较方便地实现这类运算。不过,如果对内存数据集的工作原理 ..
-
[图片] 报表的业务稳定性天生很差,业务开展过程中会催生出许多新的查询统计需求,这就造成了没完没了的报表,这是个无法被消灭的任务,也是许多行业软件开发商非常头疼的事情。投入了很多人力,也引入了 ..
-
[图片] 上一期我们说了前半有序的数据,这次我们来看看“后半”有序的情况。 回顾一下前半有序的说法:我们要把数据集 T 按字段 a,b 排序时,如果 T 已经对 a 有序,则可以利用这一特点实 ..
-
[图片] 最近碰到这么一个案例,情况可以简化总结成这样:数据库中有表 T,其中有两个重要的字段 a 和 b,a 是一个时间戳,精确到秒;b 是用户号;其它字段用来表示用户 b 在时刻 a 发生 ..