数据蒋堂 •
175 引用 •
108 回帖 •
590 关注
博客
关注
-
大数据和人工智能时代,数据分析是个热门话题,数据分析师貌似也是个热门职业。很多门外汉想学,但面对浩瀚繁杂的技术,也搞不清该从哪里开始。于是,经常有人问这个问题,当然还有问得更具体的,怎么能学会 ..
-
近期,蒋步星在「天善智能」直播分享了《JOIN 运算的简化与提速》,视频地址:https://edu.hellobi.com/course/197/lessons (主题二)。 接下来的几期《 ..
-
虽然我们说了不少 SQL 在性能上的不足,但是,回归 SQL 却是当前大数据计算语法的一个发展倾向。在 Hadoop 体系中,早期的 PIG Latin 已经被淘汰,而 Hive 却一直坚挺; ..
-
所谓低代码,直观来讲,就是让代码写起来更简单容易。完成同样的任务时,代码量(也就可以理解为工作量)会比其它技术更少;另外,还有个重要指标是要对开发人员的要求足够低,如果都要 N 年经验的高手来 ..
-
[图片] 我们讨论过的常规聚合运算如 SUM/COUNT 和非常规聚合运算如 maxp/top,都是事先设计好的聚合函数。但如果我们想实现一个以前没有定义过的运算怎么办?是否可以用已有的语法和 ..
-
[图片] 存储过程是数据库领域中应用非常广泛的技术,关于它的利弊讨论由来已久,我们这里针对存储过程的两个公认度较高的优点进行剖析,从而更清楚存储过程的潜在风险及应用场景。 存储过程利于界面与逻 ..
-
[图片] 我们继续从软件角度上看外存数据源的性能,来考察数据库的性能特点,在这篇文章中,我们只关心数据的访问性能,而不涉及计算性能。 关系数据库 关系数据库也是很常见的数据存储方式。本质上讲, ..
-
蒋步星《JOIN 运算的简化与提速》系列技术文章。 【数据蒋堂】第 29 期:JOIN 运算剖析 【数据蒋堂】第 30 期:JOIN 简化 – 消除关联 更多敬请期待… [图片] 我们先把上一 ..
-
自从 Hadoop 兴起之后,业界好象就有了这么一种共识:不再关注单机的运算性能,全靠集群堆。大家都在比谁的集群能更大,至于单机能力是否被充分发挥了,那没人关心。Hadoop 体系的诸多技术都 ..
-
[图片] 存储过程移植困难是经常被诟病的,在罗列存储过程的缺点时,这一条几乎从来不会被遗漏。 存储过程的移植确实很困难,一般业务逻辑复杂到需要写存储过程的地步,总会不可避免地用到数据库独有的特 ..
-
[图片] 一家之言,开个脑洞。 操作系统在市场上的关键点,并不在于进程管理、文件系统这些看起来很核心的东西,这些东西真地可以抄(借鉴一下没关系的)。操作系统要普及成功,关键在于上面开发技术的方 ..
-
[图片] 明确维度定义后,还可以换一种更清晰的方式来审视数据库的结构。 这是我们常见的 E-R 图: [图片] E-R 图是个网状结构,实体(表)之间的外键关系直接画在图上,当实体较多时这个图 ..
-
当前的大数据平台在处理结构化数据时大都仍然以提供 SQL 语法为主流。兼容 SQL 的好处是很明显的,SQL 的应用非常广泛,会 SQL 的程序员很多,如果继续采用 SQL 则可以避免许多学习 ..
-
[图片] 所谓离散性,是指集合的成员可以游离在集合之外存在并参与运算,游离成员还可以再组成新的集合。从离散性的解释上可以知道,离散性是针对集合而言的一种能力,离开集合概念单独谈离散性就没有意义 ..
-
[图片] 针对我们为数据分段设定的 4 个目标,区块方案会在灵活性和紧凑性之间出现一定的矛盾,还算不上很好,而且这个方案对于列存也不是太适合。 数据按列分别存储后,分段时必须保证各列同步,即各 ..
-
[图片] 这几天中国数据库界出了一件悲伤的事情,南大通用创始人崔维力先生突然因病去世。我和崔先生神交已久,但却未曾谋面,一直希望有机会当面沟通讨教,这一下就成永远的遗憾了。 崔先生的英年早逝( ..
-
[图片] 现在有个说法,国家对基础软硬件的投入太少,经常会说微软、Oracle、Intel 这些巨头每年的研发费有多少多少,我们的投入连个零头都不到,当然做不出什么象样的东西了。 看起来还真是 ..
-
[图片] 分组是 SQL 中常见的运算,但未必所有人都能深刻地理解它。 分组运算的实质是将一个集合按照某种规则拆分成若干个子集,也就是说,返回值应当是一个由集合构成的集合,但人们一般并不太关心 ..
-
蒋步星《JOIN 运算的简化与提速》系列技术文章。 【数据蒋堂】第 29 期:JOIN 运算剖析 【数据蒋堂】第 30 期:JOIN 简化 – 消除关联 【数据蒋堂】第 31 期:JOIN 简 ..
-
这几天有机缘结识了一位 AI 领域的大牛师弟,普及了一些 GPT 大模型的知识,趁着风头正热,做了些简单研究。 现在的神经元函数通常都是一个多元线性函数再加一个非线性的激活函数,之所以要加后者 ..
-
市场上绝大多数(甚至可以说是全部)云数据仓库都是基于 SQL 的,毕竟数据仓库的主要功能是分析计算,其它 NoSQL 技术的优势主要在 TP,在 AP 方面远远不敌 SQL。参与竞争的云服务商 ..
-
[图片] 时光匆匆,《数据蒋堂》已经走过一年。在这里,也庸俗地感谢一下读者们的一路相伴! 老实说,这一年写这玩意儿有点难度的,主要原因是时间周期卡得有点死,每周一篇执行起来是不太容易,一开始小 ..
-
[图片] 前一期 【数据蒋堂】第 21 期:常规遍历语法 我们继续讨论遍历运算的语法规则。 5. 序号的引用 SQL 延用了数学上的无序集合概念,遍历时也不关注次序。但计算机只能一步 ..
-
[图片] 遍历可以说是最基本的集合运算了,比如求和、计数、寻找最大最小值等聚合运算,按条件过滤集合、根据集合成员生成另一个新集合,也都是遍历运算。集合化语法要求我们能用很短的语句(经常就只有一 ..
-
[链接] [链接]三. JOIN 的简化 我们先看如何利用关联都涉及主键这个特征来简化 JOIN 的代码书写,分别讨论这三种情况。 1. 外键属性化 先看个例子,设有如下两个表: employ ..