数据蒋堂 •
175 引用 •
109 回帖 •
622 关注
博客
关注
-
[图片] 大数据的 4 个 V 说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似 4 个 V,我们把这些特性总结成 4 ..
-
[图片] 上一期我们说了前半有序的数据,这次我们来看看“后半”有序的情况。 回顾一下前半有序的说法:我们要把数据集 T 按字段 a,b 排序时,如果 T 已经对 a 有序,则可以利用这一特点实 ..
-
虽然我们说了不少 SQL 在性能上的不足,但是,回归 SQL 却是当前大数据计算语法的一个发展倾向。在 Hadoop 体系中,早期的 PIG Latin 已经被淘汰,而 Hive 却一直坚挺; ..
-
[图片] 我们再来看重新定义 JOIN 后如何能够提高运算性能,先看外键式 JOIN 的情况。 设有两个表: products 商品信息表 id商品编号 name商品名称 price单价 …… ..
-
近期,蒋步星在「天善智能」直播分享了《JOIN 运算的简化与提速》,视频地址:https://edu.hellobi.com/course/197/lessons (主题二)。 接下来的几期《 ..
-
所谓低代码,直观来讲,就是让代码写起来更简单容易。完成同样的任务时,代码量(也就可以理解为工作量)会比其它技术更少;另外,还有个重要指标是要对开发人员的要求足够低,如果都要 N 年经验的高手来 ..
-
蒋步星《JOIN 运算的简化与提速》系列技术文章。 【数据蒋堂】第 29 期:JOIN 运算剖析 【数据蒋堂】第 30 期:JOIN 简化 – 消除关联 更多敬请期待… [图片] 我们先把上一 ..
-
自从 Hadoop 兴起之后,业界好象就有了这么一种共识:不再关注单机的运算性能,全靠集群堆。大家都在比谁的集群能更大,至于单机能力是否被充分发挥了,那没人关心。Hadoop 体系的诸多技术都 ..
-
[图片] 存储过程是数据库领域中应用非常广泛的技术,关于它的利弊讨论由来已久,我们这里针对存储过程的两个公认度较高的优点进行剖析,从而更清楚存储过程的潜在风险及应用场景。 存储过程利于界面与逻 ..
-
[图片] 我们讨论过的常规聚合运算如 SUM/COUNT 和非常规聚合运算如 maxp/top,都是事先设计好的聚合函数。但如果我们想实现一个以前没有定义过的运算怎么办?是否可以用已有的语法和 ..
-
基于对象 - 事件模式(schema)的数据计算,可以说是商业中最常见的一种数据分析任务。这里说的对象可以是电商系统用户、游戏玩家、银行账号、手机、车辆等等,通常会有个唯一的 ID,对象涉及的 ..
-
[图片] 存储过程移植困难是经常被诟病的,在罗列存储过程的缺点时,这一条几乎从来不会被遗漏。 存储过程的移植确实很困难,一般业务逻辑复杂到需要写存储过程的地步,总会不可避免地用到数据库独有的特 ..
-
[图片] 明确维度定义后,还可以换一种更清晰的方式来审视数据库的结构。 这是我们常见的 E-R 图: [图片] E-R 图是个网状结构,实体(表)之间的外键关系直接画在图上,当实体较多时这个图 ..
-
[图片] 一家之言,开个脑洞。 操作系统在市场上的关键点,并不在于进程管理、文件系统这些看起来很核心的东西,这些东西真地可以抄(借鉴一下没关系的)。操作系统要普及成功,关键在于上面开发技术的方 ..
-
市场上绝大多数(甚至可以说是全部)云数据仓库都是基于 SQL 的,毕竟数据仓库的主要功能是分析计算,其它 NoSQL 技术的优势主要在 TP,在 AP 方面远远不敌 SQL。参与竞争的云服务商 ..
-
[图片] 所谓离散性,是指集合的成员可以游离在集合之外存在并参与运算,游离成员还可以再组成新的集合。从离散性的解释上可以知道,离散性是针对集合而言的一种能力,离开集合概念单独谈离散性就没有意义 ..
-
当前的大数据平台在处理结构化数据时大都仍然以提供 SQL 语法为主流。兼容 SQL 的好处是很明显的,SQL 的应用非常广泛,会 SQL 的程序员很多,如果继续采用 SQL 则可以避免许多学习 ..
-
这几天有机缘结识了一位 AI 领域的大牛师弟,普及了一些 GPT 大模型的知识,趁着风头正热,做了些简单研究。 现在的神经元函数通常都是一个多元线性函数再加一个非线性的激活函数,之所以要加后者 ..
-
[图片] 针对我们为数据分段设定的 4 个目标,区块方案会在灵活性和紧凑性之间出现一定的矛盾,还算不上很好,而且这个方案对于列存也不是太适合。 数据按列分别存储后,分段时必须保证各列同步,即各 ..
-
[图片] 这几天中国数据库界出了一件悲伤的事情,南大通用创始人崔维力先生突然因病去世。我和崔先生神交已久,但却未曾谋面,一直希望有机会当面沟通讨教,这一下就成永远的遗憾了。 崔先生的英年早逝( ..
-
[链接]JOIN 系列 [链接] [链接] [链接] [链接] [链接] [链接] [链接] [链接] 连接运算(JOIN)一直是 SQL 中的老大难问题。在关联表稍多一点的时候,代码书写就变 ..
-
[图片] 时光匆匆,《数据蒋堂》已经走过一年。在这里,也庸俗地感谢一下读者们的一路相伴! 老实说,这一年写这玩意儿有点难度的,主要原因是时间周期卡得有点死,每周一篇执行起来是不太容易,一开始小 ..
-
蒋步星《JOIN 运算的简化与提速》系列技术文章。 【数据蒋堂】第 29 期:JOIN 运算剖析 【数据蒋堂】第 30 期:JOIN 简化 – 消除关联 【数据蒋堂】第 31 期:JOIN 简 ..
-
[图片] 分组是 SQL 中常见的运算,但未必所有人都能深刻地理解它。 分组运算的实质是将一个集合按照某种规则拆分成若干个子集,也就是说,返回值应当是一个由集合构成的集合,但人们一般并不太关心 ..
-
[图片] 现在有个说法,国家对基础软硬件的投入太少,经常会说微软、Oracle、Intel 这些巨头每年的研发费有多少多少,我们的投入连个零头都不到,当然做不出什么象样的东西了。 看起来还真是 ..