• •      •    1,651 浏览    •   2018-10-23 17:22:35

    BI 系统的前置计算 

    [图片] 某机构上了一套分布式数据仓库,历史数据逐步装进了仓库,然后,基于数据仓库构建了 BI 系统(主要是多维分析)。刚开始,一切都顺利,但随着时间推移,基于中央数据仓库的应用越来越多,几年 ..
  • •      •    1,073 浏览    •   2018-10-16 18:04:56

    性能优化是个手艺活 

    [图片] 大数据的技术本质就是高性能,性能优化也是程序员们的永恒话题。 这里说的性能优化,主要是指在程序员的努力下能达到某种性能提升效果的过程。只要简单换台机器就能加速的事情,业主方要么早就做 ..
  • •      •    1,333 浏览    •   2018-10-10 10:16:13

    数据分布背后的逻辑 

    [图片] 在分布式数据库及大数据平台中,数据如何分布到多台机器中是个很关键的问题。因为很多运算是数据密集型的,如果数据分布做得不好,就会导致网络传输量变大,从而影响性能。 一般来讲,分布式数据 ..
  • •      •    1,352 浏览    •   2018-08-29 11:37:39

    为什么我们需要 C 程序员 

    [图片] 再说一个招聘的话题。 大家可能知道,润乾的软件产品主体都是 Java 写的,几乎没有别的语言。但是,我们在招聘算法程序员时,从来都要求 C 语言背景,会不会 Java 反而无所谓,而 ..
  • •      •    1,911 浏览    •   2018-08-29 11:37:00

    从一道招聘考题谈起 

    [图片] 润乾研发部在招聘时有一个笔试题: 1/2,1/5,1/20,1/64,1/125 都可以写成有限小数,而 1/3,1/7,1/15,1/24 则必须写成无限循环小数。请指出能写成有限 ..
  • •      •    1,620 浏览    •   2021-04-02 06:47:47

    报表工具的 SQL 植入风险 

    [图片] 所有的报表工具都会提供参数功能,主要都是用于根据用户输入的查询条件来选取合适的数据。比如希望查询指定时间段的数据,就可以把时间段作为参数传递给报表,报表在从数据库中取数时将这些参数应 ..
  • •      •    1,077 浏览    •   2018-08-29 11:29:46

    内置的数据无法实现高性能 

    [图片] 这里说的“内”, 是指数据库之内。 当数据量变大时,我们常常会感到数据库的性能下降明显,但是,无论怎样优化 SQL(存储过程)都仍然与根据数据量和运算复杂度计算出来的理论性能相差甚远 ..
  • •      •    2,212 浏览    •   2018-08-10 14:54:36

    怎样生成有关联的测试数据 

    [图片] 在向用户推荐新的数据处理技术,特别是涉及性能优化的场景时,经常会碰到生成测试数据的需求。毕竟,新方案要经过验证才能提交,而优化过程也不是一次就做完的,需要多次不断的迭代改进,这就需要 ..
  • •      •    931 浏览    •   2018-08-10 14:51:37

    遍历复用 

    [图片] 减少外存(硬盘)访问量一直是提高大数据计算性能的永恒话题,我们也讨论过列存、压缩等直接减少访问量甚至存储量的手段。除了这些存储层面的方法外,在算法和计算实现环节,也可以想办法减少外存 ..
  • •      •    890 浏览    •   2021-11-09 08:53:31

    数据压缩随笔 

    [图片] 我们知道,外存(硬盘)的性能远远低于内存,即使是同样复杂度的运算(CPU 计算量相同),如果能减少外存的访问量,也会大大提高整体性能。甚至有时我们需要用 CPU 换硬盘,即宁可多消耗 ..
  • [图片] 最近碰到几家用户在使用 HBase 或者试图使用 HBase 来做高性能查询,场景也比较类似,就是从几十亿甚至上百亿记录中按键值找出相关记录来。按说,这种 key-value 式的数 ..
  • [图片] 用户在选购 BI 解决方案的时候,常常会更关注界面环节的功能指标,比如美观性、操作的流畅性、移动端支持等等。毕竟,BI 是要给业务人员使用的,这些看得见的内容一般不容易被遗漏。 然而 ..
  • [图片] 经常有用户会问这个问题,你家的产品能处理多大数据量?似乎是这个值越大产品就越牛。 这个问题,其实没多大意义。 能处理多大的数据量,还有个很关键的因素是期望的响应时间,在脱离这个因素单 ..
  • [图片] 大数据的性能是个永恒的话题。但是,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被大数据厂商忽悠:)。 这个办法在以往也提到过,不过没有以这个题目明确地点出来 ..
  • •      •    916 浏览    •   2018-08-10 14:41:42

    大清单报表的打印? 

    [图片] 我们谈了大清单报表的呈现方法,其实有时候这些报表还需要打印,比如银行打印流水对账单。 那么,打印是不是也要像呈现那样做一个缓存机制呢? 没有这个必要。打印和浏览不同,一般是从头到尾过 ..
  • •      •    1,568 浏览    •   2018-08-10 14:41:21

    大清单报表应当怎么做? 

    [图片] 在数据查询时,有时会碰到数据量很大的清单报表。用户输入的查询条件很宽泛,可能会从数据库中查出几百上千万行甚至过亿的记录。如果等着把这些记录全部检索出来再生成报表呈现,那需要很长时间, ..
  • •      •    919 浏览    •   2018-08-10 14:40:58

    大数据技术的 4 个 E 

    [图片] 大数据的 4 个 V 说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似 4 个 V,我们把这些特性总结成 4 ..
  • •      •    771 浏览    •   2018-08-10 14:40:37

    做基础软件很悲壮? 

    [图片] 这几天中国数据库界出了一件悲伤的事情,南大通用创始人崔维力先生突然因病去世。我和崔先生神交已久,但却未曾谋面,一直希望有机会当面沟通讨教,这一下就成永远的遗憾了。 崔先生的英年早逝( ..
  • •      •    767 浏览    •   2018-08-10 14:39:59

    做基础软件要投入很多钱? 

    [图片] 现在有个说法,国家对基础软硬件的投入太少,经常会说微软、Oracle、Intel 这些巨头每年的研发费有多少多少,我们的投入连个零头都不到,当然做不出什么象样的东西了。 看起来还真是 ..
  • •      •    806 浏览    •   2018-08-10 14:39:36

    国产操作系统还能怎么做? 

    [图片] 一家之言,开个脑洞。 操作系统在市场上的关键点,并不在于进程管理、文件系统这些看起来很核心的东西,这些东西真地可以抄(借鉴一下没关系的)。操作系统要普及成功,关键在于上面开发技术的方 ..
  • •      •    1,445 浏览    •   2018-08-10 14:37:01

    国产数据库通通都没戏! 

    [图片] 这标题摆明了就是招人骂,一下子把国内做数据库的同行们都得罪了,甚至连自己都没落下(我也算做数据库的,而且当然也是国产的)。 这观点已经有 N 年了,而且也多次讲过。这次正好有个热点来 ..
  • •      •    897 浏览    •   2018-08-10 14:36:27

    人工智能中的“人工” 

    [图片] 自从 AlphaGo 赢了之后,人工智能就变得非常热门了。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工智能之后,一切都能自动化了。其实,这份智能的背后有 ..
  • •      •    847 浏览    •   2018-08-10 14:32:29

    存储和计算技术的选择 

    [图片] 前一阵子公司有个售前来沟通某个用户的情况:数据量比较大,又涉及很多复杂的关联计算,在数据库中用 SQL 计算性能很差。本来这种场景是比较适合集算器的集文件(集算器特有的压缩二进制格式 ..
  • •      •    914 浏览    •   2018-08-10 14:31:23

    区块链技术的一些疑问 

    [图片] 下面是我在学习了解区块链技术过程中产生的疑问,思考问题的过程中也会让自己对这项技术理解得更深刻。我不算初学者(知道区块链已有五年之久了),但一直也没有深入学习,不能算链圈的专业人士, ..
  • •      •    738 浏览    •   2018-08-10 14:30:55

    数据蒋堂新一年 

    [图片] 时光匆匆,《数据蒋堂》已经走过一年。在这里,也庸俗地感谢一下读者们的一路相伴! 老实说,这一年写这玩意儿有点难度的,主要原因是时间周期卡得有点死,每周一篇执行起来是不太容易,一开始小 ..
关注乾学院公众号