• •      •    1,364 浏览    •   2018-11-13 21:54:07

    前半有序的大数据排序 

    [图片] 最近碰到这么一个案例,情况可以简化总结成这样:数据库中有表 T,其中有两个重要的字段 a 和 b,a 是一个时间戳,精确到秒;b 是用户号;其它字段用来表示用户 b 在时刻 a 发生 ..
  • •      •    1,186 浏览    •   2018-11-06 17:10:25

    如何将数据热导出到文件 

    [图片] 随着时间推移,数据库中数据量会越来越大,如果把查询分析都挂到数据库上,有可能会影响到生产系统的正常运行。所以,一般都会将生产数据库中不再变动的数据定期移出到另一个分析数据库中,由分析 ..
  • •      •    1,205 浏览    •   2018-10-30 12:24:19

    时序数据从分表到分库 

    [图片] 这里的时序数据泛指一切随时间推移而不断增长的数据,比如通话记录、银行交易记录等。 对于数据库来讲,时序数据并没有什么特殊性,可以和普通数据一样放在数据表中。不过,因为不断增长,积累时 ..
  • •      •    1,307 浏览    •   2018-10-16 18:04:56

    性能优化是个手艺活 

    [图片] 大数据的技术本质就是高性能,性能优化也是程序员们的永恒话题。 这里说的性能优化,主要是指在程序员的努力下能达到某种性能提升效果的过程。只要简单换台机器就能加速的事情,业主方要么早就做 ..
  • •      •    1,511 浏览    •   2018-10-10 10:16:13

    数据分布背后的逻辑 

    [图片] 在分布式数据库及大数据平台中,数据如何分布到多台机器中是个很关键的问题。因为很多运算是数据密集型的,如果数据分布做得不好,就会导致网络传输量变大,从而影响性能。 一般来讲,分布式数据 ..
  • •      •    1,599 浏览    •   2018-08-29 11:37:39

    为什么我们需要 C 程序员 

    [图片] 再说一个招聘的话题。 大家可能知道,润乾的软件产品主体都是 Java 写的,几乎没有别的语言。但是,我们在招聘算法程序员时,从来都要求 C 语言背景,会不会 Java 反而无所谓,而 ..
  • •      •    2,271 浏览    •   2018-08-29 11:37:00

    从一道招聘考题谈起 

    [图片] 润乾研发部在招聘时有一个笔试题: 1/2,1/5,1/20,1/64,1/125 都可以写成有限小数,而 1/3,1/7,1/15,1/24 则必须写成无限循环小数。请指出能写成有限 ..
  • •      •    2,081 浏览    •   2024-07-04 15:13:30

    报表工具的 SQL 植入风险 

    [图片] 所有的报表工具都会提供参数功能,主要都是用于根据用户输入的查询条件来选取合适的数据。比如希望查询指定时间段的数据,就可以把时间段作为参数传递给报表,报表在从数据库中取数时将这些参数应 ..
  • •      •    1,309 浏览    •   2018-08-29 11:29:46

    内置的数据无法实现高性能 

    [图片] 这里说的“内”, 是指数据库之内。 当数据量变大时,我们常常会感到数据库的性能下降明显,但是,无论怎样优化 SQL(存储过程)都仍然与根据数据量和运算复杂度计算出来的理论性能相差甚远 ..
  • •      •    2,688 浏览    •   2018-08-10 14:54:36

    怎样生成有关联的测试数据 

    [图片] 在向用户推荐新的数据处理技术,特别是涉及性能优化的场景时,经常会碰到生成测试数据的需求。毕竟,新方案要经过验证才能提交,而优化过程也不是一次就做完的,需要多次不断的迭代改进,这就需要 ..
  • •      •    1,128 浏览    •   2018-08-10 14:51:37

    遍历复用 

    [图片] 减少外存(硬盘)访问量一直是提高大数据计算性能的永恒话题,我们也讨论过列存、压缩等直接减少访问量甚至存储量的手段。除了这些存储层面的方法外,在算法和计算实现环节,也可以想办法减少外存 ..
  • •      •    1,089 浏览    •   2021-11-09 08:53:31

    数据压缩随笔 

    [图片] 我们知道,外存(硬盘)的性能远远低于内存,即使是同样复杂度的运算(CPU 计算量相同),如果能减少外存的访问量,也会大大提高整体性能。甚至有时我们需要用 CPU 换硬盘,即宁可多消耗 ..
  • [图片] 最近碰到几家用户在使用 HBase 或者试图使用 HBase 来做高性能查询,场景也比较类似,就是从几十亿甚至上百亿记录中按键值找出相关记录来。按说,这种 key-value 式的数 ..
  • [图片] 用户在选购 BI 解决方案的时候,常常会更关注界面环节的功能指标,比如美观性、操作的流畅性、移动端支持等等。毕竟,BI 是要给业务人员使用的,这些看得见的内容一般不容易被遗漏。 然而 ..
  • [图片] 经常有用户会问这个问题,你家的产品能处理多大数据量?似乎是这个值越大产品就越牛。 这个问题,其实没多大意义。 能处理多大的数据量,还有个很关键的因素是期望的响应时间,在脱离这个因素单 ..
  • [图片] 大数据的性能是个永恒的话题。但是,在实际工作中我们发现,许多人都不知道如何进行最简单的性能估算,结果经常被大数据厂商忽悠:)。 这个办法在以往也提到过,不过没有以这个题目明确地点出来 ..
  • •      •    1,086 浏览    •   2018-08-10 14:41:42

    大清单报表的打印? 

    [图片] 我们谈了大清单报表的呈现方法,其实有时候这些报表还需要打印,比如银行打印流水对账单。 那么,打印是不是也要像呈现那样做一个缓存机制呢? 没有这个必要。打印和浏览不同,一般是从头到尾过 ..
  • •      •    1,985 浏览    •   2018-08-10 14:41:21

    大清单报表应当怎么做? 

    [图片] 在数据查询时,有时会碰到数据量很大的清单报表。用户输入的查询条件很宽泛,可能会从数据库中查出几百上千万行甚至过亿的记录。如果等着把这些记录全部检索出来再生成报表呈现,那需要很长时间, ..
  • •      •    1,104 浏览    •   2018-08-10 14:40:58

    大数据技术的 4 个 E 

    [图片] 大数据的 4 个 V 说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似 4 个 V,我们把这些特性总结成 4 ..
  • •      •    951 浏览    •   2018-08-10 14:40:37

    做基础软件很悲壮? 

    [图片] 这几天中国数据库界出了一件悲伤的事情,南大通用创始人崔维力先生突然因病去世。我和崔先生神交已久,但却未曾谋面,一直希望有机会当面沟通讨教,这一下就成永远的遗憾了。 崔先生的英年早逝( ..
  • •      •    946 浏览    •   2018-08-10 14:39:59

    做基础软件要投入很多钱? 

    [图片] 现在有个说法,国家对基础软硬件的投入太少,经常会说微软、Oracle、Intel 这些巨头每年的研发费有多少多少,我们的投入连个零头都不到,当然做不出什么象样的东西了。 看起来还真是 ..
  • •      •    979 浏览    •   2018-08-10 14:39:36

    国产操作系统还能怎么做? 

    [图片] 一家之言,开个脑洞。 操作系统在市场上的关键点,并不在于进程管理、文件系统这些看起来很核心的东西,这些东西真地可以抄(借鉴一下没关系的)。操作系统要普及成功,关键在于上面开发技术的方 ..
  • •      •    1,716 浏览    •   2018-08-10 14:37:01

    国产数据库通通都没戏! 

    [图片] 这标题摆明了就是招人骂,一下子把国内做数据库的同行们都得罪了,甚至连自己都没落下(我也算做数据库的,而且当然也是国产的)。 这观点已经有 N 年了,而且也多次讲过。这次正好有个热点来 ..
  • •      •    1,088 浏览    •   2018-08-10 14:36:27

    人工智能中的“人工” 

    [图片] 自从 AlphaGo 赢了之后,人工智能就变得非常热门了。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工智能之后,一切都能自动化了。其实,这份智能的背后有 ..
  • •      •    1,063 浏览    •   2018-08-10 14:32:29

    存储和计算技术的选择 

    [图片] 前一阵子公司有个售前来沟通某个用户的情况:数据量比较大,又涉及很多复杂的关联计算,在数据库中用 SQL 计算性能很差。本来这种场景是比较适合集算器的集文件(集算器特有的压缩二进制格式 ..
关注乾学院公众号