推广 •
369 引用 •
107 回帖 •
0 关注
知道
关注
-
数据科学是一个应用驱动的领域,是一个涵盖统计学,机器学习和计算机科学交叉学科。要做成为数据专家,通常需要掌握多方面的技能。首先要有一定的统计学基础,会用统计学知识来分析数据,比如位置估计,变异 ..
-
这个答案是“否”。 的确,在数据科学方面 Python 是一个非常有力的工具。在一些培训机构的鼓吹下,似乎学会 Python 就掌握了 AI 技术,就可以用 AI 技术做预测。其实不然,Pyt ..
-
当前用于数据挖掘的工具软件主要有两类,早期都是有图形化界面的商用软件,比如 SAS 和 SPSS,此类工具历史悠久,性能稳定。图形化的操作界面基本以拖拽填写为主,配合少量脚本编程,使用较为方便 ..
-
JOIN 一直是数据库性能优化的老大难问题,参与 JOIN 的大表越多,性能就越差。 想让 JOIN 跑得快,关键是要对 JOIN 分类,这样可以利用各种类型的特征来实施高效的提 ..
-
随着业务的发展,在数据分析(OLAP)应用中,数据库 / 数据仓库存储的数据越来越多,承担的计算任务越来越重,就会出现响应速度越来越慢的情况。仅仅依靠数据库扩容的办法解决这个问题是不可取的,一 ..
-
ClickHouse(简称 CH)是最近很受关注的开源分析数据库,据说挺神的,做 OLAP 计算很快。很多被性能问题折磨的用户都有兴趣尝试一下。 CH 到底是不是真有那么神呢?我们做一些对比测 ..
-
与 SQL 数据库 / 数据仓库相比,作为搜索引擎的 Elastic Search 更适用于高并发查询。比如帐户明细查询,从几千万甚至上亿条历史数据中,查找一个帐户的几条到几千条明细数据。其主 ..
-
订单和明细表如下图,订单表主键是订单号(id),明细表主键是订单号(id)和产品号(productid)。订单和明细表要按照订单号关联计算,比如:按客户和订单日期分组汇总订单金额,分组字段是订 ..
-
多维分析应用中,事实表会有很多维表,比如,订单表的维表如下图: [图片] 这些维表和事实表的关联运算就是 SQL 中的 JOIN,数据库技术一般采用 HASH JOIN 算法实现。这个算法每次 ..
-
计算 TopN 的 SQL 语句,描述出来的算法是把数据大排序后取出前 N 名。有些数据库优化做的比较好,全集 TopN 没有做大排序,性能尚可。但对于分组后计算组内 TopN 这种更复杂的情 ..
-
大数据量时,硬盘扫描和读取的时间占比很大。采用列式存储,在总列数很多而计算涉及的列很少时,只要读取需要的列即可,能够减少硬盘访问量,提高性能。事实上,很多数据仓库产品都采用了列式存储。 &nb ..
-
列式存储在很多场景下都具有性能优势,也被不少数据仓库产品采用。大数据量时,硬盘扫描和读取的时间占比很大。采用列存,在总列数很多而计算涉及的列很少时,从硬盘上仅读取需要的列即可,可以减少硬盘访问 ..
-
WHERE 中的 IN 是要过滤出某字段值包含在给定枚举值集合中的记录,比如:查出某几个城市的客户、某些类型的订单等等。 数据库做 IN 过滤时,要用字段值和值集合的成员作比较计算。若采用顺序 ..
-
标签是指用“是否”型数据来实现某种标记,计算时要过滤出指定几个标签都为“是”的数据,再做进一步统计。比如:用标签表示客户是否为白领、是否活跃、是否注册等等,要统计“活跃”、“注册”两个标签都为 ..
-
高并发帐户查询,是要在几千万甚至几亿的帐户历史数据中,快速找到某个帐户的几条到几千条明细。计算很简单,把数据查出来就可以了,关键是大并发时,响应速度要达到秒级甚至更快! 在数据库中,用索引查找 ..
-
目前市场上主流的 BI 工具主要分为几大类: 一:开源工具 主要是国外产品,以 Birt、Jasper 为代表,此类工具开源免费,但是功能较为简单,不支持国内复杂报表,而且 web 端的数据分 ..
-
目前大多数报表工具都可以从文件中取数做报表,但是支持方式各有不同,这里简单列举下: 一:接口方式,报表工具一般支持 api 接口自定义数据集,自己写程序实现就行,这种方式对开发人员技术能力要求 ..
-
现在的数据类型多种多样,除了常见的关系型数据库外,各种 nosql 数据库,webservices 数据源或者一些特定的业务系统,他们导出的数据多半是文件格式,比如 txt、csv 等,那么如 ..
-
现在市面上常见的国外的和国内的一些 BI 工具是很难处理中国式复杂报表需求的,主要是中国式报表格式太复杂,这些 BI 工具通常是用来做数据分析,所以展示格式都相对简单,稍微复杂点的格式是无法制 ..
-
这个要看具体的使用场景,比如公司内部简单用来分析下数据,那么是可以用的,按照工具中自带的一些例子改改就行,但是如果要做一些商用项目时就不是太适合,开源 BI 一般是免费产品,工具成本低,但是最 ..
-
在一般项目中报表工具是能够代替 BI 的,目前用到 BI 的功能主要是用来做数据的展示,以报表和数据分析为主。 在报表需求中,国内的报表格式通常会比较复杂,像一些经常提到的中国式复杂报表,BI ..
-
开源软件目前还是国外工具比较多,比如现在比较常用的 Pentaho、Superset、Jaspersoft、Spagobi、Poli 等,这里简单总结下他们的优缺点。 优点:开源软件,给开发者 ..
-
一:复杂报表 BI 一般是用来做页面端的多维分析工具,分析的结果复杂点的也就是多层交叉汇总报表,而国内的需求比较复杂,对展现格式以及统计的数据都有比较高的要求,数据往往需要以复杂的报表格式呈现 ..
-
完全免费开源的 BI 这个不太多,相应的开源报表工具倒是不少,但用的也不太多,个人也不太推荐这种免费的开源工具,缺点太明显,开源免费虽然工具成本低,但是相应的支持服务基本没有,遇到问题很难解决 ..
-
发票类的难点在于格式上的控制,原来经常用 excel 或者单独编写程序做,现在 web 端展示要求多的话一般就采用专门的报表工具来做了,发票也可以归为单据类,从格式上来分可以有几种: 一:明细 ..