推广 •
368 引用 •
105 回帖 •
0 关注
知道
关注
-
很多场景都需要用编程语言对 Excel、csv 等桌面数据进行分析处理,简单些的比如用用参数查询多个格式相同的文件、批量拆分或合并文件、处理较大的文件;复杂些的比如整理格式不规范的文件、多步骤 ..
-
Excel 函数丰富操作方便,常用来进行桌面数据计算,但也有一些较特殊或较复杂的计算是 Excel 不擅长的,比如从长串里拆分出所有的日期,让 vlookup 返回匹配的多个结果,对多个单元格 ..
-
日常工作中常常需要对 csv\xls 等数据文件进行查询分析,这些文件的格式大都比较规整(每行对应一条记录),可以看成数据库表,如果能使用 SQL 运算就会比较方便。但是,使用 SQL 前通常 ..
-
esProc SPL是强大的开源计算引擎,可以方便地处理json相关的运算。 下载、安装、集成 源代码在这里:github.com/SPLWare/esProc,不过从源码编译比较麻烦,官方提 ..
-
esProc SPL是强大的开源计算引擎,可以在csv\txt\xls\xlsx等文件上执行语法符合SQL92标准的SQL语句。 下载、安装、集成 源代码在这里:github.com/SPLW ..
-
ClickHouse(简称 CH)是最近很受关注的开源分析数据库,据说挺神的,做 OLAP 计算很快。很多被性能问题折磨的用户都有兴趣尝试一下。 CH 到底是不是真有那么神呢?我们做一些对比测 ..
-
解决办法:esProc - Java 专业计算包 [图片] esProc 是专门用于基于 Java 计算的类库,旨在简化 Java 代码。 SPL 是基于 esProc 计算包的脚本语言,和 ..
-
数据库之间搬动数据,需要先将源数据导出到中介文件后,或对文件中的数据进行修改,再导入到目标数据库。使用文本文件(txt/csv)最常见,其通用性强且没有内容大小的限制,但是会丢失数据类型,读数 ..
-
BIRT 是比较流行的开源报表工具,独立的 IDE 与向导、丰富的设置开发报表很是方便,但 BIRT 对付某些复杂和特殊的报表会有一些困难。主要原因是 BIRT 的数据准备能力较弱,虽然提供了 ..
-
MongoDB 是 NoSQL 数据库的典型代表,支持文档结构的存储方式数据存储和使用更为便捷,数据存取效率也很高,但计算能力较弱,实际使用中涉及 MongoDB 的计算尤其是复杂计算会很麻烦 ..
-
开源集算器 SPL 是一款专业结构化数据计算引擎,拥有丰富的计算类库和完备、不依赖数据库的计算能力。SPL 可以基于多种数据源进行计算,除了原生的 SPL 语法,还可以使用 SQL 查询 tx ..
-
JOIN 一直是数据库性能优化的老大难问题,参与 JOIN 的大表越多,性能就越差。 想让 JOIN 跑得快,关键是要对 JOIN 分类,这样可以利用各种类型的特征来实施高效的提 ..
-
HANA/SPARK/Redis都是常见的内存数据库,但架构复杂沉重,很多场景并不适用。提到简单轻量的内存数据技术,SQLite是比较常见的,优点是体积轻巧,架构简单,可直接嵌入JAVA代码。 ..
-
流行的大数据技术有Hadoop, Storm, Hive、Spark等,这些都是大集群方案,适合有海量规模数据的巨大企业。实际上,流行的大数据技术通常也源自这类头部互联网企业。很多场景下,数据 ..
-
HANA是常见的内存数据库,理论上足以替代Spark,但不开源这一点劝退了很多人。Sqlite是开源的内存数据库,但只支持嵌入式调用,数据量和计算性能都受到极大限制。Redis既开源又支持高性 ..
-
有些数据库自带跨数据库运算功能,比如DBlink和Linked Server,但都不开源,配置也复杂,而且大多数计算要先把数据取到本地,性能比较差。对于支持跨数据库运算的开源库,Scala可以 ..
-
关于存储过程的缺点讨论由来已久。这里我们不妨再盘点一下存储过程的主要缺点。 移植性差 移植性是指存储过程能否从原有数据库方便移植到到另一类数据库上。存储过程缺乏让存储过程语法变得很不通用,很难 ..
-
和DBLink原理类似的有Federated Database和Linked Server,这类数据库组件的配置都很复杂,而且大多数计算要先把数据取到本地,不能充分利用远程数据库的计算能力。C ..
-
多维分析涉及的数据量往往很大,基于明细数据进行汇总效率很低,因此会采用预汇总的方式加快查询速度。事先将要查询的结果计算好(预汇总),使用时直接读取预汇总结果就可以获得实时响应,满足交互分析的需 ..
-
Json/XML是多层结构的数据,很多报表工具没有直接支持,必须引入相关的第三方类库,比如JsonPath/Dom4J。这些类库计算能力较弱,代码繁琐冗长,集成过程也很麻烦。有些报表工具封装了 ..
-
Hadoop生态系统由核心应用HDFS,以及外围应用Hive、HBase、Spark等组成。具有官方JDBC接口的Hive是最容易被报表工具访问的,其他应用只提供了API接口,访问起来就困难多 ..
-
报表工具一般都支持txt/csv/xls等文件数据源,但因为重展示轻计算的产品特性,一般只能对格式规则的文件进行简单计算,至于复杂些的计算任务或格式不够规则的文件,就只能另寻他法了。容易想到的 ..
-
很多报表工具都没有提供 Webservice/Restful 接口,只能通过自定义数据集硬写代码去访问。个别报表工具虽然提供了取数接口,但因为报表工具普遍只擅长展示,所以很多时候还是要另想办法 ..
-
很多数报表工具没有现成的接口访问Salesforce,只能在自定义数据集里硬写代码,难度非常大。有些报表工具封装了相应的接口,可以通过SOQL\SOSL访问Salesforce。这种办法虽然可 ..
-
MongoDB 是常见的 NoSQL 数据库,有些报表工具不提供 MongoDB 的接口,只能在自定义数据集里硬写代码去访问。还有些报表工具如 Birt 和 JasperReport,内置了访 ..