推广 •
368 引用 •
105 回帖 •
0 关注
知道
关注
-
什么是数据挖掘 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 听起来比较抽象,我们举个例子。 ..
-
数据挖掘是一项应用十分广泛的技术,它能够从历史数据中发掘出有用的规律,然后运用规律去做预测。比如在金融机构中通过挖掘历史用户信息和违约之间的规律进行风险预测,防止坏帐;在营销场景中可以通过挖掘 ..
-
JOIN 一直是数据库性能优化的老大难问题,参与 JOIN 的大表越多,性能就越差。 想让 JOIN 跑得快,关键是要对 JOIN 分类,这样可以利用各种类型的特征来实施高效的提 ..
-
数据信息化项目或者应用中,很多都需要,也都会使用报表工具来提升开发效率,选择报表工具的时候常有这样的困扰,商用的好用但是太贵,把项目的利润空间都快挤没了,开源的不要钱但是难用,光省钱了没见提升 ..
-
HANA是常见的内存数据库,理论上足以替代Spark,但不开源这一点劝退了很多人。Sqlite是开源的内存数据库,但只支持嵌入式调用,数据量和计算性能都受到极大限制。Redis既开源又支持高性 ..
-
当前开源 OLAP 服务器仅能满足多维分析一方面的需求,而且主要基于 RDB 体系。这对于广泛的 OLAP 业务来说存在诸多限制。 首先是复杂报表不支持,这类报表的数据准备过程十分繁琐,需要大 ..
-
HANA/SPARK/Redis都是常见的内存数据库,但架构复杂沉重,很多场景并不适用。提到简单轻量的内存数据技术,SQLite是比较常见的,优点是体积轻巧,架构简单,可直接嵌入JAVA代码。 ..
-
流行的大数据技术有Hadoop, Storm, Hive、Spark等,这些都是大集群方案,适合有海量规模数据的巨大企业。实际上,流行的大数据技术通常也源自这类头部互联网企业。很多场景下,数据 ..
-
关于存储过程的缺点讨论由来已久。这里我们不妨再盘点一下存储过程的主要缺点。 移植性差 移植性是指存储过程能否从原有数据库方便移植到到另一类数据库上。存储过程缺乏让存储过程语法变得很不通用,很难 ..
-
和DBLink原理类似的有Federated Database和Linked Server,这类数据库组件的配置都很复杂,而且大多数计算要先把数据取到本地,不能充分利用远程数据库的计算能力。C ..
-
有些数据库自带跨数据库运算功能,比如DBlink和Linked Server,但都不开源,配置也复杂,而且大多数计算要先把数据取到本地,性能比较差。对于支持跨数据库运算的开源库,Scala可以 ..
-
很多数报表工具没有现成的接口访问Salesforce,只能在自定义数据集里硬写代码,难度非常大。有些报表工具封装了相应的接口,可以通过SOQL\SOSL访问Salesforce。这种办法虽然可 ..
-
Hadoop生态系统由核心应用HDFS,以及外围应用Hive、HBase、Spark等组成。具有官方JDBC接口的Hive是最容易被报表工具访问的,其他应用只提供了API接口,访问起来就困难多 ..
-
Json/XML是多层结构的数据,很多报表工具没有直接支持,必须引入相关的第三方类库,比如JsonPath/Dom4J。这些类库计算能力较弱,代码繁琐冗长,集成过程也很麻烦。有些报表工具封装了 ..
-
报表工具一般都支持txt/csv/xls等文件数据源,但因为重展示轻计算的产品特性,一般只能对格式规则的文件进行简单计算,至于复杂些的计算任务或格式不够规则的文件,就只能另寻他法了。容易想到的 ..
-
数据信息化项目中,遇到 BI 需求的场景越来越多,怎么样让自己的项目或应用具备 BI 的能力呢?大部分项目都会选择集成一个第三方的 BI 来完善自己的能力,因为自研一个的难度和成本都太大了 第 ..
-
很多报表工具都没有提供 Webservice/Restful 接口,只能通过自定义数据集硬写代码去访问。个别报表工具虽然提供了取数接口,但因为报表工具普遍只擅长展示,所以很多时候还是要另想办法 ..
-
数据信息化项目中,买个第三方报表工具来做报表是很常见的事情,因为报表工具可以简单高效的解决报表问题,能节省人工成本的投入,变相的提升项目的利润,如果购买工具的成本也能低一些,那省出来的利润就更 ..