计算&AI •
874 引用 •
936 回帖 •
446 关注
博客
关注
-
Excel 数据分析师们的江湖难题 在数据江湖中,Excel 数据分析师们就像一群手握“倚天剑”的侠客,凭借着 Excel 的强大交互性和简便操作,在数据的世界里快意恩仇,行侠仗义。然而,江湖 ..
-
数据分析需要探索式 对于数据分析,许多任务并非固定的查询,而是需要灵活的分析和判断。比如,电商数据中的用户行为分析、产品推荐、库存优化,或者金融行业的风险评估和客户分类等,都往往没有预先固定的 ..
-
在很多商业场景中,存在一种数据不平衡的现象。比如银行贷款违约,违约的人只是很小一部分人;保险欺诈,欺诈者也是个别现象;还有产品质量中不良品的比例、工业生产中非计划停车现象等等……。这些罕见现象 ..
-
1. 准备历史数据。 在营销场景中,要预测的目标是客户的购买行为,需要搜集一些可能会影响购买行为的信息字段,比如客户的年龄、学历、工作、收入、家庭结构、生活习惯、购物偏好,以及产品的特点、促销 ..
-
强计算和交互性的两难 Excel 和 BI 是常用的数据分析工具,很适合完成初级的数据分析任务,比如统计各月销售总额,计算各组的平均订单金额和购买频次等。但随着业务需求升级,更复杂的任务用 E ..
-
明确目标,准备数据 首先要明确目标,知道要预测什么东西。 比如银行放贷款时,希望预测出贷款人违约的可能性,从而判定是否放贷以及贷款利率。 保险公司制定保费时,希望预测出客户的理赔风险,从而制定 ..
-
什么是数据挖掘? 人们总是希望能预测未来,比如预测明天的天气,预测某地区的房价,预测下个季度的销量,预测客户的购买喜好等等。 [图片] 那么,我们到底有没有办法做预测呢? 举个例子。 傍晚,路 ..
-
下载测试文本 结构化文本计算需求 结构化文本文件是常见的数据存储方式,比如这个score.txt,记录了所有班级学生的成绩,第一行是列名,之后每一行是一个学生的数据,行内用制表符分隔。 [图片 ..
-
SQL 经常跑得很慢 SQL 是最常用的大数据计算语言,但是,SQL 经常跑得很慢,严重浪费硬件资源。 某银行的反洗钱准备计算,36 亿行,11 节点的 Vertica 集群跑了 1.5 小时 ..
-
有些实际业务场景中,脚本文件需要附加严格的权限来控制是否可执行,比如为了数据安全,某些脚本文件的结果数据只允许特定用户查看,或者某些脚本需要绑定硬件才能执行等等。 针对类似需求,集算器企业版和 ..
-
1. 数据准备 学习本课程需要先准备测试数据。可以使用 TPC 官网提供的程序生成测试数据,也可以使用[链接] 提供的方法生成。 准备数据时,要注意数据占用硬盘的空间大小。以 TPCH-Q1 ..
-
select cntrycode, count(*) as numcust, sum(c_acctbal) as totacctbal from ( select substr(c_phone ..
-
-
select * from ( select s_name, count(*) as numwait from supplier,lineitem l1,orders,nation where ..
-
select s_name,s_address from supplier,nation where s_suppkey in ( select ps_suppkey from partsup ..
-
下载源文件 SPL 实践系列:多源混算 背景 应用数据的生成方式和存储形式多样,不仅依赖传统的关系型数据库,还有 NoSQL 数据库、云存储、API、文件系统等多种数据源。整合和分析这些数据就 ..
-
select sum(l_extendedprice * (1 - l_discount)) as revenue from lineitem,part where ( p_partkey = ..
-
select * from ( select c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice, sum(l_quantity) ..
-
select sum(l_extendedprice) / 7.0 as avg_yearly from lineitem,part where p_partkey = l_partkey a ..
-
使用集算器桌面版的Office加载项服务,可在Excel中使用SPL.X()函数执行SPL脚本并获得结果集后填充到Excel中。 如果是 Windows 系统,请从官网下载最新的集算器桌面版和 ..
-
-
Parquet 和 ORC 都是 hadoop 中用于存储数据的列式存储格式, hadoop 提供了 Java API 读写它们的文件,集算器把实现读取文件的 JAVA 代码做了封装,形成更易 ..
-
业务人员使用 Excel 做常规分析,非常得心应手。但当数据准备步骤繁琐、求解的问题相对复杂、解决的任务总是重复时,存粹使用 Excel 内部技术来实现会比较困难,理想的方法是在 Excel ..
-
select p_brand,p_type,p_size, count(distinct ps_suppkey) as supplier_cnt from partsupp,part wher ..
-
create view revenue (supplier_no, total_revenue) as select l_suppkey, sum(l_extendedprice * (1 - ..