推广 •
368 引用 •
105 回帖 •
0 关注
知道
关注
-
使用 SQL 查询文本(TEXT、CSV、TSV)和 Excel(XLS/XLSX)文件很方便。实现 SQL on file 有几种选择。 首先是使用诸如 csvsql、textql、quer ..
-
Scala 是一门多范式(multi-paradigm)的编程语言,全称是 Scalable Language,寓意具备很强的伸缩性,设计初衷是要集成面向对象编程和函数式编程的各种特性。Sca ..
-
Stream 是 Java8 中处理集合的关键抽象概念,它可以指定你希望对集合进行的操作,执行非常复杂的查找、过滤和映射数据等操作,类似于使用 SQL 执行的数据库查询,还可以并行计算。简而言 ..
-
目前机器学习主要分为监督学习、无监督学习和强化学习 监督学习是指:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。在监督学习中训练数据既有特征又有标 ..
-
提到 AI 我们通常会想到各种高深的算法,错综复杂的算法参数,千变万化的预处理方式,数据工程师们往往要花费大量时间和精力去不断尝试,寻找最优模型。Auto AI 就是将整个 AI 的流程自动化 ..
-
无论是做数据分析还是数据挖掘,数据类型是最基础的问题,不同的数据类型分析方法和处理方法是完全不同的。所有的数据都可分为两大类:定量数据(quantitative data)或定性数据(qual ..
-
提到 automl 名气最大的当属 Google automl 了,但是很多人并不真正了解 Google automl 到底能做什么,适不适合小白使用。今天就来详细介绍下 Google aut ..
-
目前市场上有很多自动化建模工具,但是能够做到真正完全自动化的产品并不多,有很大一部分产品只是打着自动化的幌子但实际依旧需要人工来定义很多操作步骤。在这里向大家介绍两款自动化程度比较好的建模工具 ..
-
数据科学是一个应用驱动的领域,是一个涵盖统计学,机器学习和计算机科学交叉学科。要做成为数据专家,通常需要掌握多方面的技能。首先要有一定的统计学基础,会用统计学知识来分析数据,比如位置估计,变异 ..
-
这个答案是“否”。 的确,在数据科学方面 Python 是一个非常有力的工具。在一些培训机构的鼓吹下,似乎学会 Python 就掌握了 AI 技术,就可以用 AI 技术做预测。其实不然,Pyt ..
-
当前用于数据挖掘的工具软件主要有两类,早期都是有图形化界面的商用软件,比如 SAS 和 SPSS,此类工具历史悠久,性能稳定。图形化的操作界面基本以拖拽填写为主,配合少量脚本编程,使用较为方便 ..
-
大多数公司都会专门为数据分析单独准备一个数据库做日常分析,用来做数据查询和人工分析后的结果存储,日积月累,临时表众多,数据库变得非常巨大,如果同时做多个查询,经常需要等很久才能出结果,提升硬件 ..
-
I have a spreadsheet that is for a group of clients. Each line of data has information on insura ..
-
多维分析性能的好坏取决于后台相应速度,最好的解决方案是后台采用高性能数据库。 目前多维分析产品的后台数据源通常是常规数据库、专业数据仓库及 BI 产品自带的数据源,系统性能基本都是靠它们自身的 ..
-
首先,要知道报表为啥会出现 SQL 注入攻击。所有的报表工具都会提供参数功能,主要用于用户输入条件后的数据筛选,固定条件不够,还要求更灵活,因此通用查询又出现,允许动态拼 SQL,随之而来的就 ..
-
通常情形下,一列数据都是整体参与排序,但如果数据是由字母跟序号组合在一起,比如名字加序号的一列数据: Mike105 Rose11 Rose1 Rose5 Mike6 现在需要先按名字排序,再 ..
-
对于字母符号数值混排的文本文件,可以拷入Excel再拆解,但公式过于复杂,普通人难以掌握。用VBA\JAVA\Python等开发语言也可以解决这个问题,但代码冗长繁琐,还要使用难懂的正则表达式 ..
-
可以用vlookup之类的函数解决这个问题,虽然整个过程不算太难,但只要数据发生变动,每次就要重复这个过程,这就显得太繁琐了。用VBA可以让这个过程自动化,但写法过于复杂,一般人很难掌握。 用 ..
-
目前市场上主流的 BI 工具主要分为几大类: 一:开源工具 主要是国外产品,以 Birt、Jasper 为代表,此类工具开源免费,但是功能较为简单,不支持国内复杂报表,而且 web 端的数据分 ..
-
目前大多数报表工具都可以从文件中取数做报表,但是支持方式各有不同,这里简单列举下: 一:接口方式,报表工具一般支持 api 接口自定义数据集,自己写程序实现就行,这种方式对开发人员技术能力要求 ..
-
关键词导读:解析Excel 结构化Excel 一般常规办法:使用第三方类库(POI或者HSSFWorkbook等)来读取EXCEL文件的Sheet和单元格信息,然后按照规则循环读取到所需的每个 ..
-
有时我们希望把参数列表分行存储在文本文件里,执行SQL时再拼到in函数里,从而查询出符合条件的记录。 但SQL不能解析文本文件,直接拼到in函数里有困难,所以很多人先把文件导入数据库临时表,再 ..
-
关键词导读:解析自由格式Excel 结构化Excel 要在程序语言中编程解决这类问题,工作量会非常大。而且因为许多EXCEL文件的格式都不规整,所以编写的程序并不能通用,每次都要重新编写新程序 ..
-
关键词导读:大文本计算 并行计算 对于大文件的处理,可以充分利用现代计算机的多核CPU,实施多线程并行计算,从而达到提速的目的。然而,要在程序语言中编写多线程并行程序, ..
-
关键词导读:txt 文本对比 有什么方便的工具可以做文件内容对比吗?比如:文件Old.txt和New.txt,第一行是列名,需要取出文件中Name字段相同的内容。部分数据如下: Old.txt ..