"AI 时代，到处都在说“智能问数”，用大白话直接问，数据就给你整得明明白白。理想很美好，可真要一探究竟，大家心里就打了鼓：这玩意儿是不是得养个 AI 科学家团队？是不是得买几十上百万的 GPU .."

lisongbo
乾学院 29 号会员
77 浏览 • 1 个月前

人人都能实施的智能问数，中小用户也能用得起的 ChatBI

报表＆BI

AI 时代，到处都在说“智能问数”，用大白话直接问，数据就给你整得明明白白。理想很美好，可真要一探究竟，大家心里就打了鼓：这玩意儿是不是得养个 AI 科学家团队？是不是得买几十上百万的 GPU 服务器？查出来的数要是不准，谁敢拿来做决策？

别急，润乾 ChatBI 带来了一条不同的路——一条让中小企业、普通开发团队都能轻松上车、用得安心、花得明白的路。不依赖“黑盒”大模型去猜，而是用一套清晰的“规则翻译官”，把业务问题精准无误地转换成数据库能听懂的指令，还能进一步指挥报表完成深度分析。

把业务知识，变成机器的“说明书”

大模型（LLM）像是个天赋异禀但偶尔会跑偏的“实习生”，能力很强，但产出不稳定，关键是你还看不懂他的工作过程，没法有效复核。

其实思路可以更直接：企业的数据分析需求，绝大部分都有规律可循。无论是“上季度华北区销售 TOP10”、“库存低于安全线的产品”，还是“回款周期超过 60 天的客户”，其核心无非是找什么对象（表）、看哪些方面（字段）、按什么条件筛选（过滤）、怎么分组计算（聚合）。而分析阶段的动作，比如“按省份排名”、“计算环比”、“生成趋势图”，同样可以抽象为固定的操作模式。

润乾 ChatBI 的核心，就是把这套业务逻辑和分析动作，预先编制成一套机器能严格执行的“业务词典”和“分析指令集”。当用户提出自然语言请求时，系统会像查字典一样，精准匹配：

查询阶段，如“去年北京发往青岛的订单”，系统会匹配“去年”（时间计算逻辑）、“北京 / 青岛”（城市常数）、“发往”（动词关联发货 / 收货字段）、“订单”（主表），生成精准的 SQL。
分析阶段，如“按产品类别分组，计算销售额占比”，系统会匹配“产品类别”（维度）、“销售额”（指标）、“占比”（分析函数），立即对查询结果执行分组和占比计算。

整个过程没有猜测，只有匹配和执行，从根本上杜绝了“一本正经胡说八道”的数据幻觉。

不止于查询：让分析也能“说人话”

获取数据只是第一步，真正的分析往往才刚刚开始。传统 BI 工具需要拖拽、点选、编写公式，操作繁琐，很多用户望而却步。而润乾 ChatBI 将同样的规则引擎延伸至分析阶段，提供了NLR（自然语言报表）能力：用户可以基于查询得到的数据集，继续用简洁的汉语指令驱动报表完成各种分析动作。

来看一个完整的例子：

先查询：用户输入“去年北京发往青岛的订单订单金额，客户，产品，产品类别，供应商”，系统返回一份包含订单金额、客户、产品、类别、供应商的明细数据。
再分析：

想看看不同产品类别的表现，输入“表头产品类别，订单金额求和”，系统立即按类别汇总。
想知道每个类别的占比，输入“金额计算占比命名为类别占比”，系统新增占比列。
想了解每个类别下哪些供应商贡献最大，输入“在产品类别范围内订单金额降序排名命名为供应商排名”，系统在各类别内对供应商排名。
想筛选出大额订单，输入“过滤订单金额大于 10000”。
想生成可视化图表，输入“饼图分类产品类别系列订单金额”。

整个过程无需拖拽、无需写公式，所有指令在数秒内精准响应。无论是分组汇总、排名占比、数据筛选，还是图表生成，用户只需像与助手对话一样，逐步深入，就能从原始数据中提炼出有价值的业务洞察。

算笔明白账：你的成本，到底省在哪？

这是 ChatBI 最能打动人的地方，我们掰开揉碎了说。

1. 硬件与运算成本：从“养超跑”到“开家用车”

大模型方案：若私有化部署，高端 GPU 服务器是基础门槛，购置费、运维成本高昂；若用公有云 API，数据必须出域，存在安全风险，且按 Token 计费，随着使用量增长账单可能失控。尤其是生成复杂 SQL 和 JSON，消耗的 Token 数量巨大。
润乾 ChatBI 方案：核心是高效的规则匹配与翻译引擎，计算开销极低。普通 CPU 服务器即可流畅运行，支撑数十人并发查询。没有 GPU 成本，没有 Token 费用，单次查询的资源成本可能仅为大模型方案的百分之一甚至更低。私有化部署门槛大幅降低，长期持有成本透明亲民。

2. 技术与人力成本：从“组建火箭队”到“培训导游”

大模型方案：要让模型懂业务，需要做微调、搭 RAG、调提示词，需要 AI 专家团队，人力成本高昂，项目周期漫长。
润乾 ChatBI 方案：核心实施工作是配置业务词典和分析指令集。谁干最合适？最懂业务的数据分析师或 IT 工程师。通过可视化工具，把“销售额”、“毛利率”等概念，一一对应到数据库表和字段，设定好计算规则。这更像是在绘制一份“业务地图”，而不是研发“AI 大脑”。普通应用开发团队完全能胜任，无需引入稀缺的 AI 专家。

3. 维护与信任成本：从“开盲盒”到“透明工厂”

大模型方案：结果出错时，调试像破案。是提示词不对？训练数据有偏？还是模型又幻觉了？定位难，修复贵。
润乾 ChatBI 方案：一切基于规则。如果报错或结果不对，可以像调试普通软件一样，快速清晰地定位问题：是“华东区”没录入词典？还是“毛利率”公式配错了？修复就是修改配置，点击保存，立刻生效。系统可控、可预期、可优化，IT 和业务部门都安心。

能力不妥协：能干的活，超乎你想象

规则引擎的能力边界在哪？用一组实例说话。只要用相对规范的语言提问，润乾 ChatBI 足以覆盖绝大多数数据分析需求。

查询能力（NLQ）

明细查询：“列出雇员姓名”、“商品编码、名称、重量、类别、库存量”
附带计算：“雇员姓名、身高、体重、BMI 指数”（BMI 公式预定义）
智能消歧：“订单编码，发货城市日期，收货城市日期”——通过“发货”“收货”簇词自动区分字段
多表关联：“订单编码，产品名称，供应商名称和城市”——自动关联订单、产品、供应商
复杂过滤：“年龄 45 到 50 岁之间，且籍贯是北京的雇员”、“已售罄的商品信息”
动词关联过滤：“北京发往青岛的订单”——自动绑定发货城市和收货城市
时间智能：“去年第 3 季度的订单”、“上周一的会话记录”
聚合分析：“各城市发货的总金额”、“每月订单数”
聚合后筛选：“总订单数超过 20 的客户”、“平均售价超过 500 元的海鲜商品”
嵌套聚合：“订单金额总和大于 20 万元的女员工”
多源对齐：“各省的员工数、产品数和订单数”——分别从三张表计数后按省份对齐
复杂指标：“月连涨天数大于 5 天的股票”——通过内置 SPL 计算引擎处理

分析能力（NLR）

分组汇总：“表头产品类别，订单金额求和”
占比计算：“订单金额计算占比命名为‘占比’”
排名：“在产品类别范围内订单金额降序排名命名为‘排名’”、“订单金额降序排名命名为‘客户排名’”
环比 / 同比：“订单金额比例环比命名为‘环比’”、“在省份范围内订单金额比例同比命名为‘省内同比’”
累计：“订单金额累计求和命名为‘累计’”
格式调整：“订单金额显示为货币格式”、“占比显示为‘#0.00%’”
条件格式：“大于 2000 红色加粗”
数据筛选：“过滤订单金额大于 10000”、“过滤产品类别 =‘电子产品’且订单金额 >5000”
排序：“排序产品类别升序，订单金额降序”
行列转换：“左表头产品类别，上表头供应商”
图表生成：“柱形图分类产品类别系列订单金额”、“饼图分类产品类别”、“折线图分类签单月系列订单金额”
配色切换：“梦幻极光”、“科技蓝”

这些例子展示了从简单查询到复杂分析的全覆盖。所有分析动作均由规则引擎精准执行，结果确定、可解释。

坦诚相告：“边界”在哪里？

当然，世上没有完美方案，润乾 ChatBI 同样也有局限性：

灵活性有门槛：需要相对规范的表达。对于过于口语化或模糊的描述（比如“我需要查询商品表中单价在 9 块五毛钱到等于 12 块钱的”或“南京的客户，或者任意直辖市的”），需要先转化为规范的查询语句。它极度依赖那份预先配置好的“业务词典”和“分析指令集”，词典之外的新说法，它暂时无能为力。
知识更新需手动：不会自学。当公司新增一个“用户互动热度”指标，或需要新的分析动作（如“帕累托分析”）时，必须由管理员在词典中明确定义其规则，才能被调用。

但是，这恰恰引向了它的最佳使用场景：对于业务流程稳定、分析需求规范的企业内部 BI 系统，它是可靠的核心引擎。而对于那些灵活多变的口语化需求，我们也有应对之策。

“双打”：用 LLM 弥补灵活性

既然 LLM 长于“灵活理解”，规则引擎善于“精准执行”，那么让它们组队就是最佳选择。

一个理想的架构是：LLM 作为“智能前台”，负责与用户进行多轮、随意的口语对话，理解其核心意图，并将其“翻译”成润乾 ChatBI 所能识别的、相对规范的自然语言指令（包括查询指令和分析指令，如“按产品类别分组，计算销售额占比，并生成饼图”）。

这里的优势在于：

中间结果是“人话”，可确认可修改：LLM 的任务是从“随意口语”到“规范书面语”的转换，这远比让它直接生成某种结构化的 JSON 或 SQL 要简单。转换后的文字（如“查询去年北京发往青岛的订单，返回订单金额、客户、产品、产品类别、供应商”）业务用户能看懂并确认，发现不对可以立即纠正。而直接生成 JSON 或 SQL 则难以由不懂技术的业务人员验证。确认后的规范指令再由规则引擎（NLQ/NLR）精准执行，确保最终结果准确无误。
“人话”降低了幻觉风险：自然语言是 LLM 的训练母语，将其从口语转为规范书面语是它的“舒适区”，不易产生幻觉。相比之下，要求 LLM 直接生成 JSON 或 SQL 这类结构化数据，相当于让它用外语写作，更容易出现语法错误或逻辑偏差。而且规范的自然语言指令本身就是可读的，用户可直观验证，进一步降低了因误解导致的风险。
成本极低：LLM 的任务被简化为“文字规范化”，只需要理解自然语言并重新组织成规范的问句，无需理解复杂的数据库 Schema 或业务逻辑。这种相对简单的任务，私有化部署的小参数模型就能胜任，既享受了 LLM 的交互友好性，又保证了极低的部署和运行成本，同时数据始终留在企业内部。

这种组合方案，相比当前主流的要求 LLM 直接生成 JSON 或 SQL 的做法，在成本、可控性和准确性上都具有显著优势。

未来一步生成查询 + 报表的综合能力

在即将推出的下一版本中，我们将更进一步，实现真正的“综合能力”。届时，系统不仅能处理规范的查询和分析指令，还能应对更模糊的任务指令。例如，用户可以说“分析一下上个月的销售情况”，系统将自动分解任务：

首先，利用 LLM 理解意图，生成规范的自然语言查询（如“查询上个月的订单数据，返回订单金额、产品类别、省份”），由 NLQ 执行获取基础数据。
然后，基于预定义的规则或简单的指令理解，自动匹配合适的分析动作和图表类型（如按产品类别分组汇总、生成趋势图、计算环比），由 NLR 完成分析并呈现。

这种能力的核心优势，依然建立在我们当前方案的基础上：中间环节的可读性和可干预性。无论是 LLM 对模糊任务的分解，还是系统推荐的报表动作，其过程和中间结果都可以被用户理解和调整。用户可以看到系统打算做什么，并在必要时修正，确保最终结果符合预期。这进一步放大了我们方案的优势——在拥抱 AI 灵活性的同时，牢牢把握住决策的“可解释”和“可控”的底线。

如何上手：比你想象得更简单

润乾 ChatBI 已经作为智能模块，内置在润乾报表产品中。这意味着，使用或集成润乾报表，你就自然获得了这项 ChatBI 的能力。

实施过程非常务实：由熟悉业务的同事，通过可视化界面，将日常分析中常用的业务术语（如“新订单”、“直辖市”、“已售罄”）、字段组合（如“发货城市日期”）、计算指标（如“BMI 指数”）等，配置到系统的“业务词典”中。一旦配置完成，用户就可以用规范的语言直接提问和分析，立即获得准确结果。

例如，配置好“新订单”对应本年订单的过滤条件后，用户只需输入“新订单总数”，系统就能自动统计出今年的订单数量。而分析词典系统已经内置（无需配置），用户输入“订单金额环比”，系统就能正确计算。

如果要搭配 LLM 解决灵活性，在润乾的官方技术社区（乾学院）上已经分享了使用大模型辅助生成规范查询语句的提示词（Prompts）。可以利用分享的提示词，用某个公开的 LLM 转换后再查询，从而获得更强的灵活性。

比如这个非常口语化的查询“我需要查询商品表中单价在 9 块五毛钱到等于 12 块钱的”，直接查询是不行的。

但被 LLM 转换后就可以了。

在追逐技术浪潮时，有时最实用的方案，未必是最炫酷的那一个。润乾 ChatBI 选择了一条务实之路：不追求万能的理解，而追求在核心业务查询与分析场景下的百分百准确、极低成本与完全可控。

它让“让数据说话”这件事，从一项昂贵且不确定的技术冒险，变成了一个可规划、可实施、可管理的标准化项目。对于广大的中小企业、务实的技术团队和追求稳定产出的业务部门而言，这或许才是当下更值得拥有的“真智能”。