"AI 时代，我们都很期待用自然语言查询数据，比如：只要输入 '我要查今年广东省客户的空调订单金额'，系统就能自动转换成查询语句并返回结果，效率直接提升 N 倍！实测一下效果似乎也不错，主流 .."

terminator 北京
陈虎。真心想用集算器这样的工具降低程序员们的劳动强度，真心想成为高性能复杂计算、大数据计算编程难题的终结者。
56 浏览 • 4 个月前

AI 查询数据，何必动用“核武器”？这引擎 CPU 就能跑，成本直降 90%

计算＆AI

AI 时代，我们都很期待用自然语言查询数据，比如：只要输入 "我要查今年广东省客户的空调订单金额"，系统就能自动转换成查询语句并返回结果，效率直接提升 N 倍！

实测一下效果似乎也不错，主流 AI 大模型在标准测试数据集 SPIDER 上能够达到 80% 以上的准确率，在中文测试数据集 CSPIDER 上也能达到 60% 以上的准确率。

但是，面对企业数据查询却遇到了难题。

企业级 AI 数据查询的难题

企业应用中的数据查询要用到特定的领域知识，包括：数据结构、业务规则和相关编程知识。

大模型可以对现有模型进行微调来获取这些领域知识。但微调需要用大量计算资源和高质量的标注数据对大模型进行训练，技术难度大，资源成本高，开发周期长。而且，一旦业务规则或者数据结构发生变化，模型就要重新微调，非常不灵活。

简单在提示词中嵌入领域知识，一定程度上也可以让大模型获取这些知识。不过，这会让提示词变得很长：

这么长的上下文信息提交到公用大模型，比如 DeepSeek，平均要等待一分钟以上才能得到结果，体验太恶劣了，而且 token 费用也很高昂。

私有化部署大模型可以提高性能，但成本却非常巨大：

这样的投入，堪称 "核武器" 级别，对大多数企业来说都是难以承受的。

润乾报表另辟蹊径，实现 AI 式的自然语言数据查询突破

润乾报表 NLQ 组件采用规则引擎技术，通过抽象汉语规律得到规则模型实现自然语言查询，能从根本上解决这一难题。

NLQ 组件预先用领域知识建立词典，导入数据结构，定义数据表、字段、维度、指标等专用词汇。词典中还包含比较词、量纲、聚合词、连接词等查询要素。

这些词汇承载了领域知识，从用户输入的自然语言词句匹配到词典中的词汇，就是应用领域知识的过程：

词典的规模不会超过十几万字符，规则引擎仅用普通 CPU 运算即可高效处理。在现代计算设备上，甚至普通笔记本电脑都能流畅地并行多个任务，完全不需要 GPU 集群。

润乾报表 NLQ 组件还能杜绝相当多的大模型幻觉问题，不会给出看似符合语法的错误语句。NLQ 如果识别不了用户的输入，会提示无法查询，请用户换一种说法再尝试。而大模型则永远会给出一个结果，即使是错误结果。这种情况下，不懂编程的业务用户根本没办法发现和纠正大模型的错误。

NLQ 组件给出结果后，会以用户看得懂的形式对这个语句进行解释，如果有多种解释也会让用户选择，比如日期可以是发货日期或者收货日期：

润乾报表 NLQ 搭配大模型，让自然语言数据查询锦上添花

规则引擎对自然语言的规范性有一定要求，不能使用太随意的词句。我们可以通过适当的培训，让用户习惯用相对规范的自然语言表达，就可以达到很好的使用效果。实际上，用户使用大模型也常常要学习“提示工程”，了解如何写提示词才能得到较好的结果。

润乾报表 NLQ 组件不依赖大模型就可以工作，搭配大模型后还能进一步提升用户体验，可以用更为随意的自然语言来查询数据：

这样搭配的优势很明显：大模型不需要获得领域知识，负载降到最低，企业也不需要私有化部署，直接使用公用接口即可达到性能要求。规则引擎承载所有的领域知识，全部计算都利用本地 CPU 完成，不需要高端 GPU 资源。

在技术快速发展的今天，我们不需要总是动用 "核武器" 来解决所有问题。像润乾报表 NLQ 组件这样的规则引擎，抽象汉语规律来实现 AI 式自然语言查询的解决方案，用 CPU 资源就能获得出色效果，建设成本从私有部署大模型的百万元级别到十万元级别，降低了 90%，为企业提供了更加务实和经济的选择，每个企业都能以更低的成本享受 AI 数据查询带来的效率提升。