Text-to-SQL综述,quite empirical。
Z. Hong et al., “Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL,” Jul. 16, 2024, arXiv: arXiv:2406.08426. Accessed: Oct. 30, 2024. [Online]. Available: http://arxiv.org/abs/2406.08426
【摘要】将自然语言问题(文本)转换为结构化查询语言(SQL)一直是自然语言处理领域的挑战,因为用户问题的理解、数据库模式的理解和SQL生成都极其复杂。传统的文本到SQL系统,由规则和深度神经网络组成,已经取得了长足的进步。随后出现的预训练语言模型(PLM)被用于文本到SQL任务,取得了令人鼓舞的性能。随着现代数据库变得更加复杂,相应的用户问题也变得更加复杂,导致参数受限的PLM产生错误的SQL。这需要更复杂和定制的优化方法,进而限制了基于PLM的系统的应用。最近,大型语言模型(LLM)随着模型规模的增加,在自然语言理解方面表现出显著的能力。因此,本文将基于LLM的实现集成可带来的独特机遇、改进和解决方案,研究如何解决Text-to-SQL中出现的问题。在本调查中,我们全面回顾了基于LLM的 Text-to-SQL。具体而言,我们给出了Text-to-SQL技术挑战和演变过程的简要概述。然后,我们提供了用于评估Text-to-SQL系统的数据集和指标的设计的详细介绍。接下来,我们展示了基于LLM的Text-to-SQL的最新进展的系统分析。最后,我们讨论了该领域存在的挑战,并提出了对未来研究方向的建议。
【关键词】Text-to-SQL;大型语言模型;数据库;自然语言理解
1 Text-to-SQL概述
- 目标:将自然语言问题转换为可执行的SQL查询,从关系型数据库中检索信息。(P1, P2)
- 挑战:
- 自然语言问题复杂性:包含嵌套句子、指代关系和省略语等,难以准确映射到SQL查询。(P3)
- 数据库模式理解:需要全面理解数据库结构,包括表名、列名和表之间的关系。(P3)
- 罕见和复杂SQL操作:涉及嵌套子查询、外部连接和窗口函数等,难以准确生成。(P4)
- 跨领域泛化:模型在特定领域训练后,难以泛化到其他领域。(P4)
2 Text-to-SQL研究演变过程
- 基于规则的系统:早期方法,依靠手动设计的规则和启发式算法,缺乏灵活性和泛化能力。(P4)
- 基于深度学习的系统:利用深度神经网络自动学习自然语言问题到SQL查询的映射。(P4)
- 基于PLM的系统:利用预训练语言模型强大的语义解析能力,显著提升性能。(P4)
- 基于LLM的系统:利用大型语言模型的丰富知识和生成能力,实现更准确的SQL查询生成。(P4)
3 基于LLM的Text-to-SQL数据集和基准
- 数据集类型:(P4)
- 原版数据集:包含原始数据集和数据库。
- 经标注数据集:在现有数据集和数据库上进行标注,例如添加领域知识、构建对话场景等。
- 常用数据集:Spider、BIRD、DuSQL、CoSQL、WikiSQL等。(P3)
- 常用基准:组件匹配(CM)、精确匹配(EM)、执行准确率(EX)、有效效率得分(VES)。(P3)
4 基于LLM的Text-to-SQL方法
- 基于情境学习(ICL):
- 范式:利用预训练的LLM生成SQL查询,通过设计特定的提示来引导模型。(P3)
- 方法:
- 简单提示:例如,使用OpenAI的标准提示模板。(P6)
- 分解:将复杂问题分解为子问题或子任务,降低难度。(P8)
- 提示优化:通过改进提示设计,提升模型性能。(P8, P9)
- 推理增强:利用推理技术,例如思维链(CoT)、最少到最多(Least-to-Most)等,增强模型推理能力。(P9)
- 执行细化:通过执行反馈,例如执行结果、错误检测等,优化生成的SQL查询。(P10)
- 基于微调(FT):
- 范式:利用收集的领域数据对开源LLM进行微调,使其适应特定任务。(P10)
- 方法:
- 增强架构:例如,使用CLLMs提升模型效率。(P11)
- 数据增强:通过添加数据或生成数据,提升模型性能。(P11)
- 预训练:在大量数据上进行预训练,为模型提供更多知识。(P11)
- 分解:将任务分解为子任务,例如数据收集、模式链接、知识生成等,并针对每个子任务进行微调。(P11)
5 未来研究方向和挑战
- 现实世界鲁棒性:提升模型对噪声数据和异常情况的鲁棒性。(P12)
- 计算效率:降低模型推理时间和计算资源消耗。(P12)
- 数据隐私和可解释性:保护用户数据隐私,并提升模型的可解释性。(P12, P13)
- 扩展性:将文本到SQL技术扩展到其他领域,例如代码生成和知识图谱问答。(P13)