LLM直接操纵数据库技术的概述。结论:不建议用LLM替代SQL。
X. Zhang, K. Khedri, and R. Rawassizadeh, “Can LLMs substitute SQL? Comparing Resource Utilization of Querying LLMs versus Traditional Relational Databases,” Apr. 12, 2024, arXiv: arXiv:2404.08727. Accessed: Oct. 30, 2024. [Online]. Available: http://arxiv.org/abs/2404.08727
【摘要】大语言模型(LLM)能够在软件工程过程中自动化或替代不同类型的任务。本研究评估了LLM在解释和执行自然语言查询方面相对于传统SQL在关系数据库管理系统中的资源利用率和准确性。我们使用一个小型交易数据集,实证研究了九种LLM的资源利用率和准确性,这些LLM的参数从70亿到340亿不等,包括Llama2 7B、Llama2 13B、Mistral、Mixtral、Optimus-7B、SUS-chat-34B、platypus-yi-34b、NeuralHermes-2.5-Mistral-7B 和 Starling-LM-7B-alpha。我们的研究结果表明,使用LLM进行数据库查询会产生显著的能源开销(即使是小型和量化模型),使其成为一种不环保的方法。因此,由于LLM的巨大资源利用率,我们建议不要用LLM替代关系数据库。
【关键词】大语言模型(LLM)、自然语言查询、关系数据库、SQL、资源利用率、准确性、环境可持续性
1 研究背景与动机
随着大型语言模型(LLM)的快速发展,其在各个领域的应用日益广泛,包括自然语言处理、知识图谱、问答系统等。LLM能够理解和生成自然语言,这使得人们开始探索其在数据库查询方面的应用潜力。然而,LLM的资源利用率高和准确性低的问题限制了其应用。本文旨在深入分析LLM在数据库查询方面的性能,并探讨其优缺点。
2 研究方法
- 数据集:研究人员构建了一个包含100条股票交易记录的合成数据集,涵盖交易日期、类型、股票代码、数量和成本等属性。该数据集用于测试LLM模型的查询能力。
- LLM模型:研究评估了九种开源LLM模型,参数规模从70亿到340亿不等,包括Llama2、Mistral、Mixtral、Optimus-7B、SUS-chat-34B、platypus-yi-34b、NeuralHermes-2.5-Mistral-7B和Starling-LM-7B-alpha。这些模型涵盖了不同的规模和架构,以便全面评估LLM的性能。
- 实验设置:研究人员使用Python编写了自定义函数,用于测量LLM模型的执行时间、CPU利用率和内存消耗。此外,他们还使用Turbostat工具测量了模型的能源消耗。这些指标用于评估LLM模型的资源利用率。
- 评价指标:研究人员比较了LLM模型和传统SQL查询在以下方面的表现:
- 执行时间:测量执行查询所需的时间。
- 内存消耗:测量执行查询所需的内存量。
- 准确性:评估LLM模型生成查询结果或SQL查询的准确性。研究人员使用人工评估的方法来判断LLM模型的准确性。
- 能源消耗:测量执行查询所需的能源量。
3 研究结果
- 资源利用率:研究结果表明,LLM模型的资源利用率显著高于传统SQL查询,即使小型和量化模型也是如此。例如,SUS-chat-34B模型的内存消耗最高,而Optimus-7B模型的能源消耗最低。这表明使用LLM进行数据库查询会对环境造成更大的负担。
- 准确性:LLM模型在生成查询结果和SQL查询方面的准确性低于传统SQL查询。例如,Llama2 7B和Llama2 13B模型有时会生成无关的响应,而SUS-chat-34B和platypus-yi-34b模型则会预测或完成问题,而不是提供请求的信息。这表明LLM模型在理解复杂查询和生成准确查询方面存在挑战。
- 模型差异:研究结果表明,不同LLM模型在资源利用率和准确性方面存在显著差异。例如,Optimus-7B模型在执行时间和资源使用方面表现良好,而SUS-chat-34B模型的资源消耗则非常高。这表明选择合适的LLM模型对于数据库查询至关重要。
4 讨论与分析
- LLM模型的局限性:LLM模型的资源利用率高和准确性低的问题限制了其在数据库查询方面的应用。这可能是由于LLM模型的训练目标是生成自然语言文本,而不是进行数据库查询。
- 改进LLM模型:未来研究可以探索以下方法来改进LLM模型在数据库查询方面的性能:
- 微调:使用数据库查询数据进行微调,以提高LLM模型在理解复杂查询和生成准确查询方面的能力。
- 知识增强:将数据库知识融入到LLM模型中,以提高LLM模型对数据库的了解。
- 混合方法:将LLM的能力与传统的SQL解析技术相结合,以提高数据库查询的准确性和效率。
- 绿色计算:未来研究可以探索更环保的计算方法,以降低LLM的能源消耗。例如,可以使用低功耗硬件或开发更高效的算法。
5 结论与展望
LLM在数据库查询方面具有潜力,但其资源利用率高和准确性低的问题限制了其应用。未来研究需要进一步改进LLM模型的性能,并探索更环保的计算方法,以使LLM成为一种实用且可持续的数据库查询解决方案。