大模型早期发展概述。

W. X. Zhao et al., “A Survey of Large Language Models,” Oct. 13, 2024, arXiv: arXiv:2303.18223. Accessed: Nov. 06, 2024. [Online]. Available: http://arxiv.org/abs/2303.18223

【摘要】自20世纪50年代图灵测试提出以来，人类一直探索着通过机器掌握语言智能的方法。语言本质上是一种由语法规则支配的复杂、精巧的人类表达系统。开发能够理解和掌握语言的强大人工智能算法是一项重大挑战。作为一种主要方法，语言建模在过去二十年中被广泛研究，用于语言理解和生成，并从统计语言模型发展到神经语言模型。最近，通过在大规模语料库上预训练Transformer模型，提出了预训练语言模型（PLM），在解决各种自然语言处理（NLP）任务方面表现出强大的能力。由于研究人员发现模型扩展可以提高模型容量，他们进一步通过增加参数规模来研究扩展效应，甚至达到更大的规模。有趣的是，当参数规模超过一定水平时，这些扩大的语言模型不仅实现了显著的性能提升，而且还表现出一些小型语言模型（例如BERT）所不具备的特殊能力（例如上下文学习）。为了区分不同参数规模的语言模型，研究社区为具有显著规模（例如包含数十亿或数百亿参数）的PLM创造了“大型语言模型（LLM）”一词。最近，学术界和工业界都大力推动了LLM的研究，其中一项显著的进展是发布了ChatGPT（基于LLM开发的人工智能聊天机器人），这引起了社会的广泛关注。LLM的技术演变对整个AI社区产生了重大影响，将彻底改变我们开发和使用AI算法的方式。考虑到这一快速的技术进步，在本调查中，我们通过介绍背景、关键发现和主流技术来回顾LLM的最新进展。特别是，我们重点关注LLM的四个主要方面，即预训练、适应性微调、利用和容量评估。此外，我们还总结了可用于开发LLM的资源，并讨论了未来方向的剩余问题。这项调查对LLM的文献进行了最新的回顾，可以成为研究人员和工程师的有用资源。

【关键词】大型语言模型；涌现能力；适应性微调；利用；对齐；容量评估

这篇论文对大型语言模型（LLM）进行了全面的概述，涵盖了其背景、关键技术、应用和未来方向.LLM作为自然语言处理领域的重大突破，正引领着人工智能的革新.本文将从论文架构出发，对LLM进行详细解读.

Hyplus目录

1 LLM的起源与发展
2 LLM的关键技术
3 LLM的能力评估
4 LLM的未来方向
5 总结

1 LLM的起源与发展

语言建模的演进：从统计语言模型（SLM）到神经语言模型（NLM），再到预训练语言模型（PLM），LLM是PLM的进一步发展，其参数规模远超传统PLM，展现出惊人的能力.
LLM的关键特性：
- 涌现能力：LLM在解决复杂任务时展现出一些小规模PLM不具备的能力，例如上下文学习、指令遵循和逐步推理.
- 技术变革：LLM改变了人类开发和使用AI算法的方式，主要通过提示接口进行访问，并对研发和工程之间的界限产生了影响.

2 LLM的关键技术

预训练：
- 数据收集：LLM需要大量高质量的文本数据，包括网页、书籍、对话文本、多语言文本、科学文本和代码等.
- 数据预处理：对数据进行清洗、去重、隐私信息去除和分词等处理，以提高数据质量.
- 模型架构：
  - 主流架构：编码器-解码器架构、因果解码器架构和前缀解码器架构.
  - 详细配置：标准化、位置嵌入、激活函数、注意力和偏差等.
- 预训练任务：语言建模和去噪自编码.
- 模型训练：
  - 优化设置：批量训练、学习率、优化器和训练稳定性.
  - 可扩展训练技术：3D并行、ZeRO和混合精度训练.
适应性调整：
- 指令微调：通过自然语言指令对LLM进行微调，使其能够泛化到未见过的任务.
- 对齐调整：通过强化学习从人类反馈中学习，使LLM符合人类价值观和偏好，例如帮助性、诚实性和无害性.
- 高效调整：使用适配器调整、前缀调整、提示调整和低秩适应等方法进行参数高效的微调.
模型利用：
- 上下文学习（ICL）：通过自然语言指令和示例，使LLM能够理解和执行新的任务.
- 思维链提示（CoT）：将中间推理步骤添加到提示中，以增强LLM在复杂推理任务上的性能.

3 LLM的能力评估

基本评估任务：
- 语言生成：语言建模、条件文本生成和代码合成.
- 知识利用：闭卷问答、开卷问答和知识补全.
- 复杂推理：知识推理、符号推理和数学推理.
高级能力评估：人类对齐、与外部环境的交互和工具操作.
公开基准和经验分析：MMLU、BIG-bench和HELM等基准对LLM进行全面评估，并分析其优势和局限性.

4 LLM的未来方向

理论和原理：深入理解LLM的工作机制，例如涌现能力的来源和模型架构的影响.
模型架构：探索更有效的Transformer变体，并解决灾难性遗忘等问题.
模型训练：开发更系统、经济的预训练方法，并提高训练效率和稳定性.
模型利用：自动生成有效提示，并开发交互式提示机制.
安全和对齐：提高模型安全性，并减少对人类标注数据的依赖.
应用和生态系统：推动基于LLM的应用生态系统的发展，并探索人工智能通用智能（AGI）的可能性.

5 总结

LLM作为一项革命性的技术，正在改变着自然语言处理和人工智能领域.未来，随着理论和技术的不断进步，LLM将在更多领域发挥重要作用，并推动人工智能向通用智能的方向发展.

[LLM] A Survey of Large Language Models

1 LLM的起源与发展

2 LLM的关键技术

3 LLM的能力评估

4 LLM的未来方向

5 总结

《[LLM] A Survey of Large Language Models》有1条评论

发表评论取消回复

AI大模型

控制台

通用工具

信息检索

开发辅助站

其他资源

博文分类

Hyplus服务

1 LLM的起源与发展

2 LLM的关键技术

3 LLM的能力评估

4 LLM的未来方向

5 总结

《[LLM] A Survey of Large Language Models》有1条评论

发表评论 取消回复

发表评论取消回复