TOC
KINA

KINA-0

Start having fun with KINA right now!

A Survey of Large Language Models

大模型早期发展概述。

W. X. Zhao et al., “A Survey of Large Language Models,” Oct. 13, 2024, arXiv: arXiv:2303.18223. Accessed: Nov. 06, 2024. [Online]. Available: http://arxiv.org/abs/2303.18223

【摘要】自20世纪50年代图灵测试提出以来,人类一直探索着通过机器掌握语言智能的方法。语言本质上是一种由语法规则支配的复杂、精巧的人类表达系统。开发能够理解和掌握语言的强大人工智能算法是一项重大挑战。作为一种主要方法,语言建模在过去二十年中被广泛研究,用于语言理解和生成,并从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上预训练Transformer模型,提出了预训练语言模型(PLM),在解决各种自然语言处理(NLP)任务方面表现出强大的能力。由于研究人员发现模型扩展可以提高模型容量,他们进一步通过增加参数规模来研究扩展效应,甚至达到更大的规模。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅实现了显著的性能提升,而且还表现出一些小型语言模型(例如BERT)所不具备的特殊能力(例如上下文学习)。为了区分不同参数规模的语言模型,研究社区为具有显著规模(例如包含数十亿或数百亿参数)的PLM创造了“大型语言模型(LLM)”一词。最近,学术界和工业界都大力推动了LLM的研究,其中一项显著的进展是发布了ChatGPT(基于LLM开发的人工智能聊天机器人),这引起了社会的广泛关注。LLM的技术演变对整个AI社区产生了重大影响,将彻底改变我们开发和使用AI算法的方式。考虑到这一快速的技术进步,在本调查中,我们通过介绍背景、关键发现和主流技术来回顾LLM的最新进展。特别是,我们重点关注LLM的四个主要方面,即预训练、适应性微调、利用和容量评估。此外,我们还总结了可用于开发LLM的资源,并讨论了未来方向的剩余问题。这项调查对LLM的文献进行了最新的回顾,可以成为研究人员和工程师的有用资源。

【关键词】大型语言模型;涌现能力;适应性微调;利用;对齐;容量评估

这篇论文对大型语言模型(LLM)进行了全面的概述,涵盖了其背景、关键技术、应用和未来方向.LLM作为自然语言处理领域的重大突破,正引领着人工智能的革新.本文将从论文架构出发,对LLM进行详细解读.

1 LLM的起源与发展

  • 语言建模的演进:从统计语言模型(SLM)到神经语言模型(NLM),再到预训练语言模型(PLM),LLM是PLM的进一步发展,其参数规模远超传统PLM,展现出惊人的能力.
  • LLM的关键特性:
    • 涌现能力:LLM在解决复杂任务时展现出一些小规模PLM不具备的能力,例如上下文学习、指令遵循和逐步推理.
    • 技术变革:LLM改变了人类开发和使用AI算法的方式,主要通过提示接口进行访问,并对研发和工程之间的界限产生了影响.

2 LLM的关键技术

  • 预训练:
    • 数据收集:LLM需要大量高质量的文本数据,包括网页、书籍、对话文本、多语言文本、科学文本和代码等.
    • 数据预处理:对数据进行清洗、去重、隐私信息去除和分词等处理,以提高数据质量.
    • 模型架构:
      • 主流架构:编码器-解码器架构、因果解码器架构和前缀解码器架构.
      • 详细配置:标准化、位置嵌入、激活函数、注意力和偏差等.
    • 预训练任务:语言建模和去噪自编码.
    • 模型训练:
      • 优化设置:批量训练、学习率、优化器和训练稳定性.
      • 可扩展训练技术:3D并行、ZeRO和混合精度训练.
  • 适应性调整:
    • 指令微调:通过自然语言指令对LLM进行微调,使其能够泛化到未见过的任务.
    • 对齐调整:通过强化学习从人类反馈中学习,使LLM符合人类价值观和偏好,例如帮助性、诚实性和无害性.
    • 高效调整:使用适配器调整、前缀调整、提示调整和低秩适应等方法进行参数高效的微调.
  • 模型利用:
    • 上下文学习(ICL):通过自然语言指令和示例,使LLM能够理解和执行新的任务.
    • 思维链提示(CoT):将中间推理步骤添加到提示中,以增强LLM在复杂推理任务上的性能.

3 LLM的能力评估

  • 基本评估任务:
    • 语言生成:语言建模、条件文本生成和代码合成.
    • 知识利用:闭卷问答、开卷问答和知识补全.
    • 复杂推理:知识推理、符号推理和数学推理.
  • 高级能力评估:人类对齐、与外部环境的交互和工具操作.
  • 公开基准和经验分析:MMLU、BIG-bench和HELM等基准对LLM进行全面评估,并分析其优势和局限性.

4 LLM的未来方向

  • 理论和原理:深入理解LLM的工作机制,例如涌现能力的来源和模型架构的影响.
  • 模型架构:探索更有效的Transformer变体,并解决灾难性遗忘等问题.
  • 模型训练:开发更系统、经济的预训练方法,并提高训练效率和稳定性.
  • 模型利用:自动生成有效提示,并开发交互式提示机制.
  • 安全和对齐:提高模型安全性,并减少对人类标注数据的依赖.
  • 应用和生态系统:推动基于LLM的应用生态系统的发展,并探索人工智能通用智能(AGI)的可能性.

5 总结

LLM作为一项革命性的技术,正在改变着自然语言处理和人工智能领域.未来,随着理论和技术的不断进步,LLM将在更多领域发挥重要作用,并推动人工智能向通用智能的方向发展.

发表评论