LLM综述

语言本质上是一个由人类表达方式组成的复杂、错综复杂的系统,受语法规则的制约。开发能够理解和掌握语言的人工智能算法是一项重大挑战。作为一种主要方法,语言建模在过去二十年中被广泛用于语言理解和生成,从统计语言模型发展到神经语言模型。最近,预训练语言模型(PLMs)通过在大规模语料库中预训练 Transformer 模型而被提出,在解决各种 NLP 任务方面显示出强大的能力。由于研究人员发现模型缩放可以提高性能,他们进一步研究了缩放效应,将模型规模扩大到更大。有趣的是,当参数比例超过一定水平时,这些扩大的语言模型不仅能显著提高性能,而且还能显示出一些小规模语言模型所不具备的特殊能力。为了区分参数规模的差异,研究界创造了大型语言模型(LLM)这一术语,用于指规模相当大的 PLM。最近,学术界和工业界都在大力推进 LLM 的研究,其中一个显著的进展就是 ChatGPT 的推出,它引起了社会的广泛关注。LLM 的技术演进对整个人工智能界产生了重要影响,它将彻底改变我们开发和使用人工智能算法的方式。在本研究中,我们通过介绍 LLMs 的背景、主要发现和主流技术,回顾了 LLMs 的最新进展。其中,我们重点讨论了 LLMs 的四个主要方面,即预训练、适应性调整、利用和能力评估。此外,我们还总结了开发 LLMs 的可用资源,并讨论了未来发展方向的遗留问题。