大语言模型架构

扩展法则

有一系列关于模型能力与参数/数据规模之间的定量关系作为理论支撑,即扩展法则(Scaling Law),其中以 OpenAI 提出的 kaplan-McCandlish 法则以及 DeepMind 提出的 Chinchilla 法则最为著名。