LLM赛博史记 | 模型生命周期

2020.02

Turing-NLG

Microsoft，17B，当时最大的英文生成模型

2020.04

Blender (1.0/2.0/3.0)

Meta (FAIR)，up to 9.4B，开放域对话模型

2020.06

GPT-3

OpenAI，175B，Few-shot learning 开创者，最初通过 API 访问

2020.06

PanGu-α

华为，200B，中文预训练大模型

2021.01

DALL·E (1)

OpenAI，12B，文生图（非纯语言模型，但基于 Transformer）

2021.04

PLUG / PLUG-X

阿里达摩院，27B，中文预训练语言生成

2021.06

CPM-2

清华/智源，198B，中文预训练大模型

2021.06

GPT-J

EleutherAI，6B，开源 GPT-3 级别模型

2021.07

ERNIE 3.0 / ERNIE-M

百度，10B，统一框架预训练，中英文

2021.08

Codex

OpenAI，12B，GPT-3 代码微调版，GitHub Copilot 背后模型

2021.10

FLAN (Flan-PaLM 等)

Google，指令微调系列

2021.11

Yuan 1.0

浪潮信息，245B，中文大模型

2021.12

ERNIE 3.0 Titan

百度，260B，中文最大规模预训练

2021.12

GPT-NeoX-20B

EleutherAI，20B，当时最大的开源 Transformer

2022.03

Chinchilla

DeepMind，70B，"compute-optimal" 理论验证

2022.03

CodeGen

Salesforce，up to 16.1B，程序合成

2022.04

DALL·E 2

OpenAI，3.5B，文生图扩散模型

2022.04

PaLM

Google，540B，Pathways 架构，多语言、推理

2022.05

CogView2 / CogVideo

清华，4B，文生图/文生视频

2022.05

OPT (Open Pre-trained Transformer)

Meta，175B，GPT-3 级别开源复现

2022.05

UL2

Google，20B，统一预训练框架

2022.06

YaLM

Yandex，100B，俄英文开源大模型

2022.07

BLOOM

BigScience (HuggingFace)，176B，多语言开源，46 种语言

2022.07

NLLB

Meta，54.5B，No Language Left Behind，200+ 语言翻译

2022.08

GLM-130B

清华/智谱 AI，130B，中英双语通用预训练

2022.08

Stable Diffusion

Stability AI，890M (UNet)，开源文生图（非纯 LLM，但影响巨大）

2022.09

Sparrow

DeepMind，70B，对话 Agent，RLHF

2022.09

Whisper

OpenAI，1.5B，语音识别（多语言）

2022.10

Flan-T5 / Flan-PaLM

Google，up to 540B，指令微调系列

2022.11

AlexaTM

Amazon，20B，序列到序列预训练

2022.11

GPT-3.5 (ChatGPT)

OpenAI，~175B，RLHF 对齐，ChatGPT 引爆 AI 热潮

2022.11

Galactica

Meta，120B，科学文献模型，因幻觉严重下架

2022.11

Wenxin (ERNIE Bot 前身)

百度，百度对话模型内测

2022.12

ChatGLM

智谱 AI / 清华，6B，开源中英双语对话模型

2022.12

LLaMA (1)

Meta，7B–65B，开源权重泄露，引爆开源 LLM 生态

2023.01

MiniMax (abab 5/5.5)

MiniMax，未公开，闭源中文对话 AI

2023.01

RWKV

RWKV Foundation，up to 14B，线性 RNN 架构替代 Transfor…

2023.03

Alpaca

Stanford，7B，用 GPT-3.5 蒸馏 LLaMA

2023.03

Cerebras-GPT

Cerebras，up to 13B，CS-2 芯片训练，开源

2023.03

Claude 1

Anthropic，未公开，Constitutional AI

2023.03

Claude Instant

Anthropic，低成本快速版本

2023.03

ERNIE Bot / 文心一言

百度，未公开，百度对话 AI 公开发布

2023.03

GPT-4

OpenAI，未公开（估计 ~1.8T MoE），多模态，当时最强闭源模型

2023.03

OpenAssistant (OA)

LAION，12B/30B，社区驱动的对话模型

2023.03

PaLM-E

Google，562B，具身多模态

2023.03

Vicuna

LMSYS / UC Berkeley，13B，用户对话数据微调

2023.04

Dolly 2.0

Databricks，12B，开源指令微调

2023.04

RedPajama

Together，7B，开源 LLaMA 复现

2023.04

SenseNova (商汤)

商汤科技，未公开，日日新大模型体系

2023.04

StableLM

Stability AI，up to 7B，开源语言模型

2023.05

Falcon (7B/40B/180B)

TII (阿联酋)，7B/40B/180B，开源，RefinedWeb 数据集

2023.05

PaLM 2

Google，未公开，改进多语言、推理

2023.05

Spark (星火) V1/V2

讯飞，未公开，科大讯飞对话 AI

2023.05

StarCoder

BigCode (HuggingFace)，15.5B，开源代码模型

2023.06

Aquila / Aquila2

智源研究院，up to 33B，中文开源模型

2023.06

Baichuan-7B / 13B

百川智能，7B/13B，中文开源对话

2023.06

ChatGLM2 / ChatGLM3

智谱 AI，6B，开源中文对话，工具调用

2023.06

Orca

Microsoft，13B，GPT-4 蒸馏推理能力

2023.06

Phi-1

Microsoft，1.3B，小模型代码生成

2023.06

Tianwang (Skywork)

昆仑万维，13B，开源中文模型

2023.06

WizardLM / WizardCoder

Microsoft，up to 34B，Evol-Instruct 方法

2023.07

Claude 2

Anthropic，未公开，100K 上下文

2023.07

InternLM

上海 AI 实验室，7B/20B，开源中文模型

2023.07

LLaMA 2

Meta，7B–70B，商用许可开源，对话微调版

2023.07

XGen

Salesforce，7B，8K 上下文开源

2023.08

Code Llama

Meta，7B–34B，LLaMA 2 代码专项微调

2023.08

Qwen (通义千问) 7B/14B

阿里云，7B/14B，中英双语开源

2023.09

Baichuan-2 (7B/13B)

百川智能，7B/13B，改进训练数据和方法

2023.09

GPT-4V (Vision)

OpenAI，GPT-4 视觉版本

2023.09

Mistral 7B

Mistral AI，7B，性能超越 LLaMA 2 13B

2023.09

Phi-1.5

Microsoft，1.3B，通用小模型

2023.10

Moonshot (Kimi)

月之暗面，未公开，长文本处理能力强

2023.11

GPT-4 Turbo

OpenAI，128K 上下文，知识截止更新

2023.11

Grok-1

xAI (Elon Musk)，314B，X/Twitter 集成

2023.11

Qwen-72B

阿里云，72B，大规模中文开源模型

2023.11

Yi (6B/34B)

零一万物 (李开复)，6B/34B，开源中英双语

2023.12

Gemini 1.0 (Ultra/Pro/Nano)

Google DeepMind，未公开，多模态（文本/图像/音频/视频）

2023.12

Mamba

CMU / Tri Dao，up to 2.8B，SSM 架构，替代 Transformer

2023.12

Mixtral 8x7B

Mistral AI，46.7B (MoE)，开源 MoE 架构

2024.01

GLM-4 / GLM-4V

智谱 AI，未公开 / 开源版 9B，通用 + 视觉

2024.01

Hunyuan (混元)

腾讯，未公开，腾讯旗舰对话模型

2024.01

InternLM 2 / 2.5

上海 AI 实验室，7B/20B，开源中文模型

2024.01

Qwen 1.5 (系列)

阿里云，0.5B–72B，全面开源矩阵

2024.01

Spark (星火) V3/V3.5/V4

讯飞，未公开，多模态升级

2024.02

Gemini 1.5 Pro

Google DeepMind，未公开，百万 token 上下文窗口

2024.02

Gemma (2B/7B)

Google，2B/7B，开源，基于 Gemini 技术

2024.02

MiniCPM

面壁智能，2B，端侧推理，高效

2024.02

Mistral Large

Mistral AI，未公开，闭源旗舰模型

2024.02

Phi-2

Microsoft，2.7B，小模型高性能

2024.02

SeaLLMs

AI Singapore，7B，东南亚语言

2024.03

C4AI (Command R 系列)

Cohere，35B–104B，开源企业模型

2024.03

Claude 3 (Haiku/Sonnet/Opus)

Anthropic，未公开，三档模型，200K 上下文

2024.03

Command R / R+

Cohere，35B/104B，RAG 优化，企业级

2024.03

DBRX

Databricks，132B (MoE)，开源 MoE

2024.03

Grok-1.5 / 1.5V

xAI，未公开，改进推理 + 视觉

2024.03

Jamba

AI21 Labs，52B (MoE)，Mamba + Transformer 混合架构

2024.03

Kimi (Moonshot-V1)

月之暗面，未公开，200 万字超长上下文

2024.03

Step-1 / Step-2

阶跃星辰，未公开，中文多模态

2024.03

Yi-VL

零一万物，6B/34B，多模态版本

2024.03

Yuan 2.0

浪潮信息，up to 102B，开源升级

2024.04

Arctic

Snowflake，480B (MoE)，开源，企业数据仓库优化

2024.04

InternVL

上海 AI 实验室，up to 26B，开源视觉语言模型

2024.04

LLaMA 3 (8B/70B)

Meta，8B/70B，开源新标杆

2024.04

MiniCPM-V

面壁智能，2B–8B，端侧多模态

2024.04

Mixtral 8x22B

Mistral AI，141B (MoE)，大规模 MoE 开源

2024.04

Phi-3 (Mini/Small/Medium)

Microsoft，3.8B/7B/14B，手机可运行的小模型

2024.05

Aya 23

Cohere，8B/35B，多语言开源

2024.05

Codestral

Mistral AI，22B，代码生成专项

2024.05

DeepSeek-V2

DeepSeek (幻方量化)，21B active / 236B total (MoE)，…

2024.05

Doubao (豆包)

字节跳动，未公开，字节跳动对话 AI

2024.05

GPT-4o

OpenAI，未公开，原生多模态（音频/视觉/文本同一模型）

2024.05

Gemini 1.5 Flash

Google DeepMind，轻量高速版

2024.05

Granite (系列)

IBM，up to 34B，企业级开源

2024.05

Reka (Core/Flash/Edge)

Reka AI，未公开，多模态

2024.05

Yi-1.5 (6B/9B/34B)

零一万物，up to 34B，改进开源

2024.06

Claude 3.5 Sonnet

Anthropic，编程能力大幅提升

2024.06

CogVideoX

智谱 AI，5B，文生视频

2024.06

DeepSeek-Coder-V2

DeepSeek，21B active / 236B total，代码专项 MoE

2024.06

Gemma 2 (9B/27B)

Google，9B/27B，开源升级

2024.06

MAP-Neo

澜舟科技，7B，开源中文

2024.06

Nemotron-4 340B

NVIDIA，340B，开源，合成数据生成

2024.06

Qwen 2 (系列)

阿里云，0.5B–72B，改进架构

2024.07

GPT-4o mini

OpenAI，小型高效版

2024.07

LLaMA 3.1 (8B/70B/405B)

Meta，up to 405B，最大开源模型（当时）

2024.07

Mathstral

Mistral AI，7B，数学推理专项

2024.07

SmolLM

HuggingFace，135M–1.7B，超小模型

2024.08

Doubao-Pro / Lite

字节跳动，未公开，分级商用

2024.08

Grok-2

xAI，未公开，图像生成集成

2024.08

Phi-3.5 MoE / Vision

Microsoft，up to 42B (MoE)，多模态 + MoE

2024.09

LLaMA 3.2 (1B/3B/11B/90B)

Meta，up to 90B，多模态（视觉）开源

2024.09

Mars (火星)

百川智能，16B，百川最新开源

2024.09

Mistral Small / Medium

Mistral AI，商用分级

2024.09

Pixtral 12B

Mistral AI，12B，多模态开源

2024.09

Qwen 2.5 (系列)

阿里云，0.5B–72B，开源旗舰

2024.09

o1 (Strawberry)

OpenAI，未公开，推理模型，思维链

2024.09

o1-mini / o1-pro

OpenAI，o1 的精简/专业版

2024.10

Claude 3.5 Haiku

Anthropic，快速版升级

2024.10

Llama-3-Nemotron

NVIDIA，up to 70B，基于 LLaMA 3 微调

2024.11

Hunyuan-Large

腾讯，389B (MoE)，开源 MoE 大模型

2024.11

QwQ (Qwen with Questions)

阿里云，推理模型（类似 o1）

2024.11

Qwen2.5-Coder

阿里云，up to 32B，代码专项

2024.12

DeepSeek-V3

DeepSeek，37B active / 671B total (MoE)，多 token…

2024.12

LLaMA 3.3 (70B)

Meta，70B，对话能力优化

2024.12

o3 / o3-mini

OpenAI，推理模型升级

2025.01

Aquila-2 / FlagOpen

智源研究院，up to 34B，开源中文持续更新

2025.01

Claude 3.5 Sonnet (v2)

Anthropic，持续改进

2025.01

Codestral 25.01

Mistral AI，22B，代码升级

2025.01

DeepSeek-R1

DeepSeek，671B (MoE)，开源推理模型，性能比肩 o1

2025.01

DeepSeek-R1-Lite / Distill

DeepSeek，1.5B–70B，蒸馏版本（开源）

2025.01

Doubao-1.5-Pro

字节跳动，MoE，改进版

2025.01

GLM-4-Plus / GLM-Z1

智谱 AI，未公开，旗舰升级 + 推理版

2025.01

Granite 3.x (系列)

IBM，up to 34B，企业级开源持续更新

2025.01

Hunyuan-Large 开源版

腾讯，389B，开源 MoE

2025.01

InternLM 3

上海 AI 实验室，7B/20B，开源，工具调用增强

2025.01

Kimi 2 / Kimi k1.5

月之暗面，未公开，推理模型 + 多模态

2025.01

LLaMA 4 Behemoth

Meta，288B active / 超过 2T total，训练中

2025.01

MAI (Microsoft AI) 系列

Microsoft，多模态推理

2025.01

MiniCPM 3.0 / 4.0

面壁智能，up to 8B，端侧多模态升级

2025.01

MiniMax-01 / Text-01

MiniMax，456B (MoE)，开源 MoE

2025.01

MiniMax-Text-01

MiniMax，456B，超长上下文（400 万 token）

2025.01

Mistral Large 2

Mistral AI，123B，改进闭源旗舰

2025.01

Mistral Small 3

Mistral AI，24B，开源高效

2025.01

OpenAI 实时语音/视频

OpenAI，原生语音对话

2025.01

Qwen 2.5-Max

阿里云，MoE（未公开），闭源旗舰

2025.01

SmolLM2

HuggingFace，up to 1.7B，超小模型升级

2025.01

Sonar (Pro/Reasoning)

Perplexity，搜索增强推理

2025.01

Spark 4.0 Ultra

讯飞，未公开，全模态

2025.01

Yi-Lightning

零一万物，高效推理

2025.01

o3

OpenAI，未公开，推理模型正式版

2025.02

Claude 3.7 Sonnet

Anthropic，混合推理（思考模式）

2025.02

GPT-4.5

OpenAI，未公开，规模扩大，情商提升

2025.02

Gemini 2.0 Flash

Google DeepMind，高效多模态

2025.02

Gemini 2.0 Flash Lite

Google DeepMind，更轻量

2025.02

Gemma 3 (1B/4B/12B/27B)

Google，up to 27B，开源多模态

2025.02

Grok-3 / Grok-3 Mini

xAI，未公开，推理能力大幅提升

2025.02

Phi-4

Microsoft，14B，小模型旗舰

2025.02

R1-1776

Perplexity，基于 DeepSeek-R1 微调

2025.02

Samba-1

SambaNova，未公开，芯片 + 模型一体

2025.03

Aya Vision

Cohere，8B/32B，多语言多模态

2025.03

Command A

Cohere，111B (MoE)，企业 RAG

2025.03

DeepSeek-V3-0324

DeepSeek，671B (MoE)，V3 改进版

2025.03

Doubao (Seed / 字节种子)

字节跳动，推理模型

2025.03

Gemini 2.5 Pro (Preview)

Google DeepMind，推理增强，百万 token 上下文

2025.03

Hunyuan-T1

腾讯，MoE，推理模型

2025.03

InternVL 2.5 / 3

上海 AI 实验室，up to 78B，开源视觉语言模型

2025.03

Phi-4-Mini

Microsoft，3.8B，端侧推理

2025.03

Step-2

阶跃星辰，未公开，万亿参数 MoE

2025.04

LLaMA 4 (Scout/Maverick)

Meta，17B active / 109B total (MoE) 等，MoE 架构，多模…

2025.04

Llama-4-Maverick

Meta，400B total (MoE)，开源多模态

2025.04

Llama-4-Scout

Meta，109B total (MoE)，10M token 上下文

2025.04

Moonlight (月之光)

Moonshot，16B MoE，开源 MoE

2025.04

Qwen3 (系列)

阿里云，0.6B–235B (MoE)，开源，思考/非思考双模式

2025.04

o4-mini

OpenAI，高效推理模型

2025.05

DeepSeek-Prover-V2

DeepSeek，671B，数学证明专项

2025.05

GLM-4.1V / CogVideoX-2

智谱 AI，视觉/视频升级

2025.05

Grok-3V

xAI，视觉多模态

2025.05

Mistral Medium 3

Mistral AI，未公开，企业级

2025.05

Qwen3-Coder

阿里云，代码专项

2025.05.22

Claude 4 (Opus/Sonnet)

Anthropic，未公开，Opus 4 与 Sonnet 4，长程任务、代码和 Agent…

2025.06

Jamba 1.5 / Jamba 1.5 Mini

AI21 Labs，up to 398B (MoE)，Mamba-2 + Transform…

2025.06

Magistral

Mistral AI，推理模型（类似 o1）

2025.08.07

GPT-5

OpenAI，未公开，统一 GPT-5 系统，面向写作、代码、健康、视觉和推理

2025.11.12

GPT-5.1

OpenAI，未公开，GPT-5 系列迭代，Instant 与 Thinking 两种形态

2025.11.24

Claude Opus 4.5

Anthropic，未公开，Opus 系列迭代，编码、Agent 和企业工作流增强

2025.12.11

GPT-5.2

OpenAI，未公开，面向专业知识工作和长程 Agent 的 GPT-5 系列升级

2026.01.25

Qwen3-Max-Thinking

阿里云，未公开，Qwen3-Max 推理增强版，长链路推理和数学能力升级

2026.02.05

Claude Opus 4.6

Anthropic，未公开，Opus 4 系列迭代，代码、长程工具调用和复杂规划增强

2026.02.19

Gemini 3.1 Flash

Google DeepMind，未公开，Gemini 3.1 高效版，面向低延迟多模态任务

2026.02.19

Gemini 3.1 Pro

Google DeepMind，未公开，Gemini 3 系列推理旗舰升级，长上下文和多模态…

2026.03.04

Gemini 3.1 Flash-Lite

Google DeepMind，未公开，Gemini 3.1 轻量高吞吐版本

2026.03.05

GPT-5.4

OpenAI，未公开，GPT-5 系列推理与工具调用升级，企业和开发者模型

2026.04.07

Grok 4.20

xAI，未公开，Grok 4 系列升级，系统卡披露了推理和安全评测

2026.04.16

Claude Opus 4.7

Anthropic，未公开，Opus 4 系列升级，长任务稳定性、代码和研究能力增强

2026.04.23

GPT-5.5

OpenAI，未公开，GPT-5 系列重大升级，科学、法律、写作和复杂编码能力增强

2026.04.24

DeepSeek-V4 / V4-Flash

DeepSeek，MoE（未公开），V4 基座与高效 Flash 版本，中文、代码和推理能力…

2026.05.20

Qwen3.7-Max

阿里云，未公开，Qwen3.7 旗舰版，知识、数学、代码和多语言能力升级

2026.05.28

Claude Opus 4.8

Anthropic，未公开，Anthropic 新旗舰，编码、研究、数学和长程 Agent …

2026.06

MiniMax M3

MiniMax，未公开，MiniMax 新一代通用模型，中文长文、Agent 和多模态工作流…

2026.06

Qwen3.7-Plus

阿里云，未公开，Qwen3.7 高性价比版本，面向通用对话和工具调用