MODEL EPITAPH ARCHIVE

LLM赛博史记

记录每一个模型从发布、扩张、封神、边缘化到退役的生命周期。 它们不是永生的基础设施,而是一代代被记住又被替换的技术遗迹。

Turing-NLG

Microsoft,17B,当时最大的英文生成模型

Blender (1.0/2.0/3.0)

Meta (FAIR),up to 9.4B,开放域对话模型

GPT-3

OpenAI,175B,Few-shot learning 开创者,最初通过 API 访问

PanGu-α

华为,200B,中文预训练大模型

DALL·E (1)

OpenAI,12B,文生图(非纯语言模型,但基于 Transformer)

PLUG / PLUG-X

阿里达摩院,27B,中文预训练语言生成

CPM-2

清华/智源,198B,中文预训练大模型

GPT-J

EleutherAI,6B,开源 GPT-3 级别模型

ERNIE 3.0 / ERNIE-M

百度,10B,统一框架预训练,中英文

Codex

OpenAI,12B,GPT-3 代码微调版,GitHub Copilot 背后模型

FLAN (Flan-PaLM 等)

Google,指令微调系列

Yuan 1.0

浪潮信息,245B,中文大模型

ERNIE 3.0 Titan

百度,260B,中文最大规模预训练

GPT-NeoX-20B

EleutherAI,20B,当时最大的开源 Transformer

Chinchilla

DeepMind,70B,"compute-optimal" 理论验证

CodeGen

Salesforce,up to 16.1B,程序合成

DALL·E 2

OpenAI,3.5B,文生图扩散模型

PaLM

Google,540B,Pathways 架构,多语言、推理

CogView2 / CogVideo

清华,4B,文生图/文生视频

OPT (Open Pre-trained Transformer)

Meta,175B,GPT-3 级别开源复现

UL2

Google,20B,统一预训练框架

YaLM

Yandex,100B,俄英文开源大模型

BLOOM

BigScience (HuggingFace),176B,多语言开源,46 种语言

NLLB

Meta,54.5B,No Language Left Behind,200+ 语言翻译

GLM-130B

清华/智谱 AI,130B,中英双语通用预训练

Stable Diffusion

Stability AI,890M (UNet),开源文生图(非纯 LLM,但影响巨大)

Sparrow

DeepMind,70B,对话 Agent,RLHF

Whisper

OpenAI,1.5B,语音识别(多语言)

Flan-T5 / Flan-PaLM

Google,up to 540B,指令微调系列

AlexaTM

Amazon,20B,序列到序列预训练

GPT-3.5 (ChatGPT)

OpenAI,~175B,RLHF 对齐,ChatGPT 引爆 AI 热潮

Galactica

Meta,120B,科学文献模型,因幻觉严重下架

Wenxin (ERNIE Bot 前身)

百度,百度对话模型内测

ChatGLM

智谱 AI / 清华,6B,开源中英双语对话模型

LLaMA (1)

Meta,7B–65B,开源权重泄露,引爆开源 LLM 生态

MiniMax (abab 5/5.5)

MiniMax,未公开,闭源中文对话 AI

RWKV

RWKV Foundation,up to 14B,线性 RNN 架构替代 Transfor…

Alpaca

Stanford,7B,用 GPT-3.5 蒸馏 LLaMA

Cerebras-GPT

Cerebras,up to 13B,CS-2 芯片训练,开源

Claude 1

Anthropic,未公开,Constitutional AI

Claude Instant

Anthropic,低成本快速版本

ERNIE Bot / 文心一言

百度,未公开,百度对话 AI 公开发布

GPT-4

OpenAI,未公开(估计 ~1.8T MoE),多模态,当时最强闭源模型

OpenAssistant (OA)

LAION,12B/30B,社区驱动的对话模型

PaLM-E

Google,562B,具身多模态

Vicuna

LMSYS / UC Berkeley,13B,用户对话数据微调

Dolly 2.0

Databricks,12B,开源指令微调

RedPajama

Together,7B,开源 LLaMA 复现

SenseNova (商汤)

商汤科技,未公开,日日新大模型体系

StableLM

Stability AI,up to 7B,开源语言模型

Falcon (7B/40B/180B)

TII (阿联酋),7B/40B/180B,开源,RefinedWeb 数据集

PaLM 2

Google,未公开,改进多语言、推理

Spark (星火) V1/V2

讯飞,未公开,科大讯飞对话 AI

StarCoder

BigCode (HuggingFace),15.5B,开源代码模型

Aquila / Aquila2

智源研究院,up to 33B,中文开源模型

Baichuan-7B / 13B

百川智能,7B/13B,中文开源对话

ChatGLM2 / ChatGLM3

智谱 AI,6B,开源中文对话,工具调用

Orca

Microsoft,13B,GPT-4 蒸馏推理能力

Phi-1

Microsoft,1.3B,小模型代码生成

Tianwang (Skywork)

昆仑万维,13B,开源中文模型

WizardLM / WizardCoder

Microsoft,up to 34B,Evol-Instruct 方法

Claude 2

Anthropic,未公开,100K 上下文

InternLM

上海 AI 实验室,7B/20B,开源中文模型

LLaMA 2

Meta,7B–70B,商用许可开源,对话微调版

XGen

Salesforce,7B,8K 上下文开源

Code Llama

Meta,7B–34B,LLaMA 2 代码专项微调

Qwen (通义千问) 7B/14B

阿里云,7B/14B,中英双语开源

Baichuan-2 (7B/13B)

百川智能,7B/13B,改进训练数据和方法

GPT-4V (Vision)

OpenAI,GPT-4 视觉版本

Mistral 7B

Mistral AI,7B,性能超越 LLaMA 2 13B

Phi-1.5

Microsoft,1.3B,通用小模型

Moonshot (Kimi)

月之暗面,未公开,长文本处理能力强

GPT-4 Turbo

OpenAI,128K 上下文,知识截止更新

Grok-1

xAI (Elon Musk),314B,X/Twitter 集成

Qwen-72B

阿里云,72B,大规模中文开源模型

Yi (6B/34B)

零一万物 (李开复),6B/34B,开源中英双语

Gemini 1.0 (Ultra/Pro/Nano)

Google DeepMind,未公开,多模态(文本/图像/音频/视频)

Mamba

CMU / Tri Dao,up to 2.8B,SSM 架构,替代 Transformer

Mixtral 8x7B

Mistral AI,46.7B (MoE),开源 MoE 架构

GLM-4 / GLM-4V

智谱 AI,未公开 / 开源版 9B,通用 + 视觉

Hunyuan (混元)

腾讯,未公开,腾讯旗舰对话模型

InternLM 2 / 2.5

上海 AI 实验室,7B/20B,开源中文模型

Qwen 1.5 (系列)

阿里云,0.5B–72B,全面开源矩阵

Spark (星火) V3/V3.5/V4

讯飞,未公开,多模态升级

Gemini 1.5 Pro

Google DeepMind,未公开,百万 token 上下文窗口

Gemma (2B/7B)

Google,2B/7B,开源,基于 Gemini 技术

MiniCPM

面壁智能,2B,端侧推理,高效

Mistral Large

Mistral AI,未公开,闭源旗舰模型

Phi-2

Microsoft,2.7B,小模型高性能

SeaLLMs

AI Singapore,7B,东南亚语言

C4AI (Command R 系列)

Cohere,35B–104B,开源企业模型

Claude 3 (Haiku/Sonnet/Opus)

Anthropic,未公开,三档模型,200K 上下文

Command R / R+

Cohere,35B/104B,RAG 优化,企业级

DBRX

Databricks,132B (MoE),开源 MoE

Grok-1.5 / 1.5V

xAI,未公开,改进推理 + 视觉

Jamba

AI21 Labs,52B (MoE),Mamba + Transformer 混合架构

Kimi (Moonshot-V1)

月之暗面,未公开,200 万字超长上下文

Step-1 / Step-2

阶跃星辰,未公开,中文多模态

Yi-VL

零一万物,6B/34B,多模态版本

Yuan 2.0

浪潮信息,up to 102B,开源升级

Arctic

Snowflake,480B (MoE),开源,企业数据仓库优化

InternVL

上海 AI 实验室,up to 26B,开源视觉语言模型

LLaMA 3 (8B/70B)

Meta,8B/70B,开源新标杆

MiniCPM-V

面壁智能,2B–8B,端侧多模态

Mixtral 8x22B

Mistral AI,141B (MoE),大规模 MoE 开源

Phi-3 (Mini/Small/Medium)

Microsoft,3.8B/7B/14B,手机可运行的小模型

Aya 23

Cohere,8B/35B,多语言开源

Codestral

Mistral AI,22B,代码生成专项

DeepSeek-V2

DeepSeek (幻方量化),21B active / 236B total (MoE),…

Doubao (豆包)

字节跳动,未公开,字节跳动对话 AI

GPT-4o

OpenAI,未公开,原生多模态(音频/视觉/文本同一模型)

Gemini 1.5 Flash

Google DeepMind,轻量高速版

Granite (系列)

IBM,up to 34B,企业级开源

Reka (Core/Flash/Edge)

Reka AI,未公开,多模态

Yi-1.5 (6B/9B/34B)

零一万物,up to 34B,改进开源

Claude 3.5 Sonnet

Anthropic,编程能力大幅提升

CogVideoX

智谱 AI,5B,文生视频

DeepSeek-Coder-V2

DeepSeek,21B active / 236B total,代码专项 MoE

Gemma 2 (9B/27B)

Google,9B/27B,开源升级

MAP-Neo

澜舟科技,7B,开源中文

Nemotron-4 340B

NVIDIA,340B,开源,合成数据生成

Qwen 2 (系列)

阿里云,0.5B–72B,改进架构

GPT-4o mini

OpenAI,小型高效版

LLaMA 3.1 (8B/70B/405B)

Meta,up to 405B,最大开源模型(当时)

Mathstral

Mistral AI,7B,数学推理专项

SmolLM

HuggingFace,135M–1.7B,超小模型

Doubao-Pro / Lite

字节跳动,未公开,分级商用

Grok-2

xAI,未公开,图像生成集成

Phi-3.5 MoE / Vision

Microsoft,up to 42B (MoE),多模态 + MoE

LLaMA 3.2 (1B/3B/11B/90B)

Meta,up to 90B,多模态(视觉)开源

Mars (火星)

百川智能,16B,百川最新开源

Mistral Small / Medium

Mistral AI,商用分级

Pixtral 12B

Mistral AI,12B,多模态开源

Qwen 2.5 (系列)

阿里云,0.5B–72B,开源旗舰

o1 (Strawberry)

OpenAI,未公开,推理模型,思维链

o1-mini / o1-pro

OpenAI,o1 的精简/专业版

Claude 3.5 Haiku

Anthropic,快速版升级

Llama-3-Nemotron

NVIDIA,up to 70B,基于 LLaMA 3 微调

Hunyuan-Large

腾讯,389B (MoE),开源 MoE 大模型

QwQ (Qwen with Questions)

阿里云,推理模型(类似 o1)

Qwen2.5-Coder

阿里云,up to 32B,代码专项

DeepSeek-V3

DeepSeek,37B active / 671B total (MoE),多 token…

LLaMA 3.3 (70B)

Meta,70B,对话能力优化

o3 / o3-mini

OpenAI,推理模型升级

Aquila-2 / FlagOpen

智源研究院,up to 34B,开源中文持续更新

Claude 3.5 Sonnet (v2)

Anthropic,持续改进

Codestral 25.01

Mistral AI,22B,代码升级

DeepSeek-R1

DeepSeek,671B (MoE),开源推理模型,性能比肩 o1

DeepSeek-R1-Lite / Distill

DeepSeek,1.5B–70B,蒸馏版本(开源)

Doubao-1.5-Pro

字节跳动,MoE,改进版

GLM-4-Plus / GLM-Z1

智谱 AI,未公开,旗舰升级 + 推理版

Granite 3.x (系列)

IBM,up to 34B,企业级开源持续更新

Hunyuan-Large 开源版

腾讯,389B,开源 MoE

InternLM 3

上海 AI 实验室,7B/20B,开源,工具调用增强

Kimi 2 / Kimi k1.5

月之暗面,未公开,推理模型 + 多模态

LLaMA 4 Behemoth

Meta,288B active / 超过 2T total,训练中

MAI (Microsoft AI) 系列

Microsoft,多模态推理

MiniCPM 3.0 / 4.0

面壁智能,up to 8B,端侧多模态升级

MiniMax-01 / Text-01

MiniMax,456B (MoE),开源 MoE

MiniMax-Text-01

MiniMax,456B,超长上下文(400 万 token)

Mistral Large 2

Mistral AI,123B,改进闭源旗舰

Mistral Small 3

Mistral AI,24B,开源高效

OpenAI 实时语音/视频

OpenAI,原生语音对话

Qwen 2.5-Max

阿里云,MoE(未公开),闭源旗舰

SmolLM2

HuggingFace,up to 1.7B,超小模型升级

Sonar (Pro/Reasoning)

Perplexity,搜索增强推理

Spark 4.0 Ultra

讯飞,未公开,全模态

Yi-Lightning

零一万物,高效推理

o3

OpenAI,未公开,推理模型正式版

Claude 3.7 Sonnet

Anthropic,混合推理(思考模式)

GPT-4.5

OpenAI,未公开,规模扩大,情商提升

Gemini 2.0 Flash

Google DeepMind,高效多模态

Gemini 2.0 Flash Lite

Google DeepMind,更轻量

Gemma 3 (1B/4B/12B/27B)

Google,up to 27B,开源多模态

Grok-3 / Grok-3 Mini

xAI,未公开,推理能力大幅提升

Phi-4

Microsoft,14B,小模型旗舰

R1-1776

Perplexity,基于 DeepSeek-R1 微调

Samba-1

SambaNova,未公开,芯片 + 模型一体

Aya Vision

Cohere,8B/32B,多语言多模态

Command A

Cohere,111B (MoE),企业 RAG

DeepSeek-V3-0324

DeepSeek,671B (MoE),V3 改进版

Doubao (Seed / 字节种子)

字节跳动,推理模型

Gemini 2.5 Pro (Preview)

Google DeepMind,推理增强,百万 token 上下文

Hunyuan-T1

腾讯,MoE,推理模型

InternVL 2.5 / 3

上海 AI 实验室,up to 78B,开源视觉语言模型

Phi-4-Mini

Microsoft,3.8B,端侧推理

Step-2

阶跃星辰,未公开,万亿参数 MoE

LLaMA 4 (Scout/Maverick)

Meta,17B active / 109B total (MoE) 等,MoE 架构,多模…

Llama-4-Maverick

Meta,400B total (MoE),开源多模态

Llama-4-Scout

Meta,109B total (MoE),10M token 上下文

Moonlight (月之光)

Moonshot,16B MoE,开源 MoE

Qwen3 (系列)

阿里云,0.6B–235B (MoE),开源,思考/非思考双模式

o4-mini

OpenAI,高效推理模型

DeepSeek-Prover-V2

DeepSeek,671B,数学证明专项

GLM-4.1V / CogVideoX-2

智谱 AI,视觉/视频升级

Grok-3V

xAI,视觉多模态

Mistral Medium 3

Mistral AI,未公开,企业级

Qwen3-Coder

阿里云,代码专项

Claude 4 (Opus/Sonnet)

Anthropic,未公开,Opus 4 与 Sonnet 4,长程任务、代码和 Agent…

Jamba 1.5 / Jamba 1.5 Mini

AI21 Labs,up to 398B (MoE),Mamba-2 + Transform…

Magistral

Mistral AI,推理模型(类似 o1)

GPT-5

OpenAI,未公开,统一 GPT-5 系统,面向写作、代码、健康、视觉和推理

GPT-5.1

OpenAI,未公开,GPT-5 系列迭代,Instant 与 Thinking 两种形态

Claude Opus 4.5

Anthropic,未公开,Opus 系列迭代,编码、Agent 和企业工作流增强

GPT-5.2

OpenAI,未公开,面向专业知识工作和长程 Agent 的 GPT-5 系列升级

Qwen3-Max-Thinking

阿里云,未公开,Qwen3-Max 推理增强版,长链路推理和数学能力升级

Claude Opus 4.6

Anthropic,未公开,Opus 4 系列迭代,代码、长程工具调用和复杂规划增强

Gemini 3.1 Flash

Google DeepMind,未公开,Gemini 3.1 高效版,面向低延迟多模态任务

Gemini 3.1 Pro

Google DeepMind,未公开,Gemini 3 系列推理旗舰升级,长上下文和多模态…

Gemini 3.1 Flash-Lite

Google DeepMind,未公开,Gemini 3.1 轻量高吞吐版本

GPT-5.4

OpenAI,未公开,GPT-5 系列推理与工具调用升级,企业和开发者模型

Grok 4.20

xAI,未公开,Grok 4 系列升级,系统卡披露了推理和安全评测

Claude Opus 4.7

Anthropic,未公开,Opus 4 系列升级,长任务稳定性、代码和研究能力增强

GPT-5.5

OpenAI,未公开,GPT-5 系列重大升级,科学、法律、写作和复杂编码能力增强

DeepSeek-V4 / V4-Flash

DeepSeek,MoE(未公开),V4 基座与高效 Flash 版本,中文、代码和推理能力…

Qwen3.7-Max

阿里云,未公开,Qwen3.7 旗舰版,知识、数学、代码和多语言能力升级

Claude Opus 4.8

Anthropic,未公开,Anthropic 新旗舰,编码、研究、数学和长程 Agent …

MiniMax M3

MiniMax,未公开,MiniMax 新一代通用模型,中文长文、Agent 和多模态工作流…

Qwen3.7-Plus

阿里云,未公开,Qwen3.7 高性价比版本,面向通用对话和工具调用