Turing-NLG
Microsoft,17B,当时最大的英文生成模型
MODEL EPITAPH ARCHIVE
记录每一个模型从发布、扩张、封神、边缘化到退役的生命周期。 它们不是永生的基础设施,而是一代代被记住又被替换的技术遗迹。
Microsoft,17B,当时最大的英文生成模型
Meta (FAIR),up to 9.4B,开放域对话模型
OpenAI,175B,Few-shot learning 开创者,最初通过 API 访问
华为,200B,中文预训练大模型
OpenAI,12B,文生图(非纯语言模型,但基于 Transformer)
阿里达摩院,27B,中文预训练语言生成
清华/智源,198B,中文预训练大模型
EleutherAI,6B,开源 GPT-3 级别模型
百度,10B,统一框架预训练,中英文
OpenAI,12B,GPT-3 代码微调版,GitHub Copilot 背后模型
Google,指令微调系列
浪潮信息,245B,中文大模型
百度,260B,中文最大规模预训练
EleutherAI,20B,当时最大的开源 Transformer
DeepMind,70B,"compute-optimal" 理论验证
Salesforce,up to 16.1B,程序合成
OpenAI,3.5B,文生图扩散模型
Google,540B,Pathways 架构,多语言、推理
清华,4B,文生图/文生视频
Meta,175B,GPT-3 级别开源复现
Google,20B,统一预训练框架
Yandex,100B,俄英文开源大模型
BigScience (HuggingFace),176B,多语言开源,46 种语言
Meta,54.5B,No Language Left Behind,200+ 语言翻译
清华/智谱 AI,130B,中英双语通用预训练
Stability AI,890M (UNet),开源文生图(非纯 LLM,但影响巨大)
DeepMind,70B,对话 Agent,RLHF
OpenAI,1.5B,语音识别(多语言)
Google,up to 540B,指令微调系列
Amazon,20B,序列到序列预训练
OpenAI,~175B,RLHF 对齐,ChatGPT 引爆 AI 热潮
Meta,120B,科学文献模型,因幻觉严重下架
百度,百度对话模型内测
智谱 AI / 清华,6B,开源中英双语对话模型
Meta,7B–65B,开源权重泄露,引爆开源 LLM 生态
MiniMax,未公开,闭源中文对话 AI
RWKV Foundation,up to 14B,线性 RNN 架构替代 Transfor…
Stanford,7B,用 GPT-3.5 蒸馏 LLaMA
Cerebras,up to 13B,CS-2 芯片训练,开源
Anthropic,未公开,Constitutional AI
Anthropic,低成本快速版本
百度,未公开,百度对话 AI 公开发布
OpenAI,未公开(估计 ~1.8T MoE),多模态,当时最强闭源模型
LAION,12B/30B,社区驱动的对话模型
Google,562B,具身多模态
LMSYS / UC Berkeley,13B,用户对话数据微调
Databricks,12B,开源指令微调
Together,7B,开源 LLaMA 复现
商汤科技,未公开,日日新大模型体系
Stability AI,up to 7B,开源语言模型
TII (阿联酋),7B/40B/180B,开源,RefinedWeb 数据集
Google,未公开,改进多语言、推理
讯飞,未公开,科大讯飞对话 AI
BigCode (HuggingFace),15.5B,开源代码模型
智源研究院,up to 33B,中文开源模型
百川智能,7B/13B,中文开源对话
智谱 AI,6B,开源中文对话,工具调用
Microsoft,13B,GPT-4 蒸馏推理能力
Microsoft,1.3B,小模型代码生成
昆仑万维,13B,开源中文模型
Microsoft,up to 34B,Evol-Instruct 方法
Anthropic,未公开,100K 上下文
上海 AI 实验室,7B/20B,开源中文模型
Meta,7B–70B,商用许可开源,对话微调版
Salesforce,7B,8K 上下文开源
Meta,7B–34B,LLaMA 2 代码专项微调
阿里云,7B/14B,中英双语开源
百川智能,7B/13B,改进训练数据和方法
OpenAI,GPT-4 视觉版本
Mistral AI,7B,性能超越 LLaMA 2 13B
Microsoft,1.3B,通用小模型
月之暗面,未公开,长文本处理能力强
OpenAI,128K 上下文,知识截止更新
xAI (Elon Musk),314B,X/Twitter 集成
阿里云,72B,大规模中文开源模型
零一万物 (李开复),6B/34B,开源中英双语
Google DeepMind,未公开,多模态(文本/图像/音频/视频)
CMU / Tri Dao,up to 2.8B,SSM 架构,替代 Transformer
Mistral AI,46.7B (MoE),开源 MoE 架构
智谱 AI,未公开 / 开源版 9B,通用 + 视觉
腾讯,未公开,腾讯旗舰对话模型
上海 AI 实验室,7B/20B,开源中文模型
阿里云,0.5B–72B,全面开源矩阵
讯飞,未公开,多模态升级
Google DeepMind,未公开,百万 token 上下文窗口
Google,2B/7B,开源,基于 Gemini 技术
面壁智能,2B,端侧推理,高效
Mistral AI,未公开,闭源旗舰模型
Microsoft,2.7B,小模型高性能
AI Singapore,7B,东南亚语言
Cohere,35B–104B,开源企业模型
Anthropic,未公开,三档模型,200K 上下文
Cohere,35B/104B,RAG 优化,企业级
Databricks,132B (MoE),开源 MoE
xAI,未公开,改进推理 + 视觉
AI21 Labs,52B (MoE),Mamba + Transformer 混合架构
月之暗面,未公开,200 万字超长上下文
阶跃星辰,未公开,中文多模态
零一万物,6B/34B,多模态版本
浪潮信息,up to 102B,开源升级
Snowflake,480B (MoE),开源,企业数据仓库优化
上海 AI 实验室,up to 26B,开源视觉语言模型
Meta,8B/70B,开源新标杆
面壁智能,2B–8B,端侧多模态
Mistral AI,141B (MoE),大规模 MoE 开源
Microsoft,3.8B/7B/14B,手机可运行的小模型
Cohere,8B/35B,多语言开源
Mistral AI,22B,代码生成专项
DeepSeek (幻方量化),21B active / 236B total (MoE),…
字节跳动,未公开,字节跳动对话 AI
OpenAI,未公开,原生多模态(音频/视觉/文本同一模型)
Google DeepMind,轻量高速版
IBM,up to 34B,企业级开源
Reka AI,未公开,多模态
零一万物,up to 34B,改进开源
Anthropic,编程能力大幅提升
智谱 AI,5B,文生视频
DeepSeek,21B active / 236B total,代码专项 MoE
Google,9B/27B,开源升级
澜舟科技,7B,开源中文
NVIDIA,340B,开源,合成数据生成
阿里云,0.5B–72B,改进架构
OpenAI,小型高效版
Meta,up to 405B,最大开源模型(当时)
Mistral AI,7B,数学推理专项
HuggingFace,135M–1.7B,超小模型
字节跳动,未公开,分级商用
xAI,未公开,图像生成集成
Microsoft,up to 42B (MoE),多模态 + MoE
Meta,up to 90B,多模态(视觉)开源
百川智能,16B,百川最新开源
Mistral AI,商用分级
Mistral AI,12B,多模态开源
阿里云,0.5B–72B,开源旗舰
OpenAI,未公开,推理模型,思维链
OpenAI,o1 的精简/专业版
Anthropic,快速版升级
NVIDIA,up to 70B,基于 LLaMA 3 微调
腾讯,389B (MoE),开源 MoE 大模型
阿里云,推理模型(类似 o1)
阿里云,up to 32B,代码专项
DeepSeek,37B active / 671B total (MoE),多 token…
Meta,70B,对话能力优化
OpenAI,推理模型升级
智源研究院,up to 34B,开源中文持续更新
Anthropic,持续改进
Mistral AI,22B,代码升级
DeepSeek,671B (MoE),开源推理模型,性能比肩 o1
DeepSeek,1.5B–70B,蒸馏版本(开源)
字节跳动,MoE,改进版
智谱 AI,未公开,旗舰升级 + 推理版
IBM,up to 34B,企业级开源持续更新
腾讯,389B,开源 MoE
上海 AI 实验室,7B/20B,开源,工具调用增强
月之暗面,未公开,推理模型 + 多模态
Meta,288B active / 超过 2T total,训练中
Microsoft,多模态推理
面壁智能,up to 8B,端侧多模态升级
MiniMax,456B (MoE),开源 MoE
MiniMax,456B,超长上下文(400 万 token)
Mistral AI,123B,改进闭源旗舰
Mistral AI,24B,开源高效
OpenAI,原生语音对话
阿里云,MoE(未公开),闭源旗舰
HuggingFace,up to 1.7B,超小模型升级
Perplexity,搜索增强推理
讯飞,未公开,全模态
零一万物,高效推理
OpenAI,未公开,推理模型正式版
Anthropic,混合推理(思考模式)
OpenAI,未公开,规模扩大,情商提升
Google DeepMind,高效多模态
Google DeepMind,更轻量
Google,up to 27B,开源多模态
xAI,未公开,推理能力大幅提升
Microsoft,14B,小模型旗舰
Perplexity,基于 DeepSeek-R1 微调
SambaNova,未公开,芯片 + 模型一体
Cohere,8B/32B,多语言多模态
Cohere,111B (MoE),企业 RAG
DeepSeek,671B (MoE),V3 改进版
字节跳动,推理模型
Google DeepMind,推理增强,百万 token 上下文
腾讯,MoE,推理模型
上海 AI 实验室,up to 78B,开源视觉语言模型
Microsoft,3.8B,端侧推理
阶跃星辰,未公开,万亿参数 MoE
Meta,17B active / 109B total (MoE) 等,MoE 架构,多模…
Meta,400B total (MoE),开源多模态
Meta,109B total (MoE),10M token 上下文
Moonshot,16B MoE,开源 MoE
阿里云,0.6B–235B (MoE),开源,思考/非思考双模式
OpenAI,高效推理模型
DeepSeek,671B,数学证明专项
智谱 AI,视觉/视频升级
xAI,视觉多模态
Mistral AI,未公开,企业级
阿里云,代码专项
Anthropic,未公开,Opus 4 与 Sonnet 4,长程任务、代码和 Agent…
AI21 Labs,up to 398B (MoE),Mamba-2 + Transform…
Mistral AI,推理模型(类似 o1)
OpenAI,未公开,统一 GPT-5 系统,面向写作、代码、健康、视觉和推理
OpenAI,未公开,GPT-5 系列迭代,Instant 与 Thinking 两种形态
Anthropic,未公开,Opus 系列迭代,编码、Agent 和企业工作流增强
OpenAI,未公开,面向专业知识工作和长程 Agent 的 GPT-5 系列升级
阿里云,未公开,Qwen3-Max 推理增强版,长链路推理和数学能力升级
Anthropic,未公开,Opus 4 系列迭代,代码、长程工具调用和复杂规划增强
Google DeepMind,未公开,Gemini 3.1 高效版,面向低延迟多模态任务
Google DeepMind,未公开,Gemini 3 系列推理旗舰升级,长上下文和多模态…
Google DeepMind,未公开,Gemini 3.1 轻量高吞吐版本
OpenAI,未公开,GPT-5 系列推理与工具调用升级,企业和开发者模型
xAI,未公开,Grok 4 系列升级,系统卡披露了推理和安全评测
Anthropic,未公开,Opus 4 系列升级,长任务稳定性、代码和研究能力增强
OpenAI,未公开,GPT-5 系列重大升级,科学、法律、写作和复杂编码能力增强
DeepSeek,MoE(未公开),V4 基座与高效 Flash 版本,中文、代码和推理能力…
阿里云,未公开,Qwen3.7 旗舰版,知识、数学、代码和多语言能力升级
Anthropic,未公开,Anthropic 新旗舰,编码、研究、数学和长程 Agent …
MiniMax,未公开,MiniMax 新一代通用模型,中文长文、Agent 和多模态工作流…
阿里云,未公开,Qwen3.7 高性价比版本,面向通用对话和工具调用