大模型常见名词术语

内容分享2天前发布
0 0 0

模型常见名词术语

一、模型参数

核心概念

神经网络参数量,均衡模型复杂度和能力

单位表示

通常以十亿为单位,简称B示例:满血版的671B模型就有6710亿个参数

能力与参数关系

参数越多,模型能力越强,处理复杂问题更准确

硬件需求计算

推理显存计算

参数显存 (GB) = 参数量 (B) × 精度字节数

精度字节数:FP32=4、FP16/BF16=2、INT8=1、INT4=0.5示例:7B模型FP16精度:7×2=14GB

KV缓存显存 (GB) = 2 × 层数 × batch_size × 序列长度 × 隐藏层维度 × 精度字节数

示例:32层模型,batch_size=1,序列长度=512,隐藏层维度=4096,FP16精度:2×32×1×512×4096×2≈0.27GB

激活值显存

前向传播中间结果,约占参数显存的10%-20%

推理总显存 = (参数显存 + KV缓存显存 + 激活值显存) × 1.2(含20%系统预留)

训练显存计算

参数显存:同上(参数量×精度字节数)

梯度显存:与参数显存等量(参数量×精度字节数)

优化器状态显存:优化器显存=参数量×8(FP32存储动量/方差,占8字节/参数)

示例:7B模型优化器状态:7×8=56GB

激活值显存:与模型深度、序列长度强相关,通常为参数显存的0.5-3倍

训练总显存 ≈ 参数显存 × 4~6倍(含梯度+优化器+激活值+系统预留)

关键影响因素及优化

量化技术

INT8/INT4量化可减少参数显存50%-75%,但可能损失精度8-bit优化器可压缩优化器状态

结构参数影响

KV缓存显存与序列长度、batch_size线性正相关,长文本场景需求激增激活值显存在Transformer中与序列长度²正相关

系统级优化

混合精度训练(FP16/BF16)显存减半梯度累积技术降低batch_size依赖多卡并行可线性分摊显存(如8卡训练70B模型,单卡100GB)

二、上下文长度

核心概念

模型的”(短期)记忆范围”模型一次性处理文本的长度,影响理解和生成能力

重要性

NLP领域至关重要,尤其长文本处理

示例

DeepSeek r1 输入上下文长度为 128K Tokens

常用长度

2k, 4k, 8k, 32k+,不同场景不同长度

三、思维链长度 & 最大输出长度

思维链长度

模型输出答案前的思考步骤长度,提升答案准确性

最大输出长度

模型单次输出的文本长度上限。通常需要多次交互完成长内容生成

DeepSeek 示例

DeepSeek-reasoner 思维链长度可达32K,最大输出长度为8K

四、量化

核心概念

降低模型参数精度,将高精度浮点数(FP32)转换为低精度整数(INT8,INT4)

本质

牺牲微小精度,换取存储空间、计算速度和能耗效率的显著提升

优点

优化显存:模型体积大幅度缩减(4-8倍)加速推理:低精度计算提速(2-4倍)降低能耗:能耗指数级下降(INT4推理能耗仅为FP32的1/10)提升通信效率:分布式训练中减少通信带宽需求

缺点

精度损失:可能导致关键特征丢失,模型精度下降5-15%硬件限制:FP8需H系列或40系列GPU,FP4需B系列或50系列GPU(INT8需要支持Tensor Core的GPU)

五、蒸馏

核心概念

将大模型(Teacher)的知识和能力迁移到小模型(Student)的技术教师模型 → 知识迁移 → 学生模型 (如671B → 7B参数)

类比

教师教学,学生学习解题思路,而非死记硬背

目标

构造资源高效、性能优异的小模型

DeepSeek 示例

R1-distill-Qwen7B,将R1(671B)的知识和能力,通过某种方式(如微调)传递给小模型Qwen-7B

蒸馏模型(学生模型)的优缺点

优点

体积小、速度快、成本低便于大规模部署和应用落地

缺点

可能模仿教师模型的回答习惯,创造性不足

教师模型的优缺点

优点

参数量大、知识图谱完整、能力更全面回答更深入,更具有创造性

缺点

运行成本高,资源占用大,依赖高性能GPU

蒸馏模型命名规律

明确包含”Distill”或”蒸馏”关键词

许多蒸馏模型会在名称中明确包含”Distill”、”Distil”或中文”蒸馏”字样:
DeepSeek-R1-Distill-Qwen-14B
(蒸馏模型)
DeepSeek-R1-Distill-Qwen-32B
(蒸馏模型)
DeepSeek-R1-Distil-Qwen-7B
(蒸馏模型)

混合不同开发者/系列名称

蒸馏模型常常结合两个不同开发者或模型系列的名称,表示使用一个模型对另一个模型进行蒸馏:
DeepSeek-R1-Distill-Qwen-14B
:表示DeepSeek使用其R1模型对Qwen模型进行蒸馏
DeepSeek-R1-0528-Qwen3-8B
:可能表示基于Qwen3-8B的DeepSeek蒸馏模型

参数规模变化

蒸馏模型通常是从大模型蒸馏到小模型,因此参数规模会显著减小:原始模型:
Qwen2.5-72B-Instruct
(72B参数)蒸馏模型可能:
Qwen3-30B-A3B-FP8
(30B参数,明显更小)

特定后缀标识

某些蒸馏模型会使用特定后缀来标识其蒸馏特性:
-A3B

-A22B
等可能表示模型经过压缩或蒸馏处理

六、Token

核心概念

模型表示自然语言文本的最小单位,计费的基本单位

定义

可以是一个词、一个数字、一个标点符号等

计费单位

模型输入和输出的总token数

扣费规则

Token消耗量 × 模型单价

七、MOE(混合专家)

核心概念

Mixture of Experts(混合专家)架构,多个专家模块,每个专家负责特定任务

门控机制

是深度学习中一种重要的技术,用于动态控制神经网络中的信息流动

核心概念

门控机制是一种动态控制信息流的技术,通过”门”来决定哪些信息应该被保留、更新或丢弃。它类似于电路中的逻辑门,控制信号是否通过。门控机制的核心思想是让神经网络能够根据输入和任务需求自适应地调整信息流。

工作原理

门控机制通常由以下组件构成:
神经网络层:通常是全连接层或卷积层激活函数:常用Sigmoid函数,将输出压缩到[0,1]范围门控操作:将门控信号与输入特征进行逐元素相乘计算公式一般为:G = σ(Wx + b)
其中:
x是输入信息W和b是可学习参数σ是Sigmoid激活函数G是门控值,范围在[0,1]之间当门控值接近1时,信息几乎完整通过;当接近0时,信息基本被屏蔽。

主要应用

循环神经网络(RNN)

在RNN中,门控机制解决了传统RNN的梯度消失问题,使其能够更好地处理长序列依赖。LSTM(长短期记忆网络)
LSTM包含三个主要门控组件:
遗忘门:决定丢弃哪些历史信息输入门:控制新信息的写入输出门:调节当前状态的输出

GRU(门控循环单元)
GRU相对简洁,包含两个门:
重置门:控制忽略历史信息的程度更新门:控制新旧信息的融合比例

Transformer架构

在Transformer中,门控机制被用于增强模型处理长期依赖关系的能力,提高计算效率。

Mixture of Experts(MoE)

在专家混合模型中,门控机制用于决定激活哪些专家。

流程

输入 → 门控网络(选择最佳专家) → 专家1(文本处理) + 专家2(数字计算) + 专家3(图像识别) → 输出

优点

DeepSeek V3/R1 示例:671B参数,激活37B参数
稀疏激活动态专家分配高效计算可拓展性

八、RAG(检索增强生成)

核心概念

Retrieval-Augmented Generation(检索增强生成),结合信息检索与生成式大模型

机制

实时引入外部知识库,提升模型在知识密集型任务中的表现

架构

检索 + 生成 结合

流程

知识库(企业文档、资料、数据库) + 大模型(生成能力) + 外部信息(实时检索) → 增强输出(更准确、更专业)

优点

外挂知识库 – 企业文档、资料、数据库RAG与Agent结合 – 实现动态决策多模态扩展 – 文本、图像、视频检索平衡通用性与领域专业性,实时性高,准确率高

九、RL(强化学习)

核心概念

Reinforcement Learning (强化学习),模型通过试错学习和环境交互,自助优化策略

机制

奖励系统驱动模型在试错中优化策略,模拟人类”先思考后回答”的认知过程

流程

智能体(Agent) ↔ 【循环迭代】环境(Environment)

特点

试错学习与动态优化 – 通过试错不断调整策略,提高表现环境交互架构 – Agent、Environment、Action、Reward自迭代推理能力 – 不断更新思考过程,提高决策质量

示例

DeepSeek R1 示例:使用强化学习框架(GRPO)提升推理性能

对比:强化学习 VS 传统训练

特征 传统训练方法(行为克隆) 强化学习(RL)
学习方式 依赖海量标注数据 试错学习、环境交互
中间过程 仅关注输出结果匹配度 自主调整思考步骤,如:推理过程
泛化能力 依赖训练数据覆盖场景 提炼通用规则,跨领域泛化
典型应用 标准化问答、文本生成 数学推理、编程调试、复杂逻辑问题

十、智能体(Agent)

核心概念

Agent(智能体),AI系统实现自助决策的核心载体

能力边界

通过环境交互、多模态融合、策略优化不断拓展

OpenAI AI能力等级

聊天机器人(Conversation AI):基础对话能力推理者(Reasoners):逻辑推理能力智能体(Agents):自助执行任务创新者(Innovators): 创造性解决问题组织者(Organizations): 组织协调能力

AI的三剑客

AGI(通用人工智能): 长期目标,宏观理想,全能”超级大脑”AIGC(人工智能生成内容): AGI的一部分,内容创作领域,AGI的”文艺细胞”智能体(Agent): AGI的另一个方面,注重行动,AGI的手脚

比喻

AGI = 餐厅老板 , AIGC = 创意厨师 , 智能体 = 服务员

十一、具身智能

核心概念

Embodied Artificial Intelligence(具身智能),简称EAI,强调身体与环境交互对认知的重要性

核心思想

智能并非孤立于大脑,而是身体、环境、感知运动系统协同作用的产物

对比:离身智能 VS 具身智能

具身智能

自助学习:智能体通过身体与环境动态交互实现自主学习和进化身体经验:认知过程具有身体性,源于身体经验世界构建:世界观通过交互构建,而非预先编码

与”离身”相对

ChatGPT等为”离身智能”,缺乏物理交互

架构

感知层(Perception Layer): 物理环境信息采集与处理(六维力矩传感器、3D相机、激光雷达)想象层(Imagination Layer): 任务规划与决策(多模态大模型LLM、强化学习、GPU/ASIC)执行层(Execution Layer): 精密动作控制(无框架力矩电机、谐波减速器、滚珠丝杠)

具身智能:从 “离身”到”具身”

传统AI(离身)

Siri等语音助手,仅处理语言信号,缺乏物理交互功能:语音识别、文本生成、信息检索、简单交互

具身智能(具身)

优必选Walker S1等人形机器人,同步完成视觉识别,路径规划、机械臂抓取等跨模态任务功能:视觉识别、路径规划、机械臂抓取、跨模态交互

认知革命

具身智能是认知革命,对智能体本质的重新定义

未来展望

重塑人工智能未来图景,带来更大想象和创造空间

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...