名词 英文全称(中文全称) 原理 功能 Adapter Modules Adapter Modules(适配模块) 一种轻量级网络结构,可插入大型预训练模型中,仅增加少量参数用于模型微调 在不额外增加大量计算成本的前提下,提升模型在特定任务上的表现,兼顾模型性能与训练效率。 Agent Agent(智能体) 由 LLM 搭配记忆模块、工具调用模块和规划模块组成,能自主感知环境、制定计划并执行动作 自主完成各类复杂任务,例如智能办公助手可自主整理日程、检索资料并生成报告,自动驾驶系统可自主应对路况完成行驶任务。 AGI Artificial General Intelligence(通用人工智能) 追求具备人类水平,可理解并学习任意智力任务的智能系统 目标是胜任跨领域任务,当前尚处理论阶段,是 AI 研究终极方向。 AGI Artificial General Intelligence(通用人工智能) 以打造具备人类水平智能为目标,设计能理解、学习并完成任何人类可执行的智力任务的系统 是 AI 研究的终极方向,若实现可适配所有领域任务,如同时完成科学研究、复杂工程设计、日常服务等综合性工作。 AGI Artificial General Intelligence(通用人工智能) 以实现人类水平智能为目标,设计可自主感知、学习、推理,且能胜任各类智力任务的系统,具备跨领域举一反三的能力 作为 AI 研究的终极方向,旨在打破当前专用 AI 的场景局限,未来有望适配科研探索、复杂决策、多场景协同等全能型任务,目前尚未实现。 AI Artificial Intelligence(人工智能) 模拟人类智能,通过算法让机器具备学习、推理等类似人类的能力 应用于人脸识别、智能助手等,覆盖多领域完成各类智能任务。 AI Hallucination AI Hallucination(AI 幻觉) 模型在训练数据不足、语义理解偏差等情况下,基于概率预测生成与事实不符的虚假信息或无依据内容 是大模型常见缺陷,会导致生成内容失真,推动相关技术研发以降低幻觉率,保障模型在学术、医疗等领域应用的可靠性。 AI Hallucination AI Hallucination(AI 幻觉) 模型在训练数据不足、逻辑推理出错等情况下,生成看似合理但与事实不符、无依据的内容 属于模型的典型缺陷,会导致输出虚假信息,推动了事实核查、数据增强等优化技术的发展,适配严谨性要求高的任务场景 AIGC AI - Generated Content(人工智能生成内容) 基于生成模型学习数据特征,按指令生成各类新内容 生成文本、图片、音乐等内容,降低创作门槛,适配多场景内容需求。 ALBEF Align before Fuse(先对齐再融合模型) 先独立编码图文特征,通过跨模态注意力机制对齐特征,再进行模态融合训练 适配图文检索、图像描述、视觉问答等多任务,提升跨模态理解与生成能力。 Alpaca Alpaca(羊驼大模型) 基于 LLaMA,用指令微调技术,通过少量高质量对话数据优化模型 擅长遵循指令生成文本,适配轻量化对话场景,助力开发者快速搭建对话模型。 ANI Artificial Narrow Intelligence(弱人工智能) 聚焦单一或有限范围的特定任务,基于专项算法和数据训练,仅具备处理特定场景问题的能力,无自主意识和跨领域学习能力 适配各类日常及专业特定场景,例如下围棋的 AlphaGo、语音转文字工具、智能推荐系统等,是目前主流的 AI 应用形态 ASI Artificial Super Intelligence(超人工智能) 理论上超越人类所有智力水平的人工智能,不仅能精通人类所有领域知识,还能在创新、决策等方面展现出远超人类的能力 当前仅存在于理论和科幻构想中,若实现可能颠覆现有科技、产业等诸多领域的发展模式,承担人类难以完成的复杂科研、宇宙探索等任务 Attention Head Attention Head(注意力头) 在自注意力机制中,将注意力空间拆分多个子空间,每个子空间即为一个注意力头,并行捕捉数据不同维度的特征 增强模型对数据特征的全面捕捉能力,比如处理文本时,不同注意力头可分别关注语法结构、语义关联等不同维度信息。 BERT Bidirectional Encoder Representations from Transformers(双向编码器表示变换器) 采用 Transformer 编码器,通过掩码任务学习双向上下文语义 适配文本分类、问答、实体识别等,强化自然语言理解能力。 BioGPT BioGPT(生物医学生成式预训练变换器) 基于 Transformer 架构,用海量生物医学文献预训练,优化专业领域语义理解 处理生物医学文本生成、文献摘要、药物研发相关问答等专业任务。 BLIP - 2 Bootstrapping Language - Image Pre-training 2(引导式语言 - 图像预训练模型 2) 通过 Q - Former 模块连接视觉模型与 LLM,冻结 LLM 参数实现跨模态特征融合 支撑图像描述、视觉问答等任务,打通视觉信息到语言生成的转化链路。 BloombergGPT 无特定中文全称(彭博金融大语言模型) 基于 Transformer,用海量金融数据预训练,强化金融语义学习 处理金融报告生成、市场分析等,适配金融领域专业问答与数据解读。 BPU Brain Processing Unit(大脑处理器) 地平线科技提出的嵌入式人工智能处理器架构,针对深度神经网络的高效计算设计 攻克传统处理器处理并行计算任务的效率难题,适配终端设备的图像识别、语音处理、智能控制等嵌入式 AI 场景 Chain-of-Thought Chain-of-Thought(CoT,思维链) 通过提示词引导模型像人类思考一样,逐步拆解复杂问题,输出分步骤的推理过程,而非直接给出最终答案,让模型推理逻辑更连贯 大幅提升模型处理复杂任务的准确率,比如数学推理、逻辑分析、代码调试等场景,例如让模型求解复杂应用题时,通过思维链可清晰呈现每一步演算过程,减少计算错误 ChatGLM Chat General Language Model(对话通用语言模型) 基于 Transformer 的双向注意力机制,优化中文语境下的语义学习 高效处理中文文本生成、多轮对话,适配国内日常及办公语言场景。 Claude 3.5 Claude 3.5(克劳德 3.5 模型) 优化 Transformer 架构,强化非结构化数据处理与视觉推理能力 处理文本摘要、对话交互,适配法律、医疗等高精度场景。 CLIP Contrastive Language–Image Pre-training(对比语言 - 图像预训练) 联合训练文本和图像编码器,学习图文语义对应关系,通过对比学习对齐模态特征 实现跨模态检索,支持图搜文、文搜图,适配内容检索、图像分类等场景。 CNN Convolutional Neural Network(卷积神经网络) 以卷积运算为核心,通过卷积核提取数据的局部特征,再经池化等操作压缩特征维度,擅长处理图像这类网格状结构的数据 是图像处理领域的核心技术,比如安防监控的异常行为识别、医疗影像的病灶筛查、自动驾驶的道路标识识别等,都依赖其高效提取图像中的关键特征 Context Length Context Length(上下文长度) 限定模型一次性可处理和记忆的 Token 总量,相当于模型的 “短期记忆” 容量 决定模型处理长文本的能力,比如长上下文模型可完整解析长篇论文并生成总结,短上下文模型则更适配短句对话场景。 Context Length Context Length(上下文长度) 限定模型单次处理文本时能承载的 Token 总量,相当于模型的 “短期记忆容量”,直接决定模型对长文本的处理能力 决定模型可读取的对话历史、文档篇幅上限,长上下文长度可支撑模型处理长篇论文解读、多轮复杂对话等场景,提升对复杂文本的理解完整性。 Context Length Context Length(上下文长度) 相当于模型的 “短期记忆容量”,限定了模型单次能够接收和处理的 Token 总量上限,直接决定模型能关联的对话历史或文本上下文范围 影响模型对长文本、长对话的理解能力,例如长上下文模型可一次性处理整部小说并生成梗概,短上下文模型则需分段处理,常用于文档分析、长对话助手等场景 CoT Chain-of-Thought(思维链) 通过提示词引导模型分步拆解复杂问题,按逻辑顺序输出推理过程,模拟人类解决复杂问题时的思考路径 提升模型处理数学计算、逻辑推理等复杂任务的准确性,比如引导模型分步推导数学公式、拆解逻辑论证题,减少直接输出答案的错误率。 CV Computer Vision(计算机视觉) 模拟人类视觉系统,借助图像处理、模式识别等技术,让计算机对图像或视频中的目标进行检测、识别、跟踪等操作 实现图像分类、人脸识别、自动驾驶环境感知等功能,广泛应用于安防监控、医疗影像诊断、工业质检等场景。 Dataset Dataset(数据集) 是模型训练、验证和测试的基础数据集合,涵盖文本、图像、音频等多种类型,数据的规模、质量和多样性直接决定模型的学习效果上限 为模型提供学习素材,例如训练图像识别模型需大量标注图像数据集,训练翻译模型需多语言对照文本数据集,高质量数据集能显著提升模型的泛化能力和准确率 Deepfake Deepfake(深度伪造) 依托深度学习技术,尤其是生成式模型,对图像、音频、视频进行合成篡改,比如替换人脸、模拟语音、伪造动作等,让伪造内容看起来高度逼真 既有创意应用场景,如影视后期角色面部修复、虚拟角色配音;也存在风险,易被用于制作虚假新闻、诈骗视频等,推动了内容溯源和鉴别技术的发展 DeepSeek-V3 DeepSeek-V3(深度求索 V3 模型) 基于 Transformer,支持 128K 长上下文,海量中文数据预训练 高效处理中文文本生成、长文档分析,适配国内企业各类场景。 Diffusion Model Diffusion Model(扩散模型) 模拟气体扩散过程,先向数据中逐步添加噪声使其变成随机状态,再训练模型反向逐步去噪还原数据 生成高质量的图像、视频等内容,是 Stable Diffusion 等主流生成式图像工具的核心技术,适配创意设计、影视素材制作等场景。 DL Deep Learning(深度学习) 机器学习的重要分支,模拟人脑神经元网络结构构建多层神经网络,通过多层数据处理挖掘数据中更抽象、深层的特征规律 高效处理图像、语音等非结构化数据,突破传统机器学习的能力瓶颈,是计算机视觉、语音识别等高端 AI 技术落地的核心支撑。 DPU Deep Processing Unit(数据处理单元) 新型可编程处理器,专门针对数据中心的网络、存储和计算任务设计,补充 CPU 和 GPU 的功能缺口 承担数据中心的海量数据处理任务,缓解 CPU 的负载压力,保障数据传输与存储的高效性,是现代数据中心的核心支撑芯片之一。 Emergent Abilities Emergent Abilities(涌现能力) 当 AI 模型的参数、数据量等规模突破特定阈值后,量变引发质变,突然显现出小型模型不具备的新能力 让大模型具备编写代码、复杂逻辑推理等小型模型难以实现的能力,是大模型突破性能瓶颈的关键特性。 Emergent Abilities Emergent Abilities(涌现能力) 当模型规模(如参数数量)达到一定阈值后,突然展现出训练过程中未被专门教授的全新能力 拓展模型的应用边界,比如大模型在参数达标后,意外具备复杂代码调试、跨领域知识融合等原本未针对性训练的能力 ERNIE Enhanced Language Representation with Informative Entities(实体增强的语言表示模型) 类 BERT 架构,遮蔽短语和专有名词,融入实体信息预训练 适配中文处理,支撑文本理解、语义分析等自然语言任务。 Falcon Falcon(猎鹰大模型) 基于 Transformer 架构,优化预训练数据与注意力机制,开源且支持多语言 支撑文本生成、对话交互,适配企业级定制开发与学术研究二次优化。 Federated Learning Federated Learning(联邦学习) 采用分布式训练模式,多个参与方在不共享原始数据的前提下,共同训练一个模型 在保护数据隐私的同时完成模型训练,适配医疗、金融等数据敏感领域,避免数据泄露风险。 Few-Shot Learning Few-Shot Learning(小样本学习) 通过少量标注样本,结合迁移学习等技术,让模型快速学习适配特定任务,无需依赖海量标注数据构建模型的任务适配能力 适配标注数据稀缺的场景,例如小众疾病的医疗影像诊断(病例样本少)、冷门语种的翻译模型训练等,降低特定领域模型的开发成本 Fine-tuning Fine-tuning(微调) 基于预训练后的模型,用小批量特定领域的数据进一步调整模型参数,让模型适配具体场景和任务需求 让通用模型精准适配细分领域,例如将通用大模型微调后,可适配医疗病历分析、法律文书解读等专业场景 Foundation Model Foundation Model(基础模型) 在海量多样化无标注数据上完成无监督预训练,搭建具备通用基础能力的模型底座 作为通用平台,通过微调等方式快速适配报告撰写、翻译等各类下游具体任务,降低特定任务模型的开发成本。 FPGA Field Programmable Gate Array(现场可编程门阵列) 一种可编程逻辑器件,无固定指令集,可通过重新编程实现不同功能,采用比特级细粒度定制结构和流水线并行计算模式 适配深度学习任务,相比 CPU 能耗更低,能助力深度学习实时计算在移动端落地,也可用于模型优化的定制化探究 GAN Generative Adversarial Network(生成对抗网络) 靠生成器与判别器对抗训练,相互博弈优化生成能力 生成逼真图像、音频等数据,适配艺术创作、数据扩充场景。 Gemini Gemini(双子座大模型) 采用多模态统一架构,可同时处理文本、图像、音频、视频等多种输入模态 适配实时视频解读、多模态内容创作、智能助手多模态交互等复杂场景。 Gen AI Generative Artificial Intelligence(生成式人工智能) 基于算法与模型,学习数据中的特征和规律,进而生成文本、图像、声音、视频等各类内容 是内容创作领域的核心技术,适配文案撰写、创意绘画、虚拟语音合成等场景,像 AI 绘画工具、智能文案生成器均依托此技术。 GPT Generative Pre-trained Transformer(生成式预训练变换器) 基于 Transformer 解码器,自回归逐 Token 生成文本,经海量文本预训练 擅长文本创作、翻译、摘要等,生成连贯且逻辑清晰的文本内容。 GPT - 4V GPT - 4 with Vision(带视觉功能的生成式预训练变换器 4) 扩展 GPT - 4 架构,新增视觉编码器,融合文本与图像特征进行联合理解 解析电路图、手写笔记等复杂图像,完成图像解读、图文问答等跨模态任务。 Graph Neural Network(GNN) Graph Neural Network(图神经网络) 将数据构建成节点与边组成的图结构,通过聚合邻居节点信息更新自身特征,适配非欧几里得结构数据 处理社交网络分析、分子结构预测、推荐系统等任务,比如分析用户社交关系以实现精准好友推荐。 Grok-2 Grok-2(格罗克 2 模型) 对接 X 平台数据接口,实时抓取数据并强化舆情分析算法 精准完成舆情分析与预测,适配金融、政治领域数据研判。 Hunyuan Hunyuan(混元大模型) 融合 Transformer 与 CNN、GAN 等,多源数据预训练,强化多任务适配性 实现文本生成、图像创作,支撑智能客服、内容创作等场景。 Inference Inference(推理) 模型完成训练后,利用已习得的规律和参数,对从未接触过的新输入数据进行分析、计算并输出结果的过程,是模型从 “学习” 到 “应用” 的关键环节 是 AI 技术落地的核心流程,比如训练好的人脸识别模型,在实际场景中对路人面部信息进行比对识别、考勤打卡设备对员工面部的验证,都属于推理过程 Kimi-Research Kimi-Research(月之暗面研究模型) 搭载自主 Agent 框架,强化长文本处理与复杂任务拆解能力 独立完成论文综述、竞品分析等复杂任务,适配科研与商业场景。 Knowledge Graph Embedding Knowledge Graph Embedding(知识图谱嵌入) 将知识图谱中的实体和关系映射到低维向量空间,转化为模型可处理的数值形式 帮助模型更好地理解和推理实体间的关联,提升知识问答、推荐系统等任务中关系推理的准确性。 LAM Language Action Model(语言行动模型) 结合 LLM 理解能力、任务规划器与工具接口,将语言指令转为具体操作 驱动 AI 智能体完成自动化预订、软件操作等需调用外部工具的任务。 LCM Latent Consistency Model(潜在一致性模型) 在潜在空间学习噪声到清晰图像的映射捷径,减少生成推理步骤 快速生成高质量图像,适配移动端滤镜、实时图像生成等低延迟出图场景。 Learning Rate Learning Rate(学习率) 作为梯度下降算法的核心超参数,决定模型每次迭代时参数更新的步长大小 调控模型训练效率与效果,合理的学习率可让模型快速收敛到最优参数,过大或过小会导致模型训练不稳定或训练速度过慢。 LLaMA Large Language Model Meta AI(元人工智能大型语言模型) 基于 Transformer 架构,开源适配多语言低资源训练 助力学术研究与开发者二次开发,支撑各类通用文本任务。 LLM Large Language Model(大型语言模型) 基于深度学习,通过海量文本数据训练,包含数十亿甚至数万亿个参数,以此学习人类语言规律和海量知识 支撑各类复杂语言任务,像 ChatGPT、文心一言等产品均依托它实现对话、翻译、文案创作、论文撰写等功能 LLMOps LLMOps(大模型运维) 借鉴 DevOps 理念,涵盖大模型从数据准备、训练、部署到监控、迭代的全生命周期管理流程 保障大模型稳定高效运行,解决大规模部署中的版本管理、算力调度、故障排查等问题,适配企业级大模型的工业化应用。 LLMOps LLMOps(大模型运维) 借鉴 DevOps 理念,针对大模型设计的全生命周期管理体系,涵盖模型开发、训练、部署、监控、迭代优化等全流程的标准化运维方案 解决大模型从实验室到产业落地的运维难题,比如监控模型线上运行的稳定性、处理数据更新后的模型迭代、保障模型响应速度等,助力大模型规模化商用 LoRA Low - Rank Adaptation(低秩适配) 通过低秩矩阵适配,仅更新少量参数而非全量参数来微调模型 低成本适配特定任务,降低大模型微调的计算资源消耗。 LSTM Long Short - Term Memory(长短期记忆网络) 属于循环神经网络改进版,通过遗忘门、输入门、输出门的门控机制,解决传统 RNN 长序列数据处理时的梯度消失问题 适配长序列数据处理,可用于文本翻译、语音识别、时序预测等任务,比如处理长篇小说翻译、连续语音转文字等。 MACs Multiply Accumulate Operations(乘加累积操作次数) 一种微处理器中的特殊运算,单个操作包含一次乘法和一次加法,常作为衡量模型计算量的单位 用于评估 AI 模型的计算复杂度,为模型部署时的硬件选型提供参考,比如低 MACs 的模型更适配算力有限的嵌入式设备。 Meta-Learning Meta-Learning(元学习) 核心是 “学会学习”,通过特定算法让模型掌握快速适应新任务的能力,无需大量样本重新训练 适配少样本、零样本等新任务场景,比如仅靠几个示例就让模型快速学会新领域的简单分类任务。 ML Machine Learning(机器学习) 作为实现 AI 的核心方法,不依赖人工编写固定规则,而是通过算法对大量数据进行分析,自主总结数据中的隐藏规律与模式 是深度学习的基础,支撑分类、回归、聚类等基础 AI 任务,适配垃圾邮件识别、用户消费偏好预测等场景,是多数 AI 应用的底层技术支撑。 MLM Masked Language Model(掩码语言模型) 用双向 Transformer 编码器,通过遮盖文本词并预测的完形填空任务预训练 生成高质量词或句子嵌入,支撑文本分类、命名实体识别等任务。 MoE Mixture of Experts(专家混合模型) 含多个专家子网络与路由器,路由器将输入分配给适配的专家子网络处理 构建高性能大模型,在控制计算成本的同时提升模型推理效率与规模。 MoE Mixture of Experts(专家混合模型) 将模型拆分为多个专注不同细分任务的 “专家模块”,搭配门控网络,根据输入内容动态选择激活对应的专家模块协同工作 在保证模型性能的同时降低计算成本,是 GPT - 4 等大型模型的关键技术之一,可支撑模型高效处理多领域复杂任务,平衡算力消耗与处理效率 MOSS MOSS( moss 大语言模型) 采用 Transformer 架构,经中文多领域数据预训练,支持插件扩展 可完成文本创作、代码编写等,适配科研与日常办公的多样化需求。 Multimodality Multimodality(多模态) 整合文本、图像、语音、视频等多种不同类型的信息模态,通过跨模态关联算法,实现多类型数据的协同理解与处理 打破单一模态的信息局限,适配图文生成、语音转视频、跨模态内容检索等场景,比如根据文本描述生成对应图像,或通过语音指令编辑视频。 Multimodality Multimodality(多模态) 整合文本、图像、音频、视频等多种不同类型的信息模态,通过跨模态融合技术,让模型理解和生成多形式内容,打破单一模态的局限 实现跨形式的交互与创作,比如 AI 能根据文字描述生成对应的插画(文本转图像),或依据视频内容生成字幕和总结(视频转文本),常见于短视频创作、智能教育等场景 NeRF Neural Radiance Field(神经辐射场) 通过神经网络学习场景的辐射场信息,结合相机参数建模 3D 场景的光线分布 完成高精度 3D 场景重建与渲染,适配虚拟仿真、影视特效等场景,生成逼真的 3D 虚拟环境。 Neural Network Neural Network(神经网络) 模拟人脑神经元的连接方式构建数学模型,由输入层、隐藏层、输出层组成,通过调整层间神经元的连接权重传递和处理信息 是深度学习的核心基础结构,支撑图像识别、语音合成等各类 AI 任务的实现,比如人脸支付系统的图像比对功能就依托神经网络完成 NLP Natural Language Processing(自然语言处理) 融合语言学、计算机科学等多学科,研发让计算机理解、分析、生成人类自然语言的技术,搭建人类语言与计算机语言的沟通桥梁 支撑各类语言相关 AI 应用落地,例如机器翻译、语音助手、文本情感分析、智能办公的文档校对等,像跨境电商的商品评论翻译就依托 NLP 技术实现 NPU Neural network Processing Unit(神经网络处理器) 模拟人脑神经元结构,采用并行计算架构,针对性适配神经网络和深度学习算法的计算逻辑 快速处理神经网络多层数据,加速深度学习任务,常见于智能手机、智能摄像头等终端设备,支撑本地 AI 图像识别、语音处理等功能。 o3-mini o3-mini(迷你奥 3 模型) 精简 Transformer 架构,优化模型压缩与知识蒸馏技术 快速处理 STEM 领域简单任务,适配高并发、对响应速度要求高的场景。 Overfitting Overfitting(过拟合) 模型过度学习训练数据的特征,甚至记住噪声和异常值,导致在训练数据上表现极佳,但面对新数据时性能大幅下降 是模型训练中的常见问题,推动正则化等技术发展,帮助研发人员针对性优化模型,提升模型对新数据的适配能力。 Parameter Server Parameter Server(参数服务器) 采用分布式架构,专门存储和管理大规模模型训练过程中的海量参数,协调多个计算节点的参数同步与更新 支撑超大规模模型的分布式训练,解决训练时参数存储压力大、多节点参数一致性难题,提升大模型训练效率。 Pre-training Pre-training(预训练) 在模型正式适配特定任务前,用海量通用数据让模型学习基础规律、积累广泛知识,搭建模型的基础能力框架 为模型提供通用知识底座,减少后续针对特定任务的训练成本,是大模型具备广泛适配性的关键前置步骤 Prompt Prompt(提示词) 作为用户与 AI 模型交互的指令载体,可是短句、长段描述等形式,传递用户需求与任务要求 明确模型的任务方向,其设计质量直接影响模型输出效果,是自然语言处理任务中引导模型生成符合需求内容的关键。 Prompt Engineering Prompt Engineering(提示工程) 通过设计精准、合理的提示语,引导预训练模型更好地理解任务需求,最大化发挥模型潜力 适配各类预训练模型,无需微调就能让模型完成特定任务,比如设计特定指令让模型生成符合格式要求的报告。 Prompt Engineering Prompt Engineering(提示词工程) 基于对模型行为的理解,研究提示词的设计规律与优化方法,通过精准指令设计适配模型的响应逻辑 最大化 AI 模型性能,比如针对复杂数据分析任务设计分层提示词,可让模型按步骤输出精准结果,提升任务处理效率与准确性。 Qwen Qwen(通义千问) 基于 Transformer 架构,经海量多语种数据预训练,支持多模态拓展 处理文本生成、多轮对话,还可完成图文理解等多模态任务。 RAG Retrieval - Augmented Generation(检索增强生成) 结合检索和生成两大模块,先从外部知识库中检索与当前问题相关的真实数据,再将数据作为参考输入模型,辅助模型生成答案 有效降低 AI 幻觉概率,提升内容真实性,例如智能客服依托企业知识库做 RAG 优化后,能精准输出产品售后规则;学术助手可检索最新论文数据,生成符合事实的综述内容 Reinforcement Learning Reinforcement Learning(强化学习) 通过构建 “智能体 - 环境” 的交互模式,智能体在环境中完成动作后,依据奖惩机制调整策略,持续试错优化以获取最大化累积奖励 适配需动态决策和持续优化的场景,例如自动驾驶中车辆避障路径规划、机器人自主完成复杂装配任务、AlphaGo 围棋策略优化等 RLHF Reinforcement Learning from Human Feedback(从人类反馈中强化学习) 靠人类评价构建奖励模型,用强化学习优化模型输出,对齐人类需求 让模型输出更贴合人类偏好,提升回答逻辑性与合规性。 RLHF Reinforcement Learning from Human Feedback(人类反馈强化学习) 先让模型生成内容,人类对内容评分反馈,再以此为依据用强化学习算法迭代优化模型参数 让模型输出契合人类价值观和偏好,减少不当内容,提升回答的合理性与实用性,是 ChatGPT 等模型对齐人类需求的核心技术。 RoBERTa Robustly Optimized BERT Approach(鲁棒优化的双向编码器表示变换器方案) 优化 BERT,移除 NSP 任务,采用动态掩码,增加训练数据与时长 提升文本理解精度,适配文本分类、情感分析等 BERT 类任务。 SAM Segment Anything Model(分割一切模型) 采用图像编码器、提示编码器和掩码解码器,依据用户提示捕捉图像物体特征 精准分割图像中任意物体,可用于图像抠图、医学影像分析、自动驾驶场景物体分割。 Self-Attention Self-Attention(自注意力机制) 作为 Transformer 架构的核心功能,模型处理数据时可自动判断每个元素与其他元素间关联的重要程度 解决多义词、上下文关联等理解难题,比如能区分文本中 “苹果” 指代水果还是公司,保障模型准确解析语义 SFT Supervised Fine - Tuning(监督微调) 用高质量标注数据集,对预训练后的模型进一步针对性训练 提升模型在特定任务上的表现,让输出更贴合任务需求。 SLM Small Language Model(小型语言模型) 通过参数削减、知识蒸馏等技术,轻量化 LLM 适配边缘设备 适配设备端离线翻译、本地文本处理等低资源、低延迟场景。 SNN Spiking Neural Network(脉冲神经网络) 模拟生物神经元的脉冲发放机制,仅在接收到特定强度信号时产生脉冲信号传递信息,具有时序特性和低功耗特点 适配低功耗场景,可应用于边缘计算设备、脑机接口等领域,比如穿戴式健康监测设备中的信号处理任务。 Sora Sora(文本生成视频模型) 扩散模型基础,从视频噪声逐步去噪,结合多帧预测生成技术 根据文本生成 1 分钟高保真视频,还能扩展视频、静态图转视频。 Stable Diffusion Stable Diffusion(稳定扩散模型) 基于扩散模型,在潜在空间逐步去噪生成图像,结合文本编码器关联语义与图像 根据文本描述生成创意图像,还可实现图像修复、风格迁移等图像编辑任务。 Supervised Learning Supervised Learning(监督学习) 借助带明确标注的训练数据(如标注了 “猫”“狗” 的图片集),让模型学习输入数据与标注结果间的映射关系,训练过程中模型可根据标注修正偏差 适用于需明确分类或预测的任务,例如垃圾邮件分类、房屋价格预测、疾病初步筛查(通过标注病例数据训练)等场景 T5 Text-to-Text Transfer Transformer(文本到文本转换变换器) 基于 Transformer,将所有 NLP 任务统一为文本转换文本的格式 适配翻译、摘要等多种 NLP 任务,简化模型设计适配多场景。 Token Token(令牌) 是模型处理文本时的最小语义单元,英文中可能拆分词根或词缀,中文多以单个汉字或词语为单位,模型需先将文本拆解为 Token 再开展后续处理 作为文本处理的基础拆分形式,支撑模型对语言的理解与生成,比如 ChatGPT 处理长文本时,会通过 Token 计数控制内容长度,保障处理效率 TPU Tensor Processing Unit(张量处理器) 谷歌专为深层神经网络运算研发的专用芯片,采用低精度运算设计,适配机器学习算法的算力需求 大幅提升神经网络运算效率,支撑 AlphaGo、Google 搜索结果处理系统 RankBrain 等场景的高效运行,兼顾高性能与低功耗。 Transformer Transformer(变换模型) 以自注意力机制与多头注意力为核心,靠位置编码体现文本顺序 作为多数大模型基础架构,支撑文本理解与生成等核心任务。 Transformer Transformer(Transformer 架构) 以自注意力机制为核心创新点,让模型能动态关注输入信息不同部分的关联,是当前主流大模型的核心设计框架 大幅提升模型对文本等数据的学习效率,为 GPT、Deepseek 等先进大模型的研发和应用奠定基础 Unsupervised Learning Unsupervised Learning(无监督学习) 无需人工标注数据,模型自主分析海量无标注数据,挖掘数据中隐藏的聚类、关联等内在规律和分布特征 常用于数据探索和初步处理,比如电商平台的用户消费偏好分群、市场细分、异常交易初步识别等,帮助发现数据中的潜在价值 ViT Vision Transformer(视觉变换模型) 把 Transformer 架构应用于图像领域,将图像分割成多个图像块,再通过自注意力机制处理 实现高精度图像分类,打破传统卷积神经网络在图像处理中的局限,推动计算机视觉与 NLP 架构融合。 VLM Vision Language Model(视觉语言模型) 双编码器分别处理视觉与文本信息,借跨模态注意力融合两类信息 实现图像描述、视觉问答等,打通视觉与文本的语义关联。 VPU Vector Processing Unit(矢量处理器) 专门面向视频场景优化的视频加速器,内置视频编码加速专用模块,主打高性能、低功耗特性 解决 CPU 处理视频效率低的问题,高效处理海量视频数据,适配视频剪辑、视频监控分析、直播画质优化等场景 Word Embeddings Word Embeddings(词嵌入) 将文字转化为计算机可处理的低维向量,语义相近的词在向量空间中的距离更近 解决传统编码无法体现词间关联的问题,为自然语言处理任务提供基础,支撑模型理解词汇语义关系。 XAI Explainable AI(可解释性 AI) 针对传统 AI 模型 “黑箱” 问题,通过技术手段让模型的决策过程、参数调整逻辑、结果生成依据变得清晰可追溯、可理解,打破模型输出与底层逻辑的信息壁垒 适用于对可靠性要求极高的领域,比如医疗 AI 诊断系统,可解释模型能说明病灶识别的判断依据,帮助医生验证结果;金融风控场景中,可清晰展示信贷拒绝的核心原因 量化 Quantization(量化) 降低参数表示精度,将高精度数值转为低精度,实现模型压缩 减少模型存储占用与计算资源消耗,适配边缘设备部署。 蒸馏 Knowledge Distillation(知识蒸馏) 把复杂大模型的知识迁移到小型模型,复刻核心能力 让小模型低成本保留大模型性能,便于大规模部署与快速推理。
本文为张军原创文章,转载无需和我联系,但请注明来自张军的军军小站,个人博客http://www.zhangjunbk.com

