凡泰讲堂

大白话70个你必须知道的AI重要概念（三）

人工智能尤其是生成式AI领域的技术迭代步伐太快，各种概念层出不穷。有些是新概念，但有更多其实是早已存在多年而不为普罗大众了解的技术概念，而当GPT已经家喻户晓、像智能手机普及那样进入千家万户的时候，一些非常抽象的概念术语，是时候尝试以大白话、类比的方式去重新阐述。

F1n0Geek

2024年1月10日 • 18 min read

分享到微信

Photo by Growtika / Unsplash

本文按英文起首字母顺序，整理了70个常用的生成式AI领域常用概念，试图以大白话进行诠释，如果你不求甚解、但也求略解的话，欢迎收藏。第一部分从A到I，第二部分从L到P，第三部分从Q到Z。

Q

57 QLoRA: 量化LoRA。QLoRA是LoRA的进一步改进，使用量化技术（Quantization）来减小适配器模块的大小和内存占用。传统上，大语言模型需要大量的计算资源和内存才能运行。这使得它们难以在有限资源的设备上部署，例如手机或边缘设备。QLoRA 使用量化技术来减少适配器模块的大小和内存占用，使得大语言模型在手机上部署成为可能。QLoRA 的实验表明，它可以使用 4 位量化来实现与 16 位完全微调相匹配的性能。这意味着，QLoRA 可以将大语言模型的计算和内存需求降低一半。

58 Quantization：量化技术。这是一个在大语言模型中训练和推理都会用到的非常重要的技术手段，用于压缩模型的参数表示。简单说，它是一个将连续的值转换为离散的值的过程，是将模型权重从全精度浮点数(32位)表示量化到低位宽整数，比如8比特或4比特。通过这种量化,可以明显减小模型大小和内存占用，降低计算和存储成本。为了便于理解，我们可以将量化类比为以下例子：

将温度从摄氏度转换为华氏度。摄氏度是连续的温度单位，而华氏度是离散的温度单位。我们可以将摄氏度温度转换为华氏度，方法是将摄氏度温度乘以 1.8，再加上 32。例如，20 摄氏度等于 68 华氏度。
将音量从分贝转换为百分比。分贝是连续的音量单位，而百分比是离散的音量单位。我们可以将分贝音量转换为百分比，方法是将分贝音量除以 100，再乘以 100。例如，80 分贝等于 80%。
将图像从 RGB 颜色空间转换为灰度图像。RGB 颜色空间是连续的颜色空间，而灰度图像是离散的颜色空间。我们可以将 RGB 图像转换为灰度图像，方法是将 RGB 三个通道相加，然后除以 3。

R

59 Regularization: 是机器学习中的一种技术，用于防止模型过拟合或记忆特定的训练数据。它通过添加约束或噪声等技术来鼓励模型的灵活性和泛化性，从而使模型能够在未见示例上表现良好。这就像一个 AI 健身教练，帮助模型避免过度训练或记忆特定的训练数据。教练会通过各种方法，例如增加限制或噪声，来鼓励模型的灵活性和泛化性。

假设我们要训练一个模型来识别猫和狗。我们可以使用 Regularization 的方法来防止模型过拟合。例如，我们可以添加一个约束，要求模型对猫和狗的预测概率之和等于 1。这将鼓励模型学习猫和狗之间的区别，而不是仅仅记住训练数据中的猫和狗的图像。

通过 Regularization，模型可以更好地泛化到未见的图像。例如，如果模型在训练数据中只看到了白猫和黑狗，那么它可能会在测试数据中将灰色猫误认为狗。但是，如果我们使用 Regularization，那么模型就更有可能正确识别灰色猫。

60 Reinforcement Learning（RL）: 强化学习。是一种通过与环境交互来最大化奖励信号的迭代学习范式。通过试错，让代理（Agent）学习将动作映射到最优结果，从而在复杂任务处理上达到出色表现。假设我们要训练一个机器人来打乒乓球。机器人可以通过试错，逐渐学习如何击打乒乓球。当机器人击打乒乓球得分时，它就会得到奖励。这种奖励会鼓励机器人继续努力学习，并最终打出漂亮的球。

强化学习和打游戏有许多相似之处。在强化学习中，代理通过与环境进行交互来学习。环境可以是任何东西，从简单的游戏到复杂的现实世界系统。代理的目标是最大化奖励，这可以是任何形式的，例如金币、分数或完成任务。

在打游戏中，玩家也通过与环境进行交互来学习。环境可以是游戏的规则和目标。玩家的目标是赢得游戏，这可以通过各种方式实现，例如击败敌人、完成目标或收集物品。

61 RLHF（RL from Human FeedBack）: 基于人类反馈的强化学习。通过直接加入人类专业知识的方式(如回报、惩罚或演示)来加速强化学习。这使得更快地学习和改进代理策略成为可能，特别是在具有挑战性奖励函数的情况下。RLHF 就像一个老师在教学生学习一门新技能。老师会通过提供奖励、惩罚或示例来指导学生的学习。这种指导可以帮助学生更快地掌握技能，并避免犯错误。

假设我们安排一个专业运动员作为专家训练一个机器人来打乒乓球。当机器人击打出漂亮的球时，人类专家将给予它奖励。当机器人击打出错误的球时，人类专家对其给予惩罚。这种奖励或惩罚可以帮助机器人更快地学习如何打乒乓球，并避免犯错误。

S

62 Self-Supervised Learning: 自监督学习。传统的机器学习方法需要大量的标记数据，这既耗时又昂贵。自监督学习通过从数据本身的模式和结构中生成自己的标签来解决这个问题，它可以从未标记的数据中学习，利用对比学习或补全等各种技术在图像识别、自然语言处理和语音识别中取得很好效果。这好比一个孩子在玩拼图游戏，虽然孩子不知道拼图的正确形状，但他可以通过观察拼图的边缘和颜色来推断拼图的形状。

63 Sequence-to-Sequence Models（Seq2Seq）: 序列到序列模型。可以将一系列元素(如句子中的单词)转换为另一系列的模型。它们在机器翻译和语音识别等应用中起着至关重要的作用。Seq2Seq 模型的工作原理是使用两个神经网络：编码器和解码器。编码器将输入序列转换为一个向量，解码器将该向量转换为输出序列。这好比一个翻译员可以将一句话从一种语言翻译成另一种语言。在这种情况下，输入序列是一句话中的单词，输出序列是另一种语言中的单词。

64 StyleGAN: 专门用于生成逼真和可定制的人类面孔，在娱乐、教育和一些研究领域有用又有趣。它首先捕获面部特征在潜在空间，将面部特征捕获到一个称为潜在空间的低维空间中。潜在空间中的点可以表示不同的面部特征，例如年龄、性别、表情和发型；然后，逐步细化图像。在每个步骤中，StyleGAN 都会使用生成器来生成一个图像，然后使用判别器来评估图像的质量。如果图像质量不够好，生成器就会进行修改，然后再次提交给判别器进行评估。这个过程会不断重复，直到生成器生成出满足判别器要求的图像。StyleGAN 可以通过额外的控制参数来操纵风格。例如，可以使用控制参数来改变发型、头发颜色、眼睛颜色和肤色。

65 Singularity: 奇点。是一个假设的时间点，在这个时间点上，技术进步（特别是AI）将会超过人类的控制和理解。“奇点”一词最初来自物理学，用来描述黑洞等天体内部，时空弯曲到无限大以至于物理定律失效的点。早在20世纪60年代，美国数学家冯·诺伊曼 (John von Neumann) 首次将这一概念应用于计算机领域，他预测：随着计算机技术的不断发展，人类最终将创造出超越自身智能的机器，引发不可预测的未来转变。在20世纪90年代，这个概念通过 Vernor Vinge （数学家、计算机科学家、科幻作家）和 Ray Kurzweil （未来学家）的理论而开始广为传播。该理论认为在这个奇点之后，世界将变得超乎我们当前的想象。AI可能加速这个奇点的到来。

T

66 Text-to-Speech: 文本到语音。一种致力于将书面文本转换为口语输出的自然语言处理子领域。文本到语音技术利用统计参数合成和深度学习技术生成逼真和富有表现力的语音，影响诸如屏幕阅读器、语音助手和文本转语音应用等领域。

67 Tensor：张量。是数学中的一个多维数组。它可以用来表示图像、视频、音频等多维数据。在机器学习中，张量被广泛用于表示数据和模型。

张量的维度可以是任意的，从 0 维到无穷维。0 维张量是标量，1 维张量是向量，2 维张量是矩阵，3 维张量是立方体，以此类推。

张量可以用来表示各种各样的数据。例如，图像可以用一个 3 维张量来表示，其第 1 维表示图像的高度，第 2 维表示图像的宽度，第 3 维表示图像的颜色通道。视频可以用一个 4 维张量来表示，其第 1 维表示帧数，第 2 维表示图像的高度，第 3 维表示图像的宽度，第 4 维表示图像的颜色通道。音频可以用一个 2 维张量来表示，其第 1 维表示时间，第 2 维表示音频的频率。

68 TPU: 张量处理单元。谷歌专为AI工作负载设计的专用微处理器。TPU经过了针对大型神经网络训练和运行所需的高度并行计算进行了优化,与传统CPU相比,在性能和效率方面具有显着的优势。

69 Transfer Learning: 迁移学习。一种利用从预训练模型中获得的知识来解决新问题的技术。它可以从一个任务中学习到的知识应用到另一个任务中。这好比一个人学会了如何骑自行车，然后他可以用这些知识来学会如何骑摩托车；或者一个翻译员学会了如何翻译英语到西班牙语，然后他可以用这些知识来学会如何翻译西班牙语到法语；或者一个医生学会了如何诊断一种疾病，然后他可以用这些知识来诊断另一种疾病。与从头训练模型相比，这减少了所需的训练数据和时间量，在图像识别、自然语言处理和机器人技术中得到了广泛应用。

70 Transformer: 是一种神经网络架构，它是AI领域突破性的成果。它的核心思想是使用注意力机制来处理序列数据。假设你要翻译一句英语句子，传统的 NLP 模型可能会将这句话分解为一个个单词，然后分别翻译每个单词。但是，这种方法可能会导致翻译错误，因为单词的意思可能取决于它们在句子中的上下文。Transformer 则可以使用注意力机制来捕捉单词之间的关系。例如，在句子“The man who ate the sandwich was happy.”中，“man”和“sandwich”的距离为 4，因为它们在句子中相隔了 4 个单词。Transformer 模型可以计算出“man”和“sandwich”之间的注意力权重很高，这表明它们之间存在着重要的关系，从而正确地捕捉到“man”和“sandwich”之间的关系。模型理论上可以支持无限长的输入。但是，在实际应用中，Transformer 模型的输入长度通常受到计算资源、数据存储和模型稳定性的限制。

V

71 Variational Autoencoders（VAE）: 变分自动编码器。一种使用神经网络对数据进行编码并将其压缩到更低维空间然后再重构的生成模型。变分自动编码器在图像生成和异常检测等任务中至关重要。想象一下你要收拾行李去旅行。

压缩行李箱： 你要把衣服、鞋子、洗漱用品等所有东西装进一个小小的行李箱里。这就像 VAE 的编码器，它把原始数据（比如一张图片）压缩到一个低维空间里，就像把所有东西装进行李箱一样。
装箱技巧： 为了尽可能多地装东西，你要学会折叠衣服、塞袜子、利用行李箱的每个角落。这就像 VAE 的训练过程，它要学习如何有效地压缩数据，就像你要学习如何高效地装箱一样。
整理清单： 为了确保所有东西都带齐了，你会列一个清单来检查。这就像 VAE 的隐空间，它记录了原始数据的关键信息，就像你的清单记录了所有要带的东西一样。
还原行李： 到了目的地后，你要把所有东西从行李箱里拿出来，恢复原状。这就像 VAE 的解码器，它根据隐空间的信息，尽可能地还原原始数据，就像你要根据清单把所有东西从行李箱里拿出来一样。

70 Vector Databases: 向量数据库。向量数据库是专门设计用于存储和高效查询高维向量的数据库。这些向量表示多维空间中的数据点,如文本文档、图像或时间序列数据。向量数据库使用针对向量数据优化的索引和搜索技术,可实现对相似向量或满足特定条件的向量的快速检索。想象一下你在一个巨大的图书馆里寻找书籍。

书籍的编码： 图书馆里的每本书都有一个独特的编号，代表它在书架上的位置。这就像向量，它用数字来表示数据点的属性，就像书籍编号表示书籍的位置。
多维空间： 图书馆里的书架排列在多个楼层、多个房间，形成一个多维的空间。这就像高维空间，每个维度代表数据的一种属性，比如书籍的类型、作者、出版时间等。
向量数据库： 向量数据库就像一个专门存放书籍的图书馆，它可以高效地存储和查找这些高维向量，就像图书馆可以高效地存储和查找书籍一样。
索引和搜索： 为了快速找到你想要的书，图书馆会建立索引，比如按主题、作者、书名等分类。向量数据库也一样，它会建立专门的索引和搜索技术，让你快速找到相似的向量或满足特定条件的向量，就像在图书馆里快速找到你想看的书一样。

72 VLM （Vision Language Model）：视觉语言模型。能够理解和生成图像和文本的人工智能模型。它们在处理跨模态信息方面具有优势，可以用于各种任务，例如视觉问答、图像描述和视频摘要。

VLM 可以回答关于图像的开放式问题，例如“这张图片上有什么？” 或 “这张图片发生了什么？”；VLM 可以生成图像的描述，例如“这张图片是一个人坐在椅子上看着电脑”；VLM 可以生成视频的摘要，例如“这段视频显示了一个人在公园里散步。”

X

73 XAI（Explainable AI）: 可解释的AI。如果AI对于人类用户来说是一个黑盒子，可解释人工智能 (XAI) 就像是打开这个黑盒子的工具。它允许我们看到 AI 模型内部的齿轮和杠杆，了解它们如何工作，做出什么样的决定，以及为什么做出这样的决定。XAI 的好处很多：

信任： 当我们理解 AI 模型如何做出决定时，我们就更容易信任它们。如果我们对一个黑盒子做出重要决定感到不安全，那就很难信任它。
公平： XAI 可以帮助我们发现模型潜在的偏见，这样我们就可以改进模型，确保它做出公平的决定。
安全： 我们可以使用 XAI 来识别模型的弱点，防止它们被恶意攻击者利用。

只是一个旨在使AI模型更可解释和可理解的研究领域。XAI技术帮助解释模型的决策方式、识别潜在偏见，并在人与AI系统之间建立信任。

Z

74 Zero-shot Learning: 零样本学习。在零样本学习中，模型能够处理其从未明确训练过的任务。想象一下你在动物园看动物，你对老虎、狮子、长颈鹿等都很熟悉，但突然看到一种从未见过的奇特动物。零样本学习 (Zero-shot Learning) 就有点像这种情况，它可以让模型在从未见过的类别上发挥作用！

传统上，训练一个模型识别事物，比如图片里的动物，需要大量图片和标签作为数据。但零样本学习不一样，它就像一个聪明的动物观察员，能够利用已有的知识 (比如识别老虎和狮子的经验) 来理解从未见过的动物。

它怎么做到的呢？

知识储备： 模型先储存大量已有数据的知识，比如老虎是橙色条纹的猫科动物，长颈鹿脖子很高，吃树叶。
关联推理： 遇到从来没有见过的动物，模型会根据已有的知识和它的特征进行推理。比如，如果这只动物像老虎一样是猫科动物，身上又有很多斑点，那它可能是一种新的斑点豹。
类比学习： 模型还会利用对其他类似类别 (比如其他猫科动物) 的理解来补充信息，更好地推断新类别。

概念索引：A-I、L-P、Q-Z

Q

R

S

T

V

X

Z

可私有化的小程序生态管理系统 - FinClip