Please enable Javascript to view the contents

码农零基础构建 LLM - Week 2 - 文本处理

 ·  ☕ 2 分钟

Hello everybody。这是一系列记述中年危机码农,打算从零开始学习和实践构建 LLM/AI 的故事。学习路线跟随《Build a Large Language Model (From Scratch)》 —— SEBASTIAN RASCHKA。本文关于文本处理。

2.1 什么是 word embeddings

The concept of converting data into a vector format is often referred to as embedding

将数据转换为矢量格式的概念通常称为 embedding 。

image-20241124170621860

At its core, an embedding is a mapping from discrete objects, such as words, images, or even entire documents, to points in a continuous vector space—the primary purpose of embeddings is to convert nonnumeric data into a format that neural networks can process.

从本质上讲,embedding 是从离散(discrete)对象(例如单词、图像甚至整个文档)到连续向量空间中的点的映射 - 嵌入的主要目的是将非数字数据转换为神经网络可以处理的格式。

词汇

  • discrete - 离散

    • 单词 “discrete” 来源于拉丁语词根 “discretus”,它是动词 “discernere” 的过去分词形式,表示“分开”或“区分”。下面是它的词根构成:

      1. dis-:表示“分离,分开”的前缀。
      2. cernere(简化形式:cret)表示“区分,辨别”。

      因此,discretedis-(分开)和 -cret(区分、筛选)两个部分组成,整体意思是“分开的、离散的”,表示彼此独立、不连续的。

    • 反义词:continuous

  • concrete - 具体的

    • 来源于拉丁语 “concrescere”,意为“凝结、长在一起”。
    • 词根:con-(一起、共同) + crescere(生长、增加)。
    • 意思是“具体的、实在的”,表示各部分紧密联系或凝聚在一起。

“Discrete”“concrete” 确实在词源上有一定的关联。

两者的联系与区别

  • 词根关联:虽然 discreteconcrete 的来源略有不同,但它们都涉及到词根 “cret”,这个词根意味着“区分”或“筛选”。
    • discrete 中的 “dis-” 表示“分开”,强调事物之间的独立性。
    • concrete 中的 “con-” 表示“在一起”,强调事物的凝聚性。
  • 意义上的对立:在某种意义上,这两个词可以看作是对立的。
    • Discrete 强调“独立、分散”,比如数学中的“离散变量”。
    • Concrete 强调“具体、凝聚”,表示某种实际的、可触摸的事物。

所以,虽然 discreteconcrete 都包含了涉及“区分”的词根,但它们表达的方向正好相反:一个是分开,一个是凝聚在一起。

分享

Mark Zhu
作者
Mark Zhu
An old developer