Hello everybody。这是一系列记述中年危机码农,打算从零开始学习和实践构建 LLM/AI 的故事。学习路线跟随《Build a Large Language Model (From Scratch)》 —— SEBASTIAN RASCHKA。本文关于文本处理。
2.1 什么是 word embeddings
The concept of converting data into a vector format is often referred to as embedding
将数据转换为矢量格式的概念通常称为 embedding 。
At its core, an embedding is a mapping from discrete objects, such as words, images, or even entire documents, to points in a continuous vector space—the primary purpose of embeddings is to convert nonnumeric data into a format that neural networks can process.
从本质上讲,embedding 是从离散(discrete)对象(例如单词、图像甚至整个文档)到连续向量空间中的点的映射 - 嵌入的主要目的是将非数字数据转换为神经网络可以处理的格式。
词汇
-
discrete - 离散
-
单词 “discrete” 来源于拉丁语词根 “discretus”,它是动词 “discernere” 的过去分词形式,表示“分开”或“区分”。下面是它的词根构成:
- dis-:表示“分离,分开”的前缀。
- cernere(简化形式:cret)表示“区分,辨别”。
因此,discrete 由 dis-(分开)和 -cret(区分、筛选)两个部分组成,整体意思是“分开的、离散的”,表示彼此独立、不连续的。
-
反义词:continuous
-
-
concrete - 具体的
- 来源于拉丁语 “concrescere”,意为“凝结、长在一起”。
- 词根:con-(一起、共同) + crescere(生长、增加)。
- 意思是“具体的、实在的”,表示各部分紧密联系或凝聚在一起。
“Discrete” 和 “concrete” 确实在词源上有一定的关联。
两者的联系与区别
- 词根关联:虽然 discrete 和 concrete 的来源略有不同,但它们都涉及到词根 “cret”,这个词根意味着“区分”或“筛选”。
- discrete 中的 “dis-” 表示“分开”,强调事物之间的独立性。
- concrete 中的 “con-” 表示“在一起”,强调事物的凝聚性。
- 意义上的对立:在某种意义上,这两个词可以看作是对立的。
- Discrete 强调“独立、分散”,比如数学中的“离散变量”。
- Concrete 强调“具体、凝聚”,表示某种实际的、可触摸的事物。
所以,虽然 discrete 和 concrete 都包含了涉及“区分”的词根,但它们表达的方向正好相反:一个是分开,一个是凝聚在一起。