Embedding和分词器修订版本明细

源

采纳

编辑于 5月前

半兽人

LLM
LLM概念

Embedding 不是分词器（Tokenizer），但它们经常配合使用。

概念	作用	示例
分词器（Tokenizer）	把文本拆成单词、子词或字符	`"今天的天气很好"` → `["今天", "的", "天气", "很好"]`
Embedding（嵌入模型）	把文本转换成向量，让计算机能理解	`["今天", "的", "天气", "很好"]` → `[[0.1, 0.2, ...], [0.3, 0.4, ...], ...]`

Embedding 需要输入数字化的数据，但文本是字符串，计算机无法直接处理。
所以，分词器先把文本拆开，变成单词或子词，然后 Embedding 把它们转换成向量。

分词器（Tokenizer）拆分：

["今天", "的", "天气", "很", "好"]

Embedding 转换为向量：

[[0.12, 0.98, -0.5, ...], [0.3, 0.1, 0.8, ...], ...]

预览