Embedding 不是分词器(Tokenizer),但它们经常配合使用。
概念 | 作用 | 示例 |
---|---|---|
分词器(Tokenizer) | 把文本拆成 单词、子词或字符 | "今天的天气很好" → ["今天", "的", "天气", "很好"] |
Embedding(嵌入模型) | 把文本转换成向量,让计算机能理解 | ["今天", "的", "天气", "很好"] → [[0.1, 0.2, ...], [0.3, 0.4, ...], ...] |
Embedding 需要输入数字化的数据,但文本是字符串,计算机无法直接处理。
所以,分词器先把文本拆开,变成单词或子词,然后 Embedding 把它们转换成向量。
"今天的天气很好"
["今天", "的", "天气", "很", "好"]
[1023, 15, 785, 230, 99]
[[0.12, 0.98, -0.5, ...], [0.3, 0.1, 0.8, ...], ...]
步骤 1:分词器 (Tokenizer)
句子 → 词汇 ID
步骤 2:Embedding
词汇 ID → 词向量(高维空间表示)
步骤 3:Transformer 计算
输入到 Transformer 模型(BERT、GPT),进行深度学习计算