C#AI系列(7):从零开始LLM之Tokenizer实现

举个栗子,当一个句子文本输入到电脑中,天然就就具有字符级别的切分。如果不打算继续拆分或组合,我们可以通过一个映射关系,将现有这些字符转换为整数数组,称为编码过程。编码后数组内的元素就是token,元素取值就等于token取值。LLM可以吃掉这个token数组,并吐出新数组。对这个新数组按前前述的映射进行逆转换,称为解码过程。解码后我们就能得到人类可以理解的文本了。

赞(0)
未经允许不得转载:小狮博客 » C#AI系列(7):从零开始LLM之Tokenizer实现
分享到: 更多 (0)

联系我们