群发资讯网

token的中文官方定为“词元”,这符合我的预期我几年前写文章的时候,说toke

token的中文官方定为“词元”,这符合我的预期

我几年前写文章的时候,说token用的就是“词元”。

为什么这个翻译比较合适,比“模元”、“智元”要好?因为“词元”有历史因素,更有理由,token没有大模型的时候就有了,很多年了。很多人有兴趣来想词,不错,但是最终定为词元,明显更有理由。

在早年自然语言理解NLP、机器翻译的时候,就有个“分词器”,tokenizer,是所有算法的第一步。分词器这个翻译肯定不能动了,分出来的词,就是对应token。因此,把token叫词元,加上一个“元”,说明是最小单元,很合适。

而模元、智元,这都是大模型出来以后的说法,没法覆盖分词器的意思。