词元(Token)到底是什么
近日,相关部门给出了Token的官方翻译——词元,还给出了一组数据。到今年3月,我国日均词元调用量超过140万亿,相比2024年初的1000亿增长了1000多倍。 词元到底是什么 词元是大模型处理语言时使用的基本单位。大模型要先把一段语言拆分,再将其转成数字才能继续计算。拆分的基本单元就是词元。 每个汉字通常对应1-2个词元,每次对答会消耗一定数量的词元。
近日,相关部门给出了Token的官方翻译——词元,还给出了一组数据。到今年3月,我国日均词元调用量超过140万亿,相比2024年初的1000亿增长了1000多倍。 词元到底是什么 词元是大模型处理语言时使用的基本单位。大模型要先把一段语言拆分,再将其转成数字才能继续计算。拆分的基本单元就是词元。 每个汉字通常对应1-2个词元,每次对答会消耗一定数量的词元。