Skip to content

你可能感到疑惑的地方

1000 Tokens 是什么概念?(粗略估算)

需要注意的是,这个数字仅仅是一个估算,具体的数字还可能会因为不同的上下文和语言模型而有所不同。

对于英文,官方也给出简洁的估算方式 1:

1 token ~= 4 chars in English

1 token ~= ¾ words

100 tokens ~= 75 words 或者

1-2 sentence ~= 30 tokens

1 paragraph ~= 100 tokens

1,500 words ~= 2048 tokens

简单总结,就是 1000 Token 约等于750个英文单词,67个句子,10个段落。

对于中文,如何计算 Token 量?

ChatGPT 中,每个 Token 的长度并不是固定的,它们的长度是根据上下文和语言模型计算得出的。但是,对于一个通常长度的 Token,我们可以估算出大约需要多少个中文字符来达到相同的长度。

从官方文档可知,1000 Token 约等于 750 个英文单词,相当于 4000 个英文字符。根据一些研究的结果,英文单词的平均长度为 4 个字符,而中文单词的平均长度为 2 个汉字,那么1000个token大约相当于2000个中文汉字,200个句子(一般来说,一句话通常包含10个左右的汉字),另外一段话通常包含几个句子,其长度也会因文本类型、结构和主题而有所不同。

各个模型之间有什么区别?

模型类型每1000个Tokens的费用($)说明
gpt-4.00.06比 GPT-3.5 模型更强大,能够执行更复杂的任务,并针对聊天场景进行了优化。 会不断迭代更新
gpt-3.5-turbo0.002目前主流的模型,便宜快速,推荐
Ada0.0004更适用于文本分类、命名实体识别和语义理解等任务
Davinci0.020.0005最强(上一代)的 GPT3 的模型