Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI 为什么说于英文的 Token 占用相对中文较少

Answer

英文的 Token 占用相对中文较少,主要有以下原因:

  1. 英文基于空格和标点符号分词,单词之间有明显的分隔,而中文是连续书写,需要通过算法来识别词汇边界,分词处理相对复杂。
  2. GPT3 和 GPT3.5/4 的 token 计算方式不同,例如 GPT3 用的编码是 p50k/r50k,GPT3.5 是 cl100K_base。
  3. 很多中文长 prompt 会被建议翻译成英文设定然后要求中文输出,因为这样可以节省 token 占用,从而把省出来的 token 留给更多次数的对话。在编写 prompt 时,也需要珍惜 token,尽可能精简表达,尤其是在连续多轮对话中。

如果想要直观查看 GPT 如何切分 token,可以打开:https://platform.openai.com/tokenizer。但请注意,这个网站仅用于 GPT3 对于 token 的计算,方便我们理解概念。目前所使用的 3.5 和 4.0 采用的是另一种编码方式,通过这个工具测算的结果不一定准确。基于这个需求,可以参考官方的开源计算方式:https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb ,在本地部署之后可以精确计算目前 4.0 的 token 消耗。

Content generated by AI large model, please carefully verify (powered by aily)

References

关于 token 你应该了解……

如果我们想要直观的查看GPT是如何切分token的话,我们可以打开:[https://platform.openai.com/tokenizer](https://platform.openai.com/tokenizer)在下图可以看到实时生成的tokens消耗和对应字符数量(基于GPT3)在这里值得注意的是,英文的token占用相对于中文是非常少的,这也是为什么很多中文长prompt会被建议翻译成英文设定,中文输出的原因。请注意,这个网站仅用于gpt3对于token的计算,方便我们理解概念。而目前我们所使用的3.5和4.0采用的已经是另一种编码方式,通过下面这个工具测算的结果不一定准确,所以不能把它当做目前的token计算工具来100%参考。(GPT3用的编码是p50k/r50k,GPT3.5是cl100K_base)基于这个需求,我找到了官方的开源计算方式:https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb在本地部署之后可以精确计算目前4.0的token消耗:可以进行准确的计算。

小七姐:Prompt 喂饭级系列教程小白学习指南(三)

请注意,GPT3和GPT3.5/4的token计算方式是不一样的。(GPT3用的编码是p50k/r50k,GPT3.5是cl100K_base)在这里值得注意的是,英文的Token占用相对于中文是少很多的,这也是为什么很多中文长Prompt会被建议翻译成英文设定,然后要求中文输出的原因。四、Token限制对Prompt编写有什么影响当你理解了前面的一、二、三之后,这个问题的答案应该已经在你脑子里有雏形了:1、理解Token限制,形成“当前消耗了多少Token ”的自然体感,显然会有利于你在连续对话的时候把握一次有效记忆的长度。这样你就不会傻乎乎在超过9000 Token的时候还在继续问最初的问题,然后得到一个失忆的回答,自己也很懵。2、编写Prompt的时候你需要珍惜你的Token s,尽可能秉承奥卡姆剃刀原理,能不多说一句废话就不多说一句,句子、措辞,都值得精简。尤其是在连续多轮对话中,精简有效的表达习惯是非常重要的。五、基于上述原理有哪些Tips1、熟练使用中英文切换。Prompt本身太长了的话,建议用英文设定,要求它用中文输出即可,这样一来可以把省出来的Token留给更多次数的对话。

【Token趣闻】AI收费为何要按Token计费?一探究竟!

确定单词的边界:对于英语等使用空格分隔的语言,这相对简单,就像读英文时,我们可以很容易地通过空格知道一个单词结束和另一个开始的地方。对于中文这样的语言,事情就复杂多了,因为中文写作是连续的,没有明显的间隔。这时,我们需要通过其他方法来确定哪些字应该组成一个有意义的词组。使用词典和规则:基于词典的方法:就像查字典一样,我们通过一个大列表(词典)来查找和匹配文本中的词汇。这种方法简单但有局限,因为新词或罕见词可能不在词典中。基于规则的方法:这种方法使用特定的规则来判断字和字之间的关系,比如语法和上下文信息,来确定它们是否应该组成一个词。统计和学习方法:使用统计数据来学习哪些字或字母通常会在一起出现。这种方法通过分析大量的文本数据,学习并预测单词的边界。混合方法:实际应用中,通常会将上述几种方法结合起来,以提高分词的准确性和适用性。简单来说:英文:基于空格和标点符号分词。中文:使用算法识别词汇边界。

Others are asking
大模型相关术语中,参数和Token分别指什么?
在大模型相关术语中: 参数:主要指模型中的权重(weight)与偏置(bias),大模型的“大”通常体现在用于表达 token 之间关系的参数数量众多,例如 GPT3 拥有 1750 亿参数,其中权重数量达到了这一量级。 Token:大模型有着自己的语言体系,Token 是其语言体系中的最小单元。人类语言发送给大模型时,会先被转换为大模型的语言,这种转换的基本单位就是 Token。不同厂商的大模型对 Token 的定义可能不同,以中文为例,通常 1 Token 约等于 1 2 个汉字。大模型的收费计算方法以及对输入输出长度的限制,通常都是以 Token 为单位计量的。Token 可以代表单个字符、单词、子单词,甚至更大的语言单位,具体取决于所使用的分词方法(Tokenization),在将输入进行分词时,会对其进行数字化,形成一个词汇表。
2025-02-13
什么是AI中的Token
Token 在 AI 中,就像人类语言有最小的字词单元,大模型也有自己的语言体系,其中的最小单元被称为 Token。 在将人类发送的文本传递给大模型时,大模型会先把文本转换为自己的语言,推理生成答案后再翻译为人类能看懂的语言输出。不同厂商的大模型对中文的文本切分方法不同,通常情况下,1 Token 约等于 1 2 个汉字。 对于英文文本,1 个 Token 大约相当于 4 个字符或 0.75 个单词。Token 可以是单词,也可以是字符块,例如单词“hamburger”被分解成“ham”“bur”和“ger”,而很短且常见的单词像“pear”是一个 Token。 大模型的收费计算方法以及对输入输出长度的限制,都是以 Token 为单位计量的。
2024-11-20
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
学AI上钉钉
以下是在钉钉上学 AI 的相关内容: 从 AI 助教到智慧学伴的应用探索: 登录钉钉客户端,在右上角依次选择钉钉魔法棒、AI 助理、创建 AI 助理。进入创建 AI 助理页面后,填写 AI 助理信息,设置完成即可创建成功。 AI 领导力向阳乔木:未提及具体的在钉钉上学 AI 的操作方法。 基于 COW 框架的 ChatBot 实现步骤: 创建应用: 进入,登录后点击创建应用,填写应用相关信息。 点击添加应用能力,选择“机器人”能力并添加。 配置机器人信息后点击发布,发布后点击“点击调试”,会自动创建测试群聊,可在客户端查看。点击版本管理与发布,创建新版本发布。 项目配置: 点击凭证与基础信息,获取 Client ID 和 Client Secret 两个参数。 参考项目,将相关配置加入项目根目录的 config.json 文件,并设置 channel_type:"dingtalk",注意运行前需安装依赖。 点击事件订阅,点击已完成接入,验证连接通道,会显示连接接入成功。 使用:与机器人私聊或将机器人拉入企业群中均可开启对话。
2025-04-19
AI术语解释
以下是一些常见的 AI 术语解释: Agents(智能体):一个设置了一些目标或任务,可以迭代运行的大型语言模型。与大型语言模型在像 ChatGPT 这样的工具中的通常使用方式不同,Agent 拥有复杂的工作流程,模型本质上可以自我对话,无需人类驱动每一部分的交互。属于技术范畴。 ASI(人工超级智能):尽管存在争议,但通常被定义为超越人类思维能力的人工智能。属于通识范畴。 Attention(注意力):在神经网络的上下文中,有助于模型在生成输出时专注于输入的相关部分。属于技术范畴。 Bias(偏差):AI 模型对数据所做的假设。“偏差方差权衡”是模型对数据的假设与给定不同训练数据的模型预测变化量之间必须实现的平衡。归纳偏差是机器学习算法对数据的基础分布所做的一组假设。属于技术范畴。 Chatbot(聊天机器人):一种计算机程序,旨在通过文本或语音交互模拟人类对话。通常利用自然语言处理技术来理解用户输入并提供相关响应。属于通识范畴。 CLIP(对比语言图像预训练):由 OpenAI 开发的 AI 模型,用于连接图像和文本,使其能够理解和生成图像的描述。属于技术范畴。 TPU(张量处理单元):谷歌开发的一种微处理器,专门用于加速机器学习工作负载。属于技术范畴。 Training Data(训练数据):用于训练机器学习模型的数据集。属于技术范畴。 Transfer Learning(迁移学习):机器学习中的一种方法,其中对新问题使用预先训练的模型。属于技术范畴。 Validation Data(验证集):机器学习中使用的数据集的子集,独立于训练数据集和测试数据集。用于调整模型的超参数(即架构,而不是权重)。属于技术范畴。 Knowledge Distillation(数据蒸馏):数据蒸馏旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集,使得在这一小数据集上训练出的模型,和在原数据集上训练得到的模型表现相似。在深度学习领域中被广泛应用,特别是在模型压缩和模型部署方面。可以帮助将复杂的模型转化为更轻量级的模型,并能够促进模型的迁移学习和模型集成,提高模型的鲁棒性和泛化能力。属于技术范畴。 RAG(检索增强生成):检索增强生成。属于技术范畴。 Forward Propagation(前向传播):在神经网络中,输入数据被馈送到网络并通过每一层(从输入层到隐藏层,最后到输出层)以产生输出的过程。网络对输入应用权重和偏差,并使用激活函数生成最终输出。属于技术范畴。 Foundation Model(基础模型):在广泛数据上训练的大型 AI 模型,旨在适应特定任务。属于技术范畴。 GAN(通用对抗网络):一种机器学习模型,用于生成类似于某些现有数据的新数据。使两个神经网络相互对抗:一个“生成器”,创建新数据,另一个“鉴别器”试图将数据与真实数据区分开来。属于技术范畴。 Generative AI/Gen AI(生成式 AI):AI 的一个分支,专注于创建模型,这些模型可以根据现有数据的模式和示例生成新的原创内容,例如图像、音乐或文本。属于通识范畴。 GPU(图形处理单元):一种特殊类型的微处理器,主要用于快速渲染图像以输出到显示器。在执行训练和运行神经网络所需的计算方面也非常高效。属于产品范畴。
2025-04-18
用邻接矩阵法存储图,占用的存储空间数只与图中结点个数有关,而与边数无关。
这种说法是不准确的。用邻接矩阵法存储图时,占用的存储空间数不仅与图中结点个数有关,也与边数有关。在邻接矩阵中,如果图有 n 个结点,那么矩阵的大小就是 n×n。如果边数较多,矩阵中表示边存在的元素就会较多,从而占用更多的存储空间;反之,如果边数较少,占用的存储空间相对较少。
2024-11-21
autodl如何解决时常出现的,实例GPU被占用导致需要更改实例时,数据的转移复制问题,怎样提高效率
很抱歉,目前知识库中没有关于 autodl 在实例 GPU 被占用导致需要更改实例时数据转移复制问题及提高效率的相关内容。但一般来说,您可以考虑以下几种可能的解决方法: 1. 提前规划和备份:在可能出现 GPU 占用需要更改实例的情况前,提前对重要数据进行备份,以便在需要时快速恢复。 2. 优化数据存储结构:采用更高效的数据存储方式,减少数据转移复制的时间和工作量。 3. 利用数据同步工具:寻找适合的专业数据同步工具,提高数据转移的效率和准确性。 4. 监控和预警:建立有效的监控机制,及时发现 GPU 占用情况,并提前做好数据转移的准备工作。 以上建议仅供参考,您可以根据实际情况进行尝试和调整。
2024-08-15
prompt长度是否占用token?
是的,prompt 的长度会占用 token 数量。 在大型语言模型中,输入的文本会被分词器(tokenizer)拆分成一串 token 序列输入给模型。每个 token 通常对应一个单词或字符串片段。token 的数量就决定了输入序列的长度。 所以,prompt 中包含的每个单词、标点符号等都会被视为一个 token,从而占用 token 数量。 不同的分词器有不同的分词策略和词表,对于同一个 prompt,可能得到不同的 token 数。但总的来说,prompt 越长,占用的 token 数就越多。 很多大模型对输入长度有限制,比如 GPT3 接受的最大 token 数是 2048。这就要求控制好 prompt 的长度,否则会被截断或产生不准确的结果。 一些技巧可以用来节省 prompt 的 token 数: 1. 使用简洁的词语,避免冗余 2. 缩写/代词替代复杂词组 3. 去除不必要的标点和空格 4. 小写替代部分大写单词 总之,prompt 长度对应的 token 数需要根据具体任务合理控制,以在保证效果和节省计算的间权衡取舍。对于特别复杂的输入,可以考虑分步骤输入以规避长度限制。
2024-04-23