Token的秘密（上）

「这应用让AI触手可及」

撰文：何昕晔

编辑：吴洋洋

上周，总共有8家中国公司的大模型都向公众开放了。刚好我们手上有一个关于「token到底是什么」的选题，并且已有一系列的问题提纲。于是，我们决定放弃由记者查找资料和撰写文章从而向读者「科普」token到底是什么、它对于大模型意味着什么，而是决定选择其中5家公司的模型（百度的文心一言、阿里巴巴的通义千问、百川智能的百川大模型、讯飞的星火大模型、清华系的智谱AI），请它们来回答我们提出的有关token know-how的12个问题。

这相当于一个试验，试验的目的有3个，其一，我们想直观地对比一下这些中文模型的智能水平究竟如何、有多大差异；其二，也想请看到这篇文章的每位读者参与进来，想象一下如果你是爱问「十万个为什么」的学生，那么看完这些AI师傅的回答后你会愿意聘请谁当老师（我们会在最后做一个投票，请投出你最想聘请的那一位）？其三，我们想进一步评估看看，那些从事科普工作的从业者——比如一开始还想着吭哧吭哧写篇文章科普「token到底是什么」的我们，是否也可以被AI取代了（这个就不做投票了吧……在评论区告诉我们就行）？

先交代一下「token到底是什么」这个选题的起源吧。你可能已经看到很多大模型都会在宣传中强调它们的上下文窗口可以容纳多少token或者调用它们的模型时每个token收费多少。比如GPT-4目前支持32k（即3.2万）token的上下文窗口，调用GPT-4模型时要为每1000个输入的token付费0.03美元，当它输出时你还需要再为每1000个token付费0.06美元。总之，token无处不在。那么token究竟是什么、意味着什么？

6月的时候，有社交新闻网站曾讨论过「ChatGPT is unable to reverse words」（ChatGTP不能倒写单词）的话题。前情提要是斯坦福大学教授吴恩达（Andrew Ng）推出了一门AI课程「Building Systems with the ChatGPT API」，其中一个示例显示：如果你向ChatGPT输入「反转一下lollipop这个词」的指令，得到的结果是「ppilolol」。于是，人们开始讨论，看起来无所不能的聊天机器人ChatGPT，为什么却无法完成反转单词这样简单的任务？（注：这个话题被广泛讨论后，有理由认为OpenAI让ChatGPT对于这类倒写单词的任务做了专门训练，所以下面的测试中看到它已经能完成这项任务时，不用惊讶。）

这是个非常有趣的问题，稍微剧透一点的话就是它跟token有关。这就是我们选题的最早来源，而7月底，我们注意到了另一则有趣的新闻，称牛津大学的研究显示，大语言模型使用不同语言进行模型推理的成本差异很大，英语是最便宜的，中文是英文的2倍，而像缅甸语这样的语言要比英语贵15倍。我们猜测这个现象也与token有关。

声明一下，市面上已经有很多数据库、各种考试在给大模型做评测了，我们无意做这样的评测，也认为这些评测其实充满了应试教育的味道——要想评测的结果好，专门挑定向训练过其数据库的考试就行。因此，我们想做的只是提问、请大模型回答，然后呈现，由你来做评测。你不需要焦虑自己是否专业，把自己当学生、把大模型当老师就好。

最后，我们认为「token到底是什么」这个题目相对中性，不涉及价值观（每家公司都会针对这部分做过特别训练），也不涉及（太多）事实性信息（模型并不需要回答马化腾是谁或者李彦宏做了什么之类的客观问题），同时，它也没有过于学术性（按照我们的经验，在询问学术性足够强的问题时，Claude等英文模型给出的回答质量远远好于中文模型，若有兴趣你可以自己试试看）。

啰嗦了很多，我们马上开始吧。以下是我们「采访」这些模型的提纲和采访记录，因为篇幅过长，我们将分为上、中、下三篇展示（注：1.作为对比，在5个中文模型回答完每个问题后，我们附上了ChatGPT和Claude的回答作为参考；2.公平起见，我们没有对它们的回答做任何编辑）。

采访者：新皮层

受访者：文心一言、通义千问、讯飞星火、百川大模型、智谱AI、ChatGPT、Claude

1.倒转“unhappy”这个词，并解释你为什么这么做。

讯飞星火：

”yppah”，这个词是unhappy的倒序拼写。我之所以这么做是因为在英语中，有些单词可以通过倒序拼写来记忆，这样可以帮助我们更好地记住这些单词。

文心一言：

"unhappy"这个词倒转后是"y hapin". 这个词在汉语中是”一键还原"的意思。

我不知道为什么你这么做，但我可以猜测一下。如果你将"unhappy"这个词倒转过来，变成"y hapin"，这可能是一种找到快乐的方式，就像在计算机上使用"一键还原"来恢复系统的原始状态。在某些情况下，"一键还原"可以解决问题并提高系统的性能，这可能是一种寻找快乐和改善心情的方式。

然而，请注意，这只是一种猜测，不一定准确。

通义千问：倒转“unhappy”这个词可以得到“happy”，这是因为“unhappy”是“happy”的反义词，所以将它倒转过来就可以得到“happy”。

百川大模型：

在英语中，"unhappy" 的反义词是 "happy"。所以，如果您将 "unhappy" 这个词倒转过来，您会得到 "happy"。这是因为在语言学中，通常通过颠倒一个单词的字母顺序来找到它的反义词。这种方法被称为回文法(palindromic method)或反向法(reversive method)。

然而，值得注意的是，仅仅通过颠倒一个单词的字母顺序来确定其反义词的方法并不总是准确的。有时，一个词可能有多个反义词，或者一个词可能没有明确的反义词。在这种情况下，我们需要考虑其他方法来确定一个词的反义词，如使用同义词词典、语义分析等。

智谱AI：倒转“unhappy”这个词后，得到“yappy”。这个操作实际上并没有改变单词的意义，只是在玩弄字母的顺序。然而，根据您的要求，我仍然进行了这个操作。

在日常生活中，我们很少会倒转单词，但在一些文学、艺术和娱乐作品中，可能会出现这样的表达，以达到一种特殊的审美效果或表达某种情感。在某些情况下，这种表达方式可能被认为是“有趣”或“引人注目”的。然而，请注意，这并不意味着在正式场合或商务交流中使用倒转单词是适当或可接受的。在这些情况下，遵循传统的语言规范和用法是更为恰当的选择。

ChatGPT：将单词 "unhappy" 倒转后得到的单词是 "yppahnu"。这是因为倒转一个单词通常是将其字母顺序颠倒，从最后一个字母开始排列，然后依次向前排列。在英语中，前缀 "un-" 通常表示否定或相反的意思。因此，单词 "unhappy" 的含义是 "不开心" 或 "不快乐"。通过将其倒转为 "yppahnu"，我们失去了原单词的含义，因为这个倒转后的序列没有任何实际意义。倒转一个单词通常用于娱乐、创意或解密等情境，而不是用于传达新的含义。所以，我将 "unhappy" 倒转只是按照字母的反序排列，没有改变其含义。

Claude：好的，我会重新排列 "unhappy" 这个词并解释原因。

步骤:

1. "unhappy" 这个词由两个部分组成 - "un" 和 "happy"。

2. "un" 表示否定或相反的意思。

3. 所以如果我倒转这个词的顺序，它变成 "happyun"。

4. 通过倒转词序，我们去掉了否定意思，所以 "happyun" 给人一种更积极正面上的感觉。

5. 虽然 "happyun" 不是一个真正的词，但这种倒转词序的方法让这个词听起来更正面和乐观。

综上所述，我通过倒转 "unhappy" 的词序，让它变成了一个看似更加积极正面的词 "happyun"。这种简单的词序调换，可以改变一个词给人的感觉和含义。

2.大语言模型为什么不能完成单词倒转这样的任务呢？

文心一言：

大语言模型不能完成单词倒转这样的任务，原因在于它们在生成时实际上是一直在根据概率预测，但是它们预测的不是单词，而是标记（Token）。例如，“lollipop”这个单词会被拆分成3个Tokens：”l"、"oll"和"ipop"。在这种情况下，大语言模型无法看到一个个的单词，而是看到了一系列的标记（Tokens），所以无法完成这个字符串反转的任务。

通义千问：大语言模型可以完成单词倒转这样的任务，但是它需要明确的指令或提示来进行这种操作。与人类不同，语言模型通常不会主动去寻找或创造新的单词或短语，除非它被明确地要求这样做。因此，在没有明确指令的情况下，大语言模型可能不会自动进行单词倒转这样的任务。

讯飞星火：大语言模型之所以不能完成单词倒转这样的任务，是因为单词倒转是一种自然语言处理中的特殊任务，它需要对语言的语法和语义有深入的理解。大语言模型主要是基于大规模的语料库进行训练，学习到的是语言的统计规律和模式，而没有专门针对单词倒转这样的任务进行优化。因此，对于一些特殊任务，如单词倒转等，大语言模型可能表现得不如专门设计的任务型AI模型。

百川大模型：大语言模型，如我，实际上是可以完成单词倒转这样的任务的。我可以使用自然语言处理技术和深度学习算法来理解和生成语言。这包括识别和处理词汇、语法和语义信息，以及根据上下文生成合适的回应。

然而，虽然我可以倒转一个单词，但我可能无法像人类那样理解这个倒转的单词所具有的情感含义。这是因为作为一个大语言模型，我并没有真正的情感体验，而只是根据我所接触到的数据和算法来生成回答。

此外，倒转一个单词也可能会导致一些问题，例如改变单词的意思。例如，"unhappy" 的反义词是 "happy"，但 "hapyy" 这个词本身也有它自己的意思，即 "lucky"。因此，仅仅通过倒转一个单词来寻找其反义词可能会导致误解。

总的来说，虽然我可以倒转一个单词，但我可能无法完全理解这个倒转的单词所具有的全部含义，包括其情感含义。

智谱AI：

大语言模型，如我，是基于深度学习技术训练出来的。我们的主要任务是根据我们训练数据中的大量文本，学习和理解人类语言的语法、语义和上下文。虽然我们可以在一定程度上完成诸如回答问题、生成文本和翻译等任务，但我们并不是专门为执行特定任务而设计的。

对于单词倒转这样的任务，虽然从技术上讲，我们可以通过对输入单词进行处理来实现这个功能，但这并不是我们主要的目标。我们的主要目标是为用户提供有关语言的通用知识和理解，而不是执行特定的、一次性的任务。

此外，单词倒转这样的任务可以通过简单的编程操作实现，而不必使用大型的语言模型。在这种情况下，使用适当的编程语言和函数库会更加高效和直接。

ChatGPT：

大语言模型如GPT-3是能够处理各种自然语言理解和生成任务的强大工具，但它们并不总是能够正确地完成所有任务，包括单词的倒转。以下是一些原因解释为什么大语言模型可能不能完全成功地执行这种任务：

1. 任务的语法和语义复杂性：虽然倒转一个单词在表面上看起来很简单，但它涉及到理解和操作词汇、语法和语义。模型需要正确识别单词中的字母和它们的顺序，但它可能会因为不理解单词的含义而出现问题。对于模型来说，理解含义可能比简单的字符操作更具挑战性。

2. 上下文的缺失：大语言模型通常根据上下文来生成文本，但在这种任务中没有提供足够的上下文信息。倒转一个单词的任务通常不包括上下文，这可能导致模型不知道如何正确执行任务。

3. 数据限制：模型的性能通常受限于其训练数据。如果模型没有足够的训练数据来处理这种任务，或者任务不在其训练数据的典型用例之中，那么它可能无法正确执行任务。

4. 模型的不确定性：大语言模型的输出通常是基于概率的，因此它们可能会在不同的运行中产生不同的结果。在某些情况下，模型可能会正确执行任务，而在其他情况下则可能失败。

总之，虽然大语言模型在许多自然语言处理任务中表现出色，但它们并不是通用的”万能”工具，对于某些特定的任务，特别是需要深入理解语义和上下文的任务，它们可能会遇到挑战。在这种情况下，任务的简单性与否并不总是决定因素，而是任务的复杂性和模型的能力之间的匹配更为关键。

Claude：大语言模型之所以无法很好地完成单词倒转这样的任务，主要有以下几个原因:

1. 词序调换需要逻辑推理能力。简单地倒转单词顺序并不需要真正理解词语含义，这需要模拟人类的逻辑思维能力，当前的大语言模型还无法做到。

2. 需要词汇知识。正确倒转词序需要理解词语组成部分的含义，比如“unhappy”由“un”和“happy”两个部分组成。大语言模型的词汇理解能力还不够强。

3. 语言结构知识不足。倒转词序会改变词语的词性和语法结构，这需要对语言格律和规则的理解，目前大语言模型在这方面的知识还比较薄弱。

4. 对背景常识理解不够。一些词语的倒转需要结合背景常识才能准确地表达相反意思，这方面大语言模型也存在局限。

5. 训练数据的限制。大语言模型的训练数据不够丰富和全面，很难学会像人类一样逻辑思维。当前大语言模型更擅长统计学习。

综上所述，大语言模型之所以无法很好地处理类似倒转词序的任务，是因为目前在逻辑推理、词汇语言知识、背景常识理解等方面还存在明显的不足。这需要未来的语言模型在结构设计和训练数据等方面下大功夫。

3.大模型不能完成这样的任务跟token的颗粒度有关吗？

通义千问：

是的，大模型的token颗粒度可能会影响它对某些任务的处理能力。大模型通常以较大的token颗粒度进行训练，例如整个句子或较长的文本段落。这种较大的token颗粒度可能使模型难以捕捉到单词或短语的细微差别，因此在进行单词倒转等任务时可能会受到限制。然而，通过适当的数据预处理和模型架构设计，可以在一定程度上缓解这种影响。

讯飞星火：大模型不能完成单词倒转这样的任务与token的颗粒度有关。在自然语言处理中，token是指文本中的基本单位，例如单词、短语和符号等。token的颗粒度过粗，会导致模型无法理解单词之间的关系，从而无法完成一些特殊任务，如单词倒转等。

文心一言：

大模型不能完成单词倒转这样的任务，确实与token的颗粒度有关。

Token是自然语言处理中的一个基本概念，它是指将文本分解成具有独立意义的最小单元。例如，在英文中，单词、句子都可以看作是不同的Token。在处理文本时，大模型通常会将文本分解成多个Token，并通过对这些Token的分析和预测来理解文本的含义。

对于单词倒转这样的任务，大模型通常无法直接完成。这是因为大模型在处理文本时，是基于Token序列的概率分布进行预测，而不是直接对每个字符进行预测。因此，即使大模型可以预测出每个Token，也无法直接将这些预测结果重新组合成一个反转后的单词。

如果要让大模型完成这样的任务，需要在模型的设计和训练过程中进行特定的优化和处理。例如，可以训练模型去预测每个字符的概率分布，或者设计一个能够处理单个字符的特定模型结构。这些方法可以增加模型的粒度，使其能够更好地处理这样的任务。

总之，大模型不能完成单词倒转这样的任务，与Token的颗粒度有关，但可以通过特定的优化和处理来改善模型的表现。

百川大模型：是的，大模型不能完成这样的任务确实可能与token的颗粒度有关。

在大模型的训练过程中，它们通常接收大量的文本数据作为输入，然后尝试预测下一个词或者一组词的概率分布。这个过程涉及到对文本进行分词，即将连续的文本拆分成一系列独立的单位，这些单位就是所谓的tokens。

在这个过程中，如果我们将一个单词倒转，那么我们就需要重新安排这个单词中的所有字符，这就超出了单个token的范围了。这意味着，尽管我们可以从理论上讲一个单词倒转，但在实际操作中，我们会遇到很多困难。

另外，即使我们成功地倒转了一个单词，我们也需要注意到，倒转后的单词可能并不是原始单词的反义词。比如，”unhappy"的反义词应该是"happy"，而不是"happy"。

因此，尽管大模型的能力非常强大，但是由于token的颗粒度限制，他们可能无法执行某些复杂的任务，比如倒转单词。

智谱AI：是的，大模型不能完成这样的任务跟 token 的颗粒度有关。

在深度学习领域，token 是一种常用的概念，它表示语言中的最小单元。在处理自然语言任务时，我们通常会将文本分割成若干个 token，例如单词、拼音或字符。这些 token 作为模型输入的基本单位，会影响模型的性能和能力。

大语言模型在训练过程中，使用的 token 颗粒度较大，例如，可能以单词为基本单位。因此，对于需要更精细颗粒度操作的任务，例如单词倒转，大语言模型可能无法直接完成。这是因为模型在训练过程中没有学习到这种精细的操作，而在实际应用中，这种操作可能需要额外的处理或定制化的模型来实现。

在某些情况下，可以通过对大模型进行微调或使用更小颗粒度的模型来完成这些任务。例如，可以使用字符级别的模型来完成单词倒转任务，因为字符级别的模型可以更好地捕捉到语言的细节。然而，这可能会增加模型的复杂性和计算成本。因此，在实际应用中，需要根据具体任务的需求和场景来选择合适的模型和方法。

ChatGPT：是的，大模型不能完成某些任务与其token的颗粒度（分词单位）有关。在像GPT-3这样的大型语言模型中，文本被分解成一个个的token，这些token可能是单词、子词或字符。模型的处理能力与token的颗粒度密切相关，这可以解释为什么一些任务对这些模型来说可能很具挑战性。

在倒转单词这个任务中，token的颗粒度可能会导致问题。如果模型将单词拆分成字符级别的token，并且没有足够的上下文信息来指导倒转的操作，那么它可能会遇到困难。例如，对于单词 "unhappy"，如果它被拆分成 "u"、"n"、"h"、"a"、"p"、"p"、"y" 这些字符级别的token，模型可能不会直接理解如何将它们倒转，因为没有足够的语义信息来指导操作。

相比之下，如果模型将单词作为一个整体的token，那么它可能更容易执行倒转操作，因为它可以保持单词的完整性，并且不需要关注单词内部的字符顺序。

因此，token的颗粒度可以影响模型在某些任务中的性能，特别是涉及文本操作的任务。在实际应用中，了解模型的tokenization策略并考虑如何处理文本输入可以帮助优化模型在特定任务上的性能。

Claude：对，大语言模型难以完成单词倒转这样的任务，其中一个重要原因是与模型的token颗粒度有关。

具体来说:

1. 大多数大语言模型采用WordPiece/BPE等方法，单词被分割成多个子词token。

2. 在子词token的表示下，"unhappy" 被分割为"un"， "happy"，这种拆分忽略了词组成的语义。

3. 模型只看到一个个独立的子词token，很难学到词语内部的语义构成。

4. 在此表示下，模型失去合理反转词汇的能力，因为它看不到"un"是对"happy"的否定。

5. 如果模型的token采用整词表示，则完整地保留词语的语义信息，将有利于模型学习反转词序的逻辑关系。

6. 因此，增大模型的token颗粒度，从词组成的角度理解语义，将提升模型对单词反转任务的能力。

综上所述，大模型对单词反转任务的难点，一定程度上是由过小的token颗粒度导致的，采用整词作为最小单元，可能有助于模型对词语语义结构的理解，完成这类需要逻辑推理的任务。

4.token是大模型语言的最小单位吗？和人类语言的最小单位有什么不同？

讯飞星火：

在自然语言处理中，token是指文本中的基本单位，例如单词、短语和符号等。它是语言的最小单位，不同于人类语言的最小单位。人类语言的最小单位是音素，它是由特定的语音器官发出的声波组成的。不同语言的音素数量和排列方式都不同，这也是不同语言之间存在差异的原因之一。

通义千问：是的，token是大模型语言的最小单位。在大模型中，文本被分割成一系列的token，每个token代表一个语言单位，例如单词、子词、符号或标点符号等。这些token是大模型进行语言理解和生成的基本单位。

与人类语言的最小单位不同，大模型的token并不一定与人类语言的最小单位完全对应。人类语言的最小单位可以是音节、语素、词根、词缀等，而大模型的token通常是基于词汇和语法的，与人类语言的最小单位有一定的差异。此外，大模型的token也可能包含一些特殊的符号或标点符号，用于表示语句结构或其他语言特征。

文心一言：是的，token是大语言模型处理文本的最小单位，这与人类语言的最小单位有所不同。

对于人类来说，最小的语言单位是字母或字符，我们可以通过识别和组合这些字母来组成单词和句子。而大语言模型则是将文本分解成一系列的标记（tokens），这些标记通常对应着单词或短语等较大的语言单位。

在大语言模型中，token的作用是简化文本的处理过程。由于文本的复杂性和多样性，直接对每个字母进行操作会导致计算效率低下和模型容量不足等问题。因此，大语言模型通常会将文本分词，并将其转换成一系列的标记（tokens），然后使用这些标记来建立文本的统计模型。在这个过程中，token的作用相当于是一个中间层，它可以将复杂的文本转换为一系列具有固定长度的标记序列，从而简化计算和模型训练的过程。

因此，token与人类语言的最小单位字母或字符有所不同。token是按照语言的结构和规律将文本分解成的语言单位，而字母或字符则是语言的最小书写单位。

百川大模型：Token是自然语言处理(NLP)中的一种基本概念，通常被视为模型处理语言的基本单位。在大多数NLP模型中，token可以是一个单独的字符、单词或短语。然而，在某些高级NLP模型中，token还可以是一段连续的文本片段，甚至是一个完整的句子。

人类语言的最小单位通常被认为是一个单词或音节。然而，在现实生活中，人们经常使用非单词单位来表达他们的想法，例如使用短语、句子片段甚至是整个句子。这就是为什么许多现代NLP模型试图捕捉更大的语言结构，如命名实体、短语和句子。

相比之下，大模型语言的最小单位通常比人类语言的最小单位要小得多。这是因为大模型通常需要处理大量的文本数据，并且需要将这些数据分解成足够小的单位才能有效地处理和学习。

总的来说，虽然token通常被视为大模型语言处理的基本单位，但它们的规模和性质可能会因模型的设计和应用而异。

智谱AI：在大语言模型中，token 是处理文本的基本单位。它可以是单词、拼音、字符或其他形式的文本单元。token 是模型输入的基本构建块，用于捕捉文本的语义和结构信息。然而，token 不一定是语言的最小单位，因为语言的表示可以细粒度到更底层，例如音素或字形。

人类语言的最小单位因语言和文化而异。在某些语言中，单词是基本单位，而在其他语言中，音素或字形可能更为重要。例如，在英语中，单词是语言的基本单位，而在汉语中，音素和字形可能更为重要。此外，人类语言的表示通常还包括更高级别的结构，如句子、段落和篇章。

与人类语言的最小单位相比，token 在大语言模型中的作用主要是为了方便模型处理和理解文本。token 可以捕捉到语言的某些方面，但在某些情况下，它们可能无法充分表示语言的复杂性和细微差别。因此，在实际应用中，需要根据具体任务和场景来选择合适的模型和方法，以更好地处理和理解人类语言。

ChatGPT：在大型语言模型中，token是模型处理文本的最小单位。每个token可以是单词、子词（如WordPiece或Byte-Pair Encoding的子词），或字符，取决于模型的tokenization策略。大型语言模型将输入文本分解成一系列token，然后对这些token进行处理和预测。例如，在英语中，单词通常是token的最小单位，但对于一些语言和模型，token的颗粒度可以更细，可以到字符级别或子词级别。

与人类语言的最小单位相比，模型的token具有一些不同之处。在人类语言中，最小单位是语音中的音素（phoneme）和书写中的字母（grapheme）。音素是语音的基本音段，字母是书写中的最小符号。与此不同，模型的token通常更高级，可以是整个单词、单词的一部分、子词或字符。这意味着模型在处理文本时可能会忽略语音和书写的一些细微差异，因为它们的tokenization策略通常不会涉及到音素或字母级别的处理。

另外，模型的tokenization策略通常是基于数据驱动的，它们会考虑训练数据中的常见结构和词汇，以便在实际任务中表现得更好。这与人类语言的最小单位不同，人类语言中的最小单位是由语言的声音和书写规则所决定的，而不受数据驱动的因素影响。

总的来说，大型语言模型中的token是模型处理文本的最小单位，与人类语言的最小单位（音素和字母）有一些不同，因为它们受到了模型设计和训练数据的影响。

Claude：是的，token可以看作是大语言模型中的最小语言单位。但它与人类语言的最小单位有一定差异:

1. 人类语言的最小单位是音素(汉语)、字母(英语)等，是语言符号系统中的基本要素。

2. 大语言模型中的token通常是字或词段的表示，是一个语义含义的基本单元。

3. 一个token可能对应多个音素或字母，但其表示了一个语义概念。

4. 例如，“unhappy”对人类是由多个字母组成，对模型可能是一个token。

5. 字母表征语言结构和语音信息，token表征语义信息。

6. 人类最小单位更关注语言结构，token关注在机器理解语义。

7. 这种差异也导致了大语言模型对语义的理解超过对语法、语音的模拟。

8. 未来的模型设计可能缩小这一差距，在语音、语法层面增强对人类语言机制的模拟。

总之，token作为语义单位，与人类语言最小单位在性质上有一定差异。缩小这一差距，将有助于大语言模型对人类语言的全面模拟。