Speak：用LLM重塑语言学习，再造一个Duolingo？

作者：haina

编辑：Siqi

排版：Scout

从 Coursera、可汗学院，Vipkid 再到 Duolingo，如何将稀缺的优质教育供给规模化是所有教育科技公司的核心命题。当 LLM 能够 “Copolit 一切”时，是否能够借助 LLM 让每个学习者都拥有自己一对一的老师、真正实现教育个性化成为市场对 AI 改造教育服务的预期。

随着 GPT-4 发布，Duolingo、Chegg、可汗学院等教育科技公司在原产品基础上发布了 AI Tutor 的相关功能，OpenAI 生态基金也投资了 Speak、Class companion 等创业公司探索 LLM 和教育的结合，Sam Altman 也曾多次表示过对 AI 将对教育产生的影响尤为兴奋。

作为 OpenAI 生态基金的首批 Portfolio，创立于 2016 年的 Speak 在 2023 年之前主要针对日韩市场用户提供在线英语学习产品，在 GPT-4 发布后，团队基于 LLM 和语音识别的 AI 技术上线了口语练习场景的 AI Tutor，提供更沉浸、互动性的口语练习体验。在日韩英语学习市场验证后，Speak 除了拓展更多国家市场，还计划上线西班牙语、法语等多语种学习，其产品定位更像是“口语版多邻国”。

除了 Speak 之外，我们还观察到，也有不少早期团队积极接入 GPT-4，想通过 AI Tutor 的功能找寻新的发展机会，就现阶段而言，AI Tutor 的体验相当同质化。

AI Tutor 本质上只是一个功能，它在一定程度上可以为产品提供差异化的体验，但并没有彻底颠覆教育产品的逻辑，好的教育产品体验一定离不开课程研发、用户洞察、课前课后全链条环节设计等，显然，已经拥有大量用户和课程开发经验的头部公司壁垒明显。对于 Speak 而言，虽然团队已经在日韩完成了第一阶段的发展，在接下来的市场和用户拓展中，找到自己的差异化、同时配合 GTM 策略是下一阶段的重点。

以下为本文目录，建议结合要点进行针对性阅读。

👇

01 什么是 AI Tutor？

02 什么是 Speak？

03 商业化

04 竞争格局分析

05 关键问题

06 LLM 结合语言学习的技术探讨

01.

什么是 AI Tutor？

在线教育的创新本质上都在解决“如何规模化优质供给”的问题：Coursera 用录像的方式实现全球 Top 级大学经典课程这一稀缺教育资源的规模化，国内市场中，Vipkid 的创新在于用差异化的“北美教师”供给和线上授课的方式降低了少儿外教的门槛。

从成本和教学体验维度来衡量，我们可以把现有的学习解决方案进行简单分类：

1）基于录播课的异步学习公开资源和工具（如 Youtube 视频、google 翻译、慕课等免费录播课）；

2）工具类服务，将学习中的某类需求或学习过程抽象为标准化产品，例如Chegg、Duolingo 等；

3）真人老师的实时授课，包括线上、线下的大班课和 1对1 私教。

综合来看，对于学习者来说，体验最好的一定是 1 对 1 教学服务，但成本最高。随着 LLM 和其他 AI 技术的成熟，用 AI 来复刻真人课堂环境、甚至更进一步模拟过去只有真人教师才能提供的实时互动成为可能，即 AI Tutor，本质上是用技术规模化教师供给，低成本的实现真人授课。

现阶段 AI Tutor 最典型的产品形态就是“解释错题”，例如，Duolingo Max 可以为用户讲解错题的原因、给出具体指导，还可以让用户和 AI 进行 Roleplay 对话练习语言。此外，还有产品借助日益成熟的 AI 语音识别、Avatar 技术提供“AI 教师”功能，以一种更沉浸式、拟人化方式实现 AI Tutor 功能，OpenAI 投资的 Speak 就是其中的典型代表。

现有教育产品整合 LLM 推出的 AI tutor 功能

虽然现阶段 AI Tutor 的效果和传统 1 对 1 私教仍存在一些差距，但已经很大幅度改变用户在学习过程中的互动体验，对话式问题解答功能的引入使得学习不再是单向的知识传递，而更像是与一个智能伙伴进行深入互动的过程。

02.

什么是 Speak？

Overview

Speak 是由 Connor Zwick 和 Andrew Hsu 在 2016 年在旧金山创立的一款语言学习产品，在其创立早期就积极探索用 AI 提升语言学习的效率和体验。Speak 早期主要专注于韩国的英语学习市场。目前 Speak 在韩国苹果商店 “教育应用”中排第一名。2023 年之前，Speak 重点放在课程研发，累计开设了近 1500 万节英语课程。2023 年开始国际扩张、多语种扩张，目前产品已在日本、德国、法国、巴西、墨西哥等 20 多个国家上线。

2022 年， Speak 获得 OpenAI Startup Fund 及头部硅谷基金的支持，融资 2700 万美元，2023 年 8 月又融资 1600 万美元，估值在不到一年的时间里翻了一番。

作为 OpenAI 的合作伙伴，Speak 提前获取了 GPT-4、Whisper 的使用权以及微软的 Azure 资源，通过和 Speak 的语言学习系统、教学法相结合，开发语言学习的 AI Tutor ，目标是为用户提供更准确的实时反馈、提升用户的语言学习体验。Speak 的 CEO 认为，高度个性化和语境反馈只能使用 GPT-4 开发，GPT-4 是对早期语言模型的实质性改进。

产品

Speak 主打的是口语学习，希望通过 AI Tutor 让用户像和真人教师对话那样一样不断进行口语练习，再基于 AI 提供的发音、语法、词汇等方面实时反馈不断完善语言学习。

Speak 首先会由专业教研人员设计框架和内容，这个过程主要以教研和用户研究为主导，团队也会借助 LLM 进行课程研发中的头脑风暴、效率提升。根据学习者的水平，Speak 将课程分为基础初级、进阶初级和实力中级三个等级。每个等级内有约 30 天课程设计。总体上，Speak 目前的可能内容较为基础，更适合入门的学习者。

Speak 目前已经从韩国拓展到了日本、美国等多个地区市场，课程内容上也在英语之外开始开发西班牙语、法语等多语种课程体系。在教研设计上，Speak 会有自己统一的原则，比如让用户在最开始的 30 秒内就要开口说话，课程设计中也要考虑单词、语法和口语同步学习的融合。Speak 每个地区会有专门的教研负责人，早期内容以韩国教程版本为基础，之后的课程会同时考虑通用版和细化版，平衡 Go-to-Market 和提升教学效果的需求。

Speak 的课程分为三部分，视频课、口语操练和角色扮演。目前视频课程主要由真人录制，口语操练是预先设置的题目，而角色扮演就是集成了 GPT-4 能力的 AI Tutor，也是 Speak 主打的点。

Speak 的 AI tutor 主要体现在角色扮演和话题畅聊两部分。用户首先在特定主题下与 AI 进行开放式对话。系统也会给到发音、语法、词汇等方面的反馈，例如怎么调整句子可以让表达更自然、更简洁等，和 Duolingo Max 类似。

在实际体验中，Speak 的 AI Tutor 确实可以针对用户的说话内容给予灵活的回答，同时又尽可能地将聊天内容引回学习主题，也能对用户的回答给予合理的反馈建议。比如在“返回工作岗位”这个场景下，一次建议今天晚点时候讨论进度、一次建议马上讨论进度，AI 都能合理的回应，并且确保用户学习到“discuss the details”“set up a meeting”等该场景下的短语。Speak 的 AI 语音也比较自然，但回复速度存在一定的延迟，仍无法达到与真人互动的沉浸感。

Speak 没有免费模式，必须付费才能使用软件，在开启订阅后有 7 天免费试用期，订阅分为两档：

• Premium 计划：$99.99/年，每月 2000 个 AI 家教积分；

• Premium plus 计划：$ 234.99/年，每月 10000 个 AI 家教积分。

家教积分对应的是用户和 AI Tutor 的对话字数，每和 AI 对话一个词即 1 积分。在我们的实际测试中，2000 家教积分学习 5 天就会消耗完，这也意味着如果用户想天天和 AI 对话，只靠 Premium 计划远远不够，对于有强刚需的用户，更适合的选择是 Premium Plus 方案。

Speak 的定价和 Coursera、Udemy、Skillshare、Duolingo 等其他在线教育产品的费用基本一致。

和真人外教对比，我们也能感受到 Speak 对这类服务价格的指数级下降：

团队及创业故事

Speak 的创始人为 Connor Zwick 和 Andrew Hsu，是“小天才+小天才”的组合。两人从 2014 年起就开始了对于 AI 的持续研究，在适应和利用 AI 新进展方面有足够的灵活性。

Connor Zwick 为 Speak CEO，中学时就开始学习编程，他在 Cyberantix 网站撰写的编程的文章阅读人数达到数百万人。他在高中时就创建了语音学习应用 Flashcards Plus，通过把语音单词和短语制作成电子学习卡片，让用户反复练习学习语言。Flashcards Plus 全球用户最终达到了 500 万人，2013 年被 Chegg 收购，这也让 Connor 获得了进入哈佛大学学习的机会。

Andrew Hsu 是 Speak 的 CTO，小时候因为太聪明所以接受家庭教育（Home-Schooling），他的天才故事曾被 NBC 报道，16 岁时就获得了华盛顿大学的生物化学、神经生物学、化学三个学位，随后在斯坦福大学完成了神经科学和生物工程的博士学位。

Connor 和 Andrew 在参与 Thiel Fellowship 期间相识，二人都对 AI 非常感兴趣，一起阅读相关论文，听伯克利大学的 AI 课程自学人工智能。这期间，他们一起搭建了一个检测人们口音的语音识别系统，仅使用 Youtube 的随机数据就取得了非常准确的结果。

💡

Thiel Fellowship：

由 Peter Thiel 在 2011 年创立，也被称为 “20 Under 20”，每年录取 20-25 人，报录比低于 1％，该奖学金旨在为 23 岁（创立之初是 20 岁）以下的学生提供两年总计 10 万美元的资助，并提供创业指导和其他资源，包括：请教相关领域的科学家、投资人、协助组建团队、在技术、市场、设计等方面提供帮助等等。

2015 年左右，他们意识到只要给模型足够的数据，模型的性能会越来越好、最终超过人类，所以决定利用 AI 建立一个语音学习产品。大多数语言学习软件仅可以帮助用户学习基本词汇和语法，但想要达到流利的水平，都需要在互动环境中大声说话，之前人们获得这种练习的唯一途径是通过人类导师，这是困难且昂贵的。所以他们从语音识别做起，再结合高质量的语音合成，制作出逼真的对话系统，帮助语言学习者提高口语能力。

这成为了 Speak 产品的雏形。

2022 年 9 月开始，他们获得 GPT-4 使用权限后开始尝试将其融入 AI tutor。Connor 认为，语言学习是少数即使 AI 系统还不完美，也可以被用户接受的领域之一，因为语言学习可以容忍一定的错误，用户还是可以从交互中获得收益，这和其他要求非常高精度的领域不同。长期来看，如果 AI 系统获得足够的数据和经验，其教学能力也会不断增强，甚至超过人类老师。这将极大地提高教育效果，使更多地区的学生受益。Speak 表示未来也会考虑进一步扩展到其他教育领域。

PMF 和用户增长

虽然 Speak 的诞生源于 Connor Zwick 和 Andrew Hsu 二人想要 AI 改造语言学习的想法，但 Speak 在最初几年没有在机器学习方面投入太多资源，而是专注找 PMF 和打磨产品，在和不同国家的用户交流后（包括韩国、日本、欧洲），团队最终选择语言学习市场成熟、对产品要求高的韩国作为早期目标市场，创始人在一次采访中表示， Speak 会不断地进行 A/B 测试去迭代修正课程逻辑，而不像很多英语 app 将绝大部分重点都放在营销上。

Speak 在韩国的成功离不开建立的优秀本地营销团队。2023 年 Speak 开始重点扩展日本、美国市场，在当地市场推广中，也采取了搭建本地营销团队、深入了解当地需求的方式。

💡

Duolingo 运营总监 Gina 在 Duolingo 用户数量只有 300 万时加入，领导增长团队 5 年后，Duolingo 的用户数增长到 2 亿。Gina 认为人性的核心需求是相通的，不应过分强调不同文化的差异，在不同国家的推广中不会过度关注每个国家的差异，而是将全球用户视为一个整体：

• 尽可能统一全球产品，避免为每个国家做定制化调整，降低开发和维护成本；

• 新功能先在一个国家测试，效果好则在全球范围内推广；

• 把营销信息本地化，但核心诉求保持一致。

参考 Data.ai 的数据，Speak 2023 年 10 月的 DAU 为 7 万左右，MAU 为 65 万左右，呈现波动上涨。用户主要来自韩国（约 50%）、日本（22%）、美国（10%）、墨西哥（8%）以及台湾、香港等地区，可见除了韩国市场，Speak 在日本、美国也获得了一定的 PMF。

Speak MAU

不过，不同地域的用户画像差别较大，韩国地区以男女比例约为 4：6，25-44 岁的用户占比达 50%，16-24 岁用户占比达 40%，属于典型的求职、求学需求；而日本地区以 45 岁以上的女性用户为主，美国地区男女比为 6：4，45 岁以上用户占比达到约 50%，25-44 岁的用户占比达到约 40%，可以简单猜测，日本、美国等市场用户除了求职、移民等功能性需求外，也有一些非目的性的使用场景。

Speak 用户的国家分布

03.

商业化

市场及目标用户

作为一个典型的在线语言学习产品，我们可以参考 Duolingo 的数据来对 Speak 面向的市场进行简单测算。

参考 Duolingo 2023 年 Q3 财报数据，Duolingo MAU 为 8310万，付费用户为 580万，Duolingo 的用户付费率为~7%。2022 财年，Duolingo 的用户订阅金额为 3.32 亿美元。

根据咨询公司 HolonIQ 测算，全球有约 20 亿人在学习新语言，线上、线下的语言学习消费支出约 600 亿美元。如果以 7% 作为指标（考虑到 Duolingo 优越的游戏化设计也促进了用户的付费转化率，因此 7% 是个乐观状态），则理想状态下，20 亿的语言学习人群中，约有 1.4 亿潜在付费用户。另外，基于在线语言学习趋势加速发展，订阅模式接纳程度提升、AI 带来的体验效果持续提升的假设前提下，行业乐观预测未来会有 20% 复合年增长率，所以这部分人群还在扩大。

但 AI 的发展也可能对语言学习市场存在负面影响，有声音认为，随着语音识别、语音生成技术的进展和普及，实时翻译的门槛不断下降，可能会削减人们对语言学习的需求。

但总体上，和 K-12 相比，语言学习的市场并不大，尤其考虑到 Speak 之前只专注东亚、应试求职等目的性明确的场景。对于 Speak 而言，如果要提升自身天花板最直接的是拓宽自身用户群，短期内最直接的则是进入新的区域市场、增加新语种。

Speak 目前主要的市场为东亚地区，团队已经充分开发了韩国市场，日本市场获得了类似韩国的发展轨迹，同时获取了一定的港台和海外华人用户。此外，Speak 也计划进入美国这一大市场，首先，美国国内也有着非常强的英语学习需求，而 Speak 已经将业务范围从英语扩展到了多语种，接下来的重点也会放在美国的西班牙语学习市场。因为东亚地区应试导向的英语学习的 TAM 很有限，在语言学习整个大市场里面，还有大量不以应试为导向的英语学习场景，这部分 ”Casual Leaner“的学习者被认为是 Duolingo 的核心用户群，也是 Speak 想要抓住的用户。

不过语言学习市场在整个教育市场中的比重较小。HolonIQ 测算教育市场到 2030 年规模将达到 10 Trillion 美元，其中占比最大的为 K-12 教育，到 2030 年将超过 5 trillion 美元，占比为 55%，所以如果 Speak 的 AI tutor 未来能够扩展到 K-12 全科，将会显著地提高市场空间。参考 Duolingo，在语言学习外，Duolingo 在 2023 年相继推出了自己的数学、音乐产品。

商业模式及收入预测

据了解，Speak 在 2022 年实现了 960 万美元 ARR，如果按目前 Premium 的产品定价算，Speak 已经有 10 万左右的付费用户，如果按 Premium Plus，则～4 万人。根据 data.ai 追踪预测， Speak 最近 12 个月的商店收入在 1000 万美元左右，其中韩国地区占据了 73%左右，其次为日本，占据 21%左右。

以 Duolingo 的付费用户增速作为对比，根据 2023 年Q3 财报，Duolingo 目前有 580 万付费用户，YoY为 57%。因为 Speak 在大力扩张市场范围，且用户基数小，预期能取得超越 Duolingo 付费用户的增速，若用户数量达到 100% 的增长，

那 2023 年能获得约 20 万付费用户，实现收入约 2000 万美元

。

长期来看，假如 Speak 有机会实现 Duolingo 一样的 580 万的付费用户量级，以目前 Speak Premium 定价，Speak 的 ARR 有机会达到约 5.8 亿美金。

04.

竞争格局分析

虽然 AI Tutor 的确提供了全新的用户体验，但仍只是语言学习应用中的一个功能（feature），而非一个 100% 全新的商业模式。从现状来看，产品体验也极易同质化。对于这个领域的玩家，要真正获得产品竞争力仍离不开产品、课程设计和用户理解，从而为用户提供完整的语言学习体验。

短期来看，Speak 的竞争对手是其他在线语言学习玩家，尤其是同样基于 LLM 提供 AI Tutor 功能的产品，长期来看，还会与线下形式的语言学习竞争，此处我们先将目光集中在在线语言学习并提供 AI tutor 的公司。

目前市场上基于 LLM 提供语言学习 AI Tutor 的主要有以下三类：

1. Duolingo 为代表的头部 AI 语言学习产品：

Duolingo 从创立就在探索 AI 和语言学习的结合，

同样也提前试用了 GPT-4 ，并在此基础上推出了 AI Tutor 功能，即 Duolingo Max。Duolingo 最大的优势在于其庞大的用户基础及完整且丰富的产品设计。

Duolingo Max 提供的 “Explain My Answer”和“Roleplay”功能与 Speak 极为相似，均为模拟真实对话场景，并且针对用户的错误给出即时反馈。从 Reddit 上用户的评价综合来看，Duolingo Max 获得了一定积极反馈，用户评论主要集中在提供更多互动和体验个性化、实时解决问题、提高口语能力等，但也有不少用户认为价格太高、超出预算、担心 AI 的准确性。

目前 Duolingo Max 尚未在全球用户中全量开放，所以对于其他早期团队而言，也许存在一定窗口期。

Duolingo Max

2. 以 Speak 为代表，将 AI Language Tutor 作为差异化功能，并试图通过该功能获取市场关注度和用户的中小团队。

除了头部公司探索 LLM 在教育领域的应用外，创业公司也纷纷试水，因为结合语音生成，利用 LLM 的交互能力学习语言是一个十分直观且易实现的应用场景。我们也观察到，GPT-4 开放之后，市场上出现了一大批产品同质化较严重的 AI Language Tutor 产品，模式均为固定课程学习配合集成 LLM 能力的开放式对话 AI Language Tutor，其中绝大部分都是已有公司试图通过 AI 来吸引客户、获得新的增长。

其中，2023 年创立、并完成种子轮融资的 Practika 在交互方式上有所创新，加入 AI avatar 以提升用户使用沉浸感，是一个非必须、但能提升用户体验的功能。

3. 免费方案：

免费方案包括可以进行语音交互的 ChatGPT、Pi、Character AI 中的语言老师、Call Annie 等。

在 Reddit 的用户讨论中，虽然部分用户提到可以用 ChatGPT、Pi、Character AI 中的 language AI 等通用性 LLM 替代付费的 AI tutor，但大部分用户在分享将 ChatGPT 作为语言伙伴的体验中提到，因为没有合理的 prompt 和专业训练数据，ChatGPT 在处理体验专业术语、方言和俚语时较差，提供错误信息机率较高，仅能满足初步需求，而类似问题也可能出现在没有足够用户数据和技术团队的中小团队中。C.ai 中的 UGC 的 AI languauge teacher 也因为没有细致的课程设计，同时没有加入语音功能，仅能满足基础需求。

我们认为 AI tutor 是一个与课程设计、教研经验、用户学习的数据行为结合非常紧密的领域，相较通用性 LLM，针对教育场景进行深耕、具有教研和用户积累的垂直赛道的公司具备明显的竞争优势。

使用 ChatGPT 作为语言学习辅助

综上，我们从

产品体验和市场占有

两个维度来分析 Speak 的竞争力：

产品体验维度，语言学习 APP 要解决的核心问题是激发学习者的学习动机，提供持续学习动力，这不仅仅是集成 GPT-4 就可以解决的。AI Tutor 公司之间产品体验的差距主要源自三个方面：

1）团队是否有资深课程设计团队设计；

2）是否提供真正的个性化体验；

3）能否在交互性上取得创新。

在这些产品同质化较严重的 AI Language Tutor 公司中，需要找到同时具有产品经验、教研经验和对 AI 有较强理解的团队。在这一维度上，Speak 由于扎实的课程设计和对 GPT-4 的应用优势，产品体验相对占优。但成熟的教育科技公司在课程资源、用户数据、AI 实践方面均有深厚的积累，我们认为创业公司很难超越。

市场占有维度，语言学习软件需要尽快地开辟市场、做增长来抢占地盘，同时维持一个较好的用户留存。在这种情况下，拥有大量用户基数的老玩家如 Duolingo 将具有很大的优势。可以增加 AI tutor 功能，以组合订阅套餐方式卖给用户。Speak 在韩国市场已有较大优势，但在拓展新市场时需要强大的营销运营能力。新兴公司如 Praktika 通过进入新兴市场抢占地盘，从拉美起步再向多地区扩展，近期获取了一批意大利的用户。

就现状来看，Speak 最大的竞争对手为 Duolingo。两者推出了相似形态的 AI tutor，但 Duolingo 有用更庞大的用户群和市场认知度，用户优势也将转化为数据优势，用户在 Duolingo 上的个人数据积累都会因为 GPT-4 的接入放大。由于 Duolingo 主攻让英语母语者学其他语言的 casual learner 市场，这也是 Speak 下一步希望开拓的市场，因此两者将面临更为直接的竞争。

05.

关键问题

1. Speak 的产品竞争优势能否保持。

Speak 因为与 OpenAI 取得密切合作，更早地使用 GPT-4，再加上在韩国英语教研的积累，取得了先发优势，但如今所有企业都可以接入 GPT-4，同样具有较深厚用户数据和教研积累成熟语言教育公司如 Duolingo、Rosetta stone、Babbel 等或许都将成为 Speak 的竞争对手，只想借助 AI Tutor 这一功能带来的差异化赢得市场的难度会极高；

2. Speak 是否能完成市场扩张和增长计划。

Speak 的市场竞争力已经在韩国、日本的英语学习市场取得了验证。下一步计划扩张到多国家地区的英语学习，以及多语言 causal learner 学习市场。但在扩张过程中需要考虑各个国家地区的语言学习需求与差异，在课程设计和本地化运营上都非常考验团队实力。各个国家存在现有玩家，多语言学习又是 Duolingo 的主要市场，Speak 将会面临激烈的市场竞争。

3. 长期来看，因为 AI 的不断进步，是否会降低语言学习意愿，导致语言学习市场增长放缓甚至收缩。

GPT-4、Whisper，11labs 等技术使得语言与语言之间的转换变得越来越无缝自然，能够将说话者的语言翻译成另一种语言的同时保持语音语调及音色，语音生成时间能控制在 400 毫秒以内，甚至 11labs 创立公司最初的目标就是“让人类不再需要学习语言”。

06.

LLM 结合语言学习的技术探讨

在语言学习场景利用 LLM 有两种方式：

1）基于现有基座模型进行 Prompt-engineering 或 fine-tuning，也是目前绝大部分实践类型；

2）训练针对特定场景下的垂类教育小模型，例如 Chegg 就表示已经在利用其数据积累，训练自己的教育大模型。

Prompt 出高质量的 AI Language tutor 需考虑三个要素，语言学习的课程设计经验及教研积累，用户数据积累以及对大语言模型的理解、懂得如何训练大模型让 LLM 在语言教学场景下表现更好。

在 AI 改造教育这件事上，我们认为 Duolingo 可能是被低估的一家公司，虽然 Duolingo 在今天更多被游戏化、病毒式的增长讨论，但 Duolingo 创始人 Luis Von Ahn 本人就是天才级 ML/AI 实践者，也因此 Duolingo 从诞生起就带有 AI 基因，也很早进行了诸多 AI 探索，下面我们结合 Duolingo 的实践进行讨论。

在 2020 年， Duolingo 就发布了自研的自适应系统 Birdbrain 用来监测学习者行为，基于学习者数据和 Duolingo 的语言材料，生成个性化学习路径，匹配学习者的能力水平，比如当学习者表现出色时，Birdbrain 会提供更具挑战性的问题以保持他们的兴趣，不过这些内容都是基于已有课程内容，不存在所谓的“生成”。在 GPT-4 之前，Duolingo 团队也探索过利用 GPT-3 等模型来生成练习题，但在实践中发现，效果并不理性，仍需要大量人工介入。

GPT-4 相比传统 NLP 以及 GPT-3 具有更强的上下文理解和文本生成能力，为实时语言交流和练习提供更好的工具，结合用户数据和机器学习算法也可以为用户提供个性化建议，这也是为什么 GPT-4 推出后 AI Language Tutor 爆发的原因。

根据 Duolingo AI 主管 Clinton Bicknell 的访谈，集成 GPT-4 到 AI Tutor 需要以下工作：

• 人类设计师编写聊天情境和初始提示，并不断改进 Prompt：

对话类功能需要 prompt 来设置情景、角色、对话目标等上下文信息，团队一般需要上百次试验来优化 prompt 的长度、内容、措辞，使 GPT-4 生成的对话质量符合预期；

• 结合 Duolingo 自己的 AI 模型及数据：

在 GPT-4 上层整合 Duolingo 的机器学习模型，如对话监控模型，用于分析对话合理性、控制对话长度、检测敏感内容等。同时，Duolingo 已经积累了大量的学习者数据，根据用户学习历史、偏好和进度，个性化设计对话方式和学习内容；

• 防止对话偏离正轨：

使用 AI tutor 面临的主要挑战是对话安全和 GPT-4 “臆造”答案的问题。Duolingo 采取了多层次的防范措施，包括组建“red team”通过多种方式测试对话系统，引入检测关键词和评分机制，以确保对话保持在学习主题上；通过收集正常和不安全对话样本，利用分类模型自动过滤潜在的不安全语句；同时还收集真实问答样本扩充 GPT-4 的知识，加强检验步骤，对回答质量进行评分，以过滤低质量的回复。

但 GPT-4 并不一直是正确的，当工程师们发现 Duolingo 的对话应用中生成某些错误时，也会将这些错误反馈给 OpenAI，OpenAI 利用这些反馈样本进一步训练和优化模型。

GPT-4 的应用不仅限于对话生成，还可用于课程内容生成、英语测试、个性化学习等。Speak 和 Duolingo 现在都已经在使用 AI 更快、更好的生成课程、创建练习。之后课程设计师会从 LLM 的输出中选择内容，进行编辑修改，因为 LLM 的输出仍存在生硬或不太自然的部分。如以下的示例：

Write an exercise that uses the word 
VISITARinSPANISH.

Rules:

1. The exercise must have two answer options.

2. The exercise must be fewer than 75 characters.

3. The exercise must be written 
inA2 CEFR level 
SPANISH.

4. The exercise must contain 
THE PRETERITE TENSE and 
THE IMPERFECT TENSE.

Go!