真格精酿回顾：如何把握 AI Agent 的创业时机

Z Events 是真格的活动栏目。

「真格精酿」系列活动从 2019 年起，已走过 5 年，旨在帮助创业者更深入地洞察行业赛道，发现科技前沿机会，结交更多志同道合的创业伙伴。

3 月 9 日，真格基金在北京举办「真格精酿·AI Agent 圆桌派」线下行业沙龙，邀请到了五十余位 AI Agent 领域的前沿研究者和资深从业者，与来自产业界及投资界的专家们一起，从技术、行业应用、创业投资等多维度出发，深入分析 AI Agent 的发展前景、应用场景，发掘产业中潜在的机遇。

2024 开年，大模型迭代带来的 AI 浪潮仍在以不可挡之势狂奔，为我们带来了智能时代的曙光。

在关注底层技术变化的同时，我们也十分关注应用的落地方向。例如，AI Agent 领域具体会如何发展？何时使得科幻电影中的智能助手真正走入生活，用技术颠覆现有习惯，并带来可观的市场机遇？

真格基金自成立以来，始终是新技术和创业精神的坚定支持者，从基础模型、应用、开发者工具、基础设施等方面，持续关注并布局 AI 及前沿科技领域。我们投资了月之暗面、云天励飞、格灵深瞳、依图科技、出门问问、爱笔智能、思谋科技、晶泰科技等创业公司。

本次活动我们邀请到了来也科技联合创始人&CTO 胡一川、微软亚研院首席研究经理谭旭，与真格基金管理合伙人戴雨森、投资副总裁谢岩一起，围绕 AI Agent 的技术发展、应用场景和产业前景等话题进行交流探讨。

活动招募的一周内，我们收到了超 300 份的报名申请，但囿于闭门沙龙规模限制，我们最终只能邀请到部分观众来到线下参加本期精酿。

我们整理出了本次活动中嘉宾的部分精彩发言以及现场观众的问答内容，虽不足以展现 4 个多小时热烈探讨的全貌，但希望可以带给大家一些启发，也欢迎在评论区与我们交流。

AI Agent 领域如何构筑护城河

微软亚研院首席研究经理谭旭

在通过大语言模型完成任务自动化工作时，我们发现核心就是调用 prompt，然后用大语言模型去完成复杂的任务，最终解决一些场景。部分学术研究可能更像是一些概念，并没有太多技术壁垒。

如果真正想要继续深入研究，就需要知道各个环节的反馈。比较有护城河的方向就是深入到各个环节去提升相应的能力，解决实际需求并在实际场景中得到反馈，再提升对应能力，从而逐渐构建起 AI Agent 领域的壁垒。

现在 AI Agent 领域里很缺乏一个比较完整的评估体系，指导大家去进一步设计和优化模型。我们继续研究的初衷，就是想要去构建一个完善的 Benchmarking 来指导该领域的技术发展，去评估哪些 Agent 的机制更合理？哪些 Agent 背后使用的语言模型更好？

阻碍相关研究落地的主因在于效果

微软亚研院首席研究经理谭旭

我觉得做 AI 研究永远有两个指标，一个指标是效果，第二个才是成本或推理成本。制约我们的永远是效果，而不是成本。只要性能或效果能够达到，一定会有非常多的动力和资源投入来解决成本问题。

目前唯一的瓶颈是，现有研究效果无法达到落地指标。比如公司内部聊天工具中也有非常智能的功能，帮助查看会议、收集邮件、拟定邮件等，能够在尝试的过程中为你带来耳目一新的惊艳感。

但在真实的使用场景中，你可能还是不放心将一些重要的回复交给 AI 完成。所以我认为只有 AI 的效果能够真正达到我们的需求标准时，才会被大规模广泛使用。

AI Agent 落地数字员工时的挑战

来也科技联合创始人&CTO 胡一川

第一个是模型的能力需要更强。在所有模型的对比中，GPT-4 的效果相较于其他模型来说有较大优势。但是现实中的实际业务场景比评测中的任务要复杂得多。可能在很多场景中，GPT-4 的效果也远远不够。

第二是应用生态需要更开放。影响数字员工发挥价值作用的关键因素，就是它接触的数据、操作的系统、完成的任务是否丰富。

首先我们看到国内的生态还需要很长时间来建立。其次，过去的 API 更多是给人看的，不见得对大模型比较友好。如果未来想要通过大模型操作 API 来实现 AI Agent 形态的数字员工，还需要讨论 API 的具体形态。这是一个目前大家还未能达成共识的问题，甚至有可能诞生很多新的机会。

最后一点是目前的许多工作流程需要被优化和重构。比如一个 HR 想要做招聘，他目前的工作流程与有 AI Agent 的工作流程可能有较大差异。如果根据现有工作流程去设计 AI Agent 服务于招聘，可能就是错的。

开发者选择大模型时的三个考量指标

来也科技联合创始人&CTO 胡一川

第一是效果的考量。大模型在通用评测指标上领先是不够的，还需要在特定领域任务中的效果足够好。大模型能够针对真实场景定义出任务，有与真实用户分布接近的数据集，并且能够进行自动化评估和快速优化，这非常重要。如果你在创业中做这个方向，这也有可能成为你的早期竞争力。此外，在一些 To B 的复杂任务场景下，大部分模型离 GPT-4 还差得比较远。

第二是成本的考量。这主要包括使用大模型时的训练成本、推理成本和维护成本。因为目前大部分人还不需要去训练，所以目前可能最重要的就是推理和维护成本。

不同的应用场景下大家对成本的敏感度是不一样的。例如，对于拥有 10 万日活 To C 聊天机器人产品来说，使用 GPT-3.5 API 一天的价格大概是 100 美元，大家可能不太敏感，因为产品已经拥有了 10 万日活，甚至已经可以在此基础上进行变现。

但是在 To B 的场景下，使用 GPT-4 API 处理一张英文发票的成本大概为 0.2 美元，客户就会计算机器是否比人力实惠，价格能否更低。

最后就是关于开源和闭源的考量。我们其实一直存在一个共识，就是闭源模型将会因算力和数据持续领先开源模型。所以服务 B 端客户提供的复杂场景时，我们目前的策略基本上都是先用闭源模型做验证，再考虑基于开源模型建立数据闭环，然后去服务一些无法一直使用闭源模型的客户。

回溯移动互联时代

对于中国早期AI创业者的三条建议

真格基金管理合伙人戴雨森

其一是要灵活，用一种动态的眼光看待技术本身。因为目前技术还在高速发展变化，所以创业公司需要将变化看成一种常态，对变化有充分的准备。移动互联网发展时代，行业发展到后期时大家才有了一些比较具体的判断和固定的套路。

但是在 AI 时代一切皆有可能，所以公司的组织架构和创业方向需要能够根据变化快速做出改变和尝试。

其二在商业化方面，应该先关注用户新增，再思考用户留存。很多人会说在移动互联网时期，留存是最重要的，但这需要以成熟的技术为前提。一切还未知时，就需要首先关注产品是否有很多人想要使用。很多时候随着技术的进化，留存会越来越好。

还有一条是先关注用户价值，再思考商业模式。如果在技术和产品尚未成熟时先思考赚钱，那赚钱的方式会极其有限。但是如果产品真的带来了用户价值，创造了全新的场景，那就可以赚到另外完全不一样的钱。我们始终相信如果你的产品能带来用户价值，就始终有办法从中提取一部分成为商业化收入。“Make something people want”，这也是 YC 的哲学。

每一代技术革命都会催生属于它的新的商业模式，但这往往要在其渗透率到达一定程度时才会呈现。

从历史上看，Google 和 Facebook 都是先做了用户需要且满意的产品，逐渐做大后才思考出商业模式。AI 时代也会有新的属于它的商业模式。Google 这样的大公司可能很难改变原有的商业模式，这时候就需要创业公司去抓住机会。

不去抢有限的时间

让用户愿意为价值付费

真格基金 EIR 季逸超

分享一下我对这波 Agent 浪潮的一个核心思考。我们回到 Agent 这个词，它的本意是「代理」。这就意味着无论咱们现在创业做什么，在新平台没有真正出现之前，用户时间和注意力的总量是恒定不变的，那只要是聚焦于 To C 领域，本质上可以说你都与 TikTok 是竞争对手。

传统意义上的「代理」，比如代办签证等各项代理服务——你只需要迅速地说清需求，代理就能在有限的交互时间内帮你实现。这启发我思考，Agent 可能带来的机会是：我们能不能去寻找一类机会，并不需要跟一个产品有很长的直接交互时间，但是我会愿意为它产生的价值去付费？也就是说我们不再跟成熟的产品去抢用户有限的时间，这可能一定程度上重新定义了 DAU 这个概念。这个也是我接下来会一直思考的点。

先驱还是先烈？

创业公司如何把握入场时机

真格基金管理合伙人戴雨森

创业需要寻找一个大趋势和小拐点结合的时机。

大趋势意味着这件事情在不久的将来一定会发生，比如说中国过去发生的城市化、信息化、工业化、全球化等趋势。只有坚持跟进大趋势，才不容易做错，我觉得 AI 就是接下来的大趋势之一。

确定好大趋势后，仍需在其中寻找一个变化的拐点。这需要你比别人提前认知到这个拐点或在拐点发生之后迅速做出行动。太早和太晚可能都会出现问题，太早会变成先烈，而太晚又可能无法抓住时机。

我之前有听说过一句话，「如果你相信一件事情迟早会发生，你就每隔三年做一次。」在我看来，如果你认为一件事五年之后大概率会发生，就可以去做。如果三年后就会发生，往往就已经有人在做了。如果十年后才发生，可能大部分公司都很难撑过这十年。所以从经验主义的角度出发，我认为五年也许是一个对初创公司来说比较好的时间窗口。