「00后狠人计划」持续招募中!自我们发布计划一个月以来,已和数百位伙伴建立了联系。他们中有从 9 岁就开始编程的技术小天才,有 B 站上最早的百大学习 up 主,也有从高中就设计研发测试各类火箭炸药的超级发明家……
当然我们也知道,或许 20 岁的你还没有一个成型的创业想法,因此我们找来了比你年纪稍长几岁的学长学姐,请他们聊聊自己在 20 岁时的困惑与选择。
第四集,我们请到了边塞科技创始人 & CEO 吴翼。他一直活跃在 AI 研究的各个领域。2020 年,他辞去了 OpenAI 的研究员工作,回到清华叉院担任助理教授,并开启了自己的 AI 创业项目。2023 年,真格基金天使轮投资边塞科技。这一集,吴翼谈到了他的多元身份,以及他将如何颠覆 AI 与人的交互方式。
真格,你的创业第一站。「00 后狠人计划」仍在滚动招募中,欢迎一切有想法的年轻人来投递,无论羽翼是否丰满!
观看视频,了解吴翼的故事
银牌

故事的一面是,他是一路的天才少年。
出生于 1992 年的吴翼在高二暑假的 NOI1 竞赛中拿到金牌,随后被清华交叉信息研究院签下,保送进入姚班2。2014 年本科毕业,他前往加州大学伯克利分校攻读人工智能方向博士,第一篇深度学习论文就获得了 NIPS3 当年的最佳论文奖。博士毕业,在回国任清华交叉信息研究院的助理教授前,他加入 OpenAI 工作了一年半,参与的游戏项目「捉迷藏」是 OpenAI 历史上视频点击率最高的视频。
2023 年,他创立边塞科技,「all in 体验」——用强化学习为更多人创造更好的智能体验。
但一切并不像看上去那么顺利。信息学竞赛打了十年,他一直缺一枚金牌。
高三以中国国家队队长身份代表中国出战 IOI4,银牌。
进入清华,和毛杰明(IOI 金牌)、莫涛(NOI 第一)三人组队参加 ACM-ICPC5 区域赛。从福州到长春再到天津,三个人总计参赛 9 次,一共拿了 7 次亚军。
2013 年,大三第一次在圣彼得堡参加 ACM-ICPC 世界总决赛。由于「可能是清华历史上拿第二名最多的队」,三个人取队名「Again and Again」。那一年,他们碰到白俄罗斯信奥传奇 Tourist(Gennady Korotkevich),后来又在 2015 年的赛场上再次相遇。
ACM 比赛一共会颁出 4 金 4 银 4 铜,2013 年,他们是全球第 12 名,拿到一块铜牌。
本科在姚班,「成绩不好呀」。班里第一名吴佳俊——几乎所有课程都是班里最高分。「早上醒来佳俊走了,晚上我们在那聊天,11 点熄灯了,佳俊回来了。他真的太勤奋了。」(吴佳俊现为斯坦福大学助理教授。)
再看看学弟陈立杰在特奖答辩上的知乎出圈表现——「我在波士顿的街头漫步,突然看到天空中飞过一只白鸽,它以不同的方向穿越了天空」——于是他灵光一闪,解决了一个其导师自 2002 年就开始苦苦思索但未曾解开的 open problem。(陈立杰为麻省理工学院博士,现为加州大学伯克利分校研究员。)
在伯克利读博士,有半年的时间他整夜睡不着觉,回头看「真的很怕那时候抑郁了」。创立边塞科技后,「全是瓶颈」。作为技术型创始人,「感觉就是木桶原理,其它都没有板,一条单棍竖着。」
「一直不是第一名」——也许是他所至之处,满溢着太多天才和传奇。和这些 S 级相比,他似乎差了一点点「极致」。但如果成为至强者的必要条件即是「极致」,成为「吴翼」则需要加一点点「感性」,再多一点点「认识自己」。
决定
这一点点「感性」,是在 AI 暴力美学的胜利与对规模定律的不移信仰之外一个柔软而坚定的声音。
吴翼常用一个比方:现在的 AI 就是一个肌肉男,在追求更强的路上狂奔。把衣服一扒,「看我的胸肌」,也有人喜欢。但相比胸肌,大部分人想要的是更好的体验。
从 2017 年起,他在很长一段时间里的所有研究都聚焦于多智能体学习和人机交互,就是希望在未来能有一个不再冷冰冰的 AI,能用舒服的方式理解人、和人交互、和人一起完成复杂的事情。
如果 AI 和人一起打 Dota,不能因为厌蠢,自己冲在前面,不搭理队友。如果有一只机械狗,它可以不止于爬楼梯、递水,而是可以被牵上街溜达溜达,能在主人回家的时候跳起来招招手。做到这一切,「必须有很强的智能和很好的控制。」
所以创立边塞科技的决定并不难做。「边塞」二字来源于「prosocial(亲社会)」的缩写 Psi,也是希腊字母 ψ(Psi)的音译。另一层含义,是希望做无人区的事情。他希望通过通用强化学习训练平台,在 AI 和人之间做好一道对齐技术,把智能以最舒服的方式呈现给人,让世界上尽可能多的人喜欢。公司是实现这一理想的载体形式。
大的决定,他感性地做。2012 年大二去刚刚上市的 Facebook 实习,一个电话。2016 年博二回国加入 3000 人的今日头条实习,一个电话。
博士毕业前的那个夏天,决定回国,他想了一周。他问自己,你会不会一辈子在美国啊?应该不会,可能五年后就回国吧。但如果一件事情五年之后你想做,现在做一定比之后做更好不是吗?「那就回来」。完整经历过 2016-2018 年的字节风起云涌的时代,他触动很大,「中国的机会比大家想得好很多。」
回国加入字节吗?试想一下——在字节工作五年后会是什么样?「那可能是一个 tech lead(技术负责人),一个 senior manager(管理层)。」这个事情行不行?「好像对我来说不行。」为什么不行呢?「我想实现自己的东西,而不是帮别人。」那就先想个职业吧,什么职业是百分之百在做自己的事情?「老师。」
2018 年 8 月,吴翼确定回国。9 月,想了想不去字节,就直接联系了姚班所在的交叉信息研究院,10 月份签了叉院,成为了助理教授。
不过在回国之前,他想先用一年半时间在美国业界看一看。Google 想招他,但觉得一年半太短,内部想办法绕过 headcount 花了太久时间。他就阴差阳错地去了当时名气不够响亮、因为还是 NGO 所以不赚钱的 OpenAI。2022 年第一次出去融资路演,还要在一开头先「介绍一下我们公司」,直到年底 ChatGPT 发布。
2019 年底公司内部评估,OpenAI 的研究副总裁 Bob McGrew 问他,要不要再待一年?升职的时候给你发股票。彼时大家都很好奇 OpenAI 从 NGO 向 LP 转变后股票有什么用,Sam Altman 在全员会议上说,这是实现 AGI(通用人工智能)之后的 AGI share。「这什么玩意儿?不要不要,我要回去当老师了。」
但在吴翼能够顺溜地回答以上一串对于自我的追问之前,在他明确地知道「自己要什么」之前,他要先「脱一层皮」,再握起拳,敲开一扇门。
2014 年,吴翼来到伯克利读博,导师 Stuart Russell 的研究方向聚焦在 AI safety 和概率逻辑推理,认为整个 AI 界面临的最大难题就在这里,而伯克利的博士就应该挑战最难的问题。
博士一年级,吴翼跟着导师研究逻辑语言推理工具,「发现自己特别拧巴,不喜欢,很痛苦。」
他一直对 system 很感兴趣。本科申请博士的个人陈述,他就写自己要做 large-scale machine learning system(大规模机器学习系统)。来到伯克利,他还尝试在 Databricks 源起的 AMPLab(大数据领域世界顶尖的实验室之一)做过一段时间。但导师对这个方向实在不是很支持,回复说「The system is a matter of engineering work(系统主要是做工程)」。
紧接着他被告知,指导他写论文的一位 advisor,也是编程语言领域的领军人物Rastislav Bodik 要离开伯克利去华盛顿大学了,身边又少了一位相知的师友。到了博二,投稿九次,只中了一篇,还是一篇重新投稿的本科论文。他想,如果十投一中,「我就不干了。
博二整整半年,吴翼持续地处于深度焦虑状态,「精神内耗」,睡不着觉。睡不着觉就想快速消费信息,看短视频会让人感到非常糟糕,于是他开始疯狂刷知乎,一刷两小时。短平快的小知识,会让内心得到一些粗浅的安抚。
焦虑与苦闷弥漫。他最终决定做自己喜欢的方向。他敲开了 Pieter Abbeel 教授的门,「Pieter,我想做一些 Reinforcement learning research(强化学习研究)。」
在取得导师 Russell 的支持后,吴翼同时跟随 Pieter Abbeel 教授开展深度学习研究。Abbeel 曾带着学生在 2016 年加入 OpenAI,也在那时让吴翼认识到了这家创业公司。第 10 次投稿中了,十投二中。第 11 次投稿的那篇论文,也是他在深度学习领域的第一篇论文《Value Iteration Networks》,一举获得了 NIPS 2016 年的最佳论文奖。「这就很麻烦了。」
吴翼在 OpenAI 参与的多智能体「捉迷藏」游戏
名字
一位选手一生最多被允许参加两次 ACM-ICPC 总决赛。2015 年夏天在摩洛哥西南部的马拉喀什举行的 ACM-ICPC 总决赛,是吴翼竞赛生涯的最后一场比赛。他已经博士一年级了。从旧金山穿过大西洋向东飞至卡萨布兰卡,乘火车前往马拉喀什,步入赛场,脚下是令人眩晕的红棕色花纹的地毯,128 支队伍列坐在白色的隔板之间,投影屏上巨大的数字时钟开始倒数。
五个小时,每一秒都在跳动。心跳加速,血压升高,肾上腺素飙升,屏幕上的排名不断滚动刷新,代表赛题被 A(解决)的彩色气球在场地各处升起。这一次,自称「1.5 流选手」的吴翼会终结此前七次亚军的走势吗?他会拿到那枚自初一从老师口中第一次听到 ACM 起就梦寐以求的金牌吗?
他听到自己的名字。他在领奖台上笑着露出了牙齿。
A 掉十题,排名第六。又是银牌。「最后是自己跟自己和解,」他独霸了「北美冠军」的奖牌,给伯克利剩了一块「全球第六」。
大三那场总决赛,他捧着证书,在领奖台上脸很黑,瘪着嘴,感到很失败。现在是老年队了,宿命般地一直拿银牌,也「挺浪漫的」。
2013 年,吴翼代表清华参加 ACM-ICPC 
世界总决赛获得铜牌,全球第 12 名
2015 年,吴翼代表伯克利参加 ACM-ICPC
世界总决赛获得银牌,全球第 6 名
在动身前往摩洛哥前,吴翼在一篇文章里写道,「ACM 是我的初恋」。所谓初恋,不过是数不清的五个小时,是世界各地一场又一场的奔赴,是密密麻麻想赢的心。
当然很想赢。但拿了第一名之后呢?输了之后呢?走出赛场,五个小时的倒计时就消失了,「如果你觉得这是要坚持一辈子的事情,研究也好,公司也好,都是马拉松,这件事情不会停下来的。」
在清华,ACM 不过是众多学生活动中普通的一项。大家都要做最好的学生,要拿满绩,要发论文,要跑 3000 米,ACM 比赛只是「很小很小的一部分」。但每一周,吴翼会投入 10 个小时,做满两个全赛程的训练与复盘。他自封后勤队长,负责研究去什么赛区,协调大家训练,还负责代购火车票飞机票以及和教练沟通,并且乐此不疲。
后来去了伯克利,导师 Russell 得知他要去参加 ACM,问吴翼,这个比赛不是本科生参加的吗?吴翼说,不是,24 岁以下都可以参加。Russell 回复,「我 24 岁都开始当教授了。」
他参加的最后一场 ACM 在 2018 年,作为伯克利的教练。距离他 2007 年第一次参加 ACM 比赛过了十一年。他的比赛 ID「jxwuyi」,取名于在局前街小学读书时老师让大家注册邮箱使用的统一前缀缩写「局小(jx)」。几周前,他在清华的一个竞赛冬令营做了分享。作为交叉信息研究院的助理教授,他还会负责出每年博资考的算法题。据他的博士生高嘉煊说,「跟竞赛还是比较像的。」
吴翼的筋骨,很大一部分由 ACM 这项信息学竞技比赛形塑——日复一日的坚韧、高压下的冷静自如、Deadline 追赶下的全然激发。任何一项竞技比赛的顶级选手,都是天赋与大量严苛训练的造物。
「很多人是愿意一个人坐在那刷很长时间题的。」但他没有那么享受刷题。他喜欢的是「大家几个人凑在一块训练」,喜欢在这项比赛里遇见的人。
吴翼小学参加计算机兴趣小组,初一正式跟随常州高级中学的曹文老师学习信息学竞赛。曹老师喜欢胡侃过去学生的故事,他闲时也就跟着喜欢上翻阅往年的 IOI 比赛、ACM 世界总决赛的成绩单。他可以如数家珍地说出近十年信息学竞赛中国国家队,甚至美国国家队的队员名单,或者 ACM 世界总决赛清华、交大的队员名字与相应的名次。
初三暑假在交大,吴翼第一次在机房里见到了仰慕已久的戴文渊(ACM 世界冠军,第四范式创始人 & CEO)。高一在 ACM 南京赛区,他又见到了唐文斌(ACM 总决赛世界第六,旷视联合创始人 & CTO)。高二在 ACM 杭州赛区,总算见到了一直嚷嚷想见的朱泽园(IOI 金牌,ACM 总决赛亚军,MIT 博士)、楼天城(楼教主,小马智行联合创始人 & CTO)和周源(IOI 满分,ACM 总决赛亚军,CMU 博士),「当时捧着那张合影,简直比拿了冠军还激动。」
他在文章中写道,「当时我可能做梦也想不到,过了若干年,我会和唐文斌一起坐在火车的餐车地上打牌,会和郭华阳在纽约曼哈顿睡上下铺。后来进了大学,和贝小辉成了好朋友,楼天城成了我的助教,胡伟栋(IOI 金牌,ACM 世界亚军)会请我吃饭……当然了,进入大学以后,我不会再端着相机四处合影了。」
这些「如雷贯耳」的名字或多或少地影响了他的选择。
大二时因为「觉得 Google 的饭好吃」,他想去 Google 实习,找了唐文斌。唐文斌找了大师兄张一飞,张一飞又刚好从 Google 来到 Facebook。于是他加入了 3000 人的 Facebook 实习。
在一次回校访问期间,吴翼与常州高级中学竞赛圈的师兄李磊相识。吴翼在姚班读书时,李磊是吴翼后来的导师Stuart Russel教授的博士后,并推荐他来伯克利实习。
2016 年,李磊对他说,我要回国了,我要去一家公司,叫今日头条,你也回来看看。吴翼就拒绝了微软研究院的 offer,成为字节第一个美国回去的 PhD 实习生,也是 AI Lab 的第 4 个成员,坐在杨震原(字节跳动副总裁、算法和数据技术负责人)旁边,研究如何训练 LSTM (Long-Short Term Memory,长短期记忆) 给文章起标题,「惊!冒号。重磅!冒号。感叹号!全是这种东西。」
做 NLP6 时不太会,他就给陈丹琦(IOI 金牌,普林斯顿大学计算机科学助理教授)打电话,「有问题就问她」。刚创业的时候,他也问了楼天城的建议。那些曾经「心中犹如浩瀚星辰般的神们」,成为了日后相伴左右的同行者。
不过最近吴翼开始提及一些新的名字。采访中,他提到「张一鸣」19 次。他在 2016 年的字节待过,通读了张一鸣的微博、早年的 BP(Business Plan,商业计划书),和张一鸣的同事聊早年的经历,他意识到很多事情开始串起来——「这个人怎么这么牛?」
海边
三件事会让 INTJ 人吴翼开心,喜茶,集卡,仙剑。或许这三件事不过是一件事,体验。
因为不喝咖啡,他规律性带领博士生一同吸食喜茶。采访中途他点了一杯不加糖的金凤茶王,并多次查看喜茶配送动态,「今天快乐了吗?」
投会议论文主打「体验式集卡」,AI、Machine Learning、Robotics、NLP、System、Programming Language 的会都投,「No reason,只是喜欢。」
他打卡了 39 个国家,318 个城市,践行着一句他从中学记到现在的,一个北大学姐发的朋友圈——「我们去(旅游)的国家数量要比我们年龄大」。
打仙剑四的时候,他猫着三天没出门,「沉浸式体验剧情」。一键安装修改器,战斗直接靠调数值过去,「I don’t care」,关键在剧情,「每句话都要看的」。第一次玩仙三他用别人的档中途开始,特别喜欢龙葵,通关回去再重头打一遍雪见,「不可救药」、「挡不住好吗?」
「All in 体验」,是边塞科技的方向,也是他的科研兴趣。这源于他作为一个「Deep I」人的敏锐的感知。
他有着强大的感受和共情能力。在公司的困难时刻,他约每个人 1-1 谈话。所有人进来都坐在他对面,只有一个博士生进来,不说话,坐在他旁边。「印象太深刻了,我当时就说,你给我一个月的时间,就一个月时间。」录取这个博士生时,他只花了二十分钟,感觉点都对了,「就是他了」,就录进来了。
一次评比奖学金,吴翼的博士生高嘉煊说,本来已经决定了,到最后却突然发现没有自己的名字。「吴老师院里每个老师挨个问了一遍,他真的问了。虽然最后还是没给我,但我觉得很开心。」
他把学生视作他的伙伴,希望每一个学生都是开心的,会用心帮每一个学生找到自己的兴趣、对应的平台和资源。他希望大家价值观一致,做对齐、多样性算法、机器人、强化学习、系统,都是为了最终人机交互的体验服务。
写作是吴翼的思考形式。他想不明白时常常会问自己,「答案不可能一下子冒出来,」今天可能想到了一点,明天想到了一点,总有一天突然明白,好像是这样。「只能不停地问。」他不停地问,也在不停地写,「后来会越来越觉得,人类的智能是语言,人类的体验,很大程度上也是由语言驱动的。」
2 月份吴翼去了一趟南极。站在南极的雪坡上,他开始思考一些和「体验」相关的事情。想着想着,就打开 Flomo,「写了很长的一段东西。」写完了,一个小时过去了。
在学习成为一名 CEO 的过程中,他开始和更多人聊,在更多的输入中去理解和感受,「你不看世界,不知道世界在哪。」和张月光师兄(妙鸭相机产品负责人)吃饭,他聊嗨了。吴翼说,你知道吗?我会一个人在海边坐三小时,听海浪。张月光一听就打断他,哎呀,我也凌晨两点钟睡不着,在鸭川边上看着河川流过,就像生命从手中流逝。
吴翼发现自己和张月光师兄特别像。他也曾在夕阳时走在海边,往那里一坐,一个人坐到天黑。
他很喜欢海。海浪的每一个时刻是不一样的。「它不能是完全没有声音的,它是有一点声音的。你在那里,就会觉得在感受。」
1. NOI,全国青少年信息学奥林匹克竞赛,National Olympiad in Informatics
2. 姚班,清华学堂计算机科学实验班,由世界著名计算机科学家、图灵奖得主姚期智院士创办
3. NIPS,神经信息处理系统大会,后改名 NeurIPS,Conference and Workshop on Neural Information Processing Systems
4. IOI,国际信息学奥林匹克竞赛,International Olympiad in Informatics
5. ACM-ICPC,国际大学生程序设计竞赛,Association for Computing Machinery - International Collegiate Programming Contest; 现 ICPC 与 ACM 脱钩后已独立运营,文章中取常见的 ACM、ACM-ICPC 
6. NLP,自然语言处理,Natural Language Processing
「00 后狠人计划」仍在持续招募中

扫描二维码,和我们聊一聊!
欢迎一切有想法的年轻人
无论羽翼是否丰满
监制|Jiafen
编导|Jiafen & Tammy
拍摄|Dan & Chushi
剪辑|Matthew
文|Wendi
推荐阅读
继续阅读
阅读原文