没错,M小姐的微信直播又要来啦!!没错就是明天!拖延症到今天才通知,大家赶紧奔走相告——这大概会是M小姐直播间最硬核的一次直播了!
PS 微信直播各种不给力,还不给我认证,我只能保证嘉宾星光熠熠,内容干货满满,技术问题请视频号背锅!
如果说过去5年是SaaS(泛指所有ToB)的黄金年代(尤其在美国),即使在最近SaaS二级市场估值各种腰斩膝盖斩之后,仍然有很多基本面坚挺的百亿美金公司。那么,2021年绝对可以说是基础软件(主要是PaaS)的爆发之年。
就说几个最有代表性的数字:
去年美国IPO 的ToB 公司中,三分之一都是infra 公司(Hashicorp, Confluent, Gitlab, DigitalOcean, SentinelOne),IPO当日市值都超过百亿美金!
一级市场更是火爆到难以置信。
  • 2021年获得融资且估值突破$2B的109家公司里,infra+安全的公司接近一半,有43家!
  • 从融资金额来看,最近圈内都在传阅的,硅谷顶尖机构a16z选出的Data50 公司(链接请点击“阅读原文”),在2021年的总融资额超过$6B, 超过了过去5年的总和
注意看上图:去年,data infra 中最核心的Query & Processing 是融资大户,不过2022年来看,data infra 卷到发紫之后,一个infra领域的新战场已经在浮现。这就是这次我们要讨论的主题:
ML infra (更准确来说,MLOps) !
没有耐心看完的,先扫码预约微信直播(就是明天啦!),再细看(一如既往超级有诚意的)活动说明和嘉宾介绍~
下一个infra 百亿美金战场在哪里?顶尖开源公司眼里的 MLOps 新时代
北京时间 4月9日 10:00am(就在明天!)

美西时间 4月8日 7:00pm
几个关键词:MLOps, 开源,基础软件
MLOps指的是支持machine learning 整个开发周期的一系列工具。(注意,不是国内前几年说的AI驱动的运维AIOps!) 即使在硅谷,MLOps 也没有特别严格的定义。
一个比较被广为接受的理解是(来自Nvidia),MLOps是结合了ML,应用开发和IT infra的一整套流程和相应的工具链。
图片来源:Nvidia, https://blogs.nvidia.com/blog/2020/09/03/what-is-mlops/
具体来说,这个流程包括了ML开发的准备-开发-部署整个过程中数据收集、模型开发、模型训练、实验管理、CI/CD,到生产环境部署、监控等一系列工具。
图片来源:Nvidia, https://blogs.nvidia.com/blog/2020/09/03/what-is-mlops/
为什么这个时间点MLOps开始逐渐成为硅谷创投圈关注的焦点,从需求端看非常明显:
过去1年的时间,美国 job market 上对于MLOps 岗位的需求,暴增了13倍
要理解这个领域的挑战与机会,我们简单说三点你们感受一下。
1‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍为什么是现在?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
Infra 的需求都是下游应用驱动的。
大家如果还记得,3-5年前一小波AI的浪潮后来平静了一段时间,很多人觉得所谓AI-driven application 是不是名不副实。但是最近几年,随着技术和SaaS市场的逐渐成熟,我们看到,真正的AI应用落地或许已经到来。
从融资额上非常明显。根据CB Insights的数据,即使去掉中间自动驾驶相关的一些超大额募资,AI应用的融资大概也超过了之前两年的总和。
此外,平均deal size 提升了78%,超过$500M 的mega rounds 比起以前增加了6倍。这意味着,越来越多成熟的、商业模式被证明的公司已经出现。
AI从探索创新,走向真正规模化的落地,是促使大家有一个更成熟、能适应生产环境要求的底层开发的核心驱动力。
2这种驱动力下,会出现什么变化?
合久必分。
当一个新的需求起来的时候,大家往往需要一个大而全的解决方案,或者各家自研,先把事情做出来再说。所以上面 AI LifeCycle那张图大家也可以看到,成立时间比较长的都是最下面那层 platform 公司 (Databricks/MLflow, Datarobot, AWS SageMaker 等等)。
但是,当企业的需求越来越复杂,有技术能力和苛刻场景的公司,就会开始使用modular solutions, 就是在每个单点选择最适合自己的工具。
这就是 Unbundling, 也就是开始出现细分领域单点工具的过程。
这一点我们可以参考data infra领域的例子。毕竟,你可以理解,ML的源头是数据。一个公司只有先做好了 data infra, 才有做好MLOps的基础。
还是从之前提到的a16z 选出的Data 50 来看,data infra 正在处于核心流程分久必合 (from unbundling to bundling) + 流程运营精细化的开端。
融资额可以体现一个领域的成熟程度。AI/ML 领域的总融资额还不到所有融资额的20%。Query & Processing + ETL/ELT这两个大类,毫无意外占比接近60%。
数量上来看就有意思了。上面提到的两个data infra 核心大类,正在开始融合。最典型的表现,关注这个领域的同学都知道,成熟厂商之间的相互渗透:Snowflake 和Databricks 打得不可开交。同时,精细化运营的 Observability, governance, 等等,都还在相对早期,数量上也更分散。
那么,MLOps 也会延续这个路径么?
M小姐这里先不深入解读,这里先放一个来自 infra 领域投资非常积极的成长期基金 Sapphire Ventures 给出的判断:
接近应用workflow 的集成统一 + 开发层出现更多单点产品。
“While modularity would inherently bring in more complexity, I’m very excited to see
1) products designed with abstraction + integration in mind that meet end users where they're at from an AI workflow maturity standpoint &
2) modularity bringing flexibility to help customers tweak every last component of their model and model-building workflow to produce the most optimal analyses and systems for their specific needs.”
3ML开发流程有特殊的复杂性
因此需要一套与软件和大数据开发不一样的工具栈。主要体现在:
如上面那个流程图所示,因为涉及到数据和模型,流程涉及的步骤就比一般的软件开发或者大数据开发更为复杂,由此工具栈也相应更多。感受一下这个方兴未艾就已经十分拥挤的领域(这个图后面我们还会提到):
图片来源:Sapphire Ventures, The Future of AI Infrastructure is Becoming Modular
另一个复杂是,MLOps 涉及了软件开发和模型开发两套系统,分别由工程师和数据科学家两个完全不同的群体来使用。这个流程中涉及的能力就很不一样,导致了工具和能力的割裂。
下面还是来自Nvidia 的拆解图,你就能感受到这个协作过程的复杂。
在大公司,可以有大团队相互支持,但是小公司,通常只能由开发经验不足的数据科学家先担任一部分data engineering 的工作,等到真正有infra能力的工程师入场,原本工程能力薄弱的技术栈已经是七零八落。
综上!
这就是为什么,在data infra 卷得如此辛苦的投资人和创业者们,都开始关注MLOps这个充满可能性的领域。
这个领域在中国还在萌芽阶段。希望看到未来的你,难道不想跟硅谷最前沿的公司聊聊,听听他们在一线的实践和思考吗?
所以!
喜欢组局、好奇心爆棚的M小姐就请来了硅谷当红的MLOps 开源创业公司、在Databricks这样的超级独角兽和科技大厂MLOps 团队的资深从业者, 在微信直播间里,跟大家畅谈他们亲身经历的MLOps 过去、现在与未来。
而且!秉承CH的优良传统,我会
开放连麦
,让想要探讨的你也随时可以加入讨论!

来介绍我们的重磅嘉宾们!
这几位嘉宾的经历,真是涵盖了MLops的早中晚不同阶段,使用者和技术提供方、SaaS 和 tooling,开源与商业化的不同视角。超级值得期待!
(M小姐直播间首次全男生阵容啊!)
Yifan Cao, PM @Cruise ML platform, ex PM@Databricks, ex-PM @Apple ML
Yifan之前来参加M小姐的CH活动总是大受欢迎。微信直播终于请到了他!Yifan 在 Databricks 负责的产品Databricks Runtime for Machine Learning 据说是Databricks 发展最快的产品之一。从技术提供方,到Apple, Cruise 的内部ML platform 产品经理。要知道,Cruise 的ML platform 团队,从技术到规模到成熟程度,在业内都是首屈一指的。要想聊聊不同规模、不同视角、不同场景下的ML platform 在过去几年经历了什么变化,有什么挑战与机会,在最一线实战多年的 Yifan 有太多干货!
Quinn, BizOps @Snorkel AI, ex PM@Moveworks
Quinn 是M小姐非常佩服的小伙伴!完成了投资到创业公司的华丽转身,Quinn现在在硅谷MLOps领域的明星开源独角兽 Snorkel AI (https://snorkel.ai/)负责BizOps。之前,Quinn 在估值高达 $2.5Bn的AI独角兽公司Moveworks 产品经理。Moveworks 基于NLP为企业实现内部IT服务的自动化。他们在Docusign, Palo Alto Networks, Unity 这些一流科技公司里,员工使用率都超过90%。可谓是真正的AI应用落地了。Quinn的经验从下游应用,到底层 infra,从SaaS 到开源,这两个不同的视角格外难得。
Chaoyu Yang, Co-founder & CEO @BentoML, ex software eng @Databricks
Chaoyu 是硅谷MLOps开源新星 BentoML (https://www.bentoml.com/)的联合创始人,作为2014年加入Databricks的早期员工,参与了Databricks unified analytics platform 核心产品的开发与设计。M小姐在SageMaker 的时候就注意到BentoML, 没想到短短几年,他们的社区发展迅速,已经积累了Amazon, Twitch, Apple, Grab 等非常一流的用户和贡献者。从百亿美金的Databricks, 到自己创业从零到一,作为最一线的实践者,Chaoyu的思考必须期待一下!
每次CH和直播,都会从听众的参与中获得惊喜,这次相信也不例外~
希望这次讨论能cover一些大家最关心的问题:
  • 为什么现在MLOps开始得到了关注,主要的驱动力是什么?
  • 用户对新一代的MLOps工具有什么新的需求?
  • 新的MLOps产品早期adopters都是怎样的用户?他们选择新的工具,都是如何考量的?
  • 创业公司怎样选择在MLOps lifecycle中的切入点?
  • 这个领域的开源公司,如何设计商业化路径,有什么与一般devops/data infra公司不同的吗?
  • 这些一线从业者眼中,MLOps最令人兴奋的机会在哪里?
  • ……还有更多!
当然,如果你有特别关注的话题,也欢迎在文章下留言,我会选取点赞最高的,到时候统一提问~

赶紧,扫码预约,就在明天啦!!
下一个infra 百亿美金战场在哪里?顶尖开源公司眼里的 MLOps 新时代
北京时间 4月9日 10:00am(就在明天!)

美西时间 4月8日 7:00pm
为了帮助大家预习,M小姐再给几个公司做一个简单的介绍。毕竟他们正好代表了Pre-IPO, 成长期、和早期三类MLOps公司,灰常有意思。
Databricks 就不用说了吧!……还是要说一下。
你也许只知道 Databricks 在大力推动的Datalake, MLOps 领域开山鼻祖的MLflow, 还有他们高达 $3.5B 的融资额和 $38Bn (!)的神仙估值,但是具体他们业务进展到怎样成熟的程度了呢?
来看看最新的一些数据,感受一下过去6年商业化的惊人进展。
2019年 run rate $200M 到2021年 $800M ARR, 2年增长了 4x,而且现在已经有7000多个客户,NDR高达150%! 这个数据 yyds!
相比之下,2020年Snowflake 上市的时候,ARR是 $530M,3000多客户,NDR也是惊人相似的150+%(当然现在已经升级到更惊人的175+%!!)。
从Spark一个学术项目,到现在收入和各项指标来看都是顶尖的ToB 公司,Databricks在技术、开源和商业上的成功是足以书写历史的。
这次两位嘉宾,Choayu 和Yifan, 分别参与了Databricks 早期到成长期的关键阶段。他们可以从最一线从业者的体验,跟大家分享这一段历程的见闻,相信会很有启发。
另一家稍微年轻一些的公司,Snorkel AI,就很有意思了。
Snorkel AI 做的事情也比较好理解。他们核心的开源项目Snorkel project是通过weak supervision 自动标注和管理training data。现在则发展成end-to-end machine learning platform,也就是最近发布的Snorkel Flow.
与Databricks早年很像,Snorkel AI 也是顶尖高校诞生的项目:2015年诞生于大名鼎鼎的Stanford AI lab,有着非常扎实的学术基础。
 这个开源项目在过去几年得到了无数全球顶尖科技公司的支持和使用,于是在2019年正式成立了商业化公司Snorkel AI. 
‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍作为一家含着金汤匙出生的公司,Snorkel AI 两年的总融资额已经超过$135M, 2021年的$85M series C 直接晋级独角兽。
这个阶段当然就意味着商业化的必然开始。最近,Snorkel 宣布他们的企业级产品,data-centric AI platform, Snorkel Flow的 general available.
熟悉这个领域的朋友或许注意到,他们的路径和产品设计,跟估值高达 $7.3B 的数据标注公司Scale AI 非常相似。虽然还没有公布正式 pricing, 但是这个商业化上的尝试与背后的思考,从学术项目到商业的进化,应该是所有开源公司都可以借鉴的经验。
最后,还在比较早期的BentoML,可以说是最新的MLOps startup 中非常有代表性的一个。
(哎呀,暴露了我github 头像的小狮子!)
他们切入的,是ML从模型研发到生产环境部署中的重要一环,Model serving. 通过将ML models 方便地转化为 Production-ready API endpoints, 解决了前面提到的,开发模型的data scientists 与负责部署的工程师们最容易出矛盾的一环。
这家2018年成立的公司,经历过一些探索,但是已经集成了各种市面上主流的ML frameworks 和Devops/infra工具,吸引了很多重磅用户:
Chaoyu 是怎样基于在databricks的经验发现了bentoML的机会,创业之初这几年,经历了哪些思考,相信会对正在思考或者准备在这个领域创业的同学们,都会非常有帮助。
就在这周六(明天!),微信直播间,不见不散——扫码预约吧~
下一个infra 百亿美金战场在哪里?顶尖开源公司眼里的 MLOps 新时代
北京时间 4月9日 10:00am(就在明天!)

美西时间 4月8日 7:00pm
与其看着动荡的股市哀鸿遍野,不如做一个理性乐观派,动荡中看到希望,迷茫中不忘初心。聊点儿实在的,腿儿迈起来才能离阳光更近!
免责声明:嘉宾观点仅为个人观点,不代表所在机构观点,亦不构成投资建议。


Reference:
https://blogs.nvidia.com/blog/2020/09/03/what-is-mlops/
https://sapphireventures.com/blog/the-future-of-ai-infrastructure-is-becoming-modular/
https://thesequence.substack.com/p/edge159?s=r
https://gradientflow.substack.com/p/experimentation-tools-surge-in-mlops?
https://towardsdatascience.com/ml-infrastructure-tools-for-production-1b1871eecafb
https://towardsdatascience.com/ml-infrastructure-tools-for-production-part-2-model-deployment-and-serving-fcfc75c4a362
https://www.battery.com/blog/seeing-is-believing-our-investment-in-arize/
https://future.a16z.com/data50/
https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
https://www.snorkel.org/
https://techcrunch.com/2022/02/17/as-databricks-reaches-800m-arr-a-fresh-look-at-its-last-private-valuation/
都看到这儿了,
不戳一下这么美丽的二维码关注一下?
点赞转发打赏三连发
我也没意见 :)

****原创不易,转载请注明出处****
点个“在看” 
鼓励一下M小姐呗 
往期回顾
【年度公司】Hashicorp:160亿美金的开源标杆,15000字的研究笔记,2021年不遗憾
深度解读硅谷顶尖VC票选出的Enterprise Tech 30 2022:开源, PLG, 投资的耐心和疯狂
万众瞩目的2021年Cloud 100, 榜单和数字背后的启发,都在这里
继续阅读
阅读原文