MLNLP 
机器学习算法与自然语言处理 
)社区是国内外知名自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流,特别是初学者同学们的进步。

本文转载自 | 李rumor
来源 | rumor
卷友们好,我是rumor。
为了更加标准化模型的评估流程,HuggingFace在5月31日推出了Evaluate库,目前我写文章时只有300多个star,但预期几天内将迎来飞速增长。其实做的事情说来也不难,就是实现了一些metric:
但对HuggingFace来说却有着不同的意义,用研究团队老大的话来说,机器学习主要是算法、算力、数据和评估,这最后一个做完,给投资人讲故事,就更完整了!(开个玩笑,评估其实是很重要的,如果指标选的不好,或者自己实现的评估代码有bug,就全白给了。另外在复现别人工作时,经常会有结果不一致的情况,如果大家都用一套evaluate库,那起码少了一个变量。
讲到这里,今日份新闻就同步完毕了。
但其实我更好奇的,是HuggingFace最近公布了1亿美元的C轮融资,已经估值20亿美元了,它的成功究竟从何而来?它以后靠什么赚钱?
下面就从我个人的视角,来讨论这两个问题,欢迎在留言区和我讨论。
1
『成功从何而来』
我最早是从2019年初开始使用transformers库的,当时我们创业公司要做自己的预训练模型,选了它这套代码,之后大家的精调就都在上面改了。由于我之前都是用tensorflow和谷歌那套BERT代码,切换到torch和transformer之后简直打开了新世界,香的不行,那套BERT真的写得太好看了。当时我还很好奇地去看了HuggingFace的主页,发现它明明是一家做对话机器人的公司(真巧我们也是),还疑惑了一下这都跟他主业不挨着,怎么挣钱呢?活得下去吗?
结果他们活下去了,我们没撑过去。
后来我就是一个纯路人了,直到前段时间看到了它C轮融资的新闻,才重新认识了一下这家公司,没想到它们走出了一条自己独特的道路。
由于没有关注到它整体的发展历程,站在现在这个节点来看的话,我认为它成功的来源主要有3点。
第一点是对NLP技术的持续投入和开源的初心。这个说起来有点假大空,但我思来想去,还是觉得这是一切的起源,要是它们没有紧追前沿,复现BERT代码,没有开源出来,那后面的故事都不会有。
第二点是难得一遇的时机。不仅是碰上了BERT刚出来,而且赶上了整个预训练时代,同时又和pytorch的崛起打了一个配合。这真是太玄学了,要是他们当时选了其他框架,或者主打复现GPT,都不一定有今天的影响力。
第三点是发展方向的决策。这一点没那么假大空了,而且我特别佩服,简单的说,就是它的slogan:做AI时代的Github。没有AI的时代,Github是大家协作写代码的平台。而AI时代的资产不只有代码,还有数据、预训练模型,所以它从只开源代码,到成为数据、预训练模型的平台,是非常正确的一个决策。开源+平台,相当于一个杠杆,快速撬起了自己的生态,21年时他们只有30个正式员工,却有900+贡献者[1],简直是白嫖之王。
另外,还有一个很多创业公司会面临的问题,大厂也入局的话怎么办?
我在其他文章里看到一个解释[2]蛮有道理,比如Facebook也来做这么一个平台,那谷歌肯定不愿意把自己预训练的模型放上去,但HuggingFace是中立的,就没有这个问题。
2
『怎么赚钱?』
所以,经历了近四年的发展之后,它决定赚谁的钱呢?
当然是企业用户最有钱。
目前它的官网提供以下几种方案:
对于社区用户就不说了,就算64k个star的用户每个月都付费,一年才691万美金,连养活一百人的团队都难,更别说还有其他成本。
所以目前钱主要还是来自模型调用(Pay as you go)和定制化服务(Custom quote)。
模型调用(Model-as-Service)老实说我很怀疑,OpenAI有GPT-3作为壁垒,别人没钱训或者训不出来,花钱调用是合理的,但HuggingFace现在平台上的模型都是开源的,要调用的话为什么不找个更便宜的方案呢?
定制化服务挣钱还是比较合理的,但有个问题是产品化。比如A公司过来让做个摘要生成模型,B公司过来让做个情感分析,任务不一样,数据分布也不一样,做出的模型没法重复赚钱,就变成外包了。
再看看Github是怎么赚钱的[3],主要是企业代码托管服务,而未来会有那么多的企业有模型、数据托管需求吗?我表示怀疑。
在HuggingFace的官网上,我又发现了一个可能的模式:
开发者可以自由创建app,这样HuggingFace可能能成为一个开发者和企业用户的交易平台,毕竟很多中小企业是没有钱养算法的,而风控、人脸识别等算法既应用广泛,又可以产品化。这样HuggingFace直接躺着收手续费就行了。
3
『总结』
采访中,HuggingFace的CEO说他「不会对十年的大型商业计划进行过多的战略思考,而是更多地进行实验,遵循社区的验证以及他们告诉你的内容」,这也一如他们成功的历程,做过对话APP、做过其他开源项目,试到BERT突然就成功了。
短短四年过去,没想到我每天都用的transformers已经价值20亿美金,而HuggingFace不会止步于此。

参考资料

[1]Hugging Face:史上star增长最快的开源创业公司: https://zhuanlan.zhihu.com/p/411174344
[2]Hugging Face:史上star增长最快的开源创业公司: https://zhuanlan.zhihu.com/p/411174344
[3]GitHub是如何盈利的?: https://www.zhihu.com/question/24773932
技术交流群邀请函
△长按添加小助手
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP社区  机器学习算法与自然语言处理 ) 是由国内外自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名自然语言处理社区,旗下包括  万人顶会交流群、AI臻选汇、AI英才汇  以及  AI学术汇  等知名品牌,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。
继续阅读
阅读原文