关注老石谈芯,一起探究芯片本质
微信的推送规则进行了调整
如果文章对你有用,请在文末点击“在看”,“分享”和“
这样就不会错过老石的每一篇推送了
最近突然顿悟了一个规律,是和产品设计相关的。我虽然没设计过任何「实体」产品,但每天都在写文章和做视频,这些其实本质上也是产品,只不过是「虚拟」的。
这条规律就是,任何产品设计都有两种主要的方法:一个是十年磨一剑,也就是憋大招、做爆款;另外一个是持续而广泛的输出,以量取胜。
但是从数学的角度来看,第二种方法取得成功的概率更大。
原因其实很简单,第二种方法的本质是不断试错、得到反馈、优化提升、再试错,这是个正向循环的过程。一旦跑通这个循环,很容易得到市场想要的产品。
很多人写公众号或者做视频,都希望第一篇就是一个10w+的爆款。要知道,就算是何同学那样的现象级爆款,也是铺垫了几十期内容才有的。如果把鸡蛋都放在一个篮子里,恐怕做出爆款之前,心态就炸了。
但如果用第二种方法的心态,不追求爆款、而是一边生产更多鸡蛋、一边放在不同篮子里,同时优化生产方法,这样其实就是在增加每个产品成为爆款的概率。
不仅是自媒体内容是这样的,绝大部分实体产品也都是用的这个规律和方法。
包括芯片。
纵观每个芯片大厂的成功史,都是靠一颗一颗芯片堆出来的。可能堆到一定程度,出现了一颗集各种技术于一身的「集大成者」。就连芯片初创公司也是这样,第一颗芯片一般都是为了跑通流程,不求最好、但求最高效的踩完所有的坑。
“不要把鸡蛋放在一个篮子里”,是诺贝尔经济学奖得主詹姆斯·托宾在1981年说的。虽然这句话的本意讲的是投资组合的理论,但如果我们把它推广一下,不难发现这里面其实有两个重点:
一个是有足够多的鸡蛋,另一个是有足够多的篮子。
5月11日,英特尔召开了“Intel Vision - 英特尔On产业创新峰会”,这是英特尔CEO Pat Gelsinger上任之后恢复的一个传统。除了产品发布之外,这里还有很多和产业趋势和应用相关的内容。很有意思的是,从这些发布里,就能很好的体现前面说的规律,也能看到英特尔在各个领域的很多布局。
如何源源不断产出鸡蛋:Xe架构
其实很多读者可能不知道,英特尔是世界上最大的GPU公司之一:这主要归功于英特尔的集成显卡业务。
不过随着两年前Xe的发布,英特尔GPU的版图里又增加了一个非常重要的部分,那就是基于Xe架构的GPU系列。这条主线,也成为了英特尔GPU战略的关键。
Xe并不是一个具体的产品,而是一个GPU的基础架构,并且可以由此衍生出多种针对不同应用领域和场景的GPU产品。
之前文章介绍过,基于Xe架构的GPU主要有四类:
  • Xe LP:主打集成显卡和入门级独立显卡
  • Xe HPG:针对游戏和桌面性能进行优化
  • Xe HP:主要应用于数据中心和AI的Xe HP
  • Xe HPC:面向大规模高性能计算
Xe最大的特点就是高度的可扩展性。英特尔GPU业务的负责人Raja Koduri也多次强调,希望使用相同的软件栈、相同的微架构设计,实现多个Xe产品的快速扩展。也就是说,基于相同或者近似的Xe架构,利用统一的软件开发环境进行协同设计,就能快速设计迭代出各种不同的GPU产品。
所以,Xe就是源源不断产生新「鸡蛋」的技术基础。
Arctic Sound-M:何方神圣?
在这次峰会上,英特尔发布了一个代号为Arctic Sound-M (ATS-M)的GPU,它正是基于Xe架构,专门为数据中心应用打造的显卡加速方案。
一个非常有趣的细节是,当主持人在问Raja这个东西到底叫什么名字的时候,Raja说它就叫“英特尔数据中心GPU”。
和普通用户打游戏用的GPU不一样,它叫什么名字并不重要,因为它并不是一块一块卖出去的,而是一批一批用在数据中心里的。
虽然表面看起来是一个产品,但它按功率有150W和75W两种不同的配置,它们的主要区别在于Xe核心数量的不同:150W功率版本包含一个GPU芯片,里面有32个Xe内核;而75W版本包含了两个GPU芯片,每个芯片里集成了8个Xe内核。所以也可以看到,前者更主打高性能,后者主打灵活性和高密度。
除此之外,两种版本都配备了四个Xe媒体引擎,支持GDDR6内存、光线追踪单元和内置XMX AI加速,并在Xe的基础上增加了业界首个AV1硬件编码器和加速器。
这里多说两句,AV1是一种开源、免版权费的视频编码格式。它最大的好处就是能极大压缩视频大小,但不影响视频质量。想都不用想,这对于视频内容的继续爆发有着大大的好处。一方面可以用更快的速度发送和接收视频信息,另一方面也可以让视频平台支持比如8K甚至更高清的视频。
所以这次ATS-M集成了硬件的AV1编解码器,就是在押AV1未来的风口。
性能方面,高性能GPU能做的事情ATS-M都能很好的支持,比如同时进行30路1080p视频、或者8路4K视频的流媒体转码等。同时还能提供150TOPS的AI算力,
如何拥有足够多的篮子:应用与需求
所有的产品都离不开一件事情,那就是需求。或许我们很难分清到底是鸡先生蛋、还是蛋先生鸡,但是对于产品而言,总是先有需求,再有产品。
产品出现的意义,就是为了解决需求的问题。
那么对于Arctic Sound-M来说,它的应用场景非常明确,就是数据中心的加速市场。这个产品之所以非常有趣,是因为它把原本在桌子底下、电脑机箱里的GPU要做的事情,转移到数据中心里了。
如果进一步细分,ATS-M在数据中心里有四个具体的应用场景,分别是云游戏、虚拟桌面、对流媒体的支持、以及基于GPU的AI分析推理。
1. 云游戏
云游戏可能很多人听起来比较懵,但这是一个最近增长非常快的领域。预计到2026年,这个领域的蛋糕会增长到32亿美元。说白了,云游戏就是把所有的游戏计算、画面渲染都放在云端的服务器里运行,玩家只需要有网、能交换数据就可以了,不需要自己有非常高性能的手机、电脑这些硬件设备。
这样的好处显而易见,玩家不需要再花大价钱更新硬件了,因为再强的硬件也肯定比不过数据中心的服务器。另外这种游戏方式也更加灵活,让玩家摆脱了对硬件的依赖,只要网速够快就能玩。
所以云游戏本质上就是把原本在玩家的硬件要求,放在了云端的服务器上。这就需要服务器能更好的支持多个用户的游戏渲染、计算、传输。所以ATS-M就专门针对云游戏这个场景做了优化,单板可以同时支持40+个玩家同时游戏。
2. 虚拟桌面
虚拟桌面和云游戏有点像,只不过是把原来在本地的桌面和计算任务,同样放在了云端的服务器里。不管用户走到哪里,都能随时连上自己的虚拟桌面。但是这同样需要GPU来帮忙进行图像渲染、缩短响应时间、提升帧率等等操作,来改善用户体验。
为了支持这个应用,ATS-M还特别提供了虚拟GPU调度策略,能让管理员单独调控GPU上每个虚拟机运行的指令,这就在很细的粒度完成了资源调度和任务分配。
3. 全堆栈流媒体支持
前面提到了ATS-M集成了业界首个支持AV1的硬件编解码器,也支持所有主流编解码协议,特别适用于视频编解码和处理。比如在一台包含了4张卡的服务器里,就可以实现120路视频流的处理。按这样计算,每个机架可以处理13000路视频流。
4. 对媒体的AI分析和推理
使用GPU做人工智能应用已经成为行业共识。ATS-M能使用oneAPI的深度神经网络库(oneDNN),用来加速各种AI框架的推理。更重要的是,英特尔打通了CPU和GPU的交互,前面说的这些AI应用、媒体软件、堆栈组合等等,都能在至强处理器和ATS-M之间进行无缝切换和运行。
开源软件:构建生态的基石
有了鸡蛋和篮子,接下来的工作就是把鸡蛋放在篮子里了。但如果靠一个人去做这个事情,势必就会很低效。

这个时候,就需要群策群力。而让大家都来参与的方法,就是开源。
开源的本质,就是用大家都能用的工具、用大家都能理解的方法,一起去完成同一个目标。
比如英特尔这几年大力推进的oneAPI,它的目的就是提供一个适用于各类计算架构的统一编程模型和应用程序接口。也就是说,只需要开发一次代码,就可以在跨平台的异构系统上执行,底层的硬件架构可以是CPU、GPU、FPGA、神经网络处理器,或者其他针对不同应用的硬件加速器。
ATS-M除了支持oneAPI开发之外,还支持英特尔的开放视觉云(Open Visual Cloud)。这是一套用于媒体、分析、图形等应用的开源软件堆栈,并且针对云原生部署进行了优化实现。
开源已经成为现在技术发展的大趋势。不仅软件开源,硬件开源也慢慢成为了热点。积极拥抱开源,不仅符合趋势、提升产品的迭代效率,更重要的是能够构建起生态,这才是长期发展和繁荣的正确选择。
小结
「不要把鸡蛋放在一个篮子里」的下一句话,是「也不要放在太多的篮子里」。当资源有限的时候,如何选择和权衡,才是体现能力和智慧的地方。
数据中心是现在和未来的大蓝海,虽然入局者众多,但机会更多。这次发布的Arctic Sound-M数据中心GPU,代表着英特尔的高性能GPU战略已经聚焦到了数据中心领域。这里既有和传统GPU相关的应用,也有AI这样的GPU新兴应用。相信ATS-M的杀入,会给数据中心GPU的竞争格局带来更加有趣的改变。
(注:本文不代表老石任职单位的观点。)
更多芯片技术解读和资料分享,并与老石一对一交流,欢迎加入知识星球:“老石谈芯-进阶版”,一个关乎技术与观点的互动社区。
继续阅读
阅读原文