点击上方蓝字关注“尹哥聊基因”
最近微信改版,容易找不到尹哥的文章,大家记得把尹哥设为星标⭐️ 哦~
谢谢各位朋友对我最近讲解的Sora的支持,根据大家的留言和问题,我继续讲一下拓展的一些信息。

首先要强调的是,这个视频当然是真人出镜,而不是AI生成的,暂时AI还没有这个能力。当然今天的内容还是比较长,大家可以先点赞收藏,如果一遍没看懂,也请您多看两遍。
接着上期,我先从这个哥们开始讲,理查德·费曼。这是我最喜欢的物理学家之一,他参加过曼哈顿原子弹计划,科研做得好,更重要的是科普做得很出彩。他讲过这样一句极其经典的话,叫“我造不出来的,我就不会真正理解。”
△ “我造不出来的,我就不会真正理解。”——费曼
什么意思?比如说芯片,我们有了EDA(电子设计自动化设计)软件,我们也有了光刻机硬件,那么人类当然就能造出来芯片,同时也能够理解它的底层原理和技术的演进路径,比如说哪一年,能到什么样的制程上。比如(基因)测序领域,我们有了生物信息的分析软件,我们也有了测序仪硬件,就可以知道几乎所有物种或者细胞的基因数据,也能够逐步地去理解这些基因的规则,包括整个测序技术的演进路径。
我讲一个反例。就说这个细胞吧,一个人有37万亿个细胞,但你知道我们造不出来任何一个细胞,至少当下的科技是造不出来的。所以在这一刻我们就不会真正理解细胞,19世纪自然科学有三大发现,能量守恒定律和演化论赫赫有名,大家可能一提起来都知道,但另外一个,您可能离开高中生物就忘了,它的答案是细胞学说
细胞学说的核心有这样一句话,叫“细胞只能来自于细胞”。听起来是不是觉得像废话?但你仔细琢磨,这句话太重要了,也就是说细胞不能无中生有,所以人类只能来自于受精卵,而癌细胞也只能来自于正常细胞的突变,多细胞生物只能来自于单细胞。至于单细胞怎么来的,这个就是生命起源问题了,对目前的科学家也还是一个未解之谜。
在这里我就多说一嘴,为什么我一直说在生命科学领域我一直对中国比较有信心?也是因为这句话,既然当下的人类,中国美国咱们都造不出细胞,大家就还在一条起跑线上。我们都是利用已经存在的细胞来进行调节改造,包括我可以把它所有的染色体都换掉,但是框架还是原来的细胞,这个就是“灰箱可用”,即你知道输入就知道输出,而不是所谓的“白箱无解”。而我们这个领域的光刻机,也就是测序仪你有我也有,华大在测序技术和时空组学技术在很多方面还是领先的,所以我们必须玩命地干,一定要在生命世纪做出更多的生命科学的原创性贡献。
△ 华大智造的超高通量基因测序仪DNBSEQ-T20×2
我铺垫了这么多,跟Sora有什么关系呢?其实本质上,还是我上一个视频讲到的,如果它已经可以通过程序,用真实的物理定律来创造,并不断完善一个全新的数字世界,因为这个世界是我们无中生有、用代码创造出来的,就像《头号玩家》电影里面演的这个样子,所以我们自然就会在相当的程度去理解这个世界。从这个意义上,我们就是虚拟世界的造物主。庄生晓梦迷蝴蝶,庄子和蝴蝶谁又是谁的造物主呢?
有一个著名的科普作品,叫《2001太空漫游》,它的作者叫亚瑟·克拉克爵士,他曾经讲过这样一句话,叫“任何足够先进的技术,都与魔法无异。”而诺奖获得者,也是我们这个领域的大牛遗传学家悉尼·布伦纳,则讲过这样一句名言,“科学的进步是源于新技术、新发现、新想法的推动,按重要性来排序的话,新技术要先于新发现,新发现则要优于新想法。”什么意思?用咱们比较熟悉的话讲就是,“工欲善其事,必先利其器”。
比如说如果没有显微镜,我们就永远不会知道有微生物,更不会定义出微生物学这门学科,1665年英国的罗伯特·胡克用显微镜发现并定义了细胞,而荷兰的工匠列文·虎克在此后数年也用显微镜看到了活着的微生物,但即使在人类已经眼见为实的情况下,我们把显微镜全面应用在医学,比如说细胞病理,已经是将近200年之后的事情。比如说刚才讲到的细胞学说的提出,施莱登和施旺,实际上在1838~1839年才定义出细胞学说,这差不多已经过去180年了。所以在颠覆性技术到来的时候,确实很难让人接受。
接受是一个漫长的过程,但想一想1543年,这是哥白尼的最后一年,他在临终前出版了《天球运行论》,也就是日心说的提出。啊?地球不再是宇宙的中心了?你可以想想彼时的民众,特别是教会该有多害怕。再想一想1859年,达尔文出版了《物种起源》,也就是演化论的提出。啊?物种不是上帝创造出来的?可以想一想彼时的民众,包括科学界该有多么震撼。
同样地,我上期在最后的开放问题,如果我们已经可以模拟真实世界了,又焉知如今的真实世界不是模拟的?那么在留言区,最伤感的问题则莫过于,人类还有自由意识吗?人类还有存在的意义吗?
我先说,我还是坚信,人类是有自由意识的。因为在科学或哲学上,还有一个重要的定义,称为涌现,也就是将一些要素大量重复叠加而成的整体,突然整体出现了一个完全跟个体不同的、脱胎换骨的这样一种性质。比如说生命现象,就是化学现象涌现的结果,而意识则是多细胞生物演化到了高等阶段的一个结果,智能则是高等动物神经系统演化涌现的结果。换言之,即使这个世界是设计的,但依然可以发生造物主也搞不清楚的有些现象。
这也是我在刚才用词,会在相当的程度理解这个世界,而不是完全地理解这个世界的用意。纵使我们人类的肉身是设计的,但是我坚信人性,特别是人性当中的善和美是真实存在的。黑夜给了我们黑色的眼睛,但我们就要用它去寻找光明。所谓技术,过去异想天开,今天勉为其难,未来习以为常,这样的事物我们就称之为技术。
很明显Sora又是这样一波技术浪潮的开始,而后续跟进的大模型,包括中国的一众团队,也都在摩拳擦掌,害怕没有用,只能迎头赶上。我们要给真正有实力的中国团队打call,一起携手去奋起直追。
很多朋友也留言说,Sora真正的技术突破究竟是什么?目前在它的技术论文没有完全公开的情况,我也只能根据各方的资料推测一下。先说这个不一定对,然后我还得用不够严谨但是科普的方式,给大家尝试讲解一下。
比如在ChatGPT的时候,它的原理有一个关键词,叫Transformer。没错,就是大家熟悉的变形金刚,因为这个框架开始,就是用于做语言翻译的,那就是用这个名字。怎么理解?比如说想一想《变形金刚》当中,博派的老大擎天柱,一会儿是汽车人型,一会儿是卡车型,但只要它的核心,或者说它的关键词没变,它就可以进行人车转化,这些核心的组件就叫做Token。可以把Token理解成是一种机器语言,等它从GPT到了Sora,就又多了一个核心的概念,叫做Patch,我们可以把它理解成是一个高维度的关键词,它可以把每一帧的图像分解成带有时间和空间维度,而且还能形成逻辑关联,高维语言这样一种描述的底层,应该还是取自于众多低维度的机器语言Token。
但是这个描述的逻辑,你已经可以输入真实的用数学语言所表示的物理定律了,所以它给我的震撼是什么呢?我们以前比如说讲视频,都只是一系列图片的叠加,这个视频就不能很长,比如说只有几秒,我们好几个软件就是4秒钟的时间,为什么呢?因为图片之间的逻辑关系经常乱,图片内的物品,甚至在图片之间都没有连续,而这次的Sora它一镜可以60秒。这个视频生成要经过两大关卡,首先是归纳,也就是说它对世界的感知和理解,然后才是演绎,对世界的一个模拟。所以我们看到的它的影像,其实只是它模拟显现出来的,可以被你看到的冰山一角,它背后的逻辑已经和我们的真实世界非常接近了。
至于说你再问,这个Patch是如何有序组合并安排这些Token,Patch之间又是怎么配合工作的?这些基于GPT的训练过程可能就是一个涌现出来的黑箱,我们不知道它具体的过程,我们唯一能确定的就是,这套机器训练的语言体系的维度是远高于人类的语言体系。有点像三维的生物可能不会理解四维的生物的一个状况,大抵如此。
当然有一些业内朋友的留言说,看了几篇原理的推测文章,就是这也没什么了不起的。我觉得这个态度其实不可取,看到答案的时候说问题简单,这个叫“事后诸葛亮”。就说一个最简单的,DNA双螺旋结构人人皆知,但在1953年4月25日以前,那就是全世界都没想到。在那以前DNA是什么样子,可是什么模型都提出来过,包括诺奖得主鲍林团队,曾经预测DNA结构是三螺旋。窗户纸捅破了,当然谁就都懂了。但我们要勇当第一个正确捅开窗户纸的人、多做我们科学和技术上的原创贡献,才是我们中国科研团队,应该做的事情。
此外也有很多朋友担心说,以后是不是就没有办法,来分辨视频的真伪了?不得不说担心确实是必要的,这也是为什么现在全球各国都在加强对人工智能的立法,特别有一条要求,如果不管是图片、声音还是视频,你是人工智能生成的,一定要打上标记以说明,以区别于我们真实世界的影像。
但我额外说一句,其实眼见为实从来都不对,人眼只有70微米的分辨率,而且只能看到部分可见光的光谱。所以我一直说,眼见为实未必是真,物理对就是对的,数学对就是对的,只要不违反第一性原理的技术,大家都应该保持高度的敏感
还有一部分朋友留言,说你不能总提出问题也得说解决方案。其实很多的解决方案都已经蕴含在提出的问题当中,只是选择方案还是需要勇气的。还是借用《三体》当中的这句话,“弱小和无知不是生存的障碍,傲慢才是”。
关于大家最关心的教育,因为篇幅问题,我留给下期讲,但是有一点是确定的,我们只有积极拥抱技术的变化,才能真正抢占这一轮科技革命的战略制高点。咱们必须一起加油,共同开始学习生命科学和人工智能。
今天文章的最后,想用这句话跟大家共勉,学习不会让你变得全知全能,但却让你开始不再害怕未知。我们下期见。
— END —
继续阅读
阅读原文