每次读女性科学家的书时，都感到一种温柔与强大共存。比如发现基因编辑CRISPR的科学家珍妮佛·杜德娜（自传《基因编辑的惊人力量》），和最近读李飞飞的《The world i see》。当时找到这本书也是偶然。那是一个下午，在组会对AI的话题冷漠的结束后。我在想有没有一个人，让我能够放下教科书般、理性的、担心的、辩论式的讨论，放松的谈一谈这个话题，于是我打开了Google输入了“李飞飞”这个关键词。

这本书是去年10月上市，像一本自传。以前只是知道李飞飞是AI领域无法绕开的华裔科学家这个事实，脑海中还停留着她在TED演讲里面展示倒三角猫咪的图片（机器无法识别这样的猫咪，笑）和接受杨澜的一次采访。当这些残留的碎片被她自己的文字和讲述慢慢填充，我也开始感受到她的信念和希望: AI is a love letter to HUman。

李飞飞的研究领域是计算机视觉（computer vision），在AI寒冬的时候，物理系出身的她将研究方向转向了生物（研究认知科学）。确切的说，她在机器学习、计算机视觉、自然语言处理和机器人这几个方向上，选择了机器学习和计算机视觉：机器如何看到真实世界的物体？

书的前面1/4讲述了她的成长经历，和后来跟随家庭移民到美国。之后有三个部分让我印象深刻。

ImageNet

ImageNet 是李飞飞的最重要贡献，它是AI历史上最大的人工标注图片数据集。建立这个数据集是受到wordNet启发，WordNet是一个字典数据库，用一种自然的等级关系捕获整个世界的概念。不可思议的是这是一个人--认知科学和心理学领域的泰斗[[George Armitage Miller]]手工劳动的成果，他出生于 1920 年，是一代心理学家中最有影响力的人之一，当时的心理学家们超越人类行为的表面，试图建立驱动人类行为的心理过程模型。因此，他自然而然地被语言的结构及其在思想中所扮演的角色所吸引。

这个大规模的费时费力的没有确切回报率的东西，需要克服的阻力难以想象。李飞飞在书里面写了一个细节，她在像学术界教父级别的人物Jitendra介绍ImageNet的想法时，被委婉的否定。

“Yeah. And the worst part is, it all comes down to a problem of logistics, not science. I’m as sure as ever that ImageNet is exactly what computer vision needs, if we could just finish the damn thing.” “Well, Fei-Fei…” he began, choosing his words carefully. “Everyone agrees that data has a role to play, of course, but…”

“He paused for a moment, then continued. “Frankly, I think you’ve taken this idea way too far.” I took a shallow breath. “The trick to science is to grow with your field. Not to leap so far ahead of it.”

很多时候，人心里并不完全笃定一件事情值不值得做，或一些想法值不值得想，尤其是一些无法拿出有说服力证据的直觉假设。

如果回过头来看，会发现这些被坚守下来的想法的组合是多么美妙，它们并不是线性的发展、出现、并顺顺当当的组合。ImageNet证明了一个手工数据库的重要，发展了数十年的神经网络提供了算法，GPU成本的降低使得神经网络可以被训练，每一部分看似独立的发展经历着漫长孤独的等待，与其他部分未知的邂逅。

整件事情在现在看来理所当然的非常重要，机器学习、人工智能类教科书可以把这件事情一笔带过。但是在当时，这是一个要被论证的假设和一个赌注：如果识别一切的秘密是一个包含了“一切”的训练（数据）集呢？

反对自动标注的论据不是技术性的，而是哲学性的。我们意识到，即使是一个微小的算法捷径，都会违背ImageNet的使命。我们的目标是在每张图片中嵌入非合金（纯粹）的人类感知，计算机视觉模型可以基于整个充满智能火花的数据集被训练。
ImageNet是一个假设，一个赌注。受到我们自己生物起源的启发，激发真正的机器智能的第一步应该是（使机器）沉浸在完全的视觉世界。这种塑造我们进化的混沌和复杂经历也许对算法来说有相似的作用。

ImageNet 与神经网络的结合

ImageNet是一个数据集，是机器睁开眼睛时看到的混沌世界。就像小婴儿睁开看到这个世界时一样，想象周围乱七八糟的点线面在发出奇奇怪怪的动作和声响。算法（algorithm）就是让这些混沌在机器的视界中逐渐清晰的过程，进而产生理解。如果类比机器学习到生物性，算法就像突触，或者缠绕大脑的线路。毕竟，生物智能并不是像设计算法，它是进化而来的。

当时很流行的算法，比如SVM都没有能让机器识别图像的错误率发生质的飞跃。直到多伦多大学的研究团队 Alex Keizhevsky、Ilya Sutskever（现在的Openai首席科学家）和他们的导师Geoffrey Hinton带着深度学习算法 AlexNet 出现，才改变了一切。这次的姻缘，也使得深度学习迎来了沉寂许久的里程碑。

这里的深度学习算法指的是CNN卷积神经网络，其最重要的概念就是如大脑一般的层 hierarchy。这里不得不提另一个重要的人物Yann LeCun，他的Bell实验室成功的运用CNN识别手写字迹，从像素簇到笔画纹理再到完整的数字。

但是，AlexNet可以处理比输入LeNet大10倍的图像，用网络的焦点卷积核扫描图像内容。AlexNet改进了LeNet5(早些年由Yann LeCun创建)。它最初只有8个层，包含5个卷积层和3个全连接层，并通过修正线性单元来加强速度和dropout。

不要检索，write

看见是什么意思？人和机器“看见”有什么不同？我们看到一个事物的部分和整体，不光是识别，而是理解它的内容，关系，联系到过去和未来。

李飞飞提到对她启发最大的一篇非常短的观点论文--来自Jeremy Wolfe's opinion piece "Visual Memory: What do you know about what your saw?"。他提出了一个问题：当人眼睛一瞥，他们究竟感知到什么？

[322] "His idea was that our first glance at something is all it takes to understand it, at least on some level, right?" "Right. That includes the basic stuff like objects, of course. We are good at scanning "things" very quickly, but we re great at noticing how they are placed and arranged.The relationships between the things"

[328] The gist. We are not merely witness, but story-tellers. It feels like it was time for algorithm to learn how to do the same.

“The gist” 我们不只是看，我们会讲述。

基于这个启发，李飞飞和她的学生Andrej开始设计实验，Andrej 最初采取的解决方案和李飞飞的想法不同, 算法在进行信息检索（information retrieve），最后的结果是一个caption（图片下方的解释）检索系统。与最终目标并不一致，真正的原因是科学性的，模型只是在检索信息，没有在“看”。

他的改进解决办法是：CNN解码视觉图像成字符串，RNN生成语言

[333] "One to encode visual information and pair it with words, and the other to generate language. We will train our model on pairs of images and human writing descriptions>. “Well, there are definitely some unknowns to iron out, but I’m thinking the RNN generates each new word in the description conditionally, based on the words already in the sentence. That way, we’re describing the contents of the image while following whatever grammatical patterns have been inferred from the training data. The result, at least in theory, should be a completely novel description, in more or less natural language.”

最近只读到此，剩下1/4后面再写。

有时候真心觉得作为一个外行人的幸福，可以为这些故事怀有惊奇和感动。我感动于人对技术的不单单克制与好坏争论，而是那种浓烈不加掩饰、片刻不求共识的真情实感，那些自然的说出love的时刻。

科学、科技从不只是编年事件薄中的举重若轻，也不只是新闻中缭乱的重复字句，而是由真正热爱它的人的讲述，关于自己的故事。故事为文字添加了意识，是一种自由，也让读者呼吸。

继续阅读

阅读原文

The world i see

ImageNet

ImageNet 与 神经网络的结合

不要检索，write

ImageNet 与神经网络的结合