英伟达放话特斯拉：我们才是标准的|技术前沿洞察

硅谷Live / 实地探访/ 热点探秘 / 深度探讨

一周又过去啦! 本周美国高校的各类研发成果非常多, 无论是移动驾驶Lidar的进展，还是老年心脏病患者再入院率的检测。又或者是硅谷大公司的一些研究成果，比如英伟达就跳出来回应特斯拉的自动驾驶芯片了，谷歌发布全新语音识别数据增强方法。

硅谷洞察带你赶紧来看!

美国高校

康奈尔大学: 立体摄像系统可能取代LiDAR

目前用于检测自动驾驶汽车路径中的3D物体的激光传感器LiDAR，尽管精确度高，但体积大、价格昂贵且能源效率低。众所周知，马斯克就不是LiDAR的粉丝，而Waymo等自动驾驶汽车市场领导者却将LiDAR看成关键技术。但是康奈尔大学的科学家们最近一项研究表明，马斯克可能是对的。

（光探测和测距传感器LiDAR）

康奈尔大学的研究人员发现，在挡风玻璃两侧使用两个的摄像头就可捕获近乎LiDAR精度的3D数据立体图像，而且这种做法比LiDAR使用的激光雷达成本低得多。

“自动驾驶汽车行业一直不愿意放弃LiDAR，因为它具有出色的续航精度，即使成本很高。”该论文的第一作者Kilian Weinberger说道，“但随着立体摄像机监测范围和准确性的显着提高，有可能彻底改变这个行业。立体摄像机目前可在低成本汽车中作为识别物体的主要方式，或者作为配备LiDAR的高端汽车的备用方法。”

感兴趣的可以点击原文查看:

https://news.cornell.edu/stories/2019/04/new-way-see-objects-accelerates-future-self-driving-cars

马斯克如何怼LiDAR的，可以看最近一期特斯拉发布会：

马斯克：我们造出了世界上最好的自动驾驶芯片！

大家又怎么看的？觉得可以取代吗？

耶鲁大学：低移动性可预测老年心脏病患者的再入院率

在心脏病发作的老年人中, 有接近20％的将在30天内重新入院。因此, 近期耶鲁大学医学院首席研究员兼副教授Sarwat Chaudhry领导的一项研究报告称，简单的移动性测试表现是预测老年心脏病患者是否会再入院的最佳预测因素。

该研究描述了专门为老年心脏病患者开发的第一个再入院风险模型。研究人员表示，再入院费用昂贵且对患者健康不利，因此适用的风险模型意义重大。

研究使用Timed Up and Go（TUG）测试评估移动性，涉及对患者从坐姿站起来然后步行10英尺的时间进行计时。测试结合了几种基本的移动技能，并可在设备有限的狭小空间内进行。研究发现，在测试中用超过25秒的患者在心脏病发作后再次接受治疗的可能性几乎是在不到15秒内完成的患者的两倍。

这个模型的免费版本现已在线提供，基于应用程序的版本即将推出。

感兴趣的可以点击原文查看:

https://news.yale.edu/2019/04/23/low-mobility-predicts-hospital-readmission-older-heart-attack-patients

UCSF : 神经科学家们用 AI 把脑电波转译成完整句子

为帮患有某些疾病（如已故著名物理学家霍金）而无法讲话的人更好与人交流，加州大学旧金山分校（UCSF）的神经科学家们设计了一种可以将大脑信号转换为整句话的设备。这意味着，此项技术有朝一日有望帮那些原本无法交谈的人像正常人一样交流，不再一个一个字往外蹦，其研究成果发表在了近期《Nature》杂志上。

（一名需要靠机器帮助讲话的患者。图自 BJ Warnick/Alamy，版权属于原作者）

项目带头人 Chang 说，目前使用现有 “大脑信号转化为语音” 设备的人必须逐字输出单词，这些设备可能非常慢，每分钟最多能 “翻译” 10个单词，但普通人平均每分钟说 150 个单词左右，所以 Chang 和他的团队决定在构建解码器时对声音系统进行建模。

研究人员找来五位志愿者，这些人大脑表面植入电极，作为癫痫治疗的一部分。首先，团队让这五个人大声朗读数百个句子，并记录他们的大脑活动。然后，Chang 和他的同事将这些记录与之前实验的数据相结合，以确定舌头、嘴唇、下颌和喉部的运动是如何产生声音的；之后，团队训练了这些数据的深度学习算法，然后将该程序合并到他们的解码器中，该装置再将大脑信号转换为合成语音。

目前，这项技术的准确性还不足以使它用在实验室之外，不过它已经可以把大脑信号 “翻译” 成一整句、一整句的完整句子了，而且其中大部分的句子都可以理解、文从字顺。Chang 说，听了101个合成句子的人平均可以理解其中 70％的句子。

感兴趣的可以点击原文查看:

https://www.nature.com/articles/d41586-019-01328-x#ref-CR1

斯坦福大学研发出更快速，高效，耐用的人工突触

人脑可以在能耗很低的条件下具备同时学习和记忆大量信息的能力，而目前传统的计算机系统只能先处理数据，再移动到存储中。

最近，斯坦福大学和桑迪亚国家实验室的研究人员研发出了类脑计算机的原型机，它类似一种人造突触，可以模仿神经元在大脑中的通信方式。对于特定的任务，人工突触系统处理和记忆动作所需的能量，仅相当于最先进的计算系统的十分之一。

该研究与2017年开始进行，目前关于该原型机的研发成果以在线论文形式发表在 Science 上。研究人员称，这些装置中的 9 个（3x3）原型阵列在处理速度、能效、可再现性和耐久性方面表现优于预期。

(图片来源：Armantas Melianas和Scott Keene)

感兴趣的可以点击原文查看:

https://news.stanford.edu/2019/04/25/fast-efficient-artificial-synapse-developed/

南加大: 用自然语言处理寻找创新的秘密

南加州大学计算机系的助理教授Xiang Ren，正与斯坦福大学的社会科学家合作开展一个新项目，该项目旨在探索成功的创新都有什么共同点，为什么有些概念被采用而其他概念逐渐消失。

(XIANG REN教授，图片版权：HAOTIAN MAI）

作为自然语言处理方面的专家，Ren正在使用知识提取技术来识别自1920年以来收集的大量文本数据中的科学概念，包括研究论文，书籍，专利，维基百科和科普出版物。另外，该算法不是使用人们的批注作为训练材料，而是通过引用现成的人为策划的知识库（如维基百科）自动生成训练样例。

这项为期两年的项目由美国国家科学基金会资助，涉及处理数百万个跨越100多个学科的文件。Ren表示：“我希望这个方法甚至可以自动化一些科学发现的过程 —— 阅读数百万篇论文并提取科学家分析的重要信息，自动化此过程可以节省资金，还可以让我们以更大的规模分析文本数据，从而使我们的决策更加明智。”

感兴趣的可以点击原文进行阅读:

https://viterbischool.usc.edu/news/2019/04/want-to-know-the-secret-of-a-good-idea-it-could-be-hidden-in-language/

海外高校

多伦多大学：毫米级柔性机器人将具有可编程的三维磁化及运动能力

自从微型机器人面世以来，其小巧的体积给医疗领域带来了巨大的改变，这些微型机器人进入人类的身体里，解决了药物输送、物体操纵，而且还能把对身体的损害降到最低。然而，有些微机器人的设计受到了现有的、用于在柔性材料中模式化磁性颗粒的方法的限制。加拿大多伦多大学最近的一项实验，则大大增强了毫米级柔性机器人的功能。

多伦多大学的实验使用了一种在弹性体基质中图案化硬磁微粒的方法。这种方法基于紫外（UV）光刻，使用磁性粒子的受控重新定向和选择性地暴露于UV光，以在具有任意 3D 取向的平面材料中编码磁性粒子，精确度能小至 100 微米。

这种方法可制造出具有各种尺寸、不同几何形状和任意磁化分布的多个平面微型机器人。此外，3D 磁化曲线允许在一片聚合物中进行高阶和多轴弯曲，大角度弯曲以及组合弯曲和扭转，从而制造出之前不可能实现的形状变化和微机械运动机制，例如多臂动力抓取、或多重桨式爬行。

感兴趣的小伙伴可以点击原文：

https://robotics.sciencemag.org/content/4/29/eaav4494

国家实验室

科学家们创造了第一个十亿原子生物分子级别模拟

美国洛斯阿拉莫斯国家实验室的研究人员创造了迄今为止最大的一整个DNA基因模拟，这一壮举需要10亿个原子进行建模，并将帮助研究人员更好地理解和开发癌症等疾病的治疗方法。

结构生物学家Karissa Sanbonmatsu和她的团队在Los Alamos的Trinity超级计算机上进行了突破性模拟，这是世界上第六快的计算机。

Sanbonmatsu说：“在这个细节水平上理解DNA非常重要，因为我们想要准确理解基因是如何打开和关闭的。知道它如何发生可以揭开产生多少疾病的秘密。”

在原子水平上建模基因是创建DNA扩展和收缩如何控制遗传开/关切换的完整解释的第一步。

感兴趣的可以点击原文进行阅读:

https://www.lanl.gov/discover/news-release-archive/2019/April/0422-atom-biomolecular-simulation.php

大公司

英伟达：特斯拉是特殊的，英伟达才是标准的

在特斯拉发布自动驾驶订制芯片之后，英伟达终于跳出来发话了。

在英伟达最新官方博客文章当中，英伟达直接表示：英伟达是标准的，我们可以说是唯一一个以每秒数万亿次操作（TOPS）来解决这个问题的公司。这里指的解决问题是指英伟达推出的——NVIDIA Xavier，全球首款自动驾驶处理器。

（截图自英伟达官网）

文章还表示，特斯拉将其双芯片全自动驾驶计算机与NVIDIA的单芯片驾驶员辅助系统的性能进行比较是没有用的。此外，特斯拉还错误的运用了关于英伟达的数据，因为Xavier提供30 TOPS的处理，但特斯拉却错误地表示它只有 21 TOPS。

英伟达在文章中还透露，下一代更强大的处理器Orin即将推出。

文章最后写到：自动驾驶领域，有两个地方你可以获得AI计算能力：英伟达和特斯拉。其中，只有一个是开放平台可供业界发展。

虽然没直说是谁，但结果不言而喻了吧？大家说，你更看好老黄还是老马？

感兴趣的小伙伴可以点击原文：

https://blogs.nvidia.com/blog/2019/04/25/india-grants-health-education/

谷歌推出全新语音识别数据增强方法SpecAugment

在图像分类领域，缺乏足够数量的训练数据时，可以通过数据增强来增加数据的有效数量，能够显著提高深度神经网络的性能。在语音识别中，数据增强方法通常指以某种方式对训练的音频波形进行变形（例如加速或减速），或添加背景噪声。然而，现有的传统方法在增强音频数据的同时也带来了额外的计算成本，有时甚至还需要额外的数据。

在 Google Brain 团队最新的论文《SpecAugment：一种简单的语音自动识别数据增强方法》中，作者采用一种新的方法来增强音频数据，即将其视为视觉问题而不是音频问题。

SpecAugment 直接将增强策略应用于音频频谱图（即波形的图像表示）。该方法简单、计算量小，且不需要额外的数据。并且该方法在 ASR 任务LibriSpeech 960h和Switchboard 300h数据集上达到了目前最先进的表现性能。

感兴趣的可以阅读原文查看:

https://ai.googleblog.com/

Facebook AI通过“学习”视频，自动生成游戏角色

近日，Facebook AI 研究团队描述了一个能够从现实世界视频中提取可控角色的系统。这个系统可以对原始视频中的动态的角色进行定位和提取，提取后的角色可被开发者控制，并且添加上任意背景即可生成新视频。

这个团队的方法依赖于两个神经网络，Pose2Pose和Pose2Frame。将当前姿态和单一实例控制信号映射到下一个姿态的框架，后者将当前姿态和新姿态（以及给定的背景）一起放在输出帧上。研究人员表示，该系统足够强大，可以在动态背景中定位提取图像，并将现有背景进行任意的更换，融合成新的图像后生成视频输出。

该技术投入使用后，人们将有机会成为游戏中人物的化身，自定义游戏角色，并赋予角色独有的动作形态。这项基于 AI 技术的角色生成系统可能会催生更多不同类型的游戏，逼真且个性化可能是未来游戏行业发展的一个方向。

感兴趣的可以点击原文查看:

http://www.mittrchina.com/news/3840

你觉得哪项研究最有意思？欢迎留言讨论！前期的技术前沿洞察，欢迎点击查看：

心脏能被打印出来、身体里的DNA能被当做 “移动硬盘” 用？ | 技术前沿洞察

AI 都能替我们写书了，我们却还不能在太空里愉快地生活 | 技术前沿洞察

英伟达放话特斯拉：我们才是标准的|技术前沿洞察

谷歌推出全新语音识别数据增强方法SpecAugment