苹果再放 AI 大招！新模型能够「读懂」你的手机屏幕

欢迎收看最新一期的 Hunt Good 周报！

在本期内容你会看到：

7 条新鲜

资讯

4 个有用

工具

1 个有趣

案例

3 个鲜明

观点

Hunt for News｜先进头条

🍎 苹果多模态大模型 Ferret-UI 上新

本周，康奈尔大学发布了一篇名为「Ferret-UI：基于多模态大语言模型的移动 UI 理解」的论文。

Ferret-UI 被描述为一种新的 MLLM，专为理解移动 UI 屏幕而定制，具有「指向、定位和推理功能」。它最大的特点是有一个放大系统，可以将图像放大到「任何分辨率」，使图标和文本更易于阅读。

为了进行处理和训练，Ferret 还将屏幕分成两个较小的部分，将屏幕切成两半。相较于其他大语言模型，传统的更倾向于扫描较低分辨率的全局图像，这降低了充分确定图标外观的能力。

虽然不知道最终是否会被整合到 Siri 中，但 Ferret-UI 提供了对 iPhone 进行高级控制的可能性。通过了解用户界面元素，Siri 可以通过在应用程序中自行选择图形元素，为用户在应用程序中执行操作。

🔗 https://appleinsider.com/articles/24/04/09/apples-new-ai-model-could-help-siri-see-how-ios-apps-work

🏆 福布斯发布 AI 初创企业 50 强

本周，福布斯红杉资本和Meritech Capital 一同遴选出 AI 领域最有前途的五十家 AI 初创公司。

本次新上榜的企业有 Abridge、ElevenLabs、Harvey、Mistral AI、Pika、Tome 等企业，涵盖 AI 视频生成、AI 配音、临床医药等各个领域。

其中对 Pika 的描述如下：

只需点击几下鼠标，任何人都可以利用Pika的生成式人工智能软件制作出潜水员探索水下海洋生物，又或是老虎在郁郁葱葱的印度森林中徘徊的视频。

Pika 由两名斯坦福大学的博士生于 2023 年 4 月创立，目前已制作了 3500 万部视频，并获得了前 GitHub 首席执行官 Nat Friedman 和 Quora 联合创始人兼首席执行官 Adam D'Angelo 等著名天使投资人的 5500 万美元投资。

这家新兴创业公司拥有一支 13 人的团队，大部分成员为女性，目前估值为 2.5 亿美元。

🔗 https://www.forbes.com/lists/ai50/?sh=3defb07c290f

🥊 Adobe 使用 Midjourney 数据，训练文生图模型

本周，据彭博社报道，Adobe 正在使用 Midjourney 的图片，训练其文生图模型 Firefly。

消息人士透露，关于使用 Midjourney 的 AI 生成图片来训练 Firefly 模型在 Adobe 内部一直存在非常大的分歧。

即使在 Firefly 开发的早期阶段，一些员工也不同意 Adobe 将 AI 生成的图像纳入到Firefly 训练数据中。

据彭博社报道，在用于训练 Firefly 的 Adobe Stock 数据库中，有 5700 万条数据被标记为 AI 生成的，这约占数据库中图像总数的 14%。

而此前 Adobe 发言人指出，用于训练 Firefly 的图像中只有 5% 来自其他平台创建的 AI 图像。

提交至 Adobe Stock 的每张图像，包括其中极少数由 AI 生成的图像，都需经过严苛的审核流程。这一流程旨在确保图像中不含有任何知识产权、商标、可辨认的角色或标志，以及不涉及艺术家姓名的提及。

🔗 https://www.bloomberg.com/news/articles/2024-04-12/adobe-s-ai-firefly-used-ai-generated-images-from-rivals-for-training?srnd=technology-vp

👏 图灵奖揭晓！史上首位数学和计算机最高奖「双料王」诞生

本周，计算机协会 ACM 宣布，将「计算机界最高荣誉」图灵奖授予复杂性理论先驱、普林斯顿高等研究院教授艾维·维格森。

美国计算机协会（ACM）强调了艾维·维格森对计算理论的基础性贡献，包括重塑人类对计算中随机性作用的理解，以及数十年来在理论计算机科学领域的领导地位。

值得关注的是，维格森教授在 2021 年也曾获得被誉为数学界的诺贝尔奖——阿贝尔奖。此外，他还是 2017 年阿里达摩院刚成立时首批「十大祖师」之一。

🔗 https://www.quantamagazine.org/avi-wigderson-complexity-theory-pioneer-wins-turing-award-20240410/

🐔 老乡鸡「开源」了，20 万字溯源报告公开

国产开源平台 Gitee 近日迎来了一位意料之外的贡献者——老乡鸡。

近日，老乡鸡宣布将其最核心的内容对消费者、监管部门以及同行全面公开，包括菜品配料、食材供应商明细、操作工艺等菜品制作涉及到的所有环节。

677 页共 20 万字，包含 202 个供应商明细，484 个三卡追溯档案（餐厅菜品追溯卡 188 个，央厨食材追溯卡 136 个，外采原料追溯卡 160 个）的《老乡鸡菜品溯源报告》向社会全面原文公开。

老乡鸡称顾客可以对照报告在家做出老乡鸡同样的菜，而共享给同行的 202 家食材供应商信息可以解决所有食材来源问题。

老乡鸡菜品溯源报告完整版下载：https://lxjchina.com.cn/upload/file/20240407/20240407210058895889.pdf

🔗 https://gitee.com/lxjchina/traceability-report-of-dishes/blob/master/README.md?continueFlag=8fdef69ab12f71238ed45d0f4710be95

📱 爆火 AI 硬件遭差评，「AI iPhone」上市即翻车

最近，Ai Pin 的第一批用户拿到了他们的新玩具。

自从在 MWC 2024（世界移动通信大会）亮相后，标榜要做「AI 时代的 iPhone」的 Ai Pin 终于发货，第一时间上手的外媒也抱着极大的热情和好奇，全方位体验了这款「奇葩」产品。

大家都对 Ai Pin 有着高度一致的评价：

设备做工精良，不愧是苹果前工程师的作品；

看上去比图片里的要小，佩戴很方便，有多个模块可选；

拍照质量不错；

实时翻译很好用，译文挺准确。

但如果你想知道 Ai Pin 是否值得购买，所有人也都会异口同声地叫醒你：NO

过于简陋，没多大用处。——WIRED

我真正可以依靠 Ai Pin 做的唯一一件事就是告诉我时间。——The Verge

详细信息建议回看 APPSO 以前的文章：

这个爆火的 AI 硬件遭首批用户大量差评， Ai Pin 把亮点做成了最大的槽点

💥 Meta 确认开源大模型 LLaMA 3 下月登场

周二在伦敦举行的一次活动中，Meta 证实，它计划在下个月发布 Llama 3 的初始版本——这是其用于为生成式 AI 助手提供动力的下一代大型语言模型。

Meta 全球事务总裁尼克·克莱格（Nick Clegg）表示：「我们希望在接下来的一个月内，甚至更短的时间内，很快就会开始推出我们的新一代基础模型系列——Llama 3。」

他还描述了一系列不同能力和适应性的产品版本即将发布。「今年，我们将陆续推出多个具有不同功能和多样性的模型，启动时间非常临近。」

该公司没有透露 Llama 3 中使用的参数大小，但预计它将拥有约 1400 亿个参数，并与 OpenAI 的 GPT-4 相媲美。

Meta 此前发布了三种尺寸的 Llama 2，最大的参数为 70B。值得一提的是，Meta 在过去一年中囤积了 35 个 H100 GPU，以加强 AI 基础设施。

🔗 https://techcrunch.com/2024/04/09/meta-confirms-that-its-llama-3-open-source-llm-is-coming-in-the-next-month/?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=meta-s-gpt-4-competitor-is-coming

Hunt for Tools｜先进工具

🕶 马斯克宣布推出多模态模型 Grok 1.5 Vision

继上个月推出 Grok-1.5 大模型之后，马斯克近日再次推出首个多模态模型 Grok-1.5 Vision。

据 xAI 透露，他们计划很快邀请参与早期测试的用户以及现有的Grok-1.5的使用者体验 Grok-1.5 Vision。

Grok-1.5 Vision 不仅能够理解文本信息，还能够高效处理各类文档、图表、截图以及照片中的信息。

xAI 在官方博客中演示了 7 个 Grok-1.5V 案例，包括将白板上的流程图草图转化为 Python 代码、根据孩子的绘画生成睡前故事、解释流行语、将表格转化为 CSV 文件格式等等。

此外，Grok-1.5V 在 RealWorldQA 基准测试中，优于 GPT-4V、Cllaude 3 Opus 等一众主流竞争对手。

附上具体介绍的博客地址：https://x.ai/blog/grok-1.5v

🔗 https://twitter.com/xai/status/1778963570098855947

💥 音乐界 Sora 上线——Udio。

近日，Suno 爆火之后，又一个音乐界 Sora 来了：Udio。

它由前 Google DeepMind 工程师开发，被硅谷知名风投 a16z、Instagram 创始人看好。

按照 Udio 的规定，它和 Suno 一样，不支持用某个艺术家的声音生成歌曲。不过，Udio 可以用艺术家的风格作为提示词，比如「贝多芬」。

让 Udio 唱中文歌，有种霸王硬上弓的感觉，咬字不清晰又错误频出，发音有点像塑料粤语，不知道是不是拿港台歌训练的 AI，且素材不是很够。

Udio 目前发布的是免费测试版，注册账号之后，每个人每月最多可以生成 1200 首歌曲，按照理想情况，40 秒内就能生成一首。

和 Suno 类似，Udio 的创作界面非常直观，输入提示词，点击生成，等待 AI 创作完毕。也与 Suno 一样，Udio 通过 API 调用 ChatGPT 编写歌词。

除了让 AI 自由发挥，Udio 也可以更加定制化，让你输入自己的歌词，添加具体的流派标签，选择生成纯音乐，或者包含歌词和人声的歌曲。

附上体验地址：https://www.udio.com/

🔗 https://twitter.com/udiomusic/status/1778045322654003448

🤖 Google 推出 Gemini 1.5 Pro 公共预览版，能处理音频

在 Google Cloud Next 活动期间，Google 宣布将通过其 AI 应用平台 Vertex AI 向公众提供 Gemini 1.5 Pro，并且还赋予其「听力」，帮助用户处理音频内容。

用户可以上传会议录音、电视节目等音频内容，无需书面记录就可让其解读和总结。Gemini 1.5 Pro 于 2 月份发布，当时面向开发者和企业用户开放。

据悉，这个在 Gemini 系列中定位中量级的模型，在性能上已经超越了体型和性能最强的模型 Gemini Ultra。

此外，Google 还发布了首款 Arm AI 处理器 Axion，Google 表示，Axion 处理器比同类基于 X86 的产品高出 50% 的性能和 60% 的能效，比 AWS 和微软等竞争对手基于 Arm 的产品性能高出 30% 。

Google 还推出了一个新的视频生产力工具「Vids」。据 Google 介绍，用户只要会制作 PPT，就可以在 Vids 中制作视频。

🔗 https://www.youtube.com/watch?v=V6DJYGn2SFk

🚄 面壁智能发布性能小钢炮 MiniCPM 第二弹

在本周，端侧大模型面壁 MiniCPM 小钢炮乘胜追击，迎来了第二弹的四连发，主打的就是「小而强，小而全」。

其中，MiniCPM-V2.0 多模态模型显著增强了 OCR 能力，刷新开源模型最佳 OCR 表现，通用场景文字比肩 Gemini-Pro、超越全系 13B 量级模型。

最小的 128K 长文本、MiniCPM-2B-128K 长文本模型，将原有的 4K 上下文窗口扩展到了 128K，在 InfiniteBench 榜单超越 Yarn-Mistral-7B-128K 等一众 7B 量级模型。

通过引入 MoE 架构，新发布的 MiniCPM-MoE-8x2B MoE 性能平均提⾼4.5%，超越了全系 7B 量级模型，及 LlaMA234B 等更大模型，而推理成本仅为 Gemma-7B 的 69.7%。

虽然直接参数减少一半，但 MiniCPM-1.2B 仍保持上一代 2.4B 模型 87% 的综合性能，在多个公开权威测试榜单上，1.2B 模型非常能打，取得了综合性能超过 Qwen 1.8B、Llama 2-7B 甚至 Llama 2-13B 的优异成绩。

🔗 https://mp.weixin.qq.com/s/OeKwsI-elzi4sxvIK7kk5g

Hunt for Fun｜先行

🚨 手搓 3D 机甲模型，你也可以

此前，我们曾经介绍过 Magnific AI 出色的图片风格迁移能力，即将任意一张图像转化为其他风格，并尽可能保留原图像的内容。

现在，网友 @lyson_ober 通过使用「Magnific + Tripo + Midjourney」等工具，制作出许多不同样式的 3D 机甲模型。

整体思路比较简单，教程如下：

🔗 https://twitter.com/i/status/1779272389332787662

Hunt for insights｜先知

👀 李彦宏内部讲话曝光：首谈文心大模型为什么不开源

本周，据澎湃新闻报道，百度创始人、董事长兼 CEO 李彦宏近期在内部讲话中，就 AI 业界中的焦点话题发表看法。

谈及文心大模型为何不开源时，李彦宏表示：

一年前文心刚刚发布的时候，我们内部是有过非常激烈的讨论的，最后当然大家也知道这个结果，我们的决定是不开源。为什么不开源？

当时的判断是，市场上一定会有开源的模型，而且是不止一家会开源。在这种情况下，多百度一家开源不多，少百度一家开源也不少。

在李彦宏看来，虽然 Llama 也鼓励开发者们去贡献各种各样的数据、代码，但是实际上最主要的贡献还是 Meta 内部的开发者，因此， Llama 并不是一个真正由大家一起来协同开发的产品。

李彦宏还认为，相较于开源，闭源才具有真正的商业模式，只有赚到钱才能聚集算力、聚集人才。

大家比较一下，比如硅谷有一个优秀的人才，他有 OpenAI 的 offer，有 Meta 的 offer，有 Llama 的 offer，他会去哪儿？这是非常显而易见的选择。

🔗 https://www.thepaper.cn/newsDetail\_forward\_26996280

🚀 Anthropic 首席执行官：AI 正处于「指数曲线」上

本周，Anthropic 首席执行官 Dario Amodei 在接受《纽约时报》的采访表示， AI 正处于「指数曲线」上，并以个人曾在 OpenAI 五年的工作经历为例做进一步解释。

2018 年，OpenAI 开发了一个名为 GPT-1 的模型，其所需的计算能力仅为现在模型的 1/100000。

作为最早「缩放定律」的一批人，Amodei 曾预测如果对这些模型的投资从当时 10000 美元增加到 1亿、10 亿甚至 100 亿美元，那么将会有许多惊人的成果出现。

此外，「当 ChatGPT 发布时，就像过去三年中我们预期会出现的所有增长和兴奋，突然之间爆发出来，迅速占据了公众的视野。」

Dario Amodei 还认为，让模型拥有个性的同时保持客观性和实用性，避免陷入各种伦理困境，这将大大促进其被广泛采用。

🔗 https://www.nytimes.com/2024/04/12/podcasts/transcript-ezra-klein-interviews-dario-amodei.html

👏 图灵奖得主：大模型永远也无法达到人类智能

上个月，埃隆·马斯克预测，AGI 将会在 2025 年底到来，但并不是每个人都这么乐观。

近日，Meta 首席科学家、图灵奖得主 Yann LeCun 在伦敦举行的一次活动中，表示 LLMs 永远无法达到人类水平的智能。

他指出了四重认知挑战：推理、计划、持久记忆和对物理世界的理解。

这是人类智能的四个基本特征，就此而言，还有动物智能，目前的人工智能系统都无法做到

Yann LeCun 认为，对话流利的 LLMs 看似很聪明，但实际上，它们对现实的理解非常粗浅。同时在他看来，一个四岁孩子在与世界的互动中看到的数据信息是世界上最大的 LLMs 的 50 倍。

大部分人类知识并非以语言形式存在，因此除非对系统架构进行改变，否则这些系统无法实现与人类相当水平的智能。

🔗 https://thenextweb.com/news/meta-yann-lecun-ai-behind-human-intelligence

彩蛋时间

《去有光的地方》

作者：@nptacek

链接：https://twitter.com/SmokeAwayyy/status/1778694549935689915

继续阅读

阅读原文

苹果再放 AI 大招！新模型能够「读懂」你的手机屏幕 | Hunt Good 周报