欢迎收看最新一期的 Hunt Good 周报!
在本期内容你会看到:
7 条新鲜
资讯
4 个有用
工具
1 个有趣
案例
3 个鲜明
观点
Hunt for News|先进头条
🍎 苹果多模态大模型 Ferret-UI 上新
本周,康奈尔大学发布了一篇名为「Ferret-UI:基于多模态大语言模型的移动 UI 理解」的论文。
Ferret-UI 被描述为一种新的 MLLM,专为理解移动 UI 屏幕而定制,具有「指向、定位和推理功能」。它最大的特点是有一个放大系统,可以将图像放大到「任何分辨率」,使图标和文本更易于阅读。
为了进行处理和训练,Ferret 还将屏幕分成两个较小的部分,将屏幕切成两半。相较于其他大语言模型,传统的更倾向于扫描较低分辨率的全局图像,这降低了充分确定图标外观的能力。
虽然不知道最终是否会被整合到 Siri 中,但 Ferret-UI 提供了对 iPhone 进行高级控制的可能性。通过了解用户界面元素,Siri 可以通过在应用程序中自行选择图形元素,为用户在应用程序中执行操作。
🔗 https://appleinsider.com/articles/24/04/09/apples-new-ai-model-could-help-siri-see-how-ios-apps-work
🏆 福布斯发布 AI 初创企业 50 强
本周,福布斯红杉资本和Meritech Capital 一同遴选出 AI 领域最有前途的五十家 AI 初创公司。
本次新上榜的企业有 Abridge、ElevenLabs、Harvey、Mistral AI、Pika、Tome 等企业,涵盖 AI 视频生成、AI 配音、临床医药等各个领域。
其中对 Pika 的描述如下:
只需点击几下鼠标,任何人都可以利用Pika的生成式人工智能软件制作出潜水员探索水下海洋生物,又或是老虎在郁郁葱葱的印度森林中徘徊的视频。
Pika 由两名斯坦福大学的博士生于 2023 年 4 月创立,目前已制作了 3500 万部视频,并获得了前 GitHub 首席执行官 Nat Friedman 和 Quora 联合创始人兼首席执行官 Adam D'Angelo 等著名天使投资人的 5500 万美元投资。
这家新兴创业公司拥有一支 13 人的团队,大部分成员为女性,目前估值为 2.5 亿美元。
🔗 https://www.forbes.com/lists/ai50/?sh=3defb07c290f
🥊 Adobe 使用 Midjourney 数据,训练文生图模型
本周,据彭博社报道,Adobe 正在使用 Midjourney 的图片,训练其文生图模型 Firefly。
消息人士透露,关于使用 Midjourney 的 AI 生成图片来训练 Firefly 模型在 Adobe 内部一直存在非常大的分歧。
即使在 Firefly 开发的早期阶段,一些员工也不同意 Adobe 将 AI 生成的图像纳入到Firefly 训练数据中。
据彭博社报道,在用于训练 Firefly 的 Adobe Stock 数据库中,有 5700 万条数据被标记为 AI 生成的,这约占数据库中图像总数的 14%。
而此前 Adobe 发言人指出,用于训练 Firefly 的图像中只有 5% 来自其他平台创建的 AI 图像。
提交至 Adobe Stock 的每张图像,包括其中极少数由 AI 生成的图像,都需经过严苛的审核流程。这一流程旨在确保图像中不含有任何知识产权、商标、可辨认的角色或标志,以及不涉及艺术家姓名的提及。
🔗 https://www.bloomberg.com/news/articles/2024-04-12/adobe-s-ai-firefly-used-ai-generated-images-from-rivals-for-training?srnd=technology-vp
👏 图灵奖揭晓!史上首位数学和计算机最高奖「双料王」诞生
本周,计算机协会 ACM 宣布,将「计算机界最高荣誉」图灵奖授予复杂性理论先驱、普林斯顿高等研究院教授艾维·维格森。
美国计算机协会(ACM)强调了艾维·维格森对计算理论的基础性贡献,包括重塑人类对计算中随机性作用的理解,以及数十年来在理论计算机科学领域的领导地位。
值得关注的是,维格森教授在 2021 年也曾获得被誉为数学界的诺贝尔奖——阿贝尔奖。此外,他还是 2017 年阿里达摩院刚成立时首批「十大祖师」之一。
🔗 https://www.quantamagazine.org/avi-wigderson-complexity-theory-pioneer-wins-turing-award-20240410/
🐔 老乡鸡「开源」了,20 万字溯源报告公开
国产开源平台 Gitee 近日迎来了一位意料之外的贡献者——老乡鸡。
近日,老乡鸡宣布将其最核心的内容对消费者、监管部门以及同行全面公开,包括菜品配料、食材供应商明细、操作工艺等菜品制作涉及到的所有环节。
677 页共 20 万字,包含 202 个供应商明细,484 个三卡追溯档案(餐厅菜品追溯卡 188 个,央厨食材追溯卡 136 个,外采原料追溯卡 160 个)的《老乡鸡菜品溯源报告》向社会全面原文公开。
老乡鸡称顾客可以对照报告在家做出老乡鸡同样的菜,而共享给同行的 202 家食材供应商信息可以解决所有食材来源问题。
老乡鸡菜品溯源报告完整版下载:https://lxjchina.com.cn/upload/file/20240407/20240407210058895889.pdf
🔗 https://gitee.com/lxjchina/traceability-report-of-dishes/blob/master/README.md?continueFlag=8fdef69ab12f71238ed45d0f4710be95
📱 爆火 AI 硬件遭差评,「AI iPhone」上市即翻车
最近,Ai Pin 的第一批用户拿到了他们的新玩具。
自从在 MWC 2024(世界移动通信大会)亮相后,标榜要做「AI 时代的 iPhone」的 Ai Pin 终于发货,第一时间上手的外媒也抱着极大的热情和好奇,全方位体验了这款「奇葩」产品。
大家都对 Ai Pin 有着高度一致的评价:
设备做工精良,不愧是苹果前工程师的作品;
看上去比图片里的要小,佩戴很方便,有多个模块可选;
拍照质量不错;
实时翻译很好用,译文挺准确。
但如果你想知道 Ai Pin 是否值得购买,所有人也都会异口同声地叫醒你:NO
过于简陋,没多大用处。——WIRED
我真正可以依靠 Ai Pin 做的唯一一件事就是告诉我时间。——The Verge
详细信息建议回看 APPSO 以前的文章:
这个爆火的 AI 硬件遭首批用户大量差评, Ai Pin 把亮点做成了最大的槽点
💥 Meta 确认开源大模型 LLaMA 3 下月登场
周二在伦敦举行的一次活动中,Meta 证实,它计划在下个月发布 Llama 3 的初始版本——这是其用于为生成式 AI 助手提供动力的下一代大型语言模型。
Meta 全球事务总裁尼克·克莱格(Nick Clegg)表示:「我们希望在接下来的一个月内,甚至更短的时间内,很快就会开始推出我们的新一代基础模型系列——Llama 3。」
他还描述了一系列不同能力和适应性的产品版本即将发布。「今年,我们将陆续推出多个具有不同功能和多样性的模型,启动时间非常临近。」
该公司没有透露 Llama 3 中使用的参数大小,但预计它将拥有约 1400 亿个参数,并与 OpenAI 的 GPT-4 相媲美。
Meta 此前发布了三种尺寸的 Llama 2,最大的参数为 70B。值得一提的是,Meta 在过去一年中囤积了 35 个 H100 GPU,以加强 AI 基础设施。
🔗 https://techcrunch.com/2024/04/09/meta-confirms-that-its-llama-3-open-source-llm-is-coming-in-the-next-month/?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=meta-s-gpt-4-competitor-is-coming
Hunt for Tools|先进工具
🕶 马斯克宣布推出多模态模型 Grok 1.5 Vision
继上个月推出 Grok-1.5 大模型之后,马斯克近日再次推出首个多模态模型 Grok-1.5 Vision。
据 xAI 透露,他们计划很快邀请参与早期测试的用户以及现有的Grok-1.5的使用者体验 Grok-1.5 Vision。
Grok-1.5 Vision 不仅能够理解文本信息,还能够高效处理各类文档、图表、截图以及照片中的信息。
xAI 在官方博客中演示了 7 个 Grok-1.5V 案例,包括将白板上的流程图草图转化为 Python 代码、根据孩子的绘画生成睡前故事、解释流行语、将表格转化为 CSV 文件格式等等。
此外,Grok-1.5V 在 RealWorldQA 基准测试中,优于 GPT-4V、Cllaude 3 Opus 等一众主流竞争对手。
附上具体介绍的博客地址:https://x.ai/blog/grok-1.5v
🔗 https://twitter.com/xai/status/1778963570098855947
💥 音乐界 Sora 上线——Udio。
近日,Suno 爆火之后,又一个音乐界 Sora 来了:Udio。
它由前 Google DeepMind 工程师开发,被硅谷知名风投 a16z、Instagram 创始人看好。
按照 Udio 的规定,它和 Suno 一样,不支持用某个艺术家的声音生成歌曲。不过,Udio 可以用艺术家的风格作为提示词,比如「贝多芬」。
让 Udio 唱中文歌,有种霸王硬上弓的感觉,咬字不清晰又错误频出,发音有点像塑料粤语,不知道是不是拿港台歌训练的 AI,且素材不是很够。
Udio 目前发布的是免费测试版,注册账号之后,每个人每月最多可以生成 1200 首歌曲,按照理想情况,40 秒内就能生成一首。
和 Suno 类似,Udio 的创作界面非常直观,输入提示词,点击生成,等待 AI 创作完毕。也与 Suno 一样,Udio 通过 API 调用 ChatGPT 编写歌词。
除了让 AI 自由发挥,Udio 也可以更加定制化,让你输入自己的歌词,添加具体的流派标签,选择生成纯音乐,或者包含歌词和人声的歌曲。
附上体验地址:https://www.udio.com/
🔗 https://twitter.com/udiomusic/status/1778045322654003448
🤖 Google 推出 Gemini 1.5 Pro 公共预览版,能处理音频
在 Google Cloud Next 活动期间,Google 宣布将通过其 AI 应用平台 Vertex AI 向公众提供 Gemini 1.5 Pro,并且还赋予其「听力」,帮助用户处理音频内容。
用户可以上传会议录音、电视节目等音频内容,无需书面记录就可让其解读和总结。Gemini 1.5 Pro 于 2 月份发布,当时面向开发者和企业用户开放。
据悉,这个在 Gemini 系列中定位中量级的模型,在性能上已经超越了体型和性能最强的模型 Gemini Ultra。
此外,Google 还发布了首款 Arm AI 处理器 Axion,Google 表示,Axion 处理器比同类基于 X86 的产品高出 50% 的性能和 60% 的能效,比 AWS 和微软等竞争对手基于 Arm 的产品性能高出 30% 。
Google 还推出了一个新的视频生产力工具「Vids」。据 Google 介绍,用户只要会制作 PPT,就可以在 Vids 中制作视频。
🔗 https://www.youtube.com/watch?v=V6DJYGn2SFk
🚄 面壁智能发布性能小钢炮 MiniCPM 第二弹
在本周,端侧大模型面壁 MiniCPM 小钢炮乘胜追击,迎来了第二弹的四连发,主打的就是「小而强,小而全」。
其中,MiniCPM-V2.0 多模态模型显著增强了 OCR 能力,刷新开源模型最佳 OCR 表现,通用场景文字比肩 Gemini-Pro、超越全系 13B 量级模型。
最小的 128K 长文本、MiniCPM-2B-128K 长文本模型,将原有的 4K 上下文窗口扩展到了 128K,在 InfiniteBench 榜单超越 Yarn-Mistral-7B-128K 等一众 7B 量级模型。
通过引入 MoE 架构,新发布的 MiniCPM-MoE-8x2B MoE 性能平均提⾼4.5%,超越了全系 7B 量级模型,及 LlaMA234B 等更大模型,而推理成本仅为 Gemma-7B 的 69.7%。
虽然直接参数减少一半,但 MiniCPM-1.2B 仍保持上一代 2.4B 模型 87% 的综合性能,在多个公开权威测试榜单上,1.2B 模型非常能打,取得了综合性能超过 Qwen 1.8B、Llama 2-7B 甚至 Llama 2-13B 的优异成绩。
🔗 https://mp.weixin.qq.com/s/OeKwsI-elzi4sxvIK7kk5g
Hunt for Fun|先行
🚨 手搓 3D 机甲模型,你也可以
此前,我们曾经介绍过 Magnific AI 出色的图片风格迁移能力,即将任意一张图像转化为其他风格,并尽可能保留原图像的内容。
现在,网友 @lyson_ober 通过使用「Magnific + Tripo + Midjourney」等工具,制作出许多不同样式的 3D 机甲模型。
整体思路比较简单,教程如下:
🔗 https://twitter.com/i/status/1779272389332787662
Hunt for insights|先知
👀 李彦宏内部讲话曝光:首谈文心大模型为什么不开源
本周,据澎湃新闻报道,百度创始人、董事长兼 CEO 李彦宏近期在内部讲话中,就 AI 业界中的焦点话题发表看法。
谈及文心大模型为何不开源时,李彦宏表示:
一年前文心刚刚发布的时候,我们内部是有过非常激烈的讨论的,最后当然大家也知道这个结果,我们的决定是不开源。为什么不开源?
当时的判断是,市场上一定会有开源的模型,而且是不止一家会开源。在这种情况下,多百度一家开源不多,少百度一家开源也不少。
在李彦宏看来,虽然 Llama 也鼓励开发者们去贡献各种各样的数据、代码,但是实际上最主要的贡献还是 Meta 内部的开发者,因此, Llama 并不是一个真正由大家一起来协同开发的产品。
李彦宏还认为,相较于开源,闭源才具有真正的商业模式,只有赚到钱才能聚集算力、聚集人才。
大家比较一下,比如硅谷有一个优秀的人才,他有 OpenAI 的 offer,有 Meta 的 offer,有 Llama 的 offer,他会去哪儿?这是非常显而易见的选择。
🔗 https://www.thepaper.cn/newsDetail\_forward\_26996280
🚀 Anthropic 首席执行官:AI 正处于「指数曲线」上
本周,Anthropic 首席执行官 Dario Amodei 在接受《纽约时报》的采访表示, AI 正处于「指数曲线」上,并以个人曾在 OpenAI 五年的工作经历为例做进一步解释。
2018 年,OpenAI 开发了一个名为 GPT-1 的模型,其所需的计算能力仅为现在模型的 1/100000。
作为最早「缩放定律」的一批人,Amodei 曾预测如果对这些模型的投资从当时 10000 美元增加到 1亿、10 亿甚至 100 亿美元,那么将会有许多惊人的成果出现。
此外,「当 ChatGPT 发布时,就像过去三年中我们预期会出现的所有增长和兴奋,突然之间爆发出来,迅速占据了公众的视野。」
Dario Amodei 还认为,让模型拥有个性的同时保持客观性和实用性,避免陷入各种伦理困境,这将大大促进其被广泛采用。
🔗 https://www.nytimes.com/2024/04/12/podcasts/transcript-ezra-klein-interviews-dario-amodei.html
👏 图灵奖得主:大模型永远也无法达到人类智能
上个月,埃隆·马斯克预测,AGI 将会在 2025 年底到来,但并不是每个人都这么乐观。
近日,Meta 首席科学家、图灵奖得主 Yann LeCun 在伦敦举行的一次活动中,表示 LLMs 永远无法达到人类水平的智能。
他指出了四重认知挑战:推理、计划、持久记忆和对物理世界的理解。
这是人类智能的四个基本特征 , 就此而言,还有动物智能 ,目前的人工智能系统都无法做到
Yann LeCun 认为,对话流利的 LLMs 看似很聪明,但实际上,它们对现实的理解非常粗浅。同时在他看来,一个四岁孩子在与世界的互动中看到的数据信息是世界上最大的 LLMs 的 50 倍。
大部分人类知识并非以语言形式存在,因此除非对系统架构进行改变,否则这些系统无法实现与人类相当水平的智能。
🔗 https://thenextweb.com/news/meta-yann-lecun-ai-behind-human-intelligence
彩蛋时间
《去有光的地方 》
作者:@nptacek
链接:https://twitter.com/SmokeAwayyy/status/1778694549935689915
继续阅读
阅读原文