四月下半月,AI 领域的新产品仍然层出不穷。越来越多有实力的选手加入开源战斗,通用场景与垂直场景都涌现出许多有用的新产品。大公司中,之前鲜少出现的苹果、Palantir、Sberbank 也都加入了这次浪潮。
真格投资团队继续梳理了这半个月以来的 78 个 AI 新产品。希望能带给你一些启发,也欢迎在评论区和我们交流你的想法~- 15个初创企业的新产品-这次我们从「开源」和「闭源」的角度对这些产品进行了划分,其中开源产品有 8 个,闭源有 7 个——很开心看到越来越多有实力的选手加入开源战斗, may the source be with you ❤️- 39 个有用的和 10 个好玩的新产品 - 不要被数量吓到咯!在「有用的」部分,我们从「通用场景」及「垂直场景」对产品进行了划分,也额外单列了诸如「模型训练」、「AI 安全」、「代码学习」和「AI 代理」等关注度较高的类别;而「好玩的」部分,本次推荐的产品可谓各有特色,例如 Andrej Karpathy 本人开发的电影搜索工具,再比如梦境生成与存储器,还有迎着最近在大洋彼岸闹得沸沸扬扬的「真假 Drake 案」而上的虚拟音乐电台……- 14 个大公司的新产品 - 除了微软、谷歌、英伟达等熟悉的老面孔,还有苹果、Palantir 这样鲜少出现的朋友,更有来自俄罗斯的新晋玩家 Sberbank。The AI world is enormous fun ✨
Stability AI 真的是不断给予人们惊喜的初创公司——他们在图像生成领域已经声名鹊起,现在又在用语言模型稳固自己在 Gen AI 领域的领先地位。StableLM 是Stability AI 自己的语言模型,他们正在将其开源给开发人员和商业用户,他们的口号是:「透明(Transparent),可访问(Accessible),支持(Supportive)」。目前,StableLM 有 3B 到 7B 个参数,未来计划发布的模型将拥有高达 650 亿个参数,并使用 1.5 万亿个 token 进行训练—— 如果我没搞错的话,这将是目前最大的开源语言模型,对吗?🔗 https://github.com/stability-AI/stableLM/StableLM 发布后,Stability AI 又开源了一个名为 StableVicuna 的聊天机器人,并称这是第一个大规模的开源 RLHF LLM 聊天机器人(AI World's First Large-scale Open Source RLHF LLM Chatbot),可以在 Hugging Face 体验。🔗 https://huggingface.co/spaces/CarperAI/StableVicunaDeepFloyd IF 的发布是我们一直在等待的时刻 —— 在生成图像中渲染文本(虽然还是没有关于手指生成进步的消息)!🔗 https://huggingface.co/spaces/DeepFloyd/IF「May the source be with you!」如果我们呼吁开源发展,那么 Hugging Face 应该是另一个引领者 ——他们是当之无愧的社区积极推动者!在星战日(May the force be with you),HF 与 ServiceNow 合作发布了 StarCoder,完全开源的代码生成模型。对于程序员来说,这真的非常令人兴奋,HuggingFace 甚至声称它的性能超过了用于训练 OpenAI 的 GitHub Copilot 的模型。从数据道德的角度来看,StarCoder 是在一个名为 The Stack 的开放数据集上进行训练的,该数据集具有 1900 万个完全开放的代码库和 6TB 代码 —— 但最好的一点是它可以与 VSCode 集成。🔗 https://twitter.com/BigCodeProject/status/1654174951006404610Hugging Face 也没忍住加入了 Chatbot 的开发行列。他们发布了名为 HuggingChat 的开源聊天机器人,拥有 Web 界面和 API —— 虽然还没有达到大厂的水平,但毕竟它是免费的。来看看 HuggingChat + StarCoder 的表现 😫🔗 https://huggingface.co/chat/当前,开源社区与科技巨头一决高下的决心真的令人振奋,RedPajama 是 Together 最新的倡议,他们设定了大胆的目标来推动开源模型的进步,旨在通过完全开源、可重现的领先语言模型与大公司竞争,这个目标整体分为三步:他们宣布已经完成了第一阶段与第二阶段的一部分 —— 制作了一个用于训练类似 LLaMA 的模型的 1.2 万亿词语数据集,发布了 RedPajama 3B 与 7B 模型,并在 OpenChatKit 上实现指令调整 —— 我感觉某个大事件正在酝酿之中!🔗 项目 - https://www.together.xyz/blog/redpajama🔗 模型 - https://www.together.xyz/blog/redpajama-models-v1类似 Chatbots 和 AI Agents 这样的东西无疑是大趋势,但也都只是我们在 AI 道路上前行的一小步,我们可以期待更多的「一小步」 —— 在我看来,让 AI 模型在本地和浏览器中运行也是其中的一步。由华人学者陈天奇领衔开发的 WebLLM 便是其中的一个优秀尝试,它让我们可以在没有服务器支持的情况下在浏览器中运行 LLM,目前选用的模型是 vicuna-7b-delta-v0。著名开发者 Simon Willison 在自己的博客中详细记录了自己在 M2 MacBook Pro 上使用 Chrome Canary 对 WebLLM 进行测试的全过程,对其表现称赞有加,文章较长,总结如下:- Web LLM 的运行速度非常快,每秒可处理约 15 个 token,性能优于此前 Simon 在个人设备上运行过的其他模型;- Simon 还通过一系列问题测试了模型的问答能力,包括事实查询、列表生成、文本摘要、生成双关语以及编写代码等,虽然有些回答存在错误,但整体表现很好;- 尽管模型整体还存在缺陷,但 Simon 认为它已经达到了他的预期,并且可以作为各种实用工具构建模块。🔗 https://mlc.ai/web-llm/
🔗 Simon Willison's Blog - https://simonwillison.net/2023/Apr/16/web-llm/Arize AI 推出了 Phoenix,一个用于监控 LLM 幻觉的开源库,也是第一个旨在帮助数据科学家将 LLMs 决策过程可视化,监视其生成内容并在出现类似虚假或误导性结果时提出修复措施的软件。Phoenix 可轻松处理非结构化文本和图像,并使用嵌入和潜在结构分析作为其基础。🔗 https://phoenix.arize.com/—— 没错,又是聊天机器人,但这个聊天机器人真的非常特别,从 UI 到表达方式(还可以同步以四种不同的声音输出语音),让人眼前一亮!- 创始团队 - 包括 DeepMind 联创 Mustafa Suleyman,LinkedIn 的联合创始人、OpenAI 董事会成员 Reid Hoffman、科学家 Karén Simonyan 等;- 长时记忆带来的个性化潜力 - Pi 旨在成为一个私人聊天机器人,同时随着时间的推移,可以成长为个性化的虚拟陪伴。据 Forbes 报道,Pi 可以扮演积极的倾听者,通过不断对话,与用户一起讨论或解决问题,同时它会记住这些对话,逐渐了解用户;- 跨平台互动与记忆 -但真正酷的功能是,用户可以在各种平台上与自己的机器人交谈,它会记住与用户的互动!- 未来发展 - Inflection 说这甚至不是他们最强大的模型......🧑🏫 Khanmigo by Khan Academy在 5 月 2 日的 TED 演讲中,Khan Academy 的创始人 Sal Khan 演示了他们最新的 AI 工具 Khanmigo,一位既面向学生的导师又面向老师的教学助手。从演示中看,这是一款态度正向且具有变个性的教育产品,可以帮助学生找错误,引导他们用更好的解题思路与学习方法,通过角色扮演教授历史知识,甚至还可以成为强有力的辩论对手,能力很是全面,是一款符合我的个人预期的教育产品 —— 还记得 Greg Brockman 在 TED 2023 中提到的为 ChatGPT 在教育领域的能力提出问题又慷慨地提供垂直训练帮助的 Sal 吗?🔗 https://www.khanacademy.org/khan-labs🔊 Brand Voice & Memory by JasperJasper 推出了新功能 Jasper Brand Voice,用户可以向 AI 提供公司事实性信息、产品目录、受众/客户、品牌基调及风格等数据,以确保生成的内容始终符合品牌调性。Jasper 也可以直接访问用户的网站以直接了解品牌并匹配符合品牌调性的不同风格。此外,Jasper Brand Voice 还会保留用户上传的上述信息的历史记录(Memory),以确保 AI 可以始终准确撰写关于企业的具有一致性的内容。🔗 https://www.jasper.ai/products/brand-voice💬 Multilingual v1 by Eleven Labs上周末,一段克隆 David Attenborough 声音的,表达自然的英德双语小视频在 Reddit 和 Twitter 获得了大量关注,视频背后的功臣正是 Eleven Labs 新的多语种模型 Multilingual v1。该模型拥有强大的文本理解能力与丰富的情感表现力,目前支持八种语言:英语、法语、德语、印地语、意大利语、波兰语、葡萄牙语和西班牙语。此外,模型还具有识别多语言文本并转换为语音的能力,用户可以使用单条提示词生成多语种语音,同时保持每个发音者的独特声音特征。新模型已经在 ElevenLabs Beta 平台上提供,用户可以通过语音合成界面中的下拉菜单选择使用。🔗 https://beta.elevenlabs.io/blog/eleven-multilingual-v1/无独有偶,Play.ht 也推出了他们支持多语言合成和跨语言语音克隆的模型 Parrot。与 Multilingual v1 相同,Parrot 也允许用户跨越不同语言克隆语音,同时保留原始口音和语言的细微差别。例如,用户可以使用 Play.ht 的语音克隆服务上传 30 分钟的西班牙语音频,模型随后克隆语音和语言,使这位说西班牙语的用户能够用 Play.ht 的 TTS 软件说英语,软件会以初始音频的声音(只是换成英语)朗读文本,并保留西班牙语口音和说话习惯 —— 但与 Multilingual v1 不同的是,Parrot 支持 130 多种语言的相互转换却不支持多语言混合文本的语音转换。此外,Parrot 是此前 Play.ht 于 2022 年 9 月发布的语音模型 Peregrine 的升级版本,相比 Peregrine,Parrot 具有更相似的音高、节奏控制以及零样本克隆能力,能够捕捉并模仿原始音频语言的语调和细微差别,并将其应用到克隆语言中,从而实现无缝的跨语言克隆。🔗 https://play.ht/blog/play-ht-launches-multilingual-synthesis-and-cross-language-voice-cloning/RunwayML 发布了同名 iOS 应用程序,这可以被视为 RunwayML 商业化的基础,用户可以基于 Gen-1 模型生成视频并进行编辑 —— 目前只能在已有视频的基础上创建一些时髦但也有点诡异的视频,之后文本转视频功能也将会上线。🔗 https://apps.apple.com/us/app/runwayml/id1665024375由李飞飞和 Scale AI 创始人 Alexandr Wang 参与投资的视频搜索工具,通过描述,在数小时的视频里寻找最想要的那一瞬间!自 ChatGPT Plugin 发布后,让工具成为「决策中心」成为了开发者们的探索热点方向之一,这里介绍 Klu,用于连接各种常用的应用程序,例如 Gmail、Dropbox、Notion、Slack 等等,以问答形式实现无缝、统一的企业内信息搜索。说完了「决策中心」,我们再来看看 ChatGPT Plugin 的另一个非官方定义「应用商店」—— Reflect Notes 的创始人 Alex 搭建了 openpm.ai,目标是防止 AI 领域出现类似 Apple Store 的垄断。openpm 是一个面向 OpenAPI 文件的开源包管理器,AI 可以像 ChatGPT Plugin 一样使用 openpm 中的包,换句话说就是自动发现和使用 API 与世界互动。为 OpenAPI 文件创建一个完全开源的包管理器 —— 这意味着任何具有 API 的应用/网站(AI 工具)都可以从该平台获取并即时使用,这基本上可以算作 Plugin 协议的免费版本 —— 让我们拭目以待 OpenAI 的反应。CodeDesign 是一款 AI 驱动的网站构建工具,可以使用 AI 生成的 UI 元素在几秒钟内创建网站,在完全个性化定制的同时还可以全程获得来自 AI 的智能化建议。目前,产品提供云托管、SEO 和数据库功能,并允许发布到自己的域或导出到代码。除此之外,还有一个生成营销文案的边缘功能。除了 CodeDesign,还有两个相对功能简单的建站工具:在 60 秒内构建完全可定制、SEO 优化和准备启动的网站。用 Gen AI 解释产品、品牌与独特的登录页面。🔗 https://landing-ai.com/在生成网站/应用程序后,试试用 AI 生成的端到端用户测试吧!简单说,OpenAI API 使用分析报告 —— 花了多少钱,以及花在了哪里。⚙ Flux copilot by Flux.ai生成式 AI 真的可以用来设计硬件吗?PCB 设计软件公司 Flux.ai 给了我们一个答案。Flux.ai 将 Flux copilot 定位为「AI 硬件设计助手」,用以辅助进行图纸设计、新方案探索、物料清单生成以及审查和验证,可通过设计优化、效率提升、社区数据/经验查询、采购简化、创新设计探索与协作优化方面帮助 PCB 设计师们提升效率。但公司也一再强调,Flux copilot 与 LLM 一样,「不完全可信」,只能被视为设计师的「指南」绝非「专业知识替代品」。🔗 https://www.flux.ai/p/blog/flux-copilot-the-first-ai-powered-hardware-design-assistant📁 ArXivGPT by Marco MascorroArXivGPT 并不是一款独立的产品,而是由 Fellow AI 的联合创始人 Marco Mascorro 创建的一个自动化 Twitter 账号,用 GPT-4 API 每日自动搜集并总结最新出炉的 AI、CL、LG、CV 与 NE 领域的论文,看看总结效果吧!🔗 https://twitter.com/ArXivGPTPharma Bro 的 Martin Shkreli 重获自由后正在尝试新业务,这次,他开发了一款医疗聊天机器人 Dr Gupta,称其为「世界上第一个医生聊天机器人」,并期待它有朝一日成为「所有医疗保健信息的替代品」——目前看,不是革命性的产品,但势必会不可避免地引起一场关于安全、道德与隐私的讨论。
🔗 https://www.drgupta.ai/🏟️ Chatbot Arena by LMSYSLMSYS 推出了 Chatbot Arena,顾名思义,「模型竞技场」,其功能非常简单,用户与两个匿名的模型同时聊天,并投票选出哪个更好。原本我以为是一个有趣的小实验,没想到 5 月 3 日,团队发布了一份认真又专业的报告,解释了以这样的系统测评 LLM 的原因:- 可扩展性(Scalability)- 当收集足够数据来评估所有可能的模型对是不可行的时候,系统应该能够扩展到大量的模型。- 增量性(Incrementality)- 系统应该能够使用相对较少的试验来评估新模型。- 唯一顺序(Unique order)- 系统应该为所有模型提供唯一的顺序。给定任意两个模型,应该能够确定哪个排名更高或它们是否并列。同时还发布了截至目前,几个开源模型的排名(看上去国产 ChatGLM 表现还不错👍):🔗 https://lmsys.org/blog/2023-05-03-arena/Lamini 旨在简化工程团队的 LLM 训练流程,同时提高所训 LLM 的性能。使用 Lamini 库中的几行代码,任何开发人员(不仅限于熟练掌握机器学习的开发人员)都可以在庞大的数据集上训练出与 ChatGPT 同等性能的高效 LLM。- ChatGPT 的提示词优化及模型切换。首先,团队提供了不同模型的最佳的提示词,以便用户使用;其次,使用 Lamini 库的 API 可以快速调整不同模型的提示词;最后,通过一行代码,便可以在 OpenAI 和开源模型之间切换。- 生成大量的输入输出数据。这些数据将展示 LLM 对它所接收的数据的反应,无论是自然语言(英文)还是 JSON 格式。团队发布了一个用 Lamini 库的几行代码生成的 50,000 个数据点的仓库 —— 只用了 100 个数据点生成。- 用生成数据调整原始模型。除了数据生成器外,他们还分享了一个在生成数据上训练的,由 Lamini 调整过的 LLM 模型。- 把经过微调的模型进行 RLHF。Lamini 避免了进行 RLHF 所需的大规模机器学习(ML)和人类标注(HL)工作人员的需求。- 将 LLM 上穿到云端。只需在应用程序中调用 API 的端点即可。监管和责任听起来可能有些枯燥,但很重要,至少关注人机和谐共生的我们应该给予其更多关注。Trustible 是一家位于美国的初创公司,他们率先提供面向企业的服务,帮助公司在实施和部署 AI 模型时践行合规且负责任的 AI 实践,该产品旨在将企业 AI 产品与相关法规对齐以实现合规性,同时也会即时更新新出台的关键法规。🔗 https://www.trustible.ai/顾名思义,SafeGPT 是为 LLMs 的安全而生,用于识别和解决 LLMs 中的错误、偏见和隐私问题,其主要特点如下:- SafeGPT 适用于所有类型的 LLMs,包括 ChatGPT,并使用实时数据与外部数据库进行交叉检查,从而比较答案以检查其准确性;- SafeGPT 还提供企业级功能,以确保 LLMs 的安全性,灵活的无服务器后端架构可以从每天处理数十亿个请求;- SafeGPT 还优先考虑隐私和安全,提供本地安装选项和加密数据,并遵守区域法规。目前需加入 waitlist 获取试用资格,个人免费,企业,付费~🔗 https://www.giskard.ai/safegpt⚠️ The AI Incident Database确保 LLMs 的安全不仅需要我们从开发侧进行防范,还需要及时了解他们的负面案例,在前面的 Newsletter 中,我们介绍过 ChaosGPT 以及 Cards Against AI 等产品,这里,我们再介绍一个系统收集 AI 在现实世界中造成的伤害/接近伤害的案例的产品 The AI incident database。虽然当前还没有什么特别受人关注的用例,但也许探索人机共生的路上,终会有此类产品的用武之地。🔗 https://incidentdatabase.ai/编程学习 | Programming Learning相信不少人已经见识过了以 GPT 为代表的 LLMs 的强大的编程能力,结合问答形式与教育场景的高适配度,也许我们是时候期待一些新的编程教育产品的出现了。以下是两个新发布的面向 C 端用户的编程教育产品:Codeamigo 是一个交互式编程教育产品,用 AI 帮助用户学习如何利用 AI 工具进行编程(有点儿拗口)。Codeamigo 所教授的内容非常基础,课程呈现格式简单明了,适合初学者入门使用,除了课程,平台还提供了基于 HTML 的沙盒环境 Codesandbox,用户可以在其中即时实践他们所学的内容。但 Codeamigo 不提供任何自动反馈或评分系统,用户必须通过自我评价确定自己的进度。除了「下一代编程学校」的口号,关于 Takeoff School 的信息并不多,但它的作者是前几期 Newsletter 中提到的我最喜欢的 AI Hacker Mckay Wrigley。目前我们只可以在 Replit/Youtube 上找到一个关于教授用户如何从零快速搭建 AI 工具的 demo —— 30 分钟的课程与 21 行 Python 代码。🔗 https://www.takeoff.school/🔗 Demo - https://replit.com/@MckayWrigley/Takeoff-School-Your-1st-AI-App除了面向 C 端的产品,在上周发布的产品中,我还发现了一款有趣的旨在教会模型「编程」的产品。LlamaAcademy 是一个实验项目,目标是教 GPT 使用 LLaMA、LoRA 和 Langchain 阅读 API 文档——但,「实验项目」意味着当前生成的代码质量并不稳定。用户可以根据他们的 API 文档创建一个 Llama 模型,然后可以将其托管在服务器上并用它来编写 API 胶水,具体运行原理如下:🔗 https://github.com/danielgross/LlamaAcademy Auto-GPT 的 GUI 开放了 waitlist,可在下方注册👇⛓️ MULTI·ON plugin by MULTI·ON今年 2 月,我开始使用 MULTI·ON ——在插件和代理之前,这个由 AI 驱动的工具已经实现了在笔记本电脑上自动执行许多任务,非常酷(当然也有点可怕)。现在 MULTI·ON 宣布开发了一个 ChatGPT 插件,根据演示,它的功能看起来非常强大 —— 如果 OpenAI 批准了这个应用(现在可以称这些插件为应用程序了吧?!),那么它可能会成为能力超群的个人网络浏览器/任务执行器,如果与目前的一些 AI 代理结合,还可能会更酷!🔗 https://www.multion.ai/🔗 Demo - https://twitter.com/DivGarg9/status/1648394059483054081由 Yohei 本人开发的一个有缺陷、速度较慢但功能更强大的 BabyAGI mod。具体来说,拥有更强的任务管理、依赖任务、工具、适应性和集成能力,适合处理更多更复杂的任务,但需要更高的计算能力。🔗 https://replit.com/@YoheiNakajima/BabyBeeAGI?v=1基于 GPT-3.5-Turbo/4 的最小通用自主代理,只保留了最简单实用的功能,但缺点是没有长时记忆(即不能通过长时间使用成为更个性化的工具),目前可以执行的任务包括但不限于创建游戏、分析股票价格、进行网络安全测试、创作艺术品、总结文档和...订比萨。另外,MiniAGI 还可以开启批评(critic)模式,额外请求 API 以提高任务完成的准确性。🔗 https://github.com/muellerberndt/mini-agi 面向企业和个人的,也是首个可以通过 Mac App 访问的 AI 代理中心,随时随地创建和访问 AI 代理。🔗 Demo - https://twitter.com/zachtratar/status/1649130015093841921🪜Height Copilot by HeightHeight 本身是一家项目管理 SaaS 初创公司,上周,他们推出了新的产品 Height Copilot,通过 AI 代理,使工作流的管理更加自动化,帮助团队构建更好的产品。一个专用于信息检索而非内容生成的 AI 代理,能够在互联网上找到、提取和处理数据,无需 API。Aomni 采用了 AutoGPT 架构来智能规划查询,并确保正确的数据来源和多样化的结果。自主编写拉取请求以响应 ChatGPT 的问题——作者为产品规划了九步路线图,但目前只实现了两步「根据标记的问题自动编写拉取请求」以及「通过迭代和自适应规划自主生成代码」。🔗 https://github.com/irgolic/AutoPR一句话简介:与 AI 代理一起使用的超快速本地矢量数据库。具体一些,优点如下:- 高度优化的 C++ 后端矢量存储,通过 MKL BLAS 进行硬件加速操作。- 用户可以索引带有高级特征的文档(例如标识符和元数据)。🔗 https://github.com/Automattic/HyperDB 让 LLM 拥有更强的推理与执行能力的 AI 代理,来自中国创业团队 Jina AI(作者来自德国)。其构建模块包括:记忆(Memory)、自我改进(Self-refinement )、压缩知识(Compress knowledge)、推理(Inference)与自然语言环境(Natural Language Conditions),实现的功能主要包括:- 通过更高阶的推理基元增强 LLM 的单次推理能力。🔗 https://github.com/jina-ai/thinkgptHugging Face Spaces 上有成千上万个 Gradio 应用程序,Gradio-tools 是可以将它们转换为工具的 Python 库,基于 LLM 的代理可以进一步利用这些工具来完成任务。目前,Gradio-tools 支持 LangChain 和 MiniChain 代理库,同时附带一组预先搭建的工具,包括:- StableDiffusionTool - 使用托管在 Hugging Face 空间上的 SD 模型生成图像- ImageCaptionTool - 通过提供文件路径来说明一张图片- ImageToMusicTool - 创建与给定图像文件样式相匹配的音频片段- StableDiffusionPromptGeneratorTool - 改进 SD 和其他基于此 HuggingFace Space 的图像生成器的提示- TextToVideoTool - 从文本创建短视频- WhisperAudioTranscriptionTool - 用 Whisper 转录音频- ClipInterrogatorTool - 从源图像逆向工程提示- DocQueryDocumentAnsweringTool - 从文档的图像回答问题- BarkTextToSpeechTool - 文本转语音😊 AutoGPT on Hugging Face顾名思义,在 Hugging Face 上运行的 AutoGPT。🔗 https://huggingface.co/spaces/aliabid94/AutoGPT🔗 https://www.superusapp.com/chatgpt2d/
🔗 https://github.com/getmetal/motorhead过去两周,冒出了许多 AI 驱动的网页信息自动抓取工具,虽然当前用 Gen AI 做网页抓取并非主流技术方案,但其优势也是显而易见的,例如,可以更好地理解分析非结构化数据,实现更精准的抓取。✅ Hexomatic 🔗 https://hexomatic.com/✅ WebscrapeAI 🔗 https://webscrapeai.com/✅ Kadoa 🔗 https://www.kadoa.com/个人数据
✅ 非结构化数据处理- Bloks
✅ 文本处理 - Lettria
🔗 https://www.lettria.com/✅ 数据处理 - Quadratic
使用 AI、Python、SQL 和公式分析个人数据。🔗 https://www.quadratichq.com/?ref=producthunt📣 Glowby Basic
🔗 https://github.com/glowbom/glowby🫧 Dreamkeeper
在 AI 的帮助下记录并了解梦境。
Dreamkeeper 使用多个 Gen AI 模型,使得记住、想象并保留梦成为可能。以下是官方的简要概述:- 为了记住用户的梦,一个由 ChatGPT 驱动的助手会问用户一些具体的问题,并根据回答做出相应的内容调整;- 一个 Stable Diffusion 模型通过提取 ChatGPT 生成的关于用户梦境的摘要描述中的关键词来生成一幅图像;- 该图像被传输至图生视频模型中,创建一个基于用户梦境的动画;- 用 GPT 进行嵌入处理,将用户想要保留的梦保留在一个画廊中。🔗 https://thedreamkeeper.co/
🎬 Awesome movies
Andrej Karpathy 开发的电影搜索与推荐平台,根据 Karpathy 自己介绍,他搭建这个网站共用了三步:
🎥 抓取了自 1970 年以来的所有 11,768 部电影 🧮 从维基百科上抓取了每部电影的简介和情节,并使用 OpenAI API (ada-002) 进行了嵌入处理 📃 将所有信息整合成了一个电影搜索/推荐引擎网站 :)🔗 https://awesome-movies.life/🌴 VForsaken Foliage of Farandaya
GPT-4 驱动的角色扮演冒险游戏,主题是关于 16 世纪的东南亚的恐怖幻想——这里有两个难点,一是让 AI 解决冲突(它总是倾向于顺从人类观点),二是营造恐怖主题或战斗场景(由于安全限制,LLMs 通常拒绝输出暴力与恐怖的场景)。不过 GPT-4 的益处也是显而易见的,作者在开发日记中写道,他自己本身不了解 16 世纪的东南亚故事,但又十分感兴趣 —— 还好 GPT-4 学过相关的知识。于是,作者用 RPG 引擎处理细节、解决冲突,将 GPT 用作「渲染器」,花费 2 天的时间就完成了游戏的搭建,效果很不错!🔗 https://creator.voiceflow.com/prototype/644c47e2d0125e2d5e52ec9b📻 Artificial Intelligence Radio
先说说音乐行业:在第三方制作的仿冒 Drake 作品和 Grimes 自己制作的 AI 生成作品发布后,音乐行业掀起了关于 AI 的站队行动,但更多的是引发了一波音乐制造热潮 —— 现在,出现了一个纯由 AI 生成的歌曲的 AI 广播,它们听起来实在是太真实了!
不过有一点值得注意:到目前为止,似乎全部歌曲都是现代嘻哈风格的音乐 —— 这是当前趋势的反映,还是 AI 能力的局限?🔗 https://artificialintelligenceradio.com/👨 Human or not? By AI21 labs
一个有意思的小游戏,由 AI21 labs 发布 —— 聊天两分钟,猜猜对方是人类还是 AI。🔗 https://www.humanornot.ai/1⃣️ Single Prompt AI
一组单一用途的 AI 工具,它们只做一件事 —— 太专注了!🔗 https://singlepromptai.com/🛒 Go shop with AI
拥有了解您个人风格的名人购物助理,当前有黛安娜王妃、约翰·肯尼迪Pharrell Williams、Justin Bieber、Kim Kardashian、Lenny Kravitz 以及 Anna Wintour 共计七位年代、风格各异名人可供选择,包括四位男性和三位女性。🔗 https://goshopwith.ai/chat为每个人生成 AI 动画 —— 实话实说,效果还是太诡异了。🔗 https://www.neuralframes.com/自动检测并高亮 Twitter 中的逻辑错误的 Chrome 插件 —— 再也不怕被网友带着走了!🔗 https://fallacy.review/5 月 5 日,Bing Chat 正式全面开放!伴随全面开放的,还有功能的全面提升,例如,能够处理图像和视频,具有插件功能(因此用户可能能够让它预订餐厅或购物),并且与聊天机器人对话将会被存储在用户自己的历史记录中。🔗 https://www.bing.com/newMicrosoft 正在通过 Designer 向 Adobe 发起挑战,Designer 是一个类似 Canva 的画布类 Web 应用,用户可以在其中使用 Gen AI 进行各类设计,从海报和演示文稿到社交媒体帖子的任何内容,还可以调整生成作品尺寸以匹配一些特定平台的风格,例如 Instagram 的正方形。试用体验:可以用,但没有太大的生产效率提升。🔗 https://designer.microsoft.com/备受冷落的 Edge 浏览器也在默默不断改进 —— 当前浏览器界面新增了一个边栏,用户可以在 AI 的指导下完成 Web 端操作,例如在社交媒体上发布帖子或编写电子邮件。🔗 https://www.microsoft.com/en-us/edge 自 2019 年以来,Microsoft 一直在秘密地设计一款 LLM 专用芯片 Athena,目前该芯片只提供给了 Microsoft 和 OpenAI 的少数员工进行测试,预计明年正式向这两家公司供应 —— 但抱歉,其他人就没戏了!🔗 https://www.theinformation.com/articles/microsoft-readies-ai-chip-as-machine-learning-costs-surge?rc=cvc4po「没有人可以杀死 Google 搜索,因为我们正在自我颠覆。」以下是最近有些英雄色彩的 Google 的新动作:过去半个月,Bard 悄默声儿地进行了两个小更新:- 5 月 5 日,Google 向 Workspace 用户开放了 Bard 访问权限,更接地气儿的说法是,企业 Google Docs 用户可以直接用 Bard 辅助文档工作了 —— Bard 最初上线时并未邀请 AI 自然场景下的 Workplace 用户使用,令人惊讶。- 4 月 21 日,Bard 终于学会了写代码,支持 20 多种编程语言,如果生成的是 Python 代码,还可以直接在 Colab 中导出测试,虽然当前还不能完全投入生产,但我们可以期待它的进步!🔗 https://bard.google.com/updatesGoogle DeepMind 的成立无疑是近期最受瞩目的大事件之一(不确定 Google Brain 团队对新部门的名称是否满意),这无疑是 Google 向 Microsoft+OpenAI 组合发起的又一次强有力的正面竞争,也许团队会着重将语言模型集成到他们的搜索引擎中。🔗 https://www.deepmind.com/Google 也有其他团队在努力为传统搜索引擎添加更多功能,并发起了一个名为 Magi 的项目,其中包括图片生成、搜索内的直接金融交易、明晰准确的答案和新广告列表等产品。以下是一份 Google 正在考虑发布的产品的简要列表,当然团队表示,并不是所有的产品都会被推出(一如既往):- Google Earth + AI - 地图制作和探索- Tivoli Tutor - 带有 AI 功能的语言学习应用- Search Along - 与搜索结果同步聊天🔗 https://neilpatel.com/blog/project-magi/同时,Google 还在设计一个完全不同于传统的搜索体验的全新的搜索引擎。但除了口号「让新的 AI 技术应用于全世界的手机和家庭中(new A.I. technology in phones and homes all over the world)」,并没有太多关于这个引擎的信息。当然也可能是与三星「较个劲儿」,因为三星称要将 Bing 作为其设备的默认搜索引擎 —— 开个玩笑,Google 不会轻易地放弃它最优秀的产品。🔗https://www.nytimes.com/2023/04/16/technology/google-search-engine-ai.htmlSec-PaLM 是旨在让用户免受勒索软件和间谍软件之苦的 LLM,在简化企业安全经理的工作的同时让他们得以完成只有网络安全专家才能完成的任务。Sec-PaLM 通过 Mandiant(美国的一家网络安全公司),针对漏洞、恶意软件、威胁指标和恶意代理档案相关的问题,在包含数十亿条安全事件的数据集上进行了垂直训练,它将被集成到 Google 的各类安全工具中,以聊天机器人的形式为用户提供服务。Google 在新闻稿中保证,Sec-PaLM 可以让普通安全运营人员升级为一级安全运营专家。- 首先,当企业受到攻击时,安全应用程序会生成包含大量技术数据的报告,但这些数据不易理解。在安全命令中心,Sec-PaLM 会分析这些报告并创建一个摘要,用通俗的语言解释正在发生的事情,并生成图表和图形以供更直观地查看。- 其次,Sec-PaLM 不仅提供建议,还可以采取行动。用户可以触发基于攻击的自动屏障来阻止攻击,并编写特定的代码来保护公司网络中的关键内容。综上,安全运营人员可以专注于威胁分析,而不必浪费时间在繁琐的操作过程上。🔗 https://cloud.google.com/blog/products/identity-security/rsa-google-cloud-security-ai-workbench-generative-ai 一种用纯 Python/Jax 编写的可扩展、高性能的开源 LLM。🔗 https://github.com/google/maxtextQuartz 是 Apple 正在研发的一款 AI 付费健康管理软件(公司称之为健康教练),可以通过 AI 和 Apple Watch 的数据,为特定用户制定个性化建议并创建健康指导计划,帮助用户改善锻炼、睡眠和饮食习惯 —— 然而,Quartz 并不会在近期发布,而是计划于明年正式推出。🔗 https://www.bloomberg.com/news/articles/2023-04-25/apple-aapl-developing-ai-health-coaching-service-ipados-17-health-app顺便说一句,目前来看,Apple 在这次 AI 浪潮中的举措实在太有限了 —— 上一次听到他们的消息还是 3 月底 9to5Mac 关于代号为 Bobcat 的 tvOS 聊天机器人产品的报道。Information 的记者 Wayne Ma 在 4 月 27 日发布了一篇文章 Apple’s AI Chief Struggles With Turf Wars as New Era Begins,详述了组织功能障碍和缺乏雄心是如何让 Apple 的 AI 和 ML 努力陷入困境的:🔗 https://www.theinformation.com/articles/apples-siri-chief-struggles-as-new-ai-era-beginsNeMo Guardrails by NVIDIA
NVIDIA 推出了一款名为 NeMo Guardrails 的开源软件,给 LLMs “围了一圈护栏”,帮助开发人员引导文本类 Gen AI 应用生成准确、合适、与主题相关的,最重要的是安全的内容。NeMo Guardrails 提供了三种类型的边界设置:- 话题边界(topical guardrails)- 确保 LLMs 生成的内容与用户需求相关- 对话安全边界(safety guardrails)- 确保 LLMs 生成内容正确且客观友善- 网络安全边界(security guardrails)- 防止 LLMs 受到外部恶意攻击软件包含了代码、示例和文档,企业可以使用这些资源为文本类 Gen AI 应用增加安全性,同时是开源的,可以与所有工具兼容。🔗 https://blogs.nvidia.com/blog/2023/04/25/ai-chatbot-guardrails-nemo/Palantir 演示了其在战区中指导军队进行攻击规划并使用 Gen AI 选择最佳武器的产品 Palantir AI Platform(AIP)——考虑到当前 AI 安全性和对齐的情况,这可能不是最好的选择。虽然技术本身很酷,而且肯定会有用 —— 客户基本可以以安全的方式在私有网络上运行 Gen AI 平台,随着数据保护成为热门话题,这项技术无疑值得我们的关注 ——但这也可能是有史以来最不受欢迎的演示了。🔗 https://www.palantir.com/platforms/aip/在本次 AI 浪潮中,我们似乎还未听到过俄罗斯的声音,这就来了!上周,过去几年中一直在技术领域进行大量投资以摆脱本国对进口产品与技术依赖的俄罗斯主要银行 Sberbank 发布了他们的类 ChatGPT 产品 GigaChat,主打「更智能的俄语对话」,目前在邀请测试阶段,懂俄语的小伙伴来试试吧!🔗 http://www.sberbank.ru/ru/sberpress/vazhnoe🧘 禅修时刻 · AI / ML / LLM / Transformer 模型时间线与列表 🧘(点击可放大,但更建议通过图片下方链接跳转至源网站看互动图)🔗 https://ai.v-gar.de/ml/transformer/timeline/ 阅读原文