当AI学会了自己写游戏，当我们可以同时和所有大模型对话

每天打开电脑，看着令人眼花缭乱的新信息，层出不穷的新事物，实在让人忍不住感叹 AI 领域的技术更迭速度之快。

本期文章中，真格投资团队梳理了过去两周内出现或更新的、好玩又实用的 AI 工具，总结了几家大公司的代表性新动作，还带来了 2 月热度最高的 5 篇 AI 领域学术论文的精读分享。

希望能带给你一些启发，也欢迎在评论区和我们交流你的想法～

📢 插播一则消息：第十三期「真驿站」正在火热招募中，欢迎扫描下图二维码报名！

更多信息请戳 👉《呼唤直面挑战的勇敢者｜真驿站第十三期温暖回归》

AI·观点

The Waluigi Effect｜LLM 的「逆反心理」

Waluigi 是 Super Mario 游戏中的蘑菇头，代表反动势力，那么，LLM（Large Language Model：大语言模型）为什么会成为「大反派」呢？这可能与 RLHF（Reinforcement Learning from Human Feedback：基于人类反馈对语言模型进行强化学习）相关🤔️。

如果文中提到的符号学模拟理论（Semiotic–Simulation Theory）是正确的，那么 RLHF 是解决 AI 对齐问题的不可逆不充分解决方案，同时 RLHF 还可能会增加错位的风险，即在通过越多的约束训练让 LLM 满足理想的属性 P 之后，反而更容易让其在与人的对话过程中展现出与 P 完全相反的属性。

https://www.lesswrong.com/posts/D7PumeYTDPfBTp3i7/the-waluigi-effect-mega-post

AI · 工具

好玩的｜For Fun

🎮 Sumplete

在几小时的 Prompt Engineering 之后，ChatGPT 独立设计并写出了这款益智游戏——来试试看，AI 自己写的游戏如何吧！

https://sumplete.com/

🍋 Lemonaid

如果生活给你一颗柠檬，那就用柠檬汁来创造音乐吧——输入想法，让 5000 万个 MIDI 进程帮你生成独特音乐！

https://www.genius.design/

有用的｜For Money

🤩 AI Prompt Playground by Nat Friedman

Nat Friedman 不仅经营着 GitHub，还通过 AI Grant 与 Daniel Gross 一起投资 AI 早期公司。Nat 构建了一个看起来平平无奇，甚至还有点眼熟的 AI prompt playground，但最重要的是，可以在这里对几乎所有的 LLM 的 output 进行对比——强烈建议取消那些无聊的会议，玩玩它！

https://nat.dev/

🪜 Buildt

YC 支持的创业公司，用 AI 帮助理解和使用庞大的代码库。想到可以在浩如烟海的代码库瞬间定位一条相关的代码，有点浪漫是怎么回事？

https://www.buildt.ai/

与之相似的产品 Bloop - https://bloop.ai/

📈 Meerkat

基于 LLM 的交互式数据框架，帮助技术团队以交互方式处理图像、视频、文本文档等非结构化数据。

http://meerkat.wiki/

📊 Arcwise AI

一句话简介：GPT Copilot for Sheets；更通俗易懂的名字：ChatExcel～

https://arcwise.app/

与之类似的产品 PromptLoop：

https://www.promptloop.com/

📚 ChatPDF

与你的 PDF 文档展开对话吧——提问、总结、翻译，或者就是单纯聊天——实测大部分时间都是靠谱的，偶尔自由发挥编纂些美好的「白日梦」。

https://www.chatpdf.com/

与之类似的产品 Humata（名字实在吃亏）：

https://www.humata.ai/

🧠 Whimsical

一直在用的小工具有了更新，融合 LLM，点击小星星，一键生成新思路。

https://whimsical.com/ai-mind-maps

💬 OpenAI Translator

优于 DeepL、谷歌翻译的小插件，划线翻译，易用性与实用性拉满！

https://github.com/yetone/openai-translator

与之类似的还有 - Bob，从 2020 年就一直存在的小插件，融合 ChatGPT API 后性能进一步拉升：

https://bobtranslate.com/

成熟公司的新动作 | From Big

微软

Dynamics 365 Copilot - 主要针对销售和营销人员，类似于 Github 的 Copilot 让开发人员更容易编码，它旨在让销售人员更容易进行销售活动。据 Bloomberg 报道，纳德拉认为这是脱离单独的 CRM（Customer Relationship Management：客户关系管理）、ERP（Enterprise Resource Planning：企业资源计划），朝着建立 Biz App Workflow 迈出的一步。

Power Platform AI Builder - 通过 Power Virtual Agents 中的 Chatbots 和 Power Automate 中的 GPT 模型实现了 Power Platform AI 升级。Power Platform 是一组无代码解决方案，新功能在这些解决方案中嵌入了文本生成，使用户能够更智能地实现自动化流程、预测结果并提高业务效率。

微软的下一次更新是在 3 月 16 日，针对「工作空间生产力」，这可能意味着是 Office 365 的 AI 升级。

Salesforce

Salesforce 近期一连推出三个大动作：

Eistein GPT - Salesforce 称之为「The World's First Generative AI for CRM」，Eistein GPT 将被用于在 Salesforce 生态系统（销售、营销、客户服务、开发等）中跨功能生成内容，模型也将与 OpenAI 和其他模型集成，目前尚处于封闭测试阶段；

Gen AI Fund - 设立了 2.5 亿美元的基金，旨在投资于生成式 AI 初创公司，该基金的愿景是发展「负责任的 AI （Responsible Generative AI）」，截至目前，他们已经投资了 4 家公司：You、Anthropic、Cohere 和 Hearth；

ChatGPT for Slack - Slack 的专属 ChatGPT 应用程序已上线（需候补），正如 Slack 的 CPO Noah Weiss 所说：OpenAI + Slack，真是非常好的组合。也许这是另一种共生关系 —— OpenAI 团队也在使用 Slack，并在其 Slack Workplace 发送了超过 500 万条消息；现在，Slack 将使用 OpenAI 的 ChatGPT 来总结话题、针对特定项目的问题答案，以及生成给同事的回复。

Jina AI - PromptPerfect

提示词的设计一直是中文世界 LLM 用户的痛点，尤其是在图像生成类产品，如 Midjourney 和 Stable Difffusion 的使用过程中，而 Jina 推出的 Prompt Perfect 无疑解决了这一痛点——用算法优化提示词，自动化 Prompt Engineering，用魔法打败魔法，让用户更容易地念出咒语，驯化 LLM 产品！

https://promptperfect.jina.ai

Quizlet - Q-Chat

Quizlet 的 Q-chat 不仅仅是提供信息来回答学生的问题，而是使用苏格拉底式的方法来鼓励批判性思维，并以此加深学生对学习主题的理解。用户可以学习语言，选择对所学材料进行测验，并像与真正的老师一样与机器人互动。

https://quizlet.com/blog/meet-q-chat

Snapchat - My AI

Snapchat 正在将聊天机器人带给街头的酷小孩，他们将推出一款名为 My AI 的应用内聊天机器人，它更像是一个联系人，拥有自己的头像，用户可以随时与其交谈。考虑到 Snapchat 的用户群十分年轻，这种 AI 功能的监管很重要，就目前来看，Snapchat 的预设还不错：My AI 确实有很强的行为及人格约束，例如拒绝回答家庭作业问题，在政治问题方面格外小心等等。

https://help.snapchat.com/hc/en-us/articles/13266788358932-What-is-My-AI-on-Snapchat-and-how-do-I-use-it-

Zapier - Zapbots

Zapier 集成了 ChatGPT 并推出了 Zapbots（它还拥有记忆🤯），就目前来看，也许是构建 AI App 最简单的方式了——只需输入您希望用户提交/输入的字段，添加逻辑（例如制作食谱），一个应用程序即可上线供您与他人分享！

https://zapbots.zapier.com/

Luma Labs

基于 NeRF 将 2D 照片转为 3D 视频的软件有了重要功能更新——实时的实景 3D 渲染！

https://lumalabs.ai/

效果视频在此：

https://twitter.com/lumalabsai/status/1628832654840979457?s=12&t=HGCqSH9MlRxEMSHyuV8nKQ

Stable Diffusion - AI Render

官方 Blender 插件 - 如何真正让视觉行业的从业者更好地用上视觉模型？来一个顺手的工作流！

https://platform.stability.ai/docs/integrations/blender

AI·技术

AI 领域技术更迭日新月异。就学术论文来看，仅仅在过去的 2 月，Twitter 上点赞总数超 1000 次的学术论文就已经超过了 30 篇，它们的研究重点也是各不相同，从自然语言处理到机器视觉，从基础模型到模型微调，从技术本身到与社会科学的交叉点，百家争鸣，百花齐放。

这里选出了热度最高的 5 篇，与大家进行分享。

Language Is Not All You Need: Aligning Perception with Language Models

语言不是全部：对齐感知与语言模型

作者：Shaohan Huang｜Researcher @微软亚洲研究院等

微软团队提出了一个名为 Kosmos-1 的多模态大语言模型（Multimodal Large Language Model, MLLM），可以理解语言、图片等多种形态的信息，并且在不同任务中表现良好。

此模型不需要人为调整参数，可以在上下文中学习（few-shot）并遵循指令（zero-shot）。它可以感知通用模态，例如，看一张图片并描述它，回答与图片相关的问题，或者根据文字指令来识别图片中的物体；可以通过完成不同任务来进行能力测试，比如语言理解、生成、OCR-free NLP 等；与此同时，还可以从语言到多模态、从多模态到语言的跨模态转移中受益。此外，作者还介绍了一个 Raven IQ 测试数据集，用于判断多模态大语言模型的非语言推理能力。

In Summary

这个工作核心贡献在于将上下文学习推广到了普适的多模态场景，这意味着未来多模态领域也将摆脱任务层面的微调，走向通过指令和示例来解决各种任务的新范式。

文章链接 - https://arxiv.org/abs/2302.14045

LLaMA: Open and Efficient Foundation Language Models Meta

AI「单 GPU」LLM 模型 LLaMA：开放高效的基础模型

作者：Hugo Touvron｜Research Scientist @FAIR Meta AI 等

Meta AI 团队加入基础模型战争，推出了一组参数介于 7B 到 65B 的 LLaMA 模型，其中，LLaMA-13B 在大多数基准测试中表现优于 GPT-3（175B），而 LLaMA-65B 可以与表现最佳的模型 Chinchilla-70B 和 PaLM-540B 相竞争。

虽然 Meta 在一开始就将模型定位为「开源的研究工具」，仅基于公开可用数据集进行训练，以便其与开源项目兼容且可重现，但其成品库还是不知怎么的就在匿名论坛 4chan 被泄露了，目前种子文件已被合并至 GitHub 的 Facebook Research 页面，并收获 8.5k+ 小星星⭐

In Summary

超越 GPT-3 的开源替代，连预训练数据都是公开可得的——相当于告诉大家你有计算资源就可以尝试复现大模型。

文章链接 - https://arxiv.org/abs/2302.13971

Theory of Mind May Have Spontaneously Emerged in Large Language Models

大语言模型可能自发地发展心智

作者：Michal Kosinski｜组织行为学助理教授 @Stanford GSB

「心智理论（Theory of Mind, ToM）」，即人类推测别人的想法和感受的能力，对于人类社交互动、沟通、同理心、自我意识和道德观念都非常重要。

Michal 让几个语言模型完成了一些经典的「错误信念任务（False Belief Task）」，这些任务通常用来测试人类的心智理论能力。结果发现，2022 年 1 月发布的 GPT-3（davinci-002）能够完成 70% 的任务，相当于 7 岁的孩子；而 2022 年 11 月发布的版本，davinci-003，则能够完成 93% 的任务，相当于 9 岁的孩子。这意味着，随着语言模型的语言技能不断提高，可能会自然而然地产生类似于人类心智理论的能力。

而 2 月 20 日，认知神经科学家 Simon Baron-Cohen 惊喜发现，GPT-3.5 又通过了一些新的 Faux Pas Recognition 测试。