这里是“头号AI玩家”的新栏目：AIGC月刊。每月更新一次，以下是我们梳理汇总的2024年2月AIGC行业趋势、AI热点要闻、新上线的AI工具和AIGC热门应用案例。希望能带给你一些启发和思考，也欢迎在评论区和我们交流你的想法～

2月AIGC行业趋势

Sora惊艳亮相，AI视频迎来突破性飞跃

2月16日，OpenAI推出首款文生视频大模型Sora（官网：https://openai.com/sora），可以根据提示词生成长达1分钟的视频，包括高度细腻的场景、复杂的摄像机动作和多个情感丰富的角色。此外，该模型也支持生成图像，支持将现有静止图像生成视频，能对现有视频进行扩展、将两个视频衔接并填充缺失的帧。

Sora建立在对DALL·E和GPT模型的研究之上，OpenAI表示“Sora是能理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现AGI的重要里程碑”。

目前Sora仍未向公众开放，OpenAI称正在与红队人员合作，对模型进行对抗性测试。同时，OpenAI开通了社交平台TikTok官方账号，专门发布由Sora生成的视频，在5天内涨粉超10万，目前获赞超120万，粉丝数达20.8万。

“头号AI玩家”梳理了所有已发布的Sora测试案例，并和9位业内一线玩家探讨了Sora对内容行业、尤其是视频领域带来的影响，以及AIGC冲击下，谁会被淘汰，未来内容从业者又需要具备什么样的核心竞争力。

附2月OpenAI相关动态：

OpenAI一键调用GPTs功能正式上线
OpenAI推出Vision Pro版ChatGPT
ChatGPT测试记忆管理功能
消息称OpenAI估值达800亿美元
OpenAI取消GPT-4 Turbo的每日调用限制
Sam Altman就芯片项目寻求美国政府的支持
美国专利局拒绝OpenAI将“GPT”注册为商标
OpenAI创始成员Andrej Karpathy离职
马斯克连续发文施压OpenAIOpenAI秘密项目Feather曝光
OpenAI称《纽约时报》“黑入”了ChatGPT ，人为制造版权诉讼
OpenAI和微软被起诉盗版

国内公司加码大模型，AI产品相继落地

过去一个月，OpenAI、微软、谷歌、英伟达、苹果、Meta、亚马逊等头号AI玩家们都发布了有关AI大模型、芯片或产品的消息，比如苹果放弃了造车业务，近2000人团队大部分将转向生成式AI研发。

来自海外科技公司的激烈竞争，迫使国内公司加快追赶大模型进展。我们看到互联网大厂接连推出多款AIGC新应用，比如百度的文心一言上线数字分身功能，阿里巴巴的通义千问上线AI生成全家福和拜年视频功能。

其中，字节跳动被曝正在加大投入对AI产品的研发，成果相继落地，包括抖音电商、巨量引擎等业务部门，其中动作最大的Flow部门除了上线豆包、扣子等AI产品外，还将推出AI角色互动App“话炉”，以及一款或为图片方面的AI产品“PicPic”。原抖音集团CEO张楠也宣布辞任，重心转向剪映。

此外，还有多家AI创企和机构推出了基于生成式AI技术的产品，AIGC行业正在加速产品化和商业化。

相关阅读：《剪映的AI革命，字节的AI狂想》

监管出手！警惕AI造谣诈骗

随着AI技术的发展，其伦理和安全性问题也受到更多关注。

2月1日，公安部网安局通报了一起利用AI发表造谣文章赚取佣金案件。网民王某托某款手机软件的AI题词功能写文章，在系统中输入带有“杀人、失踪”等敏感字眼的提示词，附以时间地点，就能自动生成博取眼球的文章，结果被大量网民点赞、留言、转发，严重干扰社会秩序。目前，齐齐哈尔公安机关对王某处以罚款，同时责令删除相关谣言。

为了维护合法有序的内容生态，平台方和AI公司开始采取相关预防措施。

2月5日，小红书官方发布了一则关于AI创作内容的平台主张：

1.尊重他人肖像权，禁止任何以他人照片或视频进行换脸的行为
2.主动声明AI技术创作的内容，避免用户混淆
3.禁止任何通过AI技术制作和发布的违反社区规范的内容
4.禁止任何使用AI创作内容虚构使用体验或效果进行商业变现的行为

在海外，AI生成的知名歌手Taylor Swift（泰勒・斯威夫特）的不雅照引起争议，OpenAI随后宣布将在DALL-E 3生成图像元数据中添加C2PA（内容来源和真实性联盟）的水印，用户可凭此查询图像来源。Meta也宣布在旗下社交平台Facebook、Instagram和Threads等标注AI生成的图像。

你可能错过的10大AI热点

1. 字节上线AI Bot创建平台Coze（扣子）

2月2日消息，字节跳动上线了“Coze（扣子）”AI Bot创建平台，用户能够快速创建和优化专属AI Bot。Coze支持用户添加插件或上传数据库，提供了必应搜索、文生图ByteArtist、效率办公等各类插件。整个操作流程，和创建GPTs以及Poe机器人无异，此前“头号AI玩家”发布过完整创建流程。

创建完成后，用户可以将AI Bot发布到飞书、豆包、微信公众号（服务号）等，Coze还上线了机器人商店。

国内版扣子：https://www.coze.cn/

2. AI创业公司月之暗面融资8亿美元

2月26日消息，据知情人士透露，国内大模型独角兽月之暗面近日获得了8亿美元新融资，而非此前传出的10亿美元。在8亿美元融资中，阿里投资了7.9亿美元，砺思资本投资1000万美元。小红书、美团原计划战略投资，但阿里将月之暗面估值提高了50%，并且重仓持股40%，所以后者主动退出了。

据了解，月之暗面已在秘密研发通用多模态模型，预计今年内将推出。目前，月之暗面已经完成千亿参数规模的自研通用大模型，面向消费者的“kimi智能助手”。

3. 谷歌相继发布大模型Gemini 1.0 Ultra、Gemini 1.5、Gemma

继推出Gemini 1.0 Ultra后，2月15日，谷歌发布了新一代多模态大模型Gemini 1.5，其性能在多个维度上有显着改进，并且1.5 Pro实现了与1.0 Ultra相当的质量，同时使用更少的计算。该模型在长上下文理解方面取得突破，能持续运行多达100万个tokens，实现迄今任何大型基础模型中最长的上下文窗口。

2月22日，谷歌推出全新的开源模型系列Gemma，其采用了与创建Gemini模型相同的研究和技术，但更加轻量级，同时保持免费可用，模型权重也一并开源了，且允许商用。据介绍，Gemma在关键基准测试上超过Meta Llama2和最强混合架构开源模型Mistral，而且能直接在开发者的笔记本电脑或台式电脑上运行。

Gemini 1.5博客：https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#architecture

Gemma官网：https://ai.google.dev/gemma/

4. “卖AI课的清华博士”李一舟陷争议

Sora爆红后，AI课程因疑似“割韭菜”争议再度登上风口浪尖，头部博主李一舟陷入了退款风波，一批AI课程导师也因此成为话题焦点。李一舟的“每个人的人工智能课”售价199元，主要在抖音直播间售卖，新榜旗下抖音数据工具新抖显示，近一年来，该课程预估销量近25万份，其直播累计预估销售额近5000万。

相关阅读：《2倍速怒刷李一舟199元AI课，AI圈的“韭菜”这么好割？》

5. Stability AI发布Stable Diffusion 3，与Sora同源架构

2月22日，Stability AI推出Stable Diffusion 3早期预览版，并表示这是他们迄今为止最强大的文本生成图像模型，在多主题提示、图像质量和文本渲染能力方面均有显著提升。Stable Diffusion 3和Sora一样采用了diffusion transformer架构，似乎由此获得了和Sora一样“理解和模拟物理现实”的能力。目前Stable Diffusion 3尚未全面开放，可申请加入候补名单。

Stable Diffusion 3官网：https://stability.ai/stablediffusion3

6. 艺术圈“AI三杰”翻车了，用AI作画冒充“手绘”

2月21日，三位自称中国美术学院学生的博主发布了一条“手绘”画作的视频，融合流行梗“高速运转的机械进入中国”画出了一幅大尺寸且细节丰富的作品，视频全网获赞超百万。但很快这幅画作就被质疑是用AI生成的，网友还找到了极为相似的另一张AI绘图。

2月23日，其中一位博主“曾bobi”对此发布视频道歉，称自己的确在创作中使用了AI，没有如实标明，让大家误以为是手绘的，并解释了如何借助AI创作这幅画的过程。虽然他强调过往作品是个人独立完成的，但仍被质疑使用了AI生成，网友将他们称为艺术圈“AI三杰”。

7. 全球首例：广州互联网法院判决AI生成奥特曼侵犯著作权

2月27日消息，广州互联网法院近日生效了一起生成式AI服务侵犯他人著作权判决，这也是全球范围内首例生成式AI服务侵犯他人著作权的生效判决。该案认为，被告（某AI公司）在提供生成式AI服务过程中侵犯了原告对案涉奥特曼作品所享有的复制权和改编权，并应承担相关民事责任。

相关阅读：《全球AIGC平台侵权第一案宣判！“奥特曼”战胜AI》

8. 谷歌发布基础世界模型Genie，能生成可交互虚拟世界

2月27日消息，谷歌发布了基于生成式人工智能的基础世界模型“Genie”，其拥有110亿的参数规模，能够通过一张图像提示生成可交互的虚拟世界。谷歌强调，Genie是一种通用方法，不需要额外的领域知识，并且可以转移到真实的人类设计环境中，应用于游戏、设计、XR、机器人等多个领域。

项目主页：https://sites.google.com/view/genie-2024/home?pli=1

9. Mistral AI发布旗舰模型Mistral Large和聊天机器人le Chat

2月27日，法国生成式AI独角兽Mistral AI发布全新旗舰模型Mistral Large。据介绍，Mistral Large是先进的文本生成模型，逻辑推理能力出色，能处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在衡量多语言理解任务基准MMLU上，Mistral Large的表现仅次于GPT-4。

该模型上下文窗口为32K tokens；擅长英语、法语、西班牙语、德语和意大利语；原生支持函数调用。此外，微软官方宣布与Mistral AI建立长期合作伙伴关系。目前，Mistral Large可在微软Azure AI和Mistral AI 平台上使用，也可以通过类似于ChatGPT的网站le Chat进行测试。

le Chat体验地址：https://chat.mistral.ai/chat

10. 阿里发布AI图生视频模型EMO

2月28日消息，阿里巴巴智能计算研究所近日推出了一款名为EMO（Emote Portrait Alive）的生成式AI模型，能够凭一张人物肖像照片和音频，生成逼真的声画同步视频，还支持根据音频长度生成不同时长的视频内容。

项目地址：https://humanaigc.github.io/emote-portrait-alive/Github（模型和源码待开源）

新上线的5个AI工具（功能）

1. Luma AI发布AI文生3D工具Genie

近日，Luma AI正式发布文生3D模型：Genie，将3D模型生成时间降至10秒以内，为了方便用户使用，还提供手机端、网页端和Discord等三种体验途径。（在线体验地址：https://lumalabs.ai/）

之于专业人士，AI生成3D模型可以无缝衔接到已有的工作流中。

提示词：Pikachu holds a pot of cacti

而对于从未接触过3D建模的普通玩家，Luma AI除了能丝滑生成可供拖拽“把玩”的赛博手办，还支持3D重建现实中的场景和物体，成了Ins网红、甚至明星MV酷炫镜头生成的绝佳利器。

用Luma AI的3D重建功能制作的希区柯克变焦镜头，Instagram@Karen X Cheng

近期使用Luma AI打造的3D重建视频在Ins上最受欢迎的是航拍镜头，最高的一支视频播放量超430万，收获点赞破31万。

相关阅读：《谁能想到，一款3D建模AI工具成了Ins网红的视频创作利器》

2. 谷歌推出AI文生图工具ImageFX

2月5日消息，谷歌推出了一款新工具ImageFX，主打堆砌简短提示词，快速生成高质量图片。用户可以通过简单的文本来创造图像，然后ImageFX会将提示词自动切分成单词、短语，谷歌称之为“表达性组件”。ImageFX调整完提示词之后，用户可以选择优化单词，调整不同的参数。

左图由ImageFX生成，右图为Dall·E 3

提示词：An astronaut skiing on the moon with Earth in the background, highly detailed, realistic

总体来说，Imagen2更适合生成真实感的图片，比如人物肖像，而DALL·E 3生成的结果更接近用户的提示词。

体验地址：https://aitestkitchen.withgoogle.com/tools/image-fx

3. AI视频生成工具Stable Video开放公测

2月21日，Stability AI旗下的视频生成产品Stable Video开放公测，产品基于Stable Video Diffusion 1.1架构打造，支持文生视频和图生视频功能。据“头号AI玩家”实测，目前Stable Video对于静态物体、风景等效果不错，但一旦遇上人脸，就有可能出现失败的情况。

Stable Video官网：https://www.stablevideo.com/

4. Stability AI推出图像放大工具CreativeUpscaler

近日，Stability AI推出了一个基于AI的图片生成器CreativeUpscaler，该模型整合了多种前沿的机器学习算法，如Stable Diffusion、DALL-E2、VQGAN+CLIP等，支持生成各种风格的图像。用户只需要提供文字描述，CreativeUpscaler就可以自动生成图片。同时，它还有图像上样器功能，可以将上传图像的分辨率升级到4K，并强化一些原本没有的新细节。

5.Pika推出“对口型”功能Lip Sync

2月27日，AI视频生成平台Pika推出人物配音功能，由AI语音生成平台ElevenLabs提供技术支持，同时上线“对口型”的唇形同步功能，上传图片或视频后即可看到新按钮“Lip Sync”，目前仅支持专业版Pro用户体验。

5个AIGC热门案例

1. AI红包封面爆火，分分钟躺赚千元

对于没有绘画基础的创作者来说，原创设计一个红包封面并不容易，而有了AI绘图工具的帮助，一天就能产出数十套封面，切中市场需求的话甚至能卖出爆款。

比如在小红书搜索红包封面，能看到不少销量在100以上的商品。有的静态图红包封面售价4.9元，已卖出1132份，销售额超5000元。

还有更复杂的动态红包封面售价6.8元，目前已售8928份，销售额超6万元。

我们可以借助AI文生图/图生图功能来快速制作红包封面，免费的AI绘图工具包括微软Copilot、Stable Diffusion、文心一格、腾讯混元等，专业玩家可以直接上手付费的Midjourney。

据“头号AI玩家”观察，目前小红书、淘宝上的红包封面价格以2~8元/张为主，主题多是龙年春节，霸气金龙、可爱萌龙、龙年暴富等风格较受欢迎。

2. AI拜年小游戏刷屏：决战拜年之巅

这是春节前走红的拜年模拟器“决战拜年之巅”，玩法和文字聊天小游戏差不多，你要在“相亲相爱一家人”群聊中依次面对七大姑、八大姨、六大婶、五大叔、二大爷等众多亲戚的灵魂拷问，每个人都有针对性的话题如工作、恋爱。

放弃平时唯唯诺诺的回答，现在你可以尽情发疯：

什么工作？美国副总统

你的回答会影响亲戚的情绪值，鸡同鸭讲也会让他们放弃和你聊天。和所有亲戚们聊完后，最后你还要面对大BOSS妈妈。对话结束后，系统会根据情绪值等因素生成不同的成就。回答完美的“大孝子”有机会被纳入族谱哦！

“决战拜年之巅”出自ChatMindAI团队，由国产大模型GLM（智谱AI）提供支持。目前原网站已下架，感兴趣的玩家可以登录智谱清言体验（https://chatglm.cn/main/gdetail/65bc598949828c64d52e6f44）。

3. AI视频上央视春晚，创作者详解制作过程

2024年的龙年春晚，可以说史上AI含量最高。除了明星的营业照用上了AI图外，更有AI生成视频在春晚舞台亮相。在节目《枕着光的她》开头，有一段陶瓷小人跳舞的画面，这便是由AI生成的。

图片来源：全民熊猫计划；视频截图

2月9日，短片创作者“海辛”和“Simon阿文”复盘讲解了这个AI舞蹈的详细制作过程。在这个项目中，他们用到了ControlNet、LCM、AnimateDiff等技术，将真人双人舞转绘成陶瓷质感的舞蹈。关于保持角色一致性的方法，他们提到，相比单人转绘后期合成，直接引入ControlNet tile模型，能够更快速便捷地固定住双人角色特征。

另外，稳定扩散模型搭载IPAdapter插件，可以大大降低AI绘画生成的随机性。用一张图就可以引导AI生成指定材质的效果，比如陶瓷、青花瓷、翡翠质感等等。

‍4. 如何打造一个AI虚拟网红

自此前Instagram博主Emily靠堪称完美的颜值在Ins4周内涨粉超20万之后，最近，外网又有一位叫Lexi Love的AI博主火了。

Lexi Love的Ins账号数据

她的角色设定依旧是模特，背后的创作者靠发“假图”，妥妥实现了“躺着赚钱”。据背后的创作团队Foxy AI称，Lexi每个月都能收到超20名用户的求婚、约会邀请，平均每月赚取3万美元（折合约人民币20余万元）。

受到西班牙AI模特Aitana成功赚取流量的启发，X平台博主“Emm”用Aitana上传的12张个人形象图，训练了一个LoRA模型。他认为，2024年将是AI虚拟博主之年，完全由AI生成的角色将不再是一个概念，而是可以参与商业，直接赚钱。

结合“Emm”的创作经验，“头号AI玩家”也进行了一番实测。AI虚拟博主的打造，关键是保证面部、身材等人物的一致性，而训练LoRA模型能够较大程度降低生成的随机性。

相关阅读：《爆火的AI博主，是“摇钱树”还是“坑”？（附实测教程）》

5. “复活”已逝爱人？现在流行AI声音克隆

我们见识过AI合成视频、动态图片的技术，而现在合成语音也变得轻而易举。

最近在商汤2024年年会上，已经去世的商汤创始人汤晓鸥的数字人现身表演脱口秀。据了解，通过商汤如影数字人技术，仅需要5分钟真人视频素材，就可以生成动作声音自然、口型准确、多语种精通的数字人分身。

AI克隆人声要怎么做？

以AI音频工具ElevenLabs为例，只要上传1分钟的声音素材，就能够把任意一段音频，快速生成为中文、葡萄牙语、日语等在内的29种语言，还保留声源的音色特征和情感色彩。

“头号AI玩家”体验下来，对于很多创作者来说，如果是进行剧情重制、制作游戏二创视频，或是代替个人原声进行解说，目前AI工具中的音色克隆功能其实完全够用。比如抖音旗下的视频剪辑工具剪映内置了“声音克隆”的AI功能，方便视频创作者一键实现文本到语音的转换。

还有一些专业向的声音工具，比如大饼AI、出门问问旗下的魔音工坊等，都支持一键改变创作者的音色，让音视频的创作有了延展发挥的空间。

从最早AI音频生成技术让AI孙燕姿唱歌、让郭德纲讲英文相声，到现在AI复刻博主音色、“复活”逝者的ToC产品，AI音频的可玩性正在不断扩大。在大语言模型的加持下，我们离打造个人“数字生命”又近了一步。

「头号AI玩家交流群」进群方式：添加微信“banggebangmei”并备注姓名+职业/公司+进群，欢迎玩家们来群里交流，一起探索见证AI的进化。

也欢迎围观小红书@头号AI玩家，我们在这里日常练习AI绘画。

欢迎分享、点赞、在看

一起研究AI

继续阅读

阅读原文

AIGC 2月刊 | 一文总结3个趋势、10大热点、5个创作工具