「每周一三五更新」
撰文:何昕晔、杨秋秋
编辑:王杰夫
Key Points
Midjourney推出独立网站;
时隔一年,OpenAI再砸数百万美元孵化AI公司;
Gemini模型开放了API调用,暂时免费;
ChatGPT将可引用Politico等权威媒体的内容;
稚晖君公司完成新一轮融资。
Midjourney推出独立网站
12月13日,知名AI图像生成工具Midjourney终于推出了独立网站,并称其为Midjourney Alpha,允许用户直接在网站上生成图像,而不需要借助Discord平台。
Discord是一款年轻人中非常流行的社交软件,结合了直播、聊天、支付等功能;过去一年来,很多生成式AI应用都喜欢通过这个平台发布产品,Midjourney也不例外。
暂时仅向「制作了超过1万张图像」的用户开放
Midjourney的网站版本目前并没有完全开放测试,而是只面向特定用户开放,要求是用户已经在Midjourney上生成了超过1万张图片。用户可以在Discord上登录Midjourney,通过输入斜杠命令「/info」来查询生成的图像数量。不过公司创始人David Holz表示,它将在下个月向更广泛的用户开放。
Midjourney Alpha有啥大变化?
Midjourney Alpha的界面比Discord上的更加简洁,交互也更加直接。
X平台(原Twitter)用户Nick St. Pierre演示Midjourney网页版的各种功能。
提示词输入框被挪到了页面顶部,标有「Imagine…」的文本,用户可以在该文本框中输入提示词来生成图像,图像就显示在提示框下方。
与Discord版本最大的不同,Alpha版本提供了一个可视化的调节界面,放在生成图像的右侧。
它允许用户使用滑块和标签设置宽高比、艺术程度或样式等参数。而此前的Discord版本则要求用户在使用过程中输入专业的描述词汇来生成图像。例如,在Discord版本中,用户需要输入「–ar 4:3」来输出一个横向图像,而在Alpha版本中,用户只需要单击提示设置菜单中的「横向」选项,Midjourney就会自动生成对应的横向图像。
此外,想要对现有图片继续迭代也更加容易,你可以在提示词输入框附上图片,或者直接点击已生成图片右侧的「使用此图片」按钮,之后再输入提示词,它就会基于图片和提示词生成新的图片了。
一个更加「用户友好」的版本
OpenAI DALL-E 3问世后,因其与ChatGPT的关联以及任何人都可以使用的用户友好的界面,让其在文生图领域占据一席之地。而此前的Midjourney版本中,用户被要求在Discord平台上注册才能使用Midjourney,相对复杂的使用流程可能在一定程度上「劝退」了部分用户。而新的Midjourney Alpha网页支持用户直接在网站上使用AI来生成图像,很大程度上简化了使用的流程。该版本中提供的新功能也让用户能够更加简单地使用Midjourney。
参考链接
https://alpha.midjourney.com/home?callbackUrl=%2Fexplore
时隔一年,OpenAI再砸数百万美元孵化AI公司
12月13日,OpenAI创业基金宣布开放第二期「Converge」项目的申请。这项计划主要面向AI领域的工程师、设计师、研究人员和产品制造商,项目为期6周,从2024年3月11日到2024年4月19日。
被选中的参与者可以获得100万美元的资金,还可以加入OpenAI的开发者社区。在本次项目期间,活动主要包括技术讲座、办公时间、社交沟通,以及与领先从业者的对话。项目共开放10到15个入选名额。
OpenAI称,这项计划适合「任何使用AI进行构建或渴望进行构建的人」,参与者的产品不需要构建在OpenAI 的API上。创业基金鼓励来自不同背景、学科和经验水平的创始人申请,包括美国以外的创始人。
「Converge」如何成立的?
「Converge」计划于去年11月成立,这个基金当时就募得1亿美元,得到包括微软在内的公司的支持。第一期项目为期5周,同样为入选者提供100万美元的支持,以及抢先体验OpenAI模型和量身定制编程的机会。
在担任OpenAI CEO前,Altman担任著名创业公司孵化器YC的总裁。
第一期「Converge」总共投资了12家AI创业公司,例如做智能法律助手的Harvey,做智能语言导师的Speak,做智能日历的Milo等等。Altman当时表示,OpenAI想要寻找正在解决医疗保健、气候变化和教育等问题的公司,在这些问题上,AI驱动的应用程序或方法可以「造福全人类」。
参考链接
https://openai.fund/news/converge-2
Gemini模型开放了API调用,暂时免费
12月13日,Google发布多项AI功能更新,包括多模态大模型Gemini Pro现在可以通过API调用,并且Gemini Pro和新的文生图模型Imagen 2还可以通过Google模型仓库做更定制化的使用。此外,Google版本的智能助手Duet AI也得到增强,推出了适用于软件开发与安全运营场景的Duet AI。
Gemini Pro API可以免费试用
Google于12月6日发布了Gemini大模型,按照能力由弱到强分为Nano、Pro、Ultra三个版本。具体来说,本次上线的模型是Gemini Pro与拥有图像识别能力的Gemini Pro Vision。
Google AI Studio页面。
为了方便开发者更好地使用Gemini Pro API,Google搭建了一个名为Google AI Studio的网站(地址:makersuite.google.com/app),它类似于OpenAI的Playground,开发者可以在此对模型做一些细微的调整,例如调整模型回答的温度,温度越高越感性,相反就越理性。
Gemini Pro API目前开放免费试用,但每分钟最多可以查询60次,对于个人开发者是足够了。Google称未来将推出付费版。以目前流出的价格来看,Gemini要比GPT便宜很多。拿Gemini Pro与能力上对标的GPT-3.5 Turbo做比较,前者每输出1000个字符,需要花费0.0005美元;而后者输出同样多的字符,则需要花费0.002美元,是前者价格的4倍。
Google继续丰富自己的模型仓库
此外,今天Google面向企业级开发者的机器学习平台Vertex AI还增加了多款模型。
在此之前这个模型仓库已经拥有上百款模型,例如Google之前的招牌模型PaLM 2,以及开源模型Llama 2等。这一次新增加了多模态大模型Gemini以及新版文生图大模型Imagen 2,此外还有第三方的模型Mistral、ImageBind和DITO。
在这个模型仓库中,开发者能够实现比单独调用API复杂得多的功能,包括利用特定领域或公司的专业知识数据定制模型、在低代码/无代码环境中构建搜索和对话Agent(智能体)等。
  • 多模态大模型Gemini
    与Google AI Studio类似,模型仓库也上线了Gemini Pro与Gemini Pro Vision两个模型。不过这个使用就不是免费的了,开发者需要按照使用量向Google云付费。
Vertex AI页面。
  • 文生图模型Imagen 2
    2022年5月,Google推出图像生成模型Imagen。此次,Google发布了该模型的2.0版本。Google称,新模型在图像质量方面显著提高。
    首先,Imagen 2的自然语言能力提高了,可以理解更具描述性的长格式提示,并对有关图像中元素的问题提供「详细答案」。其次,新模型更新了「logo生成」功能,可以为企业、品牌和产品生成各种创意徽标,还能够将这些logo覆盖到产品、衣服、名片上。
    OpenAI推出的DALL-E 3和亚马逊推出的Titan Image Generator具有与Imagen 2相似的功能,但Imagen 2支持多种语言,除了英语,还支持中文、印地语、日语等。此外,Imagen 2在版权保护方面也有所进步,利用SynthID技术(DeepMind开发的一种方法),将隐形水印应用于其创建的AI图像。
新场景下的Duet AI
Duet AI可以看作Google版本的Copilot(微软提出的概念),Google希望让这个智能助手深入各种工作场景中。8月30日,用于文档处理的Duet AI就已经推出,用户可以利用它撰写文章、表格和演示文稿。这一次,Google把这个智能助理带到了代码写作与运维安全两个领域。
  • 代码生成工具Duet AI for Developers
    Google推出的代码工具Duet AI在功能上与微软的GitHub Copilot类似,具备代码补全、代码生成等功能,还支持对AI日志汇总和错误解释。Duet AI for Developers目前支持20多种语言,包括C、C++、Java、JavaScript和Python等。
    目前这个智能助手背后的模型还不是Gemini,但Google表示未来几周将会更新Gemini。2024年2月之前,这项功能免费,之后将以每月19美元的标准收费。
  • 运营安全工具Duet AI in Security Operations
    Chronicle Security Operations是Google为企业推出的云服务安全分析平台,现在Google将Duet AI带到这个平台上,它将帮助企业检测、调查各种威胁。并且通过大模型分析安全警报,快速生成优化建议,提升效率。
参考链接
https://cloud.google.com/blog/products/ai-machine-learning/bringing-gemini-to-organizations-everywhere
ChatGPT将可引用Politico等权威媒体的内容
12月13日,全球新闻出版商Axel Springer宣布与OpenAI达成合作,将允许OpenAI使用旗下的新闻媒体内容来训练模型,并且允许ChatGPT在聊天时引用这些新闻媒体内容。
OpenAI使用新闻数据来训练AI模型
这项交易涵盖了Axel Springer旗下所有的媒体品牌,包括Politico、Business Insider和欧洲媒体Bild和Welt。根据协议,这些媒体内容将作为一个经过审查和核实的新闻内容数据库被用于训练ChatGPT的AI模型,使其能够提供准确、实时的信息。
不仅如此,OpenAI将使用这些品牌的媒体内容来响应用户的提问。在回答中,ChatGPT对新闻内容进行总结,向用户提供简短摘要和原始新闻的网址链接。Axel Springer还将向OpenAI提供实时的新闻报道,以便ChatGPT及时向用户提供最新回答。
合作对双方有什么意义?
  • Axel Springer:合作双方并没有公开具体的财务条款,但知情人士表示,每年OpenAI支付的金额将高达「8位数」。Axel Springer将因其用于训练AI模型的历史内容获得一次性付款,而此后实时的新闻消息将根据年度许可协议支付。除了收益以外,Axel Springer旗下的新闻内容将在ChatGPT的响应结果中占据「有利地位」,从而获得额外的流量和订阅收入。
  • OpenAI:对于缺少训练资源的OpenAI来说,与Axel Springer的合作能够帮助OpenAI从准确的实时新闻数据库中受益,从而向用户提供更加真实、准确的回答,并降低相关的法律风险。此前,百家媒体机构通过安装阻拦器来阻止OpenAI在未经许可的情况下使用其新闻内容。
Axel Springer是OpenAI合作的第二家主流新闻出版商。今年7月,OpenAI与美联社达成协议,美联社将其部分新闻报道档案授权OpenAI,美联社将获得OpenAI的技术和产品专业知识,但同样也没有公布交易的财务细节。
在今年早些时候,OpenAI、Google、微软和Adobe与多家新闻集团围绕AI产品展开了会谈,更多AI公司和新闻出版商之间的合作可能将会持续跟进。
参考链接
https://www.ft.com/content/7cd439bc-29cd-44f9-8676-4761e27bc3a8
稚晖君公司完成新一轮融资
12月14日,智元机器人完成新一轮A3融资,金额超6亿元人民币,投前估值70亿元。本轮投资方包括蓝驰创投、中科创星、鼎晖投资等。本轮投前,智元机器人估值为35亿元。智元机器人的创始人是「稚晖君」彭志辉,他曾通过「天才少年计划」加入华为。去年12月27日,彭志辉发帖表示将离开华为,投身机器人创业项目。8月18日,智元机器人发布了第一款产品人形机器人「远征A1」。
Bonus
GPT-4.5疑似泄露
12月15日,一位Reddit用户的帖子疑似泄露了GPT-4.5的部分信息。截图显示,GPT-4.5具备语言、音频、视觉、视频和3D多模态能力,并且可以处理复杂的推理和跨模态理解。GPT-4.5的调用价格是0.06美元/1k tokens(输入)和0.18美元/1k tokens(输出)。目前,该爆料帖已删除,AItman在社交媒体上否认了这一消息。但本月初,OpenAI爆料账号Jimmy Apples也表示,OpenAl或将在本月底前发布GPT-4.5,其竞争对手Anthropic可能也会在本月内发布多模态模型。
-END-
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。
和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。
在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。
以下是最近发生的其他智能资讯
与记者交流,可添加微信(请备注公司名称和姓名):
王杰夫 微信号: wjfsty
张司钰 微信号: helianthus351
吴洋洋 微信号: qitianjiuye
喜欢就关注我们吧,记得设为星标」
继续阅读
阅读原文