ChatGPT开启的「AGI OS」时代,创业者如何做应用开发 | 5Y View
平均阅读时长为 43分钟
石允丰 五源投资人
人类的特殊之处在于,人拥有了足够的智慧来发明科学的方法和工具,工具的进化是人类文明的里程碑。我相信AI是人类在21世纪的最重要工具。
在21年,我们认为“2010年手机前置摄像头的成熟,让视频创作的门槛大幅降低,催生了今天我们每天都在刷的抖音快手。我们一直在思考,什么是今天让创作门槛100倍降低的技术变量,那AIGC是我相信的一个答案。”
2年后,我们有了GPT和扩散模型的作为新一代开发者的新工具,特别期待开发者使用新工具能创造出独特的用户体验。欢迎和我们交流。
文章转载自时域科技
作者:郭靖 时域科技创始人
这些年,作为创业者,我们经历了无数的科技主题:新能源车、自动驾驶、元宇宙、web3、VR/AR…
但从未见过一个像ChatGPT这样,在如此短的时间里,让如此多的奋战在一线的开拓者们(创业者、科学家、投资人)看到下一个十年的大事,与此同时,又让如此多的大众用户在第一时间体验、沉浸,并将其融入到自己的日常工作流当中。
ChatGPT的横空出世,被很多人形容成“又一次的电力革命”,“下一代的操作系统”。
作为科技创业者,我们当然无比兴奋,但伴随着兴奋的,也有大大的焦虑。
兴奋的是,全球的创业热情再一次被点燃。在北京,10年前中关村创业大街的车库咖啡振臂一呼“老子要创业”的时代好像又回来了。
焦虑的是:该怎么做呢?毕竟不是所有人都有条件或者都应该去再做一个ChatGPT。
那么对于大部分创业者、科技领域的从业者们,该怎么与ChatGPT发生关系?
换句话说,未来,在以ChatGPT为代表的AGI平台上,应用创新与开发的核心范式是什么呢?
本文将结合我们自身探索ChatGPT的例子,以非技术的视角,提供一个简单的在ChatGPT上开发应用的思路。
首先说结论:我们认为,在AGI时代应用创新的机会将会无比巨大。且这个大机会,就算不是属于每个人的,也一定不是属于少数人的。
介绍一下我们在做的事儿
我们的公司叫时域科技。我们在做下一代的 AI voice 技术。让 AI voice 具备较高的情感表现力,同时具备全栈的能力(例如人类的voice不仅仅能说话,还能唱歌,哭,笑,叫喊等)。其中,我们的歌声合成产品 ACE Studio ,可以让 AI 演唱出超越人类的出品级歌声。目前全球音乐创作者已经使用 ACE 创作出上百万首AI演唱的歌曲,这些 AI 演唱的歌曲在全网有累计近10亿的总播放量。
我们的长期愿景是使用高情感的AI Voice技术,建立AGI时代人类与AI交互的情感桥梁。
我们使用 ChatGPT 的一个例子
在 ACE Studio 背后的 AI voice 技术中,有一项技术叫做“音色混合”。通过 multi-speaker 的架构,以及模型的迁移学习能力,可以让模型中的歌手按照比例进行混合,从而产生出无限个世界上不存在的全新音色。
举例说,假设我有一个歌手是学友,厚重深情的成男音。还有一个歌手是王菲,空灵通透头腔共鸣很赞的女音。可以通过这个技术,创造出「学友50% + 王菲50%」,从而诞生出一个既空灵又宽厚的性别中立的全新歌手。——实际上,因为我们的模型中有上百个歌手,且可以分多个维度,按照任意数量任意比例(甚至比例为负)混合,可以创造出几乎无穷的音色。
这个过程,就像油画的调色一样,有了足够多的原色,然后凭感觉进行混合,调出自己想要的颜色。
问题是,感觉这玩意还是太抽象了!如果说,我们可以让用户通过语言描述一个自己想要的音色(例如:给我一个温柔中略带稚气…的女生音色),然后返回给他一个合理的混合音色。这就很酷了。
这个idea我们最先想到的实现路径,是训练一个 text-to-音色的AI模型:输入文字描述,输出音色配方。但这里的问题是,这需要收集大量用户对音色的描述文字,以及对应的音色配方作为训练数据。
并且这样的方式很不灵活,假设我们的模型更新,增加了新的歌手,就要重新编写训练数据,重训这个text-to-音色模型。
于是我们思考,如何借助ChatGPT的能力,实现这一功能。(例如让用户说“给我一个温柔中略带稚气…的女生音色”,我们可以给出符合预期的音色混合结果)。
如果直接提问“给我一个温柔中略带稚气…的女生音色”,ChatGPT一定不会有答案。首先是,ta根本不知道我在说的是ACE Studio当中的一种音色混合的技术。其次,即使ta知道了这一点,也无法知道如何混合,才能获得我想要的答案。
那么,接下来的解决方案就非常直接了,ChatGPT不知道什么,我们就告诉ta什么:
第一步,我们用语言描述告诉ChatGPT“音色混合”这一技术的原理:
第二步,我们把“原色歌手”的音色通过语言描述给ChatGPT。
至此,我们基本让ChatGPT获得了足够的上下文。这时,我们提出让ta帮我们混合音色的需求:
以下是ChatGPT给出的答案:
不难想到,如果我们将上述提问中“红框”内的内容,替换成用户输入的音色混合描述。将其余内容作为一种预设的prompt,一同输入给ChatGPT。并将ChatGPT回答中蓝框的内容提取出来,去驱动我们音色混合的参数系统。就完成了如果借用ChatGPT这样的通用AI对话系统,实现“让用户用自然语言创造混合音色”这个与业务逻辑高度特化的需求了。
让我们来听听,ChatGPT混合出的音色结果:
还不错,挺符合预期的。
并且,很自然的,我们可以引导用户对ChatGPT给出的混合音色进行反馈(将该用户自身对该音色的主观感受、调整诉求等用自然语言映射到ChatGPT的信息空间中),延续话题,像甲方指挥乙方一样,不断让ChatGPT为其调整音色配方,直到满意。
调整后的音色,更加接近我心目中的诉求,同时又避免了这个凭空创造出来的歌手过于接近某个原生歌手的情况:
在第二轮对话中,ChatGPT不仅很好的理解了我微妙的调整需求,同时还对自己的调整方案进行了合理性解释,并表达了“混合歌手的比例是一种非常主观的调整”,暗示了这玩意儿见仁见智,非常欢迎继续配合微调。
这显示出,使用一个通用的AGI自然语言界面与用户打交道的好处。ta足够的善解人意,听得懂用户真正的诉求,同时可以较好地维持context,在过程中加入自己的思考。而我们的“音色混合模型”则是作为下游任务的执行者,ta需要做的则是能够听懂(或者说:提取出)AGI的指令,并根据指令在下游任务中表现出强大的执行力。
ChatGPT上开发应用的基本范式
将上述例子推广,我们认为,可能看到了在AGI上开发应用的基本范式:
编码:将产品特定知识,映射到AGI通用语言空间
这里说的编码,其实就是通过输入预设的prompt,给ChatGPT“规定情境”的过程。
上述音色混合的例子中,在第一步的技术讲解,和第二步的歌手音色描述中,我们将自己产品的特定逻辑、知识,包括ChatGPT目前无法“听懂”的音频模态,均以通用自然语言的方式进行描述。
这其实是将我们产品业务逻辑高度相关的特定信息、多模态信息,映射到ChatGPT的自然语言信息空间中。ChatGPT善于理解人们的问题,理解语言当中的通识信息以及普世逻辑。
因此,通过预设prompt给ta规定情境,再巧妙的将用户的诉求嵌入,就可以引导ta去处理特定领域的问题了
下图是被催眠的 New Bing供出来的预设prompt。也可以简单看到如何给ChatGPT规定情境做搜索任务:
解码:解析AGI的自然语言指令,执行特定任务
当ChatGPT明白了我们的产品逻辑,也听懂了用户的诉求,ta就会通过自然语言给出解决方案。而这里所谓的解码,就是指,解析ChatGPT给出的自然语言指令,提取当中的有效信息,驱动下游的任务执行。
在一个使用ChatGPT做文字冒险类游戏的案例中,开发者使用ChatGPT生成的情境描述,输入Midjourney,生成情境配图。这算是一个比较容易想到的做法。
脑洞:设计一个让ChatGPT帮用户推荐电脑的应用
在实际操作中,这个编码、解码的过程甚至不止一个,可以是互相嵌套的。我们可以一起来开开脑洞:
假设我们想使用ChatGPT的能力制作一个售前bot,给想要购买电脑的用户推荐,解答他们的问题。
假设我们的网站上有几千种电脑型号,每种电脑型号有一个单独的页面,页面上有电脑的介绍、配置、销量、价格、用户的评论等等。因为输入长度的限制,很难将所有的电脑信息一股脑地编码给ChatGPT。并且网站上的电脑种类、价格等都在实时地更新。
上文我们多次提到,ChatGPT的能力在于高度的善解人意,通识认知和逻辑能力。对于这样一个“人”,有的时候,ta只需要一个手册or一本字典or一个随时可以查询的资料库,就可以干更多的事情。
于是,我们可以做如下设计:
当用户提出问题的时候,我们不让ChatGPT直接回答,而是通过规定情境为“此时只是提取用户问题中的问询标签”。利用ChatGPT的语言理解能力,让其抽取出标签。
拿到标签,我们使用固定的业务逻辑,搜索出该标签下的销量前10的电脑。利用某些固定的规则,将这10个电脑的主页信息文本化(例如:将网页上看到的销量100,变成一句话“销量100份”。将某条10个赞的用户评论变成“用户xxx,等级3,说到xxxxx,有10人表示赞同”)。
如果文本化后的文字类太大,可以将这些文本化的电脑信息输入到另一个ChatGPT当中,让其分别抽取出10份摘要。再将这10份摘要与规定情境“用户想问xx,现在给你10个电脑的信息进行参考,请帮助用户解答问题”一同输入给第三个ChatGPT,让ta拿到这些信息,开始与用户侃侃而谈,推荐产品。
在实际的应用设计中,我们可以灵活使用”编码“,”解码“的过程。核心是,把ChatGPT想象成一个很聪明的人,ta不知道什么就想办法告诉ta,而去利用ta分析问题的能力和与用户自然交互的能力,最终让ta向下游应用发号施令,执行任务。
AGI OS与应用生态格局的猜想
五源寻找、支持、激励孤独的创业者,为其提供从精神到所有经营运作的支持。我们相信,如果别人眼中疯狂的你,开始被相信,世界将会别开生面。
BEIJING·SHANGHAI·SHENZHEN·HONGKONG
WWW.5YCAP.COM
关键词
模型
能力
问题
技术
大模型
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。