每周抽奖-关注「掘金开发者社区」公众号,后台回复「掘金」即可参与!

延君晨:这个项目其实是从今年三月份开始做,然后五月份上线,到现在大概是一百六十天左右。我们这个平台其实本身我们做这件事的定义其实很简单,就是当我们想做一个 AI 的原生应用的时候,我们拿到大模型的 API 还不知道该怎么做,有很多中间的步骤。因为在去年其实我已经被 GPT 的那种能力非常震撼了,然后我也想在应用领域看有没有什么创业的机会,但是我发现还不行。
这个时候我就接触到了原来腾讯云 Coding 的团队,他们以前在过去的六到八年一直在做开发者工具就 DevOps。从而我们就意识到说在大模型和应用之间,其实也应该存在一个新的类似于 DevOps 的这么一个平台或者工具层,然后我们在这个领域内就做了 Dify.AI 这个产品。当然我们从五月份上线至今,其实产品的能力包括功能的重心也有所偏移,但是本质上来说它都是一个应用开发的框架或者技术栈,都可以这么理解。

Q1:Dify.AI 的出现是一个深思熟虑的过程还是一个灵光一闪的过程?

延君晨:实话实说,其实在大模型出来之前,因为我们都不算是一个新人了,整个团队的平均的工作年限在十年左右,然后也一直在互联网行业里面,其实尤其像比如说创始人路宇他是从个人站长这个时代到现在,我的话算是国内比较早的一批做移动应用的产品经理。
过去几年其实在中文的互联网世界里面没有太多让人耳目一新的产品,但大模型出来之后,我们确实受到了感召,就是命运的召唤那种感觉,认为这是一个全新的赛道。然后全球的起跑线又比较一致,并没有说海外就比我们领先多少,因为以前大家都知道,我们做无论 To C 还是 To B,很多时候真的就是 Copy To China。这个没有问题,但是难得有这么一次机会大家在同一个起跑线上一起去竞争,我觉得这是一个很好的机遇。对创业这件事情来说的话,其实我们几个核心成员都有过不止一次,甚至可能更多次的创业经历,我们其实一直都是每隔一两年可能就会换一个领域或者换一个方向,去做一些创新的事儿,所以创业对我们来说不是一件,非常难以说去跨越的一步。
我觉得可能适合创业的人就是有这些特质,回到刚刚说的那个点,就是说对于比如说工程师来说,去尝试创业或者说内部做一些小项目也很好,在我理解中一个好的产品,它不仅意味着说技术要非常的好或者产品非常好,它也意味着说商业化很成功,要有为用户解决一些具体的问题,这是相辅相成的。不存在说很理想主义的一个纯粹的技术或者产品,它就能改变世界,包括像我们这些现在的 ChatGPT,其实大模型的技术并不是今年才出来,但是去年底发布了 ChatGPT,它变成一个产品,甚至像有些 AI 应用已经有商业价值了,这个时候才引起了全球的轰动和今年的这种热潮。所以从产品到商业化,我觉得这件事情也是一个工程师或者是产品经理想拓宽自己的能力边界所必须要走的一步。

Q2:创业过程中遇到了哪些觉得印象深刻的挑战和机遇?

延君晨:说实话 Dify.AI 这个产品现在的影响力是比我们预期要大的。我们在今年立项做这件事其实是三月份,当时我们其实也做了一些市场或者竞品的研究,然后我们发现在当时这个领域里面其实是没有一个特别好的解决方案的。现在类似的产品也越来越多了,因为大家都逐渐形成了共识。
我们这个团队其实做事情相对来说是比较快的,第二就是我们工程化的质量,以及说比较重视用户交互,这也是我们团队的一个优势,但是反过来讲这个可能也是我们的一个限制。为什么这么说,因为一个纯粹的开发框架,比如说像 LangChain 这样的其实不用考虑服务层的,或者也不用考虑用户体验的,它只要做好基础架构就可以,相对来说它的速度会比较快一点、拓展性会更好一点,那么我们需要做一下平衡。
因为我们作为一个开源的开发框架或者叫 LLMOps,我们需要兼顾我们的开放性,我们需要我们的开发者能参与其中,基于 Dify.AI 这个架构,无论是做应用还是做别的。但同时我们也要兼顾,我们一直所主张的一个良好的用户体验或者叫产品的交互。这里面其实是有一点点矛盾的,就是开放性跟这种交互的友好是有一点点矛盾的,所以我们也是在这里面处理这种平衡。有长期关注我们的用户会发现,我们可能有段时间会倾向于开放性,有段时间也会重视用户体验,这也是一个我们在处理的一个平衡点。
我们为什么要做这件事,还有一个原因是在原本如果做软件产品,我们其实不用太考虑用户体验或者用户交互的,原因是大多数我们面向用户是工程师群体,现在除了工程师群体之外,其实还有很多可能这种未来的这种提示词工程它的背景可能不是研发背景。还有在现在的这种协作模式中,业务人员的比重会越来越上升因为他们更理解业务还有一些数据工程的工作,为了让这些人可以跟原来的工程师有一个更好的协作,我们需要降低工具的使用门槛,所以说我们才会去做比较重视用户体验的事情。

Q3:在决定是否要开源的过程中,有没有经过一些讨论?

延君晨:其实没有,我们一开始就是要做开源的,而且我们上线的第一天就是 Apahce 2.0 的协议。这个也很好理解,首先我们如果受众是工程师的话,可能会发现像 GitHub 这样的社区其实过去几年也是有点沉寂的,活跃度其实没有那么高,但是自从这一次生成式人工智能起来之后,在 GitHub 上冒出了很多很好的项目,关注度也非常非常高,连带的像 Hugging Face 这样的新的开源模型社区也起来了,所以这是一次开源生态极大繁荣的一个阶段。在这个过程中,如果我们是做闭源的话,其实是很难跟这些开发者或者说这些创新群体去形成联动的,这是第一。
第二就是技术的变化特别快,我举个例子,比如说我们在刚上线的时候,其实我们产品的定位是完全基于 GPT 的,没有考虑其他的模型或者说能力,但是我们现在的逻辑又变成了我们要实现业务层跟模型层的解耦。原因是在我们发现现在模型之间的能力其实会有一些参差,他们有一些特点,所以可能现在是一个多模型协作构建应用的一个状态了。然后 OpenAI 马上要做发布会可能会发出新的能力,这种模型技术的变化会非常快,应用的场景也非常多。所以说这个时候,如果你以闭源的方式,其实也很难接触到这些外部的信息反馈,这是第二点。
还有第三点就是从商业上来说,创业最终还是要落到我们要做收入。当然开源的商业化相对比较难,但反过来讲其实可口可乐的战略你可能也都了解,它的东西很好且它很便宜,但它有它的品牌,所以外来者其实很难竞争。我们做开源其实也是一种类似的战略或者策略,我们通过开源其实可以收获很多的用户或者叫潜在的客户,然后我们做的足够好对于后来的竞争者的一种门槛。我实际的观察来说,无论是海外的公司还是国内的一些公司,只要它的规模足够大或者说它的商业比较正规,它其实对于开源项目的理解和支持还是很多的,他们也需要一定技术服务。因为开源项目很多时候的商业化都是靠服务来支撑的,包括我们现在也是,我们现在的付费客户基本也是冲着我们的技术咨询或者是服务来的。
未来我们可能也会做一些收费的子产品来完善我们的产品线,但是至少在 Dify.AI 这个项目上我们会坚持做开源,而且我们没有什么企业版、商业版这么一些说法,它就是全量开源的这么一个状态。

Q4:是不是每个模型会有自己更优势的一个领域?

延君晨:肯定有,但是我可能不好评价,这个还是要去看更专业的模型的评测。只不过比如说在国内的话我们就不能用 GPT,要用国产的模型,国产的模型头部的几家做的都很好。刚刚想强调的其实还不是说这种认知大模型,我其实更想强调的是一些小模型或者是一些多模态的模型。
我举个例子,假设你构建一个应用,第一步根据用户的意图做意图识别,这里面其实对于性能要求会比较高,所以说这个时候可能用一个专门做这件事的小模型可能效果更好。然后第二步基于用户的意图识别之后,可能会去把这个任务变成一个通过大模型的这种文本的对答,或者是说调了一个其他的模型来处理一些图片或者音频等等,这里面其实是涉及到多个模型的协作。它最终最重要的推理模型肯定是要选一个推理能力最强的一个大模型,但是它细枝末节的一些能力边界的拓展可能是需要一些小模型或者是一些子服务来去完成的。这个也是所谓现在编排这个概念比较火的,就是说现在大家感觉做一个 AI 应用跟写代码有点区别,有点像拼积木的感觉。

Q5:无论前端还是后端 AI 的能力可以得到完全的信任么?

延君晨:我觉得可能还没有,类比现在国内最近的智驾,从国庆期间像华为、小鹏、百度这些厂商也开始卷智驾了,但是你真的会开车完全交给一些智驾的能力,其实还做不到。其实在大模型领域也类似,甚至有些论文其实是在质疑现在 GPT 这样的自回归模型在推理上的能力。但是我们抛开这些质疑不谈,我们就现在的模型,如果说给它比较宽松的一种范围或者它漫无边际的去完成你的任务其实得到效果是比较差的。如果你做过一些实践的话,其实成本是不可控的,然后效果是比较差的。
所以说现在大模型在这种推理能力上的这些应用我觉得还是要有人为的干预和约束的,还是需要我们人工去给它设计好一些固定的路径,然后再从中发挥它的一些优势,比如说理解人类的语言和意图,然后有它的创意能去输出和生成一些我们思维的补充。然后过程中它可以根据场景来去调用符合它预期的一些工具或者插件这种,含义都无所谓,过程中为了保证可控和性能的均衡其实还是需要一些约束范围的。所以我觉得现在在一些比较窄的领域的,这种刚才您说的这种应用是 OK 的,比如说 ChatGPT 也是,就拿它们举例子,它其实现在已经可以去调 DALL·E,就是画图片,然后也可以去搜索网页或者是用它上面的一些插件是 OK 的,但是我们会发现它一次只能用一个功能。其实也是从全球最领先的这种大模型能看出来,目前在自主 Agent 这种领域其实还是比较受限的。但是这个我觉得会伴随模型技术的进步,包括算力成本的下降也是未来这个趋势。
今天我会分享的一个点,其实就是说我们不要都去做什么个人助理,这个可能是大厂的机会。那我们其实作为创业者或者叫开发者而言,是可以找到一些更细分更落地的场景,通过这种能力的闭环去消费一个价值点,然后把它封装成一个能商业化的产品,这个可能效果会比都去卷各种各样的助理会有用一点。

Q6:在可以预见的未来 AI 技术会对日常生活有什么改变?

延君晨:我觉得我们有一个技术成熟度曲线,现在其实大模型的技术,就大模型这个概念或者叫 ChatGPT 的技术,是有点从早期创新者到大众用户的一个迁移了,但是更广泛的这些方方面面的这些其实还有一点点距离。
但是我们就想现在的这些生成式 AI 的技术有哪些特点吗,比如说它是一种跟人类不同的智能,然后它有很好的这种生成的能力,然后那种意图识别或者说图片识别这项能力,如果是从公益的角度来说的话,其实这些东西可以用在比如说一些个性化的教学,对于一些可能像残障人士或者是说本身就在某些方面有缺陷的一些群体的话,其实可以去借助它们获得一个能力上的补全,这是我觉得特别好的地方。然后对于我们普通人来说的话,我们说会诞生一个很好的助理,辅助我们去做更重要的事情。但现在技术还不成熟,所以说我觉得还是要从自己的用途出发,比如拿自己举例子,我在写文案的时候或者是写产品文档的时候,其实是非常依赖于现在的这种生成式的人工智能去辅助我。然后比如说我认识一个服装设计师,他在自己的日常工作中也完全在用生成式的 AI 来辅助自己快速地做出来一到两百张图片去交付价值。
我觉得这个是很个性化的一个需求,反过来讲这也是一种我觉得叫技术平权。因为我们不需要去依赖一个庞大的工程师团队去为我们定制某一个应用,而是我们可以用提示词的方式通过跟大模型交互的方式来去做出符合自己预期的产品,这个时候其实我觉得是一种人类生产力的释放,大大提高了普通人生活工作的效率。但这个还是有一点点门槛的,目前来说提示词这个东西大家可能都知道怎么写,但是想把它写得非常好是有门槛的。但是不是我们应该去学怎么写提示词我觉得也不一定,就像我们开车从手动挡到自动挡到现在的无人驾驶一样,在跟大语言模型交互这个过程中也是从我们先学着去适应它,去写它能理解的提示词,到逐步来说它可以把我们的意图识别的更精准,到最终可能就像我们这种对谈的方式一样,它可以完全理解,这也是一个演进的过程。

Q7:真正的通用型人工智能还有多远?

延君晨:这个还太遥远了,比如我们拿多模态说,广义的多模态可能是觉得说文本、音频、图片、视频,但其实比如说人类的情绪其实也是一种多模态,而且还是一个很复杂的。比如说真实世界其实场景千千万万,就是 AGI 这种到来我觉得还是有非常遥远的距离的,这是第一。
第二就是从价值观层面,就是法律层面,其实都含有很多的限制或者说挑战。我们现在现行的法律或者我们怎么让人工智能具备人类相同的价值观,价值观本来也是多元的,这个时候其实我觉得问题是非常非常多的。所以说我一方面是技术层面的考量,一方面其实是人文社会或者就是法律这种方面的考量,我觉得可能它没有那么的近。
但是我们现在怎么能把现在这种 AI 的技术,在一个很细的场景里面,在人类可控的范围内去找落地的场景和应用,我觉得还是 OK 的。因为也确实是已经有这样的那个点了,比如说无论是在医药、教育等等方面,确实已经有这样的应用在做了。

Q8:Dify.AI 在一定程度上也是朝着通用型人工智能迈向的一小步

延君晨:这个就高估我们了,其实 Dify.AI 的核心价值我觉得是两点。第一点就是可以帮助大家降低开发的成本和周期,比如说大家现在做一个 AI 的应用需要去学习整个这种技术栈,然后需要学习一些不同模型的这些特性,在 Dify.AI 这个平台其实是可以很容易的去调试的。我们提供一个很好的就是上手的方式很方便大家做一个应用 demo 或者说在大企业落地中做一个演示。因为我们知道在 To B 的时候要先有一个演示的产品,再去进行深度的定制,To C 也是我们可能需要先有一个原型产品获得用户的反馈,进一步去优化产品,这是第一个我觉得 Dify.AI 的价值。
第二个 Dify.AI 价值就是就是在后面我们 Ops 环节了。首先我们会希望一个产品的打磨的过程是有技术人员参与,也有业务人参与,他们需要有一个很好的平台。其次 AI 的应用它跟以前软件工程有一个很大的区别是传统软件工程的产品一做出来就是一个八十分的东西,它逻辑是严谨的,可能会有 bug,但是它的输出没有不可控。但是 AI 产品它的这种可控性没有传统软件这么高,所以它一出来可能是五、六十分的产品,所以需要大量的持续优化的过程,就需要一个刚说的这种 Ops 的过程,也涉及到了对于应用投产之后,对于这种数据的标注等等它持续优化。这些优化过的这些数据再去进行就是一个循环,这样的这种持续的过程才能把一个东西真正的打磨出来,所以说 Dify.AI 的价值可能是在前后跟中间的话可能就是需要应用开发者自己去做的事情。

Q9:怎么看待各类 AI 安全性的问题?在框架内怎么把 AI 的技术更多的服务于大家?

延君晨:其实也是刚刚我说的就是一个技术成熟度曲线的点,在早期其实对于很多创业来说,这些问题是可以被忽略的尝鲜的性质,但这个一样产品真正走向成熟、走向应用,它的用户量大的时候,这些问题是客观存在的。
所以我首先觉得在这个事情上,包括海外的大模型、国内大模型其实是在积极响应或者是主动寻求去跟政府的协作的。我们一方面要希望 AI 的能力变强大,一方面我们要追求 AI 的能力是可控的且符合人类价值观的,就大模型对齐的这个过程,其实是现在可能最重要的一个应用领域。如果大家用过早期的 Bing 的话,可能会发现它的一些价值观比较腹黑,但是它迅速的就被优化被改掉了,其实这个也是一种表现,是一定要做的。
第二,对于我们收敛到我们这个产品上的话,我们其实会在就是说这个公司实际上以后可能也会做调整,我们其实是想实现人类和 AI 的互信协作的。互信这个词代表着我们能信任 AI 的同时,后 AI 也可以去信任人类,这里面其实就需要有很多工作要做,比如说我们怎么能让整个 AI 的输出能符合我们的预期,然后可靠性变高,符合我们的价值观,不会有一些违反人类良知的这种事情发生。但这个问题其实我觉得更多依赖于政府,然后所有的模型厂、所有的中间商产品,包括应用开发者在这个事情上的一个协作,它不是一个公司或者一个团队能做的事情。
另外一方面就刚才你说的数据安全隐私,其实这个事情从过去几年的互联网产品的逐步收紧到现在也是一个共识了,我觉得没有太多可以争论的,数据的权利肯定是要归属于数据的叫拥有者。现在就说法是使用权跟拥有权分离,但是它可能会依赖一些新的技术、新的演进,但是在目前这也确实是个挑战,比如说为什么现在很多企业都希望去私有化部署模型,都不太希望直接去用目前的公有云服务也是在于此。对于很多企业来说,他们的一些流程文档是核心价值、核心资产,他很难把这个东西非常信任的交给一个模型厂,这个时候可能就会产生私有化部署模型这样的需求。但是现在私有化部署一个模型成本其实还是很高的,而且如果这个公司没有真正这方面的领域的专家的话也很难去维护和更新,所以这也是我觉得大模型落地过程中的一个阻力。
现在像我们是开源的所以可以私有化部署,然后其实现在一些折中的方案就是企业在私有化部署的时候,把类似 Dify.AI 这样的中间层和数据存储层它去本地私有化部署,然后模型依然是用公有云的。因为每次我们跟模型交互的时候并不会把企业所有的数据都吐给大模型的,所以说也一定程度上规避了数据资产的流失。这个点其实也是国内的模型厂商要做更多的努力,建立更多的信任,有更多的制度和技术架构能去保障这些数据的安全。
但是其实还有很多环节是企业或者开发者跟模型之间的信任如何建立,其实这个问题和刚刚 AI 生成内容的人工干预也是是相关的。对于它生成的内容可能我们后期还要做反复的矫正,包括对于做一些合法合规的校验之类,就是大模型有自己的对齐过程。其实我们做大模型应用也需要有这样的标注过程,就并不是我们先天的假设大模型在已经做了所有的这些工作,我们进一步开发就不需要这些工作了,其实依然需要。所以说我刚为什么说我们其实是需要一个 Ops 的过程的,过程里面就是我们把我们自己测试集里面的这些跟大模型的交互在一个平台里面去进行测试,然后对于这些不符合我们预期的这些答案进行一些调整,通过无论是微调的技术还是 RAG 的技术然后重新去把这个应用做得更完善。

Q10:AI 在创新方面还有什么局限性?

延君晨:这个可能要回到大模型的本质了,本质它还是一种预测机或者生成器,但是并不意味着说大模型就没有创造力。这个现象其实你去看很多论文就会发现,在参数量到了一定的阶段的时候就自然的发生了一种涌现的过程。这跟人脑也是一样的,人的智慧是怎么来的其实现在没有定论,就我们用了一个涌现这样的一个含混的词来去解释。大模型的这种智力也是这样,这个领域的科学家其实也很难解释为什么在参数量到了一定的阶段,它就会涌现出来一些不一样的能力。
前段时间 Claude 的科学家就是说他们可以去解释,用类似于我们的这种基因检测的技术去追踪大模型的这些参数的这种变化,来去理解大模型的一些生成规则。但是这个并不是普适的,他们还没有拿出一个完全的研究结果出来。除了 Claude 之外,其他的模型上包括国内的模型、海外的模型,在这种大模型可解释性上依然都没有太多的这种进展。我们就姑且认为说这个智慧是涌现出来的,并不意味着它就没有创造力,因为它是通过文本理解了我们文本背后描述的这个世界的一些规则,这个是我们可能对于大模型的一个从认知上的一个突破。
就是为什么我觉得大模型这件事情一定会衍生出非常非常多的应用,因为它本质上是一种基础能力。它是和人类不同的一种智能体,目前唯一一个和人类一样拥有这些推理、规划能力的一种产品或者说一种智能,所以说它是有它的创造力在的,包括我们实际在使用过程中,我们也会更依赖于它的创造力而不是依赖于它的记忆。
但是大模型的记忆确实是个问题,就是我们人脑有短期记忆、有长期记忆,然后我们有存储强度、提取强度,现在大模型它无论借助自己的上下文,还是借助外部的向量数据库,其实它在某些维度上跟人脑是类似的能力是类似或者更强的。但是在某些维度上,比如说在它提取强度上或者是在它的程序化记忆上,其实是不如人脑的。所以这也是目前我们在实际应用投产过程中的一些阻力,比如说因为上下文受限,就需要在有限的上下文内去尽量凭借更多的提示词还要包含了我们之前的这种对话记录,这里面又涉及到一些压缩、检索的技术。

稀土掘金创新论坛文字回顾

欢迎加入掘金技术交流群

点击【阅读原文】查看更多内容
继续阅读
阅读原文