您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:即时设计创始人兼CEO李国锐和Monicaim创始人肖弘AINative20230728 - 发现报告

即时设计创始人兼CEO李国锐和Monicaim创始人肖弘AINative20230728

2023-07-28未知机构李***
即时设计创始人兼CEO李国锐和Monicaim创始人肖弘AINative20230728

从即时设计的角度,当时是怎么决定要快速的把大模型接到自己的业务,当时经历了一个怎样的决策过程?然后你们的产品设计的思路,初始的思路是怎么样的? 李国锐:即时设计是一款在线协作的 UI 设计工具,用户面向的是设计师。 在去年 12 月份到今年3月 GPT3.5 到 4 出现以后,我们一直在学习大语言模型的能力以及边界。我们 也在思考如何用这样的能力来帮助我们整个组织、企业的员工进行提效,又能帮助我们用户获得什么 样的能力。 非常幸运的是,我们在去年 4 月份的时候在整个UI设计行业发起了设计开源倡议,去年 4 月份到今年 年初,我们积累了数万套开源资源,及上亿的设计素材。 了解到大语言模型的能力以后,我们就把征集到的开源素材进行整理、归纳、收集、过滤。做完这些之后,我们发现通过大语言模型的能力,可以将以前沉淀出来的大量 UI 专业数据,可视化地呈现给用 户。 于是在今年 4 月份的时候,我们就上线了这样一款产品叫做「即时 AI」,用户通过文字描述的方式可 以快速产生专业的 APP、网站的 UI 设计界面。以前实现这样的设计界面大概需要超过 30 分钟,而现 在,通过我们的 AI 工具,30 秒就可以产生 4 个设计界面,提效非常明显。 Q:所以就是 Text to UI 的东西直接出来了。 我现在回想当年极客公园 2010 年成立的时候,探讨最多就是 UI 设计。 那时候移动互联网刚来,感觉今天 UI 这件事儿探讨起来改成用大模型更快地实现了。 李国锐:我们也非常感谢你们在十年前已经定义的 UI 设计规范。 当我们回顾所有超级 App 或者用户非常多的 App,就会发现很多设计模块是非常一致的。没有人会 挑战把登陆界面改得个性化、或把用户设置的界面改得个性化。特别大型的 App 其实在非常早期的时 候就把 UI 定型了。 UI 设计是图形化的语言描述,那通过把前辈们十年前贡献的数据、沉淀的标准消化完成以后,就会发 现 80%的界面其实是可以通过总结规律与经验产生的。剩下 20%的界面,则是由每一家企业自己去 做非共识的、有创新点的设计。 即时 AI 现在的能力,也是产生共识性内容的效果特别强。非共识内容是我们最近在补的数据。Q:有道理,就是你们先把已经共识的东西是通过 prompt 让大家更快捷地生成,留出时间探讨非共识的 怎么做更好。而且未来可能非共识也可以 co-pilot、co-imagination 的去探索,这个是个很好的思 路。 产品形态为什么从浏览器插件出发?Q:回到 Monica.im,肖弘做的浏览器插件接 ChatGPT API,主打全球市场,海外市场。当时怎么想起来 做这件事儿的?怎么经历了产品的决策过程?肖弘:我自己一直有做 AI 助理的执念。可能很多用户会有类似的体验,用文件传输助手记一些很简单的笔记。在2021年左右的时候我自己想利用企业微信之类的,用一些AI技术做在微信里面的AI助手。我当时把我自己所有的数据,我还买了一个摄像头24小时带着,上班录下来。那时候整个技术不成熟,录下来的数据丢过去,我希望有一个魔法能够把它们解释清楚,但是在2021 年的时候搞不定。在 2022 年 11 月中旬的时候我注册了 OpenAI 开放平台,用了一下GPT3的接口,当时我非常震惊,觉得这个时候做小助手的时机已经到了。那个时候ChatGPT还没有发布我们就已经决定做了,ChatGPT发布的时候我们非常郁闷,因为官方自 己做的,而且在后面我们观察到国内外很多独立开发者也自己做了。当时我们有一个命题是想清楚跟原厂的差异化是什么。非常巧,当时国外的一家创业公司 Jasper,它最直接被拷问,说你跟 ChatGPT 的差异是什么?它有 一篇文章提到想赋能每一个输入框,想做浏览器插件。这个信息被我们捕捉到了,我们觉得它是非常好的产品形态,能够获取用户的上下文,就立项做了 Monica,第一个版本就是浏览器插件,我们觉得是非常对的选择。也很有意思,Jasper 自己没有践行 这个战略,它的浏览器插件没有做好。Q:最近因为技术被覆盖,Jasper 受到的影响也很大。定义关系 要么是传感器,要么是手和脚Q:这也是想追问的一点,你们并不是因为 ChatGPT出现了才想做这个,是早于 ChatGPT 发布就开始做 的,它来了以后对你有一定的覆盖和影响。 创业者今天做大模型产品,是不是都会面临这个问题?怎么避免技术一升级,我们的努力就被覆盖? 首先大家得持续地想明白的一件事,大语言模型的边界在哪里? 我们自己的体感,大模型更像是一个大脑,应用层创业者应该想办法收集用户在特定场景里的数据,数据加上这个大脑,跟它形成协作关系。 从产品形态来说,我们用浏览器插件的形态,获取很多用户在浏览器里的数据行为。 Q:你刚才说的这点很有意思。 我们要理解大模型是什么,所以,我们是什么,这个关系很重要。你刚刚形容它是大脑,老周(鸿祎)形容是计算机。我们要给它更丰富的数据,才能更好地用好算 力。如果我完全不 input 新的东西,输个指令它就能直接干,这样意义就不大。肖弘:可以这样理解。Q:要么我们是它的传感器,要么是它的手和脚,我们得和它有价值交换。肖弘:对。我再补充下,浏览器插件为什么是好的产品形态?一方面可以获取用户当前的 context。另外,Monica 下一步会做一些类似 RPA的事情,你有一些指 令之后帮你在浏览器把这个事情干了。相当于把眼睛和手都加上去了,这个是你跟 LLM 的边界也很清晰,它持续地变得更聪明,而你持续帮 它看到更多的东西和执行更多的东西的关系。用好大模型做视觉设计的「编程」Q:国锐怎么看?刚才我理解你的数据有一部分还是众筹的,是吗?大家都贡献了一些,加上历史积累。所以你们能在 UI 层面迅速把 80%共识的东西,变成很自动化能够产生的东西。你接下来呢?那 20%我们还能做什么?大家要非共识去创造的东西。一个设计的自动化是反设计的?还是促进设计的?李国锐:我们会发现大语言模型,有非常强的结构拆解、扩充及总结的能力,在这些能力支撑下,大语言模型 可以很容易地快速获取与理解用户的需求。同样的,基于这样的能力,针对非共识性的内容,只要用户的阐述表达得足够清晰,它(大模型)也可以从共识性内容解构出来的专业数据中,快速寻找并进行适配。但它的难度就比刚刚说那些共识的难度数据要大。也就是说,针对共识性内容,用户只要简单的一两句话就可以获得匹配结果,但是针对非共识性内 容,尤其是独有的、创新性的功能,用户就需要通过非常详细的文字描述,最终也可以把这样的一个 可视化的结构给生成出来。因为我们生成的不仅仅是一张图,而是带图层结构、带模块的设计稿,甚至包括图标及填充图像,并且最终生成交付的设计稿是可以被用户二次编辑的。它不像 Stable Diffusion 或者 Midjourney 生成的是一个图,我们希望生成的是一个可视化的结构输 出。Q:其实是一种视觉设计的编程,你帮它编出来,用户还可以再调整。李国锐:对,完全分层级。再回到 20% 的非共识性内容,我们的抽离不是整块、大块地抽离,而是对每个界面的解构可以细化到 每个按钮、每个标题、每一段描述,可以拆解每一个模块背后的意思是什么?它的结构希望给用户呈 现的是什么? 当用户把意图讲解给它(即时 AI)的时候,它会把我们存储的意图跟之前可以匹配的数据进行匹配、推理再做转化,所以用户对它描述的意图有多精细,它的生成结果就会有多精细。 Q:你们要实现这样的能力,是怎么部署大模型到你的业务和产品里? 李国锐:我们有在运用大模型的接口能力,但实际上我们的工作会更多。 我们有很多数据要做预处理,需要把很多的数据进行解构、抽离。包括需要搭建像 LangChain 这样的 框架,来解决Prompt 内容过大等问题。我们需要把整个设计稿或者之前积累的大量数据喂进去,这个 量是非常大的。包括已经解构完的组件库或者搭建页面的模块,需要被前置存储到我们自己的服务器 或者类似向量数据库的结构里面进行处理。 Q:所以刚才老周说未来都要变成私有的,这个也未必在每个领域都行。可能在这个领域(设计)SaaS 就 是比较好的模式,那你往前推演,在大模型技术引入之后,SaaS 依旧是好的方式吗? 李国锐:接口开放或许能解决这样的问题,通过将一部分接口开放出来,将这些数据对齐到其他企业。但是要把大量的数据进行糅合,再部署到企业,短期来说,在我们这种专业赛道相对会比较有挑战。因为它的体量及更新迭代都比较快,这个过程中还要不断消化刚刚提到的非共识的东西。 如何填充这些数据,并且保持高速的迭代,都是挑战。 Q:如果把它分布式布到每个地方,就没有成长性。 插件覆盖不同网站从用户视角抹平差距Q:UI 还好,还不像销售、客户的系统。回到肖弘这边,你们选择了浏览器插件作为你的阵地构建。能不 能解释解释浏览器插件这件事儿,因为大部分人会觉得为什么不是 APP,APP 是不是更闭环的东西?选择浏览器插件的好处和大模型时代的关联能不能再解读解读? 肖弘:国内因为种种原因,大家对浏览器插件这个产品形态见得比较少一些。 但在海外它是一个比较主流的产品形态,比如 Grammarly 是每年几亿美金收入的公司,它浏览器插件 的用户基数也挺大,也可能是亿级别的用户。 我们当时核心的考量,AI 作为一种能力,如何能够适配到各种各样的场景是非常好的事情。浏览器插 件恰好是我们发现的一个能够很好把这件事情做到的产品形态。 大家看了很多大厂发很多 AI 牛逼的能力。但网站特别多,很多网站并不会立刻集成这些能力,比如 Google Docs 集成了 AIGC 的能力,但自己搭了一个博客系统可能就没有。 但是用户在输入框里面,确实想要用很好的 AI 能力,这个时候浏览器插件,就能从用户视角抹平各个 网站体验上的差距。所以当时我们选了浏览器插件的形态,而且本身我们做出海,所以全球来看这个 形态也可以被更广泛的接受。 Q:你刚才说你选择了一个本身比较平坦的,复杂度相对比自己重新做一个 APP 更轻一些的平台来启动这 件事儿。用户在你们的产品里,你们现在应该有150万左右的用户积累了。肖弘:对。 Q: 是现在发展速度比较快比较好,最近还在增长吗? 肖弘:还在增长。 Q:ChatGPT的活跃度都有点下滑了。Monica 还在增长活跃,主要用来干嘛呢?用户解决的问题到底是 什么? 肖弘:我们做了很多很具象的场景里面的工作,比如帮你总结文章或者打开一个 YouTube视频的时候帮你总 结,并且把每段分下来,零零碎碎的场景都有,包括回邮件。但更多还是问答的场景,希望它是变种 的搜索,会问各种各样的问题。 我们接下来做的工作,我们做了个很多不同的机器人承接各种垂直领域的问答,也许 ChatGPT的抽象 是试图用一个机器人回答所有的问题,但这个有难度和挑战。我们希望用多个机器人,每个机器人解 决不同的问题,用这个抽象解决问题。有些垂直领域机器人甚至是大语言模型的基础加上传统的方 案,比如为了解决幻觉问题,你可以用更传统的知识检索的方式,更多人还是把它当作搜索的变种,我们给的解决方案是用不同的机器人解决不同的问题。 Q:里面看到最主流的是在搜索,大家需要有更好的搜索,而你交付更好的搜索未必是用 ChatGPT 的方式 做,可能要有一些更分类的 Chatbot,甚至不一定用大模型。 肖弘:不是说用一个搞定所有的事。特别是在底层技术快速发展变化的时候,可能特定的问题被解决的更 好。 Q:不要极端,务实的解决用户的问题。 用户人群大模型带来专业领域大众化Q:说到解决用户问题,转回即时设计,从你们把这个能力加进去之后,我现在都能自己画 UI 了,以前我 们要有 UI 设计师,它改变了用户的属性,现在用这些东西的人会变化吗?用它的目的会变化吗?它的目的是为了高效、快速?还是为了简单?为了创新? 从你们识别到的用户真实的需求来看,它是怎么分布的? 李国锐:我们上线这个产品以后也有 6 位数以上的