您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:程斌、刘洛麒交流纪要-20231021 - 发现报告

程斌、刘洛麒交流纪要-20231021

2023-10-22 未知机构 华仔
报告封面

Fasion.AI创始人程斌美图影像研究院(MT Lab)负责人刘洛麒 按辈分来算,程斌是刘洛麒的师兄,两人博士均毕业于新加坡国立大学,师从人工智能领域国际顶级专家颜水成教授。师徒三人也曾与其他同伴一起加入360,创立360人工智能研究院,将人工智能技术广泛落地于智能硬件、金融风控、直播和短视频等业务场景中。 2019年,随着颜水成离开360,已经有过一次创业经历的程斌,也离职开启了自己的二次创业之路。其创立的Fasion.AI,是国内较早利用生成式AI技术进行图片和视频内容生产的初创公司,尤其是在基于超写实2D数字人的视频内容合成领域颇有建树,其产品已经在教育、营销、直播、客服等领域广泛应用。 两年后,曾在博士期间主攻人脸、以“美颜”为主题拿到过ACM Multimedia Best Paper Award的刘洛麒,加入了国内最懂“美学”、以“美”为内核的美图公司,负责核心算法研发工作,带领团队不断打造“AI时代的影像生产力工具”,并于今年推出国内首个懂美学的AI视觉大模型MiracleVision,助力美图近期业绩和股价的双重突破。 1 大模型未必是坦途,但一定是方向 Q:大模型会是人工智能走向AGI的坦途吗? 刘洛麒:目前来看,大模型应该是走在正确的方向上。我们可以进行一种生物学的类比,人类是基于碳基的生物,机器是由硅基制造,虽然两者的底层是非常不一样的,但最终硅基结构是否也有可能像碳基构造一样,产生出一定的智能性?就像人类的大脑中大约有数百亿个神经元,每个神经元都与其它数千个神经元相连,可以想象连接路径的庞大与复杂程度。 大模型的参数量虽然能够达到百亿的量级,但是它连接的拓扑结构都是规整的,相对比较简单,连接数也不够多。如果有一天,大模型的参数量和连接数也达到或者超过人脑的规模,计算能力相比现在也有了极大的提高,那是否有可能实现跟人类大脑接近的智能,我们是可以憧憬下的。 所以,当大模型的理解、推理、学习等多种能力达到一定程度之后,也许就能实现AGI了。人工智能的通用性在不断提高,但要实现真正的AGI还需要时间。大模型也是我们迈向通用人工智能的重要一步,为未来的AI研究和发展开辟了新的道路。 程斌:回顾历史,人工智能行业其实一直在追求AGI的道路上孜孜不倦,历经了几十年的研究和实践才走到了今天。对于AI从业者来讲,上一波深度学习AI1.0的时代,大多数人还是会用比较理智谨慎的态度去看待AGI。 那个时候,我们能实现的更多还是在限定场景下的浅层智能,但是距离真正的通用人工智能还是挺远的。然而这一波生成式AI技术的爆发,真正让我们AI从业者感觉到AGI的曙光。 有个很典型的例子,NLP在上一波深度学习时代并不是一个被解决得很好的问题,大家认为这个是极具挑战的问题,因为牵扯到认知、理解、逻辑推理和生成这些复杂能力。但是大模型上来就在这个原以为最难的问题上取得了巨大的突破,甚至有一点降维打击的感觉,这个给AI从业者们带来非常大的震撼。 当然,目前我们距离真正的AGI还有明显的难题等待解决,例如大模型还需要面对可解释性不明确、输出结果不可控、泛化能力不足、多模态能力局限等一系列问题,进而会带来一些伦理和规范上的约束。 从现阶段的发展来看,大模型虽然在提高自然语言处理、计算机视觉和其他任务的性能方面取得了显著进展,但要实现AGI仍有许多挑战。它一定不是一帆风顺的坦途,Transformer架构也未必是最终形态,也可能会有新的技术和方向出来,再颠覆它。但是大模型确实是目前最有希望的方向,激发了大家对AGI的信心。 Q:在大模型迭代的过程中,数据是天花板般的存在。当下大模型消耗数据的速度非常惊人,数据是否在短时间内被消耗完,大模型是否看到了天花板? 刘洛麒:我觉得当下社会中的数据量没有穷尽。首先,生产者依然在源源不断地产生新数据,包括文本、图像、视频、音频等等多种模态,比如短视频平台每时每刻仍然在生产新的视频内容。 客观物理世界的数据描述可以是多层次,多模态的,交互式的。对于同一个物理事件,我们可以在不同精度下的时间、空间等坐标系下去对应描述,也可以通过多种感知手段下去记录(视觉、听觉、触觉等),不同物理事物和事件的交互行为又几乎是无穷的。而这些都是通向AGI所需要的数据记录, 事实上,大规模的优质数据才是实现算法突破的关键因素,而优质数据目前其实还处于挖掘初期。我们还需要思考,已有的数据资源是不是真的挖掘到位,数据是否已经物尽其用? 如现在大多数LLM是基于纯文本进行训练,而人类所感知的外界信息70%以上来自视觉,如何更好的实现语言、图像、视频、声音等多模态间的结合也将是大模型未来的探索方向。 目前大模型使用的数据还是更多是单一孤立的,缺少更丰富的数据表述,近期OpenAI新推出的多模态模型GPT-4v已经能听语音,理解图片,但我们在这个方向上也仍有很长的路要走。 程斌:当下人工智能消耗数据的速度是非常可怕的。我个人觉得,如果设想的道路可以被打通,有可能有一天物理世界数据的生产速度真的会跟不上人工智能学习的速度。 当然,我很认同洛麒说的点,现在很多数据可能真的还没有更好地去应用它。当下数据采集和存储的范围、力度都还没有达到边界,数据处理的质量也有待提高,尤其是数据的使用还牵扯到隐私性和安全性,这些都是需要去逐步解决的问题。 最近也有不少公司去利用AI生产数据,对这个我还是比较谨慎地去看待的,因为担心会不会陷入到数据茧房中。这里面有一个很重要的前提,AI的逻辑是不是代表了整个客观物理世界的逻辑? 如果AI仅仅代表了物理世界的一部分的逻辑,那AI合成的数据最后都将陷入一个局部最优解,而丧失了全局的判断,这可能导致AI系统在不同环境下的泛化能力受限。 这里正好引出一个非常有意思的问题,就是这次人工智能浪潮为什么会从语言大模型先突破? 有一个很重要的原因就是,文本和语言已经经过了人类几千年的积累,是被精炼和压缩过的知识性数据。这些文本数据具有非常高的信息密度、丰富性和完整性,大模型在学习的时候直接迈过了信息提炼这第一步过程,其学习效率大大提升。 相比之下,图像跟视频是从物理世界直接获取的数据,没有经过类似的精炼过程,它们与文本和语言的信息密度是完全不一样的。所以,现在我们还没有真正能够挖掘到现实世界中海量图像和视频中所蕴含的更丰富的知识。如果这一步能够突破,那距离实现AGI会更近一步。 2 AIGC创业,充满了挑战和新的机遇 Q:如何看待当下的这波AIGC创业潮? 程斌:这波AIGC的创业潮发展还是非常迅猛的,从今年二三月份的时候底层大模型公司被追捧,到五六月份大家逐渐关注应用层面,在营销等最直接落地的领域开始尝试,再到七八月份涌现出不少传统行业结合大 模型进行自我升级的典型案例,比如在旅游、教育、医疗、跨国人力资源等领域,已经有一些敏锐的传统行业创业者开始拥抱大模型。未来五年内,AIGC领域的创业公司一定会如当年互联网和移动互联网创业潮那样涌现。 不过,相比较上一波AI创业潮,最近这一波技术爆发有一个很有意思的点,大模型把原来很多我们认为不可解或者解不好的问题变得可解了,但同时,解决问题的技术门槛也被大大拉低。 我以前一直说,AI这样的应用科学领域很难去构建所谓的技术壁垒。但是,以前我们还能多多少少通过一些差异化的技术点,在一些细分领域形成一定的技术门槛,现在这一门槛被大大削弱,这更加考验创业团队对业务的理解能力、运营能力和商业化能力。 从某种意义上讲,这一波AIGC的真正受益者其实是原来已经形成商业闭环的企业,比如美图,即原来的业务有流量、有场景、有商业化逻辑,然后用AIGC来更好地降本增效,提升和改善原有的产品体验,甚至进一步拓展更加丰富的商业化产品。 刘洛麒:是的。美图拥有影像行业第一的用户心智,用户规模强大,大模型冷启动的获客成本低,基于大模型的AI技术也让我们可以很快地将构想落地验证,也带来非常正向的用户反馈,还能在短时间去验证产品成功与否,减少了大量的时间和人力成本投入,更重要的是减少了很多的不确定性。 而对于用户来说,AIGC是前所未有的,这对于用户群体的吸引力是非常强的,用户也有足够的动力去尝试,这也提高了付费订阅意愿。 目前业界虽然有许多开源的大模型,但具体业务场景下的大模型的开发依然存在一定的门槛。数据、算力、算法是决定大模型质量的“三驾马车”,大模型依赖成熟的算力基建,训练和推理则需要强大的算法和计算能力,还需要庞大的数据量和优质的数据质量,数据质量的高低很大程度上决定了模型能力的上限,而这些正是美图的优势所在。 另外,大模型的布局需要找到合适的切入场景,对业务赋能,也能够对外输出能力。比如美图通过AIGC推动了AI绘画、AI动漫、AI商品图、AI模特试衣等等功能应用落地,同时基于大模型重构了美图过去15年的产品,从生活场景延伸至生产力场景。 依托美图AI开放平台,以API和SDK的方式,为行业客户提供提供大模型的商业使用模式。2023上半年,在AIGC推动下,美图在AI图片、AI视频、AI设计等领域持续创新,推动VIP订阅收入大幅增长,VIP会员数超720万,同比增长44%,创下历史新高。 Q:以AIGC为主攻方向的创业公司要想突出重围,有哪些关键要素是必须具备的? 刘洛麒:其实AIGC领域的公司要想突出重围的话,不仅仅是技术问题,更关键的是需要把技术和应用场景相结合起来。 但是当下存在的一个现象是部分公司对大模型实际的应用场景考虑得不够深入,技术的落地有一定难度。做好大模型很重要,但如何用好大模型其实更加重要。 我们不能只关注大模型的数据量、参数量这些技术指标,更要抓住应用场景的核心需求,并且在商业模式上得到验证。预训练大模型是基础设施,大模型的下一步是走向多模态。 如何实现在不同行业、垂直领域、功能场景的部署与应用,让大模型真正走向产业、走进实体,解决企业与行业面临的现实问题,是更值得关注的领域。 程斌:创业公司在技术层面再去卷基础大模型的意义已经不大了,现在市面上已经有很多开源的大模型做得很好,直接调用就可以,而且做基础大模型还是有一定的门槛的,这让后来者很难再入局并取得优势。现阶段,如果要打出差异化,一定是将生成式AI技术与具体业务做深度融合,而不是浮于表面的做一些简单的应用。刚才我也说了,有一些敏锐的传统行业创业者已经开始拥抱大模型。他们熟悉行业,了解需求,一 旦利用好大模型这样的先进生产工具,发展会非常迅猛。 不过,正如我以前说国内SaaS行业存在的一个问题,大模型应用领域也有可能同样存在,那就是生产工具的变革能否真正带来生产关系的改变,进而真正提高生产力。 打个比方说,如果传统行业应用是马拉车,那么结合先进生产工具,很多时候貌似我们打造出来一辆小汽车,但是并没有真正改变商业模式当中的某些痛点环节,还是在沿用传统方式在运营,那无非就是从马拉车变成马拉小汽车,并没有能够让它靠先进发动机和燃料跑起来,没有真正形成商业模式和生产力的变革。所以,在大模型这样颠覆级的技术突破下,我们也希望看到更多行业能够真正从马车升级到小汽车,靠着先进发动机和燃料实现突破。这需要更多的创新和深度融合,以确保技术不仅仅停留在表面,而是真正为企业和社会带来持续的价值和进步。 当然,对于技术型初创公司来说,AIGC也不只是大模型这一条路。大模型更多是以数据为支撑,能产生丰富多样的内容。但在一些样本量小、功耗资源少、对实时性有一定要求的场景中,其他技术路径,比如生成对抗网络(GAN),仍然存在差异化的优势。 虽然在Diffusion和Transformer出来之后,GAN有点被冷落了,但在一些小而美的应用场景中,它仍然具有一定优势的。此外,自监督学习、强化学习、元学习等方法也可能在特定领域或任务中提供了新的机会和优势。 因此,AIGC领域的技术创新是多样化的,创业公司应根据其业务定位、市场需求和资源状况,选择适合其需求的技术路径。 Q:美图做AIGC和大模型有什么独到之处? 刘洛麒:美图的大模型确实是不同于其他厂商