AI智能总结
(2023年) 中国信息通信研究院知识产权与创新发展中心2024年1月 版权声明 本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。 前言 人工智能牵引智能时代加速到来,各类技术涌现以及众多企业接力创新的过程中,将给产业发展带来巨大的乘积效应。数字平台的竞争也随之呈现出新的特点:一是数据层面竞争更为激烈及由此引发的争议更为频发;二是闭源与开源两种创新模式竞合发展;三是超级平台企业成创新与价值网络的核心节点。 鉴于数字平台治理的边界极为广泛,为了更明晰地展现 2023 年各国针对数字平台最新发展趋势与竞争特点所作出的回应,本报告将从竞争法的视角出发,对各辖区数字平台治理的最新趋势进行总结与分析。美国治理制度方面,不断加强对数字平台企业经营者集中反垄断审查的制度完善;治理重点领域方面,强化对前沿产业如人工智能领域有效竞争环境的构筑与保护;治理典型案例方面,数字平台巨头将自身不同服务捆绑、渠道不合理限制、排他性交易、并购等行为受到法律的评价与约束。欧盟治理制度方面,动态调整以适应数字平台发展带来的挑战;治理重点行为方面,对于数字平台企业数据搜集与使用行为展开重点引导与规制;治理典型案例方面,数字平台巨头的算法使用、数据使用等相关行为受到重点治理。英国治理制度方面,引入新立法加强对数字平台的事前治理;治理重点领域方面,关注 AIGC 带来的治理挑战并积极应对;治理典型案例方面,加强对数字平台损害竞争收并购行为的规制。中国治理机制方面,有效回应人工智能产业需求,“软硬兼施”协同治理;治理手段方面,不断丰富反垄断监管手段、增强反垄断监管效能;治 理典型案例方面,数字平台巨头滥用数据与算法优势,限定交易、不公平高价交易等行为受到有效治理。 从全球数字平台治理的共性趋势来看,一是治理共识都基于对数字平台巨头根深蒂固市场优势的认知,监管机构逐渐将监管时间、节奏和重点前移。二是治理思路从事后治理向事前治理延伸,以针对快速发展的数字平台中的结构性障碍和反竞争做法的风险,采取快速有效的行动。三是治理重点为“类基础设施”数字平台相关行为。如随着人工智能技术的发展,监管机构对于数字平台的治理重点集中于“类基础设施”数字平台如大模型平台、云计算平台经营者相关行为的规范。四是消费者角色、作用等不同于以往传统经济的特征逐步突显,消费者利益在智能时代背景下能否成为独立的价值诉求问题愈加突出,以数据为代表的数字平台治理问题更加复杂化。 展望未来,各国将普遍采用复合型的政策工具、发挥各个治理手段的合力。治理重点围绕数字平台竞争特点进一步展开,生态构建规则的开放程度仍将持续成为平台治理焦点;数据问题的复杂性将进一步延续,数字平台数据搜集与使用行为相关规则将逐步清晰;开源或闭源数字平台将自身优势变现到其他相关市场并实施渠道封锁、技术封锁等反竞争行为,将持续成为数字平台治理的重点规制方向。 目录 一、数字平台最新发展现状与竞争特点 ................................. 1 (一)发展现状 .................................................. 1(二)竞争特点 .................................................. 21.数据竞争更为激烈及由此引发争议更为频发 .................... 22.闭源与开源两种模式竞合发展 ................................ 43.超级平台企业成创新与价值网络的核心节点 .................... 5 二、主要辖区数字平台治理态势 ....................................... 6 (一)美国 ...................................................... 7(二)欧盟 ..................................................... 10(三)英国 ..................................................... 13(四)中国 ..................................................... 17 三、全球数字平台治理共性趋势 ...................................... 19 (一)治理共识为数字平台巨头具有根深蒂固的市场优势 ............. 19(二)治理思路为从事后治理向事前治理延伸 ....................... 20(三)治理重点为“类基础设施”数字平台相关行为 ................. 21(四)治理难点以数据治理为典型代表 ............................. 22四、展望 .......................................................... 23(一)治理制度在“变与不变”中动态调整 ......................... 23(二)治理理念秉持“协同与平衡”继续前行 ....................... 24(三)治理重点围绕数字平台竞争特点进一步展开 ................... 24 一、数字平台最新发展现状与竞争特点 (一)发展现状 生成式人工智能为数字平台带来新的发展机遇。自 2017 年谷歌发布 Transformer 网络结构1以来,衍生出涵盖各种技术架构、各种模态、各种场景的大模型家族。2022 年 11 月 30 日,OpenAI 发布基于 Transformer 网络结构的 ChatGPT 应用,通过学习和理解人类的语言,与人类进行对话和互动。生成式人工智能已成为人工智能领域的一次发展范式转换。数字经济时代,以生成式人工智能为代表的技术突破再一次将数字平台的技术创新推到时代前沿,平台经济不仅改变了特定市场,而且“已经开始颠覆社会的基础设施和组织设计”。2截至目前,生成式人工智能已带动一波新的独角兽的兴起。据 CBinsights 统计,截至 2023 年第一季度,全球生成式人工智能企业的估值总计达到约 480 亿美元;除了占一半估值以上的 OpenAI 以外,Anthropic、Jasper 等五家企业已成为估值在 10 亿美元以上的“独角兽企业”。 人工智能市场规模快速扩大,但行业渗透率有所差异。全球人工智能产业相关技术快速发展,下游应用也不断丰富。据 IDC 估算,2022年全球人工智能市场达到 4328 亿美元,按同比增长近 20%推算,2030年全球人工智能市场规模将超过 1.8 亿美元。但不同行业人工智能技 术渗透率有所差异。据 Gartner 预测,当前生成式人工智能行业渗透率不足 1%,2025 年生成式人工智能渗透率有望提升至 10%。从落地的角度来看,人工智能在自动驾驶、安防、语音识别等领域已经得到大规模应用。 (二)竞争特点 1.数据竞争更为激烈及由此引发争议更为频发 数据作为智能时代重要的生产要素,已成为经营者重要的竞争手段。大数据本身不仅是一种新技术,也是一种新的思维方式。随着大数据技术的不断发展,已经重构很多细分行业的竞争要素。如搜索引擎行业,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为“点击模型”。点击模型的准确性取决于数据量的大小。一个搜索引擎使用的时间越长,数据的积累就越充分,对于一些长尾搜索就会越准确。即随着数据量的积累,点击模型对搜索结果排名的预测也越来越准确,它的重要性也越来越大。今天,“点击模型”在搜索引擎排序中至少占 70%—80%的权重。当整个搜索引擎行业都意识到点击数据的重要性后,市场上的竞争就从技术竞争变化为大数据的竞争。这时,各个公司的商业策略和产品策略都围绕着获取数据、建立相关性而展开。3另如人工智能行业,其技术的突破也得益于高质量、大规模、多样性的优质数据,数据是大模型竞争关键要素之一。一方面,大语言模型训练使用的数据集规模持续增长。2018年的 GPT1 数据集约为 4.6GB,2020 年的 GPT3 数据集达到了 753GB, 到了 2021 年的 Gopher,其数据集规模已经达到了 10550GB。另一方面,多模态4大模型参数量及数据量持续提升。如 2022 年 Stability AI发布的 Stable Diffusion 数据集包含 58.4 亿图文对/图像,是 2021年 OpenAI 发布的 DALL-E 数据集的 23 倍5。 各方主体在数据方面的博弈愈加激烈。一是企业数据控制者通过收费许可、限制访问等方式加强自身的主导权。如 WebText 作为大模型训练的重要数据来源之一,其数据主要是从社交媒体平台 Reddit中获取。2023 年 4 月,Reddit 宣布将向使用其 API 训练人工智能聊天机器人的公司包括微软、谷歌、OpenAI 等收取数据使用费。二是用户对自身数据合理使用的边界愈加重视。2023 年 6 月,由美国Clarkson 律所代理的针对 OpenAI 和微软的第一起集体诉讼,正式向加州北部地区巡回法院提起。原告指控被告在开发、营销和运营其人工智能产品时,非法地收集、使用和分享了数以亿计的互联网用户的个人信息数据,侵犯了用户的隐私权和财产权。2023 年 7 月,多位原告联合向美国加州联邦法院提起集体诉讼,指控称谷歌未经同意窃取了数百万用户的数据用以训练和开发谷歌人工智能产品。原告认为公开渠道的数据并不意味着可以免费用于任何目的,谷歌的行为侵犯了用户的隐私权和财产权。三是监管部门对于数据的治理愈加重视。在人工智能时代,利用庞大数据资源来控制相关市场成为主导企业滥用市场支配地位的另一种表现形式。随着训练数据的扩展,人工智能模型变得更加准确,这意味着拥有庞大数据储备的主导企业具有天然 优势,主导企业可以通过拒绝竞争对手访问其数据资源的方式形成市场进入壁垒。67正如美国联邦贸易委员会(Federal Trade Commission,FTC)主席莉娜·汗(Lina Khan)强调的,“禁止歧视以及禁止剥削性收集或使用个人数据的现行法律,都将适用于人工智能市场监管。” 2.闭源与开源两种模式竞合发展 头部经营者更偏好通过闭源策略来稳固其竞争优势。自 OpenAI发布 GPT-3 并实现商业化盈利以来,OpenAI 推出 GPT-4 的形式与以往有所不同,其既没有发布 GPT-4 的相关论文,也没有提供详细的框架说明,仅提供了几乎没有任何技术细节的文档。通过这一方式,OpenAI 阻断了所有借鉴者参考大模型训练数据集的构建、训练方法等的直接途径。8谷歌也紧随其后,不再公布 T5 模型及后续版本的细节。头部人工智能企业期望将其技术优势转化为商业上的核心竞争力,以此延缓竞争对手的追赶速度。 相较于头部人工智能厂商,追赶者更倾向于通过开源模式以缩小和头部厂商的差距。头部厂商闭源模型后,Meta、亚马逊等纷纷选择开源路线,希望通过开源模式快速迭代自身技术,以加强自身在智能时代的竞争优势,同时也大大地改变了市场已有的竞争格局。如 2023年 2 月,Meta 发布 LLaMA 开源大模型,同年 7 月发布免费可商用版本 LLaMA2 开源大模型。对于 Llama2 的出现和发布,深度学习三巨头 之一的杨立昆发文表示,Meta 开源大模型的推出将极大地改变大模型的市场竞争格局9。在 LLaMA 系列开源大模型发布之后,开源大语言模型有了长足的进展,各种基于 LLaMA 的动物系列模型10出现,包括斯坦福大学发布的 Alpaca(羊驼),伯克利、卡内基梅隆大