您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[量子位智库]:中国AIGC数据标注产业全景报告 - 发现报告
当前位置:首页/行业研究/报告详情/

中国AIGC数据标注产业全景报告

中国AIGC数据标注产业全景报告

中国AIGC数据标注产业全景报告Panoramic ReportofGenerative AI Data LabelingIndustryinChina 2023.11杨净量子位智库QbitAIInsights 序言数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信息结构化、数字化,充分发挥数据信息的价值。大模型时代到来,AIGC众多垂直场景落地,以及通用智能、具身智能等前沿领域探索,与高质量、专业化的场景数据密不可分,数据标注从劳动密集型加速朝着知识密集型转型,行业壁垒进一步提高。作为底层基础服务,数据标注贯穿大模型全生命周期(训练测试、评估验证和应用迭代)。一方面,牵涉关键Know-how,更多大模型公司/AI企业选择自建标注团队和管线;另一方面,上下游合作关系将更为紧密和耦合,专业数据服务提供商更多机会将在垂直领域,帮助企业完成私有化部署。机遇与挑战并存。合成数据作为新衍生赛道,潜在市场空间巨大。与此同时,数据标注标准难以统一、数据处理流程尚未规范,高学历多领域多专业成为标注人才的硬指标。 大模型时代下的数据标注!"!#!$!%目录AIGC数据标注四大变化AIGC数据标注三大影响因素数据标注产业竞争格局/市场规模数据标注代表玩家案例集!& 大模型时代下的数据标注!" 数据标注是AI认识世界的起点n文本:词性标注、分类标注、情绪标注、命名实体识别、语义标注、意图标注等;n图像:图像分类、语义分割、实例分割、拉框、OCR转写等;n音频:语音识别、声纹识别、语音转写等;n视频:目标跟踪、行为识别等;n3D点云数据标注是将原始数据进行加工处理,比如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。国内数据标注厂商,广义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等工作,为下游客戶提供通用数据集、定制化服务、数据闭环工具链等。这也是本次AIGC数据标注全景报告的研究对象。根据原始数据类型以及训练任务划分:一般数据处理流程:原始数据数据清洗模型训练测试/验证数据标注数据质检数据标注中的二八定律通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%。 大模型时代下的数据标注海天瑞声是国内唯一一家AI数据上市公司,今年2月以来股价受ChatGPT热潮曾一度狂飙,截至11月10日股价较年初上涨59.75%。上市公司股价狂飙,创业公司融资加速大模型数据解决方案多处开花,以一站式、定制化服务为主围绕大模型开发全生命周期(包括预训练、监督微调、RLHF、红队测试、基准测试等),专业数据服务商、大模型企业、AI公司等各方都拿出相关数据解决方案,大部分以一站式、定制化服务为主。•云测数据:面向垂直行业大模型数据解决方案•星尘数据:星尘COSMO大模型数据金字塔解决方案•澳鹏Appen:AI聊天反馈和基准测试两大解决方案•火山引擎:火山方舟(涵盖数据服务模块)•百度:首个大模型数据标注基地大模型范式涌入数据标注,自动化标注⻔槛大幅降低以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的大模型也被验证在文本、图像领域标注具有可行性,并衍生出专⻔做数据标注的大模型,大幅降低自动化标注⻔槛。国内不少数据服务商进行相关大模型研发,部分产品已经发布:•海天瑞声:数据生产垂直大模型(研发阶段)•曼孚科技:自动驾驶数据标注视觉大模型(已完成研发)•⻰猫数据:自动驾驶大模型AutopilotGPT(发布)•商汤:明眸SenseAnnotation自动化数据标注平台(发布)•标⻉科技:烘焙师大模型Baker-GPT(发布)创业代表公司融资情况星尘数据|22年12月5000万A轮标⻉科技|23年4月超亿元B2轮整数智能|23年6月数千万Pre A轮柏川数据|23年7月千万元天使轮曼孚科技|23年9月数千万B轮恺望数据|23年4月战略融资23年9月数千万Pre A轮智能驾驶新感知范式,BEV+Transformer是机遇也是挑战作为最具代表性应用场景,智能驾驶迎来新感知范式:以BEV+Transformer为代表的四维感知替代掉2D+CNN为代表的二维感知方案,给数据服务厂商带来更多机遇与挑战,包括不限于标注场景难度大、数据量产能力要求高等。目前国内部分厂商给出了数据闭环工具链和解决方案等。(图源:特斯拉) AIGC重塑数据标注量子位智库认为,数据标注正迎来重新洗牌的关键时刻,有四大关键趋势:1、数据标注要求从客观到主观,很难建立统一标准大模型的开发范式决定了大模型数据标注对自然语言要求要求很高,包括排序、改写、多轮对话、评估等操作,难以依靠客观的评价体系,比如准确率、效率等。本科以上多领域多专业开始成为标注人才的硬指标,标注⻆色也随着大模型全生命周期更为细分,比如AI训练师、模型精调师、指令工程师等。大模型Know-how涉及到数据处理流程的设计,大模型公司/AI企业开始自建数据标注团队和数据处理管线,甚至对外输出服务,产业链重新洗牌。量子位智库预计,国内AI基础数据服务市场规模将达百亿规模,约占全球市场10%份额。其中合成数据作为衍生出来的新赛道,存在巨大市场空间,增速超40%。2、高学历多领域人才成刚需,缺口或达百万3、产业链重构,大模型公司/AI企业涌入4、国内百亿级市场规模,合成数据增速最高 AIGC数据标注四大变化!# 需求变化:与行业场景强相关,高质量数据需求长期且持续大模型时代的到来,正加速推动人工智能开发从以模型为中心朝着以数据为中心的方向转变。高质量数据服务需求贯穿大模型全生命周期。目前大模型技术路径已经完整清晰,训练流程主要分为三个阶段:预训练大模型监督微调SFT强化学习RLHF二次预训练**实际训练过程中,部分垂直领域大模型需用小规模语料进行二次预训练操作数据处理流程设计涉及大模型Know-how,直接决定大模型性能好坏。尤其后两个阶段需要专业人士生成数据或对数据进行改写或排序,最终形成符合人类标准(比如专业逻辑、核心价值观等)高质量数据。而后随着大模型持续地实时更新迭代、朝着多垂直领域落地,尤其通用智能、具身智能等相关探索,如何快速扩展到更多真实边缘场景,高质量场景数据也将成为刚需。除此之外,实时保障输出内容的安全合规,也远比以往更受重视。从训练、迭代到应用落地,数据服务贯穿大模型全生命周期。广泛认知里,大模型是以数据为中心的产物。数据数量和质量很大程度决定着大模型能力的上限。n以模型为中心:迭代模型,数据相对固定。n以数据为中心:关注数据本身,模型成为了数据的「容器」。企业端客戶需要⻓期且持续的数据服务,产业链上下游供应关系远比以往更为紧密和耦合。(图源:OpenAI官网)(图源:Data-centric AI: Perspectives and Challenges) 处理流程侧变化:标准从客观到主观,高学历多领域成人才硬指标传统数据标注大模型数据标注领域划分按不同领域或任务划分按不同阶段划分具体实操拉框、描点、转写等操作排序、改写、生成等操作标注要求偏客观偏主观评价指标准确率+效率难以对⻬标准解决方案工具/平台标注+人类质检专业培训、定期开会对⻬等举措人才要求专科为主本科以上,多领域专业人才标注⻆色按职能划分标注员、质检员、管理员按阶段划分AI训练师、模型精调师、指令工程师、红队测试军团等。覆盖区域主要集中在三四线城市重新打散例如,百度在海口专为大模型建设的数据标注基地,本科比例100%,培训专业人才已达1000人。未来五年,数据标注相关专业人才缺口将达百万量级。数据标注从劳动密集朝着知识密集型转变。 业务变化:合成数据成新衍生赛道,潜在市场空间巨大合成数据的优势&特点1、降本增效降低数据获取成本,生成数据自带高质量标注,缓解“数据荒”问题。2、数据可定制应用可扩展性强,灵活度高,可覆盖更多边缘、⻓尾场景。3、隐私安全天然规避掉数据隐私安全合规的问题。数据增强自动驾驶机器人金融生物医药工业...模型验证可解释AI具身智能AR/VR...应用场景企业案例群核科技CoohomCloud(群核云)作为目前为数不多提供室内场景数据服务的代表厂商,能针对不同应用场景合成2D、3D数据集,客戶覆盖全球,服务多家海内外科技巨头公司,并于英特尔在产研等开源性项目上进行深度合作。所谓合成数据,即是用AI生成数据而非真实产生,能够替代真实数据来训练、测试和验证大模型。目前主要在自动驾驶、机器人、生物医药等领域应用。英伟达Meta亚⻢逊等全球科技巨头均有相关布局(投资、收购等)。OpenAICEOSam Altman曾放言:未来所有数据都将变成合成数据。量子位智库预计,合成数据将成为未来增速最快赛道,年增⻓率可达45%。(图源:官网) 供应链变化:重新洗牌,大模型公司/AI企业涌入硬件/云服务厂商、人力资源厂商基础数据服务提供商数据需求方(AI企业、传统企业、政企机构、科研机构等)百度智能云火山引擎阿里云华为云腾讯云综合招聘平台......专业数据服务提供商大模型公司/AI企业中小团队群核科技海天瑞声云测数据星尘数据曼孚科技标⻉科技⻰猫数据倍赛科技整数智能晴数智慧数据堂博登智能37度数据景联文科技科乐园...百度智能云火山引擎商汤科技京东...阿里云毫末智行...大模型公司/AI企业自建数据处理管线,对外输出大模型数据解决方案,传统产业链重新洗牌。部分厂商还具备云服务能力,同数据服务打包输出,更易建立起客戶之间的口碑和信任,具备竞争优势。京东云澳鹏中国恺望数据卓印智能未有科技⻛云数据朗势科技柏川数据冰山数据 AIGC数据标注三大影响因素!$ 三大影响因素:以技术+场景聚合的⻜轮效应数据标注作为AI底层服务,最本质是为客戶降本增效。持续迭代技术能力的企业将有机会脱颖而出,包括不限于以下几点:n数据闭环工具链的智能化水平n对大模型/算法Know-how的理解n数据工程化能力、数据基础设施建设n......行业Know-how*高质量场景数据*能够根据客戶需求,快速找到并利用与场景最为贴合的资源。n数据标注仍具备⻜轮效应;n新创业公司入局⻔槛进一步提高;n专业数据服务商更多机会将在垂类场景,帮助企业完成私有化部署;n对外输出数据服务的大模型公司/AI企业也存在竞争优势。业务量增⻓获客容易获得口碑渠道+人力AIGC数据处理能力越强获客越容易标注经验越丰富可扩展性灵活性更强获得口碑技术+场景一看技术能力二看场景资源三看⻜轮效应场景专业人才(领域专家、深度用戶等)传统数据标注⻜轮AIGC赋能数据标注⻜轮 产业竞争格局/市场规模!% 市场竞争格局数据标注行业传统依靠渠道、人力等形成的低成本竞争优势将被重塑,数据需求方将更看重数据质量、场景多样性和可扩展性。基于以上原因,量子位智库将从数据基础设施、场景资源两个方面来分析目前的业内玩家分布及现状。数据基础设施高质量场景资源大模型相关数据解决方案大模型数据资源/标注团队我国数据标注行业企业竞争格局代表公司:•海天瑞声•数据堂•澳鹏中国•晴数智慧•未有科技•37度数据•景联文科技包括中小众包团队,模型/应用层公司自建数据管线等第一象限:有技术有场景的明星公司该象限存在两种情况:第一种是模型层公司本身有大模型技术范式以及场景落地经验积累,可快速输出数据解决方案,与云服务打包输出建立信任;第二种则是主要以技术驱动的明星企业,大部分拥有数据闭环工具链,再结合几年来行业经验,在大模型浪潮下易受到企业用戶⻘睐。第四象限:场景壁垒更为深厚的行业玩家该象限着更为深厚的行业数据壁垒,可为下游用戶提供高质量数据集或拥有大模型数据标注团队,以海天瑞声为例,不仅是LIama2的唯一中国伙伴,还发布超大规模中文多轮对话数据集DOTS-NLP-216,合作企业超810家,覆盖全球近200个主要语种及方言,有近20年行业深耕。第二象限:有强技术支撑的创业新势力该象限主要聚焦在近两年创立的创业公司,主要以自动驾驶场景作为切入点,再覆盖到AIGC及其他领域。他们饱受资本市场认可,以恺望数据为例,一年半时间就是完成了三轮融资。1324代表公司•