您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[头豹研究院]:2023年中国自然语言理解行业概览:人与机器语言交互的核心技术 - 发现报告
当前位置:首页/行业研究/报告详情/

2023年中国自然语言理解行业概览:人与机器语言交互的核心技术

信息技术2023-05-15陈文广头豹研究院机构上传
2023年中国自然语言理解行业概览:人与机器语言交互的核心技术

1©2023 LeadLeowww.leadleo.com400-072-55882023年中国自然语言理解行业概览:人与机器语言交互的核心技术2023 China Natural Language Processing Industry2023 中国自然言語理解産業报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系头豹研究院独有的高度机密性文件(在报告中另行标明出处者除外)。未经头豹研究院事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,头豹研究院保留采取法律措施,追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标,头豹研究院无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。报告主要作者:陈文广2023/01www.leadleo.com概览标签:NLP、自然语言理解、自然语言生成、百度、科大讯飞、腾讯云 2•自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流自然语言处理(NLP)是人工智能最为关键的核心技术之一01•中国NLP行业市场规模2021年达到181.3亿元,CAGR为87.4%。随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,预计未来中国NLP行业市场规模于2026年达到836.6亿元中国NLP市场规模于2021年达到181.3亿元;在AI技术不断融合与迭代升级的背景下,预计中国NLP市场于2026年达到836.6亿元02•在交互型场景中NLP产品的核心价值在于快速理解客户表达的语义信息并进行恰当的回复,多用于流程化和标准化的业务环节中有利于金融机构精简客服人员并提升客服效率与质量。在分析型场景中NLP产品的核心价值在于对市场的海量金融资讯进行信息处理,提供智能分析结论,为金融机构作出决策行为提供辅助NLP技术在金融领域的功能作用主要包括语言交互和金融分析,分别应用于交互型场景和分析型场景03研究目的——摘要©2023 LeadLeowww.leadleo.com400-072-55882022年NLP新模型——ChatGPT问世,迅速获得社会各界的高度关注,其凭借高质量的文本理解和创作能力标志着NLP将进入一个新的纪元。本篇报告聚焦于中国NLP行业的发展现状,从结合行业政策、产业链分析、应用场景及落地案例等分析维度,挖掘出中国NLP行业的领导企业,并给出对于中国NLP行业发展的理解与解读 Chapter 1NLP行业综述◼自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流,是人工智能最为关键的核心技术之一◼过去5年,随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达到181.3亿元,CAGR为87.4%。随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,预计未来中国NLP行业市场规模将维持快速增长趋势,于2026年达到836.6亿元,CAGR为35.7% 4©2023 LeadLeowww.leadleo.com400-072-5588来源:头豹研究院中国自然语言处理行业综述——定义与概念自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流,是人工智能最为关键的核心技术之一自然语言处理的定义与内涵定义:自然语言处理是通过构建算法使计算机自动分析、表征人类自然语言的学科。自然语言处理是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本(包括字、词、句和篇章)的能力,实现人机间的信息交流自然语言处理(NLP)语音分析词法分析句法分析语义分析语用分析技术目标根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词找出词汇的各个词素,从中获得语言学的信息对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以及各自在句中的作用找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念研究语言所存在的外界环境对语言使用者所产生的影响图灵试验·判别标准1问答,机器能否正确回答输入文本的相关问题2文摘生成,机器是否能够生成输入文本的摘要3释义,机器是否能够用不同的词句复述输入的文本4翻译,机器是否具有将文本翻译成另一种语言的能力判断计算机是否能够理解某种自然语言具备自学习进化能力自然语言理解的基本任务推理、规划、决策感知和情感表达理解人类语言用人类语言表达 5©2023 LeadLeowww.leadleo.com400-072-5588来源:Archie,Google,Apple,Amazon,OpenAI,头豹研究院中国自然语言处理行业综述——发展历程NLP技术经历了70多年的发展历史,按照技术的角度,大致可分为NLP1.0:基于规则,NLP2.0:基于统计和NLP3.0:基于深度学习三个阶段,其中2022年ChatGPT的出现使得NLP的智能化水平大幅提升自然语言处理技术发展历程194919561970s1990s200620112014201820192022Warren Weaver提出机器翻译的概念基于规则的自然语言处理方法出现硬件性能低下,限制自然语言处理算法发展搜索引擎Archie出现以谷歌翻译为首的机器翻译模型出现以Siri为首的语音助手出现以Amazon Echo为代表的智能音响兴起谷歌推出Duplex,模拟人类交流完成订餐,Duplex已通过图灵测试CMU与谷歌大脑提出新的NLP预训练模型XLNet,在20项任务上超越BERT谷歌AI团队发布BERT模型,Google搜索引擎使用BERT模型后理解能力大幅提升OPENAI推出NLP模型ChatGPT,能够通过对话方式进行交互,并自动生成文本内容NLP1.0:基于规则NLP2.0:基于统计NLP3.0:基于深度学习按照提前设定好的规则,进行自然语言理解根据语料库中对应搭配出现的概率大小来做自然语言的理解构建类似“人脑”的神经网络,使机器能够像人脑一样理解自然语言BERTXLNetDuplex智能化水平时间 6©2023 LeadLeowww.leadleo.com400-072-5588来源:头豹研究院中国自然语言处理行业综述——发展现状:ChatGPT2022年OpenAI推出NLP领域的新型“对话式机器人”——ChatGPT,它能够准确理解人类语言的意图,与用户进行交互,并可根据用户输入的指令高质量地自动生成新的文本内容,被称作是“AIGC的里程碑”ChatGPT概况优势不需要任何额外的训练就能在多种不同的领域中应用并快速输出高质量的文本•ChatGPT支持多轮对话,在自然语言交互方面、情感分析、情景会话等方面运行流畅,在语言模仿能力和逻辑判断方面展现出更强的能力•ChatGPT支持多种语言环境,并支持长短句输入,在阅读理解、复杂语句处理、逻辑能力和文本生成方面更加灵活•ChatGPT的训练模型支持大规模数据集,具备海量的话题库,通用性更强,拥有更高精度的预测能力更强的对话能力更全面的语言能力更准确的预测能力ChatGPT相较于传统NLP模型的优势文本生成机器翻译代码生成问答对话小说、商业计划书、文案等自动生成聊天、倾诉、陪伴翻译、转录、总结文本等高智能知识问答、哲学思考ChatGPTChatGPT是在GPT 3.5大模型语言模型的基础上,加入“基于人类反馈的强化学习”来不断微调预训练语言模型,使得ChatGPT学会理解用户输入的不同类型的指令,并通过多重标准(例如是否富含信息、内容丰富程度、是否对用户有帮助、无害、不包含歧视信息等标准)合理判断其生成和输出的内容是否为优质信息ChatGPTChatGPT是基于NLP模型—GPT开发的“对话式机器人”,能够根据用户输入的自然语言文本内容高质量地自动生成新的文本内容,被称作是“AIGC的里程碑”,亦标志着NLP进入一个新的纪元” 7©2023 LeadLeowww.leadleo.com400-072-55881,207 1,304 1,730 1,996 2,565 3,916 5,550 8,840 12,596 14,275 02,0004,0006,0008,00010,00012,00014,00016,0002011201220132014201520162017201820192020来源:工信部电子知识产权中心,头豹研究院中国自然语言处理行业综述——发展现状:专利情况中国NLP技术专利呈现先平稳增长后爆发式增长的趋势,2015年后在数据量上涨,芯片算力提升和深度学习算法更新迭代的驱动下,中国NLP技术专利申请量进入高速增长区间,百度累计申请量位居榜首中国NLP技术领域专利申请情况,2011-2020年中国部分企业/机构NLP技术累计专利申请量排名,2021年百度腾讯平安科技国家电网阿里巴巴浙江大学清华大学中科院所华为科大讯飞2,019项1,336项985项826项690项618项512项484项421项382项◼中国NLP理技术的专利布局呈现先平稳增长后爆发式增长的趋势2015年之前中国NLP年度专利布局缓慢增长,由2011年1,207项增长至2,565项,年均复合增长率为20.74%。2015年后,在数据量上涨,芯片算力提升和深度学习算法更新迭代等因素的驱动下,NLP技术得以高速发展,推动中国NLP专利布局呈现指数级增长态势,B端NLP专利布局高度活跃◼百度以2019项的成绩占据NLP技术累计专利申请量的榜首从中国NLP主要创新主体的专利申请量来看,截至2021年百度NLP技术专利申请量为2019项,位于业内榜首,由此表明百度在NLP技术领域具有领先的技术研发创新和专利布局战略优势;腾讯集团以1,336项的申请量位居第二,具有深厚的NLP技术基础。在科研院所中,浙江大学、清华大学、中科院所名列前茅,由此表明中国高校和科研机构的NLP技术创新活跃度较高单位:[项]高速增长区间 8©2023 LeadLeowww.leadleo.com400-072-5588来源:头豹研究院中国自然语言处理行业综述——市场规模随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达181.3亿元;在AI技术不断融合与迭代升级的背景下,预计中国NLP市场于2026年达到836.6亿元中国NLP行业市场规模预测(按营收计),2017-2026年预测◼2021年中国NLP行业市场规模为203亿元,预计未来5年将维持快速增长趋势,于2026年达到500亿元过去5年,随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达到181.3亿元,CAGR为87.4%随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,预计未来中国NLP行业市场规模将维持快速增长趋势,于2026年达到836.6亿元,CAGR为35.7%单位:[亿元]测算逻辑头豹洞察NLP软件市场规模NLP硬件市场规模NLP服务市场规模NLP市场规模完整版登录www.leadleo.com搜索《2023年自然语言理解行业概览:人与机器语言交互的核心技术》 9©2023 L