您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:Cohere:着力于B端赛道,OpenAI的强劲对手 - 发现报告

Cohere:着力于B端赛道,OpenAI的强劲对手

信息技术2023-10-22闻学臣中泰证券徐***
Cohere:着力于B端赛道,OpenAI的强劲对手

中泰证券研究所专业|领先|深度|诚信 |证券研究报告| Cohere:着力于B端赛道,OpenAI的强劲对手 2023.10.22 分析师:闻学臣 执业证书编号:S0740519090007Email:wenxc@zts.com.cn 联系人:王雪晴 Email:wangxq03@zts.com.cn Cohere:2019年成立的初创公司,提供高性价比的NLP方案 Cohere成立于2019年,是一家加拿大AI初创企业,因上榜“福布斯AI50强”以及“CNBC2023年颠覆50强”而受 到广泛关注。 Cohere在为开发者和企业提供不需要昂贵的机器学习开发的NLP解决方案,让各类开发人员都可以使用大型神经网络和最先进AI来解决任何语言相关问题,但却不依托于任何公共云,让模型能在私有云或本地部署中运行。 图表:Cohere官网首页 资料来源:Cohere、中泰证券研究所 图表:Cohere提供生成和代表语言模型 资料来源:Cohere、中泰证券研究所 Cohere的联合创始人兼CEOAidanGomez是2017年学术著作《AttentionisAllYouNeed》的作者之一,该论文在人工智能研究领域具有里程碑意义,推动了计算机分析和生成文本方式的进步,ChatGPT等现代大型语言模型都由其基础衍生。AidanGomez分别在多伦多大学(本科)和牛津大学(博士)学习,也曾是GoogleBrain的成员之一。 IvanZhang是Cohere的首席科学家兼首席技术官。他创立了FOR.ai(现为CohereForAI),是一个独立的AI研究小组,他也是生物技术和MLOps领域的软件工程师。 NickFrosst也是Cohere的联合创始人,他是多伦多谷歌大脑实验室的第一位员工,也是谷歌大脑团队的前成员,主要 从事机器学习领域相关研究。 图表:Cohere联合创始人 资料来源:Cohere、中泰证券研究所3 Cohere自创立以来,一共进行过四轮融资。其中最早的是2021年9月7日由IndexVentures领投,投资金额4000万美元,2023年6月,Cohere获得2.7亿美元C轮融资,由InoviaCapital领投,这笔交易对该公司的估值约为22亿美元,使其成为又一家AI超级独角兽企业。 迄今为止,Cohere共募集了4.35亿美元的资金,融资额仅次于OpenAI和Anthropic,一度跻身美国生成式AI行业第三大“吸金”公司。同时其投资者包括NVIDIA、Oracle、SAP等硅谷巨头,专业能力获得专业投资机构认可。 时间 募资轮数 募集资金 领投 图表:Cohere募资情况 2023年7月18日Corporateround-- 2023年5月2日SeriesC2.7亿美元InoviaCapital 2022年2月15日SeriesB1.59亿加元TigerGlobalManagement2021年9月7日SeriesA4000万美元IndexVentures 资料来源:Crunchbase、中泰证券研究所 4 T-Few微调提供了一种有效的方法来微调大型语言模型,解决了训练时间慢和服务资源昂贵的挑战。通过仅更新模型 权重的一小部分并启用模型堆叠,T-Few微调可显着减少训练时间,同时保持高质量的微调结果。 他们引入了MoV和MoLORA这种参数高效型混合专家适应方法。在未曾见过的任务上,这种新方法只需更新0.32%的参数,就能实现与完全微调方法相当的性能。其表现也能轻松胜过(IA)³或LORA等基础的参数高效型技术。Cohere的研究团队基于55个数据集,在12个不同任务上,用770M到11B的不同大小T5模型进行了实验,均得到了一致的结果。 图表:T-Few微调算法架构 资料来源:Few-ShotParameter-EfficientFine-TuningisBetterandCheaper thanIn-ContextLearning论文、中泰证券研究所 图表:T-Few微调过程 资料来源:Cohere、中泰证券研究所5 要完成更复杂和知识密集型的任务,可以基于语言模型构建一个系统,访问外部知识源来做到。这样的实现与事实更加 一性,生成的答案更可靠,还有助于缓解“幻觉”问题。这就是检索增强生成(RetrievalAugmentedGeneration,RAG) 方法。 通过运用RAG方法,Cohere的对话产品可以更好理解消息背后的意图,记住对话历史记录,并通过多轮对话进行智能响应。将用户的模型与网络搜索和重要数据源连接起来,以提高聊天响应的相关性和准确性。Cohere通过训练Command来优化RAG的准确性,包括从多个数据源确定相关信息。以及通过引用减少幻觉并在生成的响应和用户之间建立信任,以了解响应的来源。 图表:RAG支持的对话界面 RAG能够在对话中提供reference 资料来源:Cohere、中泰证券研究所 图表:RAG支持更强大的对话功能 资料来源:Cohere、中泰证券研究所6 Cohere主要面向B端企业客户,致力于为企业定制生成式AI服务。Cohere的垂直应用产品集中在企业运营过程中与文 本有关的三个关键领域,分别是文本生成、文本分类和文本检索。 文本生成领域有Summarize、Generate、CommandModel;文本检索领域有EmbedModel、SemanticSearch和 Rerank;文本分类领域的主要产品是Classify。 图表:Cohere主要产品列表 文本生成 文本检索 由大型语言模型支持,提供大规模的文本总结功能。能够即时准确总结文档要点,获取高质量摘要,支持输入10万个字符和文本格式选项 场景产品主要功能 Summarize Generate可生成电子邮件、登陆页面、产品描述等独特内容, CommandModel 用户将自己的数据与Command结合并经过训练后,能够遵循用户命令 并在实际业务中快速发挥作用 EmbedModel将文本映射到向量空间,并能够定位类似含义的文本 SemanticSearch提供强大的语义搜索功能,能够根据含义查找文本、文档和文章 Rerank 基于语义相关性分析现有工具的搜索结果并进行排名,为搜索结果提供强大的语义提升 析和进行聊天机器人体验 文本分类Classify分类组织信息,使用户能够个性化地组织信息来帮助内容审核、用户分 资料来源:Cohere、中泰证券研究所 Cohere针对各个产品推出不同尺寸的模型供用户选择。Summarize、Rerank、Embed、Base、Command等各种不同功能的系列模型都有不同大小尺寸,其中Command系列模型曾推出标准版Command模型、Command-xlarge-20221108、Command-lightly、Command-nightly等不同类型。 在斯坦福大学的语言模型全面评估(HELM)中,从最大的524亿参数Command模型微调得到的对话模型CommandBeta在总共61个模型中排名第二,准确率90.6%,仅次于属于GPT-3.5系列模型text-davinci-002。 图表:Command模型优化 Cohere对Command模型系列进行优化,提供更优性能的Command-lightly模型 资料来源:Cohere、中泰证券研究所 图表:HELM准确度评估 资料来源:HELM、中泰证券研究所 Cohere在产品定价方面按照不同的模型分别制定了不同的价格,同时定制化模型会收取更高的价格,方便用户根据其 实际情况选择符合具体需求的产品。 Cohere系列模型价格整体低于OpenAI的微调系列模型。Cohere产品的价格远远低于OpenAI产品的最低价,且定制化价格多为基础价格的2倍。与其相比,OpenAI产品的使用价格均是其训练价格的4倍。 微调模型TRAININGPRICEUSAGEPRICE 图表:Cohere产品定价 产品 Default Custom Embed $0.1/1MTokens - Rerank $1/1kSearchUnits $2/1kSearchUnits Generate $1.5/1MTokens $2/1MTokens Summarize $1.5/1MTokens $2/1MTokens Classify $0.05/1kClassifications $0.05/1kClassifications Chat $1.5/1MTokens $2/1MTokens 图表:OpenAI产品定价 ada$0.0004/1Ktokens$0.0016/1Ktokens babbage$0.0006/1Ktokens$0.0024/1Ktokens curie$0.003/1Ktokens$0.012/1Ktokens davinci$0.03/1Ktokens$0.12/1Ktokens 资料来源:Cohere、中泰证券研究所资料来源:OpenAI、中泰证券研究所 2023年5月以来,网站月访问量呈稳定趋势,在8月回升之后又有所下降。总体看,网站访问量能够维持在百万级别。其中美国、印度、加拿大等国家所占流量份额较高。外链访问来源中,ProgrammingandDeveloperSoftware及ComputersElectronicsandTechnology领域占比较高。 从访问用户年龄来看,25-34岁年龄段用户占比最高。 图表:cohere.com网站月访问量(万次)图表:cohere.com访问用户年龄结构 120 100 80 89.3 50.00% 45.00% 40.00% 35.00% 43.72% 104.6 93.8 101.4 85.2 18.81% 17.22% 11.76% 5.26% 3.23% 30.00%25.00%20.00%15.00%10.00%5.00%0.00% 2023年5月 2023年6月 2023年7月 2023年8月 2023年9月 60 40 20 018-2425-3435-4445-5455-6465+ Cohere在业界拥有Salesforce、NVIDIA、Oracle、SAP等投资者和Oracle、MCKinsey、AWS、GoogleCloud等合作伙伴。如通过与Oracle的合作,用户可以使用由经过专门训练的Cohere基础模型,使用基于Oracle云基础设施(OCI)构建的原生生成式AI服务。 向量数据库领域,Cohere拥有Weaviate、Pinecone和drant等合作伙伴。Weaviate的text2vec-cohere模块允许用户直接在Weaviate矢量搜索引擎中使用Cohere嵌入作为矢量化模块;Pinecone支持使用Cohere生成语言嵌入,然后将其存储在Pinecone中并用于语义搜索;Drant与Cohere结合使用,可以提出针对特定文本分析用例的全面解决方案。 图表:Cohere投资者图表:Cohere合作伙伴 Cohere专门为企业用户提供数据防火墙,解决企业数据在输入大模型中的隐私和安全问题。Cohere强调会保证客户的数据安全,在多个合作伙伴的加持下,能够提供具有数据安全性,并根据不同企业的需求和数据制作的高性能定制化模型,应用于实际业务场景。 图表:Cohere核心观念——安全、定制和客户支持 资料来源:Cohere、中泰证券研究所 从模型角度看,Cohere将继续扩充优化模型规模,训练更加强大的基础模型,提升用户体验。Gomez在采访中提到公司每周都会发布一个新的模型版本,并不断对模型进行基准测试和评估以降低用户使用风险,相信未来Cohere将继续提升大模型的AI能力,打造更高性能、更高安全