产品测试中合成数据的威力 人化AI系列,第二部分 科林·霍博士,尼古拉伊·雷诺兹博士 在Ipsos,我们相信合成数据为市场研究开辟了全新的可能性,尤其是在产品测试领域。 在Ipsos,我们推崇将人类智慧(HI)与人工智能(AI)的独特结合,以推动创新,并为我们的客户提供具有影响力的、以人为中心的洞察。 我们的人智力源于我们在提示工程、数据科学方面的专业知识,以及我们独特、高质量的数据库——这些数据库将创造力、好奇心、伦理和严谨性嵌入到我们的AI解决方案中,由我们的Ipsos Facto Gen AI平台提供动力。我们的客户从更安全、更快且基于人类语境的洞察中受益。 技术助力全球企业加速创新与增长。以下页面展示了Ipsos在利用合成数据测试产品方面的见解,为读者提供: 合成数据即将改变 世界。从加速医疗保健领域的药物研发,到模拟金融服务中的欺诈交易,再到推动汽车行业的自动驾驶汽车测试,它已经在各种商业环境中展现出其价值。 •建议生成和评估高质量合成数据集的方法 在Ipsos,我们认为合成数据为市场研究开辟了全新的可能性,尤其是在产品测试领域。然而,许多企业对合成数据的品质或评估方式仍存在疑虑。本文旨在填补这些差距。 #IpsosHiAi •特定产品和服务测试中的具体应用 今天,在市场调研行业中,我们发现存在不同类型的合成数据,每种数据都有其优势和劣势。在本文中,我们重点关注数据增强,即使用合成数据来增强数据集。 作为世界最大和领先的产品测试顾问,Ipsos一直处于利用尖端技术的最前沿。 使用合成数据的方法类型 数据增强 如果一个AI没有在真实世界数据上受过训练,相关对于您的业务而言,它将无法生成与真实世界数据具有相同属性的合成数据。就是这么简单! 使用现有信息填充缺失的数据点 全合成数据 利用完全由合成受访者组成的完全人工样本 生成和评估合成数据 我们使用数据在现实世界中做出更好的商业决策,并且合成数据可以以多种方式应用于支持决策。因此,尽管合成数据并不对应于真实事件或人物,它仍然需要模仿现实世界数据的统计特性和模式。这提出了两个基本问题: 与他们一起。这是本文中最关键的一点:如果人工智能没有在真实世界数据进行训练的话,[原文]相关对于您的业务来说,它将无法生成与真实世界数据具有相同属性的人工合成数据。就是这么简单! 我们首先概述了生成高质量合成数据所需的内容以及如何评估其质量。由于合成数据的效果和细微差别只有在特定应用领域中考虑时才能真正理解,我们研究了合成数据如何应用于 产品测试,特别是。本文仅涵盖合成产品的生成。数值数据;由定量研究人员最常使用的 数据格式。它不涵盖合成图像、视频、数据补全或合成角色的应用,所有这些都属于合成数据的广义范畴。1. 评估过程同样简单直接。合成数值数据至少应该包括: 在常见统计指标上反映现实世界数据—如方法、数据分布、方差以及变量间的关系(例如,相关性)。在这些共同指标上对合成数据与人类数据进行直接比较,将使我们了解合成数据集对人类数据的逼近程度。合成数据越接近人类数据,我们在使用它时所承担的风险就越小,但仍有总是一些风险,因为合成数据在任何方面都无法完美地模仿真实数据。因此,我们只能在愿意承担一些风险的情况下使用合成数据。 01需要哪些条件来生成与真实数据高度相似的合成数据? 02如何评估合成数据与其真实世界数据的相似度? 正如在伊普索斯观点论文中所解释的,合成数据:从炒作到现实1合成数据是通过训练一个模仿真实世界数据统计特性和模式的人工模型生成的数据。 在人工智能能够生成反映真实世界数据的合成数据之前,人工智能需要在真实世界数据上进行训练。如Ipsos在其《人性化AI》系列的第一 篇论文中所述,AI只是算法;它们本身没有自己的智能,直到被训练。正是通过从训练数据中学习,AI才获得了我们与之关联的智能。 使用非LLM方法生成合成数据 使用大型语言模型生成合成数据 合成数据的生成方法可分为两大类:大型语言模型(LLM)和非LLM,分别以其基于文本和基于数值的本质相区别。现成的或公开的LLM,预先在如网站、在线书籍和社交媒体帖子等大量数据集上训练,可以在其训练范围内的主题领域生成高质量的合成数据。 在他们的训练集中包含此类数据。例如,研究表明,大型语言模型(LLMs)产生的文化价值观与盎格鲁-撒克逊和基督教新教欧洲的文化价值观更为接近,而非其他国家的价值观。4第三,信息可以迅速过时。 数值数据。深度学习算法在生成与真实世界数据集统计特性极为相似的合成数值数据方面特别有效。尽管像ChatGPT这样的预训练大型语言模型是为自然语言任务而设计的,但深度学习模型可以专门训练以生成数值数据,从而实现针对特定领域或市场相关应用的定制。在Ipsos,我们有着利用深度学习技术进行数据合成方面的强大历史。在下一节中,我们将详细阐述将深度学习模型应用于生成用于产品测试的合成数据的结果,这些数据是按产品逐一分析的。 在大型语言模型(LLMs)成为焦点之前,数据科学家就已经开始使用深度学习(DL)算法。6生成合成数值数据7深度学习算法,包括在大型语言模型(LLMs)中使用的那种类型,都是生成合成数据的有效工具,每种都有其独特的优势。 因此,要使用大型语言模型生成高质量合成数据,关键在于使用与感兴趣主题相关的最新、特定国家的真实世界数据来训练它们。此过程需要访问最新的、相关的和专业的数据,统计和数据科学专业知识,以及大量的时间和精力投入,以确保合成数据准确反映真实世界的统计特性和模式。5. LLMs在生成类似人类的文本数据方面特别有效。它们可以提供详细且具有丰富上下文的文本数据,这使得它们在内容创作、语言翻译和聊天机器人等应用中极具价值。8. 然而,现成的LLM在生成逼真的合成数据方面存在局限性(见图1)。2,3首先,他们的训练数据在覆盖面上有限——许多主题过于平凡或私密,无法在网上找到。其次,由于西方、英语国家的普遍存在,大型语言模型(LLMs)往往偏向于这些地区。 非LLM深度学习在生成合成内容方面具有显著优势 为何进行产品测试 市场研究之外,尽管许多合成数据应用侧重于匿名性(例如,匿名化医疗数据以保护机密性),在市场研究领域,许多企业所寻求的关键益处是收集真实世界数据所带来的成本和时间节省。 合成数据来回答300位真实人类可能提出的问题,使用合成数据生成的答案可能需要12小时,费用为1500美元,与真实人类数据相比准确性较低。在这种情况下,收集真实数据可能比生成合成数据更有意义,因为成本和时间上的节省似乎不值得准确性的下降。为什么不额外花费500美元,多等12小时,得到真实的数据呢! 随着每年的在线数据收集变得更快速、更经济,人们需要仔细考虑时间及成本节省是否足以弥补使用合成数据所带来的准确性下降。例如,利用Ipsos.Digital,Ipsos的敏捷测试平台,美国的研究者可以以约2,000美元的价格对300名受访者进行调查,并在大约24小时内得到结果。假设研究者能够利用 由于合成数据本身存在的权衡,我们希望在通常研究成本较高的场景中测试合成数据。产品测试完美符合这一条件,因为其中涉及了许多成本: 由于制造、运输和样品成本,任何减少产品测试中参与者数量的行为都可能带来显著节省。这并不意味着合成数据不能用于市场研究的其他领域,它只是意味着如果成本节省很小,风险可能会超过收益。 制造业:制造或购买产品原型,或对其施加遮挡以进行产品测试。 产品的体验本质上与人类息息相关。仅靠人工智能无法捕捉人类在使用产品时所体验到的五种感官、情感、期望或情境影响。 运输和退货:成本交付产品以及空包装的回收或销毁 采样:招聘成本,特别是在企业需要对其用户群进行选择性筛选时 我们仍然需要人类。 产品的体验本质上与人类相关。仅仅依靠人工智能无法捕捉人类在产品体验中的五种感官、情感、期望或语境的影响。因此,我们在应用合成数据于产品测试中的目标并不是完全取代人类的输入, 通过产品技术的差异(例如,使用的糖量)。因此,在产品测试中观察到的方差通常小于其他研究领域,例如评估消费者态度或品牌认知等方面的方差。 术语上,使用50个样本可能阻止企业基于研究结果推进。从统计学的角度来看,样本量小增加了Ⅱ类错误的风险——当实际存在差异时未能检测到的概率。 但是要增强它。我们的挑战是确定测试产品所需的最少人类受访者数量,以合成数据为辅,确保结果可行。为此,Ipsos的创新团队运行了两个研究流: 因此,例如,我们不必招募200人来测试一个产品,而可以招募50人来测试产品,从这50个人的数据中生成150个合成受访者,而不复制或重新采样这50个人,然后将人类和合成受访者结合,以200人的混合样本进行测试。将这50个人视为一个“种子”样本来训练AI,使其能够生成准确模仿人类对产品反应的合成数据。 在理想情况下,企业将基于这些发现并针对50名参与者进行产品测试,特别是在风险较低的早期测试阶段。 研究流 1 研究流 2 验证这个小人类样本,当其被增强时使用合成数据,产生与所有人类样本相同的结果。 确定所需的最少人数以近似较大样本(例如,200-300人)的产品测试结果无合成数据 然而,大多数企业不会以这种方式进行,原因有两个: 01样本容量为50不允许企业深入了解亚组。有时,企业需要对消费者群体中的特定细分市场进行分析。 在研究流1我们利用了ipsos产品测试数据库中的一些数据,考虑到40,000名受访者和全球范围内185种选定的消费品(CPG)产品进行测试。9为了确定我们得到多少人类样本时,与较大样本的产品测试结果具有足够高的相关性。我们确定,当表现最佳的产品与 该产品至少比最差产品表现差8%,50位人类受访者的样本足以复制最佳和最差产品的性能排名(相关系数r = 0.8)。 这是在这里研究流 2该研究结果旨在验证,即使在添加了合成数据后,小型的人类样本是否仍能产生与全部由人类样本相同的结果。为确保普遍性,在我们的合成数据试点中,我们涵盖了多样的国家和类别。我们还尝试了较大的种子数据集。 02样本量为50会导致检测差异的低统计效力。这是问题所在,因为企业通常依赖于基于统计测试的行动标准。在实际操作中 所需复现较大样本结果所需的小型参与者数量可能是由于产品测试数据中的变异性主要受以下因素的影响: 总的来说,合成数据是有效的。 原型(新配方)及不提供关于受访者水平的稳健数值数据。此外,我们未考虑将数据加权作为DL的替代方案,因为加权并不能为子群体创造额外的样本量,且在产品测试中通常不被接受。 样本(例如,75,100)但为了简明扼要,我将仅分享我们对50名人类进行的试验研究结果。 在我们的实验中,我们通过比较全人工数据集和增强合成数据集的结果来验证结果(见图1)。10作为提醒,在我们的方法中,我们并非仅仅复制或粘贴现有的受访者数据。 •数据分布(例如,人们在单个问题的答案选项中的反应分布) 继续,来自50名人类的数據用於訓練一個深度學習算法以生成合成數據。我們沒有使用現成的預訓練語言模型(LLM),因為LLM們在公眾數據上預訓練時並不包括該給定類別產品的 peoples' multi-sensory experiences (例如, •变量之间的数据关系(即整体喜爱与产品属性之间的相关性) 总的来说,我们发现这两个数据集在以下方面极为相似: 最重要的是,这两个数据集在方差上存在差异,但在我们测试的所有数据集中都导致了相同的企业决策(见图2)。 •产品的相对表现(例如,排名、统计显著性) [IPSOS] 通过比较全人工数据集与合成数据集的结果来验证结果。 产品测试中使用合成数据的一个关键优势是能够增强难以接触到的群体的数据。一旦增强,由于样本量的增加,之前不具统计学意义的差异可能变得显著。例如,在我们的测试中,我们生成了合成响应来增强使用特定品牌产品的用户。 在我们的全人类样本中,每个产品大约有1