要更改的合成数据集数据科学的未来 AUTHORS 合成数据(通过模拟生成的虚拟数据)通过解决数据稀缺性和隐私问题、提升模型性能、支持测试与验证、减轻偏见和安全漏洞风险以及促进原型开发,推动了AI的发展。正如我们在观点中所探讨的,合成数据有助于克服数据挑战和隐私限制,从而创建稳健、安全且无偏见的AI系统。 什么是合成数据 ? 尽管当前 数据容量我们的曝光 , 那里仍然存在差距进行数据创新挑战 在数据过载和存储成为企业面临的重大问题的世界中,人们可能会好奇为什么还需要更多的数据。事实是,尽管当前我们接触到的数据量已经很大,但仍存在一些空白使得数据创新面临挑战。合成数据几乎能完全复制真实世界数据的特点,而不包含具体的数据点。数据科学家利用算法和模拟生成具有与所模仿的真实数据相同统计特性的数据。 不同于随机创建的模拟数据集,合成数据保留了统计信息、固有的关系以及真实数据中存在的细微差别。合成数据可以模拟各种场景进行测试、训练和验证模型,确保用于这些过程的数据在结构和功能上与实际应用场景中可能遇到的数据相似。合成数据集准确地反映了现实生活中的场景和分布,使其在商业环境中比随机生成的模拟数据更具价值。企业可以使用结构化的合成数据应用于多种场景,而不牺牲准确性或隐私性。 合成数据的使用可以追溯到20世纪70年代。当时许多早期的系统和算法需要实际数据才能运行。如今,有限的计算能力、收集大量数据的困难以及隐私泄露问题正促使人们转向生成合成数据,从而使这一领域成为关键的战略优势。 合成数据可以作为真实世界数据的替代品(或补充品),用于驱动数据驱动的决策制定。随着越来越多的企业利用机器学习(ML)和人工智能以获得战略优势,合成数据因其在训练数据集上的灵活性而价值日益凸显。它使数据科学家能够在受控环境中创建大规模且可定制的数据集和场景,从而进行全面的模型测试和验证。 随着数据analytics和AI模型在企业决策中的作用日益重要,合成数据可以发挥关键作用——它能够实现准确且复杂的分析,同时遵守隐私法规、节省成本并降低风险。例如,组织可以使用合成数据加速其创新周期。快速原型设计、测试和开发变得更加高效,帮助企业更快更有效地将产品和服务推向市场。本观点详细介绍了合成数据的优势和风险,并探讨了其在高增长行业中的相关应用场景,其中合成数据可以立即创造价值。 它有多大差异 ? 最初,合成数据主要以无结构的数据形式存在,如合成图像和视频。早期的应用集中在以定性方式参考原始数据点生成视觉和多媒体内容。如今,合成数据生成能力已扩展到能够将结构化数据格式作为输入样本使用,从而保留个体数据点及其相互关系。代表复杂相互关联的数据点的结构化合成数据为业务带来了巨大的机遇。 合成数据准确反映了现实生活的情景和分布 得益于其模拟真实数据质量并捕捉个体数据点之间相互关联的能力,各行各业的企业纷纷转向合成数据。如下面所述,这种方法具有以下几大优势。 解决隐私问题成合成数据的方法有几种。生成性机器模型通过学习概率模型来生成数据集的方式,并据此创建合数据。生成性人工智能(GenAI)技术(例如生成对抗网络[GANs]和变分自编码器[VAEs])是合成据生成的选择方法(参见图1)。这些模型从现有数据中学习,以生成与原始数据分布高度相似的新本。通过捕捉真实数据的潜在模式和结构,GenAI模型可以生成统计上类似于原始数据但不包含任敏感或个人可识别信息的合成数据。根据Gartner的预测,到2024年,用于训练AI模型的数据中有60将是合成生成的数据。图 1. 合成数据到 2030 年 , 合成数据将掩盖人工智能模型 (见图 2) 。- 生成方合成数据大大减少了暴露敏感信息或个人可识别信息( 图 2. 预计将覆盖实际数据的合成数据2030 年 AI 模型 来源 : Arthur D. Little , Gartner 真实数据中包含的综合数据信息 提供高度的灵活性 合成数据帮助企业轻松创建定制化数据集。例如,一家公司可以通过修改真实数据的质量来消除偏见,或者使用增强的合成数据测试假设情况。在生成合成数据时,用户可以生成统计上准确但不含原始数据中历史偏见的样本。这样的数据集在训练机器学习模型时非常有价值,能够减轻放大偏见的风险。同样,用户可以生成反映一种或多种假设情况的数据,改变数据集的分布结构同时保持相同的因果关系结构。合成数据的灵活性使企业能够探索现实世界数据可能无法充分代表的具体场景或需求。然而,在建模因果结构时必须保持与原始数据相同的质量,并且在使用修改后的合成数据进行机器学习训练时要谨慎监控整个过程。 加强安全和安保 合成数据是一种 excelente 的方式来保护数据免遭泄露。若未经授权的人员意图泄露或滥用敏感数据,合成数据会隐藏实际数据中包含的个体信息,从而将潜在数据泄露的影响降到最低。这在组织需要与第三方共享数据时尤为有用:合成数据使供应商或合作伙伴能够在不暴露企业收集的任何敏感/个人身份信息的情况下,处理真实的数据。合成数据还增强了数据的可用性——消除了对泄露原始数据的担忧后,组织更愿意将其数据用于研究和其他目的。 节省成本 合成数据的缺点 开发者需要大量且精心标注的数据集来训练AI模型。AI模型本质上是神经网络,因此训练数据量越大、多样性越高,模型的准确性也越强。当然,收集和标注用于训练数据集所需的数百万甚至上千万个元素将需要大量的前期人力和资本投入。合成数据解决了这一问题。根据Paul Walborsky(一家专门提供合成数据服务公司的联合创始人)的估计,一张原本需要6美元标注服务费用的图像可以通过合成生成仅需6美分。很容易想象,合成数据的成本节约效应,尤其是在企业需要大量数据来支持复杂过程如AI模型训练时。 合成数据绝非万能解决方案。就像所有人工智能技术一样,它也面临着“垃圾进,垃圾出”的困境。生成合成数据的模型只能达到其训练数据的质量水平。如果训练数据存在偏见和局限性,生成的合成数据也将继承这些缺陷。此外,用户还应考虑合成数据的其他潜在问题: 1.伦理问题。利用合成数据在医疗诊断等敏感领域中可能存在问题。数据的不准确性可能导致重大风险和不良后果。 2.模型退化。如果合成数据未定期更新以反映现实世界的变动,AI模型的效果可能会随时间而减弱。 提供竞争优势 合成数据使用户能够使用新鲜、真实的數據來驅動AI模型。當今的AI模型 Consumes 巨量的來自互聯網的公開數據。因此,現有的AI景觀高度依賴同一套信息,由於這些數據可能過時且不準確,這會影響最終生成的AI模型的效果。合成數據允許公司創建新的數據集,以填补現有數據可能無法覆蓋的空白(通常稱為“盲點”),並擴展不能輕鬆獲取的專有數據。合成數據幫助AI模型進行更準確和可靠的分析,從數據中提取洞察力,推動可能促進長期增長的創新。 3.偏见的介绍。在生成合成数据时必须谨慎,以避免引入偏差,从而导致错误的AI模型。 4.验证挑战。合成数据的准确性难以验证,因此基于此类数据训练的AI模型在实际场景中是否能有效运行尚不确定。 行业使用案例 此外,由于缺乏同意,大约80%-85%的客户数据被锁定。许多电信公司面临着保护大量敏感数据的高成本问题,同时在没有客户同意的情况下无法解锁有价值的洞察。 以下是对各行业而言,企业可以通过利用引人入胜的合成数据来推动创新和提高效率的几种方式。 金融服务 合成数据在规模上赋能了数据分析,这是原始数据无法实现的。它使电信公司能够在不泄露个人隐私的情况下,深入洞察客户行为、偏好和使用模式。这使得电信公司能够提供更加精准和个性化的服务,通过合成的真实数据增强客户体验。此外,它们还可以帮助其他企业优化营销活动和推荐,因为私人信息被新的生成数据所抽象和遮掩,而这些新生成的数据保持了统计完整性。 在银行业,合成数据已成为提取数据全部潜力并进一步训练机器学习模型以满足客户和业务目标的关键方法,同时不牺牲隐私。该技术在高级分析和机器学习开发中的应用范围广泛,从改进欺诈检测和市场模拟到数据交换以及团队间的协作增强。合成数据符合所有《通用数据保护条例》(GDPR)要求,并允许公司,包括银行,在不面临法律和伦理问题或失去信息和统计属性的情况下生成所需的大量数据集。 医疗保健 患者数据的敏感性质使得医疗公司在有效获取、管理和利用这些数据以进行商业分析方面面临挑战。由于全球各地严格的患者隐私法律(例如HIPAA、英国数据保护法、德国联邦数据保护法),医疗数据往往非常模糊且碎片化,组织难以有效地利用这些数据来了解患者旅程。有时,这抑制了制药行业的创新。例如,在2022年,加拿大公共卫生署发现,健康数据共享缓慢或受限对疫情应对产生了负面影响。此外,医疗数据中也存在显著的偏差,包括女性健康数据的巨大差距。性别和种族偏见可能妨碍组织对各种疾病状态的理解,并减缓在未满足需求领域研究的进程。 在未来几年里,随着银行业继续其数字化转型和金融科技的整合,合成数据将变得更加宝贵,有助于客户获取,提供高级数据分析能力,支持抵押贷款和信贷决策评估,以及许多其他关键战略要素。 电信 数据始终对电信行业至关重要。为了创建能够应对行业快速变化的系统并提供相关服务,公司依赖数据来获取洞察并紧跟客户行为趋势。然而,这些企业处理的数据量巨大(它们从数百万用户那里收集大量数据,包括通话记录、位置数据和互联网使用情况),这可能会变得难以管理。 由于合成数据方法的主要重点在于准确地表示整个群体——而不是复制个体实体——因此合成数据集中的单个数据点与真实样本中的单个数据点之间没有直接联系。根据《医学互联网研究杂志》(Journal of Medical Internet Research)中ADL Cutter贡献者Khaled El Emam等人的研究,从临床数据生成的合成数据在防止身份泄露方面比真实数据集高出四到五倍的保护效果。如果正确实施,合成数据在医疗数据共享方面将具有巨大的价值。 在制造缺陷数据不易获得的情况下,例如新的装配尚未生成足够的实际数据时,合成数据可以启动AI训练过程,贡献高达90%的比例。由此产生的AI模型不仅能预先标识缺陷,还能帮助业务理解其在各种运行条件下的表现。 AI 可以帮助业务了解如何它将执行在各种操作条件 合成数据能够保持某些数据点之间的关系,使其在制药和医疗健康行业中极为有用,因为疾病的发展阶段比特定时间点更能准确地代表疾病。合成数据有能力通过表格生成和时间序列生成来表示电子健康记录和生物测量值,从而创建完整的患者旅程,这有助于提高护理质量并指导新疗法的研发。 能源 能源行业高度依赖从消费者行为中获取的洞察。然而,人类行为的不可预测性和获取和解释真实世界消费者数据的挑战导致了在该领域决策过程中数据分析师应用不足的问题。合成数据可以通过生成真实的、匿名的数据集来帮助解决这一问题,这些数据集能够模拟现实生活中的行为模式。这在为人群创建消费档案方面至关重要,并有助于预测性维护。通过在数据收集受限的领域填补空白并改进现有数据集,合成数据提高了预测模型的准确性。此外,它还通过排除敏感信息(如人口统计详情、地理数据和收入水平)来保护隐私。 Manufacturing 管理缺陷是制造商面临的持续挑战,往往缺乏足够的数据来训练能够识别和预测这些缺陷的模型。当缺陷出现时,其危害远不止单一产品的收入损失——它们还会导致供应链中断、丧失竞争优势,并浪费人力和财务资源。当现实世界中的统计数据不足时,合成数据可以帮助扩大数据集,从而更有效地训练模型以发现缺陷。 Conclusion 增强决策的合成数据嵌入 信息在整形中的作用业务战略与发展创新不能被夸大 在当今数据驱动的世界中,信息在塑造商业策略和促进创新方面的作用不容 overstated。随着企业越来越多地依赖数据获取洞察并推动增长,它们也面临着重大挑战,包括获得大量特定行业的数据集以及遵守严格的隐私法规。合成数据在业务中发挥着以下几种关键作用: 1数据增强。合成数据可以根据特