您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:高质量数据集建设 - 发现报告

高质量数据集建设

信息技术2026-03-24--E***
高质量数据集建设

高质量数据集避设的数据需求险段 四、高质量数据集质量如何评测? 数据质量指标要求 安全规范性 结构完整性 格式规范性 标注规范性 数据集中数据符合人工智能模型开发和训练的安全要求,应不包含违反社会主义核心价值观的内容、歧视性内容、商业违法违规、侵犯他人合法权益等非法内容; 数据集中数据的格式符合预定标准,应可直接用于人工智能模型开发和训练; 数据集描述数据的元数据完整不包含缺失值或缺失值应在合理范围内; 数据集中数据的标注符合预定的标注规范,遵循预先设定的规范化流程; 数据质量指标要求 内容一致性 内容真实性 数据集中相关联的数据间内容致,能在语义和表达上保持匹配,包括不同模态数据间的一致性和同模态数据间的一致性; 数据集中数据真实可追溯。非合成数据能追溯到采集源头,能与采集源头保持一致,不存在未经说明的算改;合成数据能追溯到生成算法和过程,且能符合目标场景真实数据的分布规律; 类型一致性 内容干净性 数据集中数据经过严格清洗处理,不包含脏数据。 数据集中数据符合其所属数据集类型的要求,通识数据集中数据应蕴含通用知识,行业通识数据集中数据应蕴含行业领域通用知识,行业专识数据集中数据应蕴含行业领域专业知识: 模型应用指标要求 规模完整性 内容多样性 内容时效性 数据集的规模满足目标应用场景人工智能模型开发和训练的要求。 数据集的数据分布全面程度应满足目标应用场景人工智能模型开发和训练的要求。 数据集中数据的采集时间和更新状态满足目标应用场景人工智能模型开发和训练的要求。 模型适配性 标注准确性 数据集中数据的标注能精准标记出目标应用场景人工智能模型开发和训练所需的所有信息。 数据集应能有效提升目标应用场景人工智能模型的性能。