您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[个人]:合成数据指南 - 发现报告

合成数据指南

2024-12-30김준오、 남현수、 김승환个人L***
AI智能总结
查看更多
合成数据指南

안내사항 발간 목적 본 안내서는 「개인정보보호법」을 준수하며 합성데이터를 생성, 활용할 수 있도록 참고 방법 및 절차 등을 안내할 목적으로 마련되었으며, 합성데이터를 업무 등에 적용하는 담당자 등이 활용할 수 있습니다. 제·개정 이력 개인정보보호 관련 법·제도 및 환경을 반영하여 다음과 같이 제정하였습니다. 재검토 기한 안내서의 최신성을 유지하기 위해 발간일(2024년 12월)을 기준으로 매 3년이 되는 시점(매 3년째의 12.31.까지를 말함)마다 보완 및 개선 등의 조치를 취할 예정입니다. 저작권 표시 본 안내서 내용의 무단전재를 금하며, 가공·인용할 때는 출처를 밝혀 주시기 바랍니다. * 출처 : 개인정보보호위원회, 「합성데이터 생성·활용 안내서」 2024.12. 문의처 안내서 내용 관련 문의는 소관 법령별로 다음의 연락처로 주시기 바랍니다.-개인정보 보호법 : 개인정보보호정책과(☎02-2100-3057, 3047)개인정보 법령해석 지원센터(☎02-2100-3043)- 합성데이터 생성·활용 안내서 : 신기술개인정보과(☎02-2100-3068) 관계 법령 「개인정보 보호법」 제15조, 제17조, 제18조, 제26조, 제28조의2, 제58조의2 등 ※법령 최신 자료는 국가법령정보센터(www.law.go.kr), 개인정보 보호 안내서 최신 자료는 개인정보보호위원회 누리집*, 개인정보 포털**을 참고* 개인정보보호위원회 누리집(www.pipc.go.kr) : 법령 > 법령정보 > 안내서** 개인정보 포털(www.privacy.go.kr) : 자료 > 자료보기 > 안내서 목차 제3장합성데이터 생성 및 활용 제1장안내서 개요 1. 사전준비272.합성데이터 생성34[참고 : 합성데이터 생성체크리스트]3. 안전성 및 유용성 검증484. 심의위원회 평가565. 활용 및 안전한 관리57 부록 부록1 합성데이터 생성 방법론62부록2 합성데이터 안전성 검증 기준64부록3 합성데이터 유용성 검증 방법72부록4 정형 데이터 검증 지표 임계값 산정 방법78부록5 정형 합성데이터 생성 예시80부록6 비정형 합성데이터 생성 예시88부록7 합성데이터 생성 참고 양식99부록8 자주 묻는 질문(FAQ)104 데이터의 안전한 활용을 위한합성데이터 생성·활용 안내서 제1장 1. 목적62. 적용 대상83. 용어 정리9 데이터의 안전한 활용을 위한 합성데이터 생성·활용 안내서Ⅰ안내서 개요 1.목적 인공지능(AI) 등 신기술 발전으로 학습에 필요한 데이터 수요가 급증하고 있으나, 현실에서는데이터 활용이 쉽지 않은 상황 •AI가 현실에 부합하는 서비스를 제공하기 위해서는 개인정보를 포함한 데이터가 필요하나,법적 한계 등으로 직접적 활용에 한계 •공개 데이터의 생성 속도는 한정적*으로 학습데이터 부족이 우려 *인간이 생성한 공개 텍스트 데이터의 유효 재고량은 약 300조 토큰 규모로 ’26년∼’32년 사이 AI 언어모델에 완전히 활용될 것을예측(‘24. 美 Apoch AI) 합성데이터가 이러한 문제를 해결하는 대안으로 각광받고 있으나, 합성데이터의 성격, 활용조건등이 불분명하여 민간의 불확실성 증대 •의료·제조 분야 등에서 이미 합성데이터를 연구·개발에 활용*하고 있지만, 관련된 익명성 판단 기준은 부족한 상황 *(예시1) 다양한 도로상황, 날씨, 위험 등을 생성하여 자율주행 알고리즘에 학습(예시2) 희귀 질환의 합성데이터를 생성하여 의료기기 진단 정확도 상승※ 현재(’24.11.) 합성데이터의 개인정보 안전성 검증에 대해서는 논의가 진행 중으로, 표준화된 방법론은 없는 것으로 보임 본 안내서는 선행 연구(합성데이터 생성 참조모델, ‘24.5)를 기반으로 「개인정보보호법」을준수하면서 합성데이터를 생성·활용할 수 있도록 관련 내용을 안내하고자 함 •본 안내서는 합성데이터 생성 절차를 규율하거나 방법론 등을 표준화하고자 하는 의도가 없으며,합성데이터를 생성하고자 하는 자는 누구든지 참고할 수 있는 권고 및 안내의 용도로 마련되었음 •합성데이터 생성 및 검증 기술은 현재도 지속 발전하고 있음에 따라 본 안내서도 개정수요에 맞춰업데이트 될 계획임 [참고 : 합성데이터 관련 논의 경과] •「합성데이터 생성 참조모델」 5종 모델 발표(’24. 5.) -보건의료, 유통, 공공안전, 금융 등 총 5종*의 합성데이터 셋을 공개**하고, 각 합성데이터를 생성한절차와 데이터에 대한 설명을 포함함 *구강 이미지, 안전모 착용 이미지, 혈당 측정정보, 통신사 멤버십 사용내역, 기업주주 대표자 정보**가명정보지원플랫폼(dataprivacy.go.kr)에서 다운로드 가능하므로, 실 데이터와 연계하여 본 안내서 참고 가능 •안내서 마련을 위한 연구반 운영(6회, ’24. 6.~10.) -산업계·학계·법조계 전문가로 구성된 연구반 진행, 법·기술적 주요 쟁점사항 논의 및 안내서(안)에대한 의견 수렴 데이터의 안전한 활용을 위한 합성데이터 생성·활용 안내서2.적용대상 본 안내서는 원본데이터에 개인정보가 포함된 경우를 대상으로 함 •원본데이터에 개인정보가 없는 합성데이터는 외부 공격 등에 의해 노출될 개인정보가 없으므로 본 안내서의 적용 대상에서 제외 완전 합성데이터를 기준으로 서술함에 따라 부분 합성데이터를 생성할 때는 합성데이터로 대체하고자 하는 영역에 본 안내서 적용이 가능 3.용어정리 데이터의 안전한 활용을 위한합성데이터 생성·활용 안내서 제2장 합성데이터소개 1. 합성데이터 정의122. 합성데이터 유형 및 사례133. 합성데이터 동향16[참고 : 해외 가이드라인 현황]4. 합성데이터 생성·활용 시 고려사항20 데이터의 안전한 활용을 위한 합성데이터 생성·활용 안내서Ⅱ합성데이터 소개 1.합성데이터정의 •합성데이터(synthetic data)는 원본데이터의 형식과 구조 및 분포 특성을 학습하여 생성된모의(simulated) 데이터임 •합성데이터(synthetic data)는 개인의 프라이버시를 보호하는 동시에 산업적으로 효용성이 높은데이터를 활용할 수 있는 방법임 합성데이터는 특정 목적을 위해 원본데이터의 형식과 구조 및 통계적 분포 특성과 패턴을 학습하여 생성한 모의(simulated) 또는 가상(artificial) 데이터임 ※Synthetic data는 재현데이터로 번역되기도 하는데, 본 안내서에서는 합성과 재현을 구분하지 않고 동일한 의미로 서술 •합성데이터는 가상 데이터이기 때문에, 잘 생성된 합성데이터는 원본데이터의 개인 식별정보나 민감정보를 외부에 직접적으로 노출하지 않아 개인정보 이슈를 해결하는 하나의 방법이 될 수 있음 •합성데이터는 데이터 부족 문제나 데이터를 수집·이용하기 어려운 상황 등에서 합리적인 대안이 될 수 있음 ▶데이터 증강: 기존 데이터를 바탕으로 데이터가 부족한 범주 데이터를 추가로 생성하여 더욱정확한 모델 학습을 하는 데 유용할 수 있음▶데이터 다양성 증가: 다양한 시나리오와 조건을 반영한 데이터를 생성함으로써 모델의 일반화능력을 향상시킬 수 있음▶프라이버시(privacy) 보호: 실제 개인정보나 민감정보를 포함하지 않기 때문에, 개인정보보호규정을 준수하면서 데이터를 생성하고 사용할 수 있음▶데이터 접근성: 데이터 구입 비용이 크거나 데이터의 사용기간이 한정된 경우, 개인정보의 목적외 이용·제공 제한에 따라 데이터 공유가 어려운 상황 등에서 합성데이터를 사용하여 데이터활용이 가능함 2.합성데이터유형및사례 1(원본데이터 형태) 정형 합성데이터와 비정형 합성데이터로 구분 ▶아래 사례별 세부내용은 부록5, 6 및 「합성데이터 생성 참조모델(‘24.5.)」 참고▶참조모델 합성데이터(5종)* 다운로드 : 가명정보지원플랫폼 (dataprivacy.go.kr)* 구강 이미지, 안전모 착용 이미지, 혈당 측정정보, 통신사 멤버십 사용내역, 기업주주 대표자 정보 •정형 합성데이터 : 원본데이터가 행과 컬럼으로 이루어진, 테이블 형태(CSV 파일 등) 데이터로부터 생성된 합성데이터 ※ 수치형, 문자형, 범주형, 날짜형 등 다양한 형태의 컬럼(항목)으로 구성 - 정형 합성데이터 사례 ❶ - 정형 합성데이터 사례 ❷ ※ 헬스 케어기기의 오차 정밀 보정을 위한 합성데이터 생성 ▶(활용 목적) 혈당기기 정밀 보정을 위해 자사와 타사의 혈당 기기 측정데이터 비교 분석▶(원본데이터) 고객의 혈당 측정 결과를 관리하는 서비스 업체가 보유한 고객 단위 혈당 측정 데이터▶(합성데이터 생성) 의료정보측정시간, 나이, 혈당, 식사여부, 식사량, 측정기기 등 723건 생성 데이터의 안전한 활용을 위한 합성데이터 생성·활용 안내서•비정형 합성데이터 : 원본데이터가 정형 데이터가 아닌 데이터로부터 생성된 합성데이터※ 비정형 데이터는 텍스트, 이미지, 영상, 음성 등이 있음 - 비정형 합성데이터 사례 ❶ ※ 구강 내 질환 진단 및 예방을 위한 AI 학습용 합성데이터 생성▶(활용 목적) 희소한 충치 데이터를 합성데이터로 생성하여 AI 충치 진단 솔루션 개발▶(원본데이터) IRB 공동연구와 위탁계약, 제공협약을 통한 총 500명의상악/하악 구강 데이터▶(합성데이터 생성) 512x512 해상도의 상악치/하악지 구강 이미지 데이터 1,000장 생성 - 비정형 합성데이터 사례 ❷ ※ 안전사고 및 재난 감지 엔진 구축을 위한 AI 학습용 합성데이터 생성▶(활용 목적) 안전보호구 착용상태를 자동 감지하는 기술 개발을 위해안전보호구 착용 이미지 데이터 필요▶(원본데이터) 개인정보 수집·이용에 동의한 대상자들에 한해 작업 현장에서 안전보호구를 착용하고 전신/상반신을 촬영한 432장의 이미지▶(합성데이터 생성) 512x512 해상도의 안전보호구 가상 이미지(가상 얼굴 포함) 5,500장 생성 2 (처리 목적) 공개용, 특정 기관 내부에서 분석 및 AI 학습용, 교육용, 기술 검증용 등으로 구분1) - 공개용 합성데이터 : 불특정 다수가 사용할 수 있도록 공개용으로 만들어진 데이터 ▶(활용목적) 정보공개로 인한 개인정보 노출 최소화 등을 위한 합성데이터 활용방안 연구▶(합성데이터 내용) 기업통계등록부에 포함된 숙박 및 음식점 사업체로 합성데이터 생성▶(공개 서비스 기간) ’23. 6. 28(수) ~ 9.30(토) 기간에 한시적으로 다운로