부정적 언론보도에 대한 기업의 대응시점 효과 · 에도 전이되는 것으로 나타났다(). 또한, 부정적 언론정보에 노출된 제품의
SNS에 노출된 개인정보 위험분석 - nexr.co.krnexr.co.kr/upload/SNS.pdf · 페이스북...
Transcript of SNS에 노출된 개인정보 위험분석 - nexr.co.krnexr.co.kr/upload/SNS.pdf · 페이스북...
정규화
정규화
Mongo DB -
postgresql
• 서울대, SNU, 서울대학교,
설대, Seoul Univ.
=> 서울대
• 김철수, Cheol-Su Kim,
Cheolsoo Kim, Kim Cheolsoo
=> 김철수
필드화된 정보
분석
페이스북 계정 중 특정 가능한 수
개인정보 조합 유일 값 수 특정 비율
고등학교 36
대학교 0
혈액형 0
이름-고등학교 2,262,410 34.4%
이름-대학교 1,169,170 17.7%
이름-고등학교-대학교 2,975,399 45.2%
고등학교-대학교 109,397 1.6%
고등학교-대학교-혈액형 194,860 2.9%
트위터 스트림 수집
800만명 = stream handler * 1600
1600 thread = 100 thread * 16 process
Xeon 2Ghz (4 core ) * 2 * hyperthreading = 16 core <= 1 machine
1 process / core = 100%
Memory : 14 GB
Bandwidth : 3MBps
Stream
Handler
Follow: id1, id2, id3….. Tweet : profile, location, text, img-url
RT/mention relation
텍스트마이닝
Text mining
- 개인정보추출
Lucene - twitter
postgresql
이름, 학교, 직장, 직위, 나이, 전화번호,
이메일
프로파일
전화번호 A B
인식율 51% 48%
정확도 98% 100%
<상용 개인정보 탐지 제품의 성능>
고은별, 정동진 근처 사는 강원대생 이른 82년,
010-$$$$-####
트위터 검색
Id, txt,
datetime
어떤 키워드에 대해 트윗을 많이 한 사람 ?
• 사람 별 취합 ..
• 기간 : 전체, 최근 n 일..
• Lucene (2.x) 의 특성: ..
Id, txt,
datetime
Id, txt,
datetime
Id
txt, datetime
txt. datetime
txt, datetime
…
Id
txt, time
txt, time
...
Id
txt, time
txt, time
… …
D-1
D-2
…
계정 연결
페이스북 계정 – 트위터 계정 연결
비교 단서
• 프로파일 정보
• 친구관계
• 위치, 조합
• 문체, 사진, ..
M:N test ? => 후보군 선택!
• Id 같은
• Id 비슷한
• 이름 같은 ..
Twitter 계정 A
{서울고, 제주대, 30대}
Facebook 계정 cskim
{서울고, 제주대} =
후보 찾기
유사한 id 찾기 : string similarity
• Levenshtein distance : 같게 만들기 위해 필요한 동작 수
• 80만 : 277만
• Threshold 별 유사 결과 (1개 당 277만 개중 )
Python
Single
Python
Multithread
(24 core)
Hadoop
24 task
(24 core)
776일 65일 71일
0.5 1064
0.6 116
0.7 4.6
0.8 0.13
0.9 0.05
후보 찾기2
String in string
First 8 char match
First 8 char match tweak : ??
Python
Single
Hadoop
24 task
(24 core)
Number
String in string 7일 15시간 15시간 0.7
First 8 char 6일 21시간 16시간 1.7
2단계 : 식별요소 제거
개인 식별 요소 제거 방법
17
처리 기법 내용 및 처리 예
가명처리
(pseudonymisation)
개인정보 중 주요 식별요소를 다른 값으로 대체하여 개인식별을 곤란하게 함
(예) 홍길동, 35세, 서울 거주, 한국대 재학→ 임꺽정, 30대 서울 거주, 국제대 재학
총계처리
(Aggregation)
데이터의총합값을보임으로서개별데이터의값을보이지않도록함
(예) 임꺽정180cm, 홍길동170cm, 이콩쥐160cm, 김팥쥐150cm
→ 물리학과 학생 키 합 : 660cm, 평균키 165cm
데이터 값(가치)
삭제
(Data Reduction)
데이터공유․개방목적에따라데이터셋에구성된값중에필요없는값 또는개인식별에중요한값을삭제
(예) 홍길동, 35세, 서울 거주, 한국대 졸업 → 35세, 서울 거주
(예) 주민등록번호 901206-1234567 → 90년대 생, 남자
범주화
(Data Suppression)
데이터의값을범주의값으로변환하여명확한값을감춤
(예) 홍길동, 35세 → 홍씨, 30-40세
데이터 마스킹
(data masking)
공개된 정보 등과 결합하여 개인을 식별하는데 기여할 확률이 높은 주요 개인식별자가 보이지 않도록 처리하여 개인을 식별하지 못하도록 함
(예) 홍길동, 35세, 서울 거주, 한국대 재학 → 홍**, 35세, 서울 거주, **대학 재학)
3단계 : (재)식별 가능성 검토
다른 DB와의 연결을 통한 식별 가능성
• 인터넷에 이미 공개된 다른 정보와의 연결 : 수집 or 구글링
• 우리나라 모든 국민의 이름, 주민번호는 모두 유출
새로 공개되는 다른 정보를 통한 식별 가능성
• 인터넷, 빅데이터 공유
4단계 : 사후 모니터링
신상털기 방지 기술
Identity
서비스A에서추출된개인정보
서비스B에서추출된개인정보
…추론된개인정보
고유식별
실개인매핑
위험도
김철수 A B C .. a b c .. .. 가 나 다 라 O X 5
…
나영희 나 다 .. 갑 을 병 .. .. A B C D X X 2
식별성평가
위험평가
온라인서비스B
개인정보추출
Id mapping개인정보
소유자 식별
온라인서비스 A
- 인터넷 노출 감시- 웹사이트 위험도 모니터링- 단말 필터링- 개인정보 조회/검색- 배치 필터링
개인정보수집 및추출
개인정보가공
개인정보추론
개인정보위험도분석
추론
개인정보대응/조치
빅데이터
노출 정보 수집 분석
위험도 산정
신규 데이터 공개시 필터링
기 공개 데이터 삭제
노이즈 정보 유포