빅데이터와 프라이버시 강장묵 130619_ver1

45
빅 빅빅빅빅 빅빅빅빅빅 ( 빅빅빅빅 빅빅빅 빅빅빅빅빅 빅빅 ) 빅빅 : 빅 4 빅 빅빅빅빅빅 빅빅빅빅 빅빅 빅빅 : 2013 빅 6 빅 19 빅 빅빅 7 빅 빅빅 : 빅빅빅빅 빅빅 빅빅 : 빅빅빅 ( 빅빅빅 , [email protected]) B I G D A T A & P R I V A C Y 빅빅빅 빅빅 , 빅빅빅빅빅빅 빅빅 “ 빅 빅빅 빅 빅빅 빅빅빅빅빅 빅빅빅 빅빅 빅빅빅 ?” 빅빅빅빅빅빅빅 . 빅 빅빅빅 2013 빅 6 빅 14 빅 빅빅빅 IT 빅빅빅빅빅빅 빅빅빅 ( 빅빅빅 NHN 빅 빅빅빅빅빅빅빅빅 빅빅 , “ 빅빅빅빅빅 빅빅빅빅빅 빅빅” , 빅빅빅 빅빅빅빅 빅빅빅빅 , “ 빅빅빅빅 빅빅빅빅” ) 빅 빅빅빅 빅빅 빅빅빅빅 빅빅빅 빅빅빅 빅빅빅 빅빅빅빅빅빅 빅빅

description

big data and privacy

Transcript of 빅데이터와 프라이버시 강장묵 130619_ver1

Page 1: 빅데이터와 프라이버시 강장묵 130619_ver1

빅 데이터와 프라이버시

( 신기술과 누적된 프라이버시 위협 )

주최 : 제 4 차 프라이버시 워킹그룹 모임

날짜 : 2013 년 6 월 19 일 오후 7 시

장소 : 법무법인 지향

발제 : 강장묵 ( 고려대 , [email protected])

B I G

D A

T A

& P

R I V

A C

Y

무더운 여름 , 프라이버시의 문제 “ 왜 민트 차 처럼

시원스럽게 해결될 수는 없는가 ?”

살펴보겠습니다 .본 발제는 2013 년 6 월 14 일 금요일 IT 정치연구회의 발제자 ( 이진규 NHN ㈜ 개인정보보보호팀 팀장 , “ 빅데이터와 프라이버시 이슈” , 홍순만 ㈜사이람 공동대표 , “ 빅데이터 정보집적” )

의 발표와 토의 과정에서 귀중한 정보와 고견을 참고하였음을 밝힘

Page 2: 빅데이터와 프라이버시 강장묵 130619_ver1

Jang-Mook Kang

Blog : http://blog.ohmynews.com/UCnam/category/10203Blog : http://blog.ohmynews.com/UCnam/category/10203

고려대학교컴퓨터교육 ( 정보창의연구소 )

강장묵 교수 , 공학박사([email protected])

참조 -http://blog.naver.com/PostView.nhn?blogId=assa_gauri&logNo=70091432840 ( 검색일 :2011.07.08)

Page 3: 빅데이터와 프라이버시 강장묵 130619_ver1

빅데이터의 정의 , 의미 그리고 프라이버시메타데이터 및 데이터 셋의 문제 제기

B I G

D A

T A

& P

R I V

A C

Y

Page 4: 빅데이터와 프라이버시 강장묵 130619_ver1

데이터가

언제부터

커졌는가?

아니면,

분석

기술의

등장인가?

Big Data Vs. Small Data

이미지 참조 : http://blog.naver.com/PostView.nhn?blogId=youngdisplay&logNo=60165775435 ( 검색일 :2013.06.)

VALUE VARIABILITY

빅 데이터의 정의

1. 데이터의 양2. 데이터의 발생 및 갱신 빈도3. 구조 / 비구조화된 데이터 포맷4. 분산 또는 변화량5. 가치

고성능 분산병렬처리 기술의 보급

Page 5: 빅데이터와 프라이버시 강장묵 130619_ver1

사회적

행위/

개인

속성/

중구난방

데이터

Social Behavior Data

이미지 참조 : http://www.teradata.com/Industries/Digital_Media_and_E-Commerce/Determining-Social-Media-Influence-and-ROI/ ( 검색일 :2013.06.18.)

Operates on Ordered Data  ( 이 정도 추론과 추천은 예전 시스템이죠 ?)Each row in the input data set is a sequential interaction or transaction SQL-MapReduce uses SQL for set-based processing to generate the input data set- See more at: http://www.teradata.com/Industries/Digital_Media_and_E-Commerce/Determining-Social-Media-Influence-and-ROI/#sthash.QWCQryLU.dpuf

Page 6: 빅데이터와 프라이버시 강장묵 130619_ver1

데이터를

규정하는

새로운

형태/

용어

필요

개인 상호 간의 관계 데이터 (interaction data)

이미지 참조 : http://www.teradata.com/Industries/Digital_Media_and_E-Commerce/Determining-Social-Media-Influence-and-ROI/ ( 검색일 :2013.06.18.)

Page 7: 빅데이터와 프라이버시 강장묵 130619_ver1

20

12

오바마

대선에서의

맞춤형

메시지

네트워크 원리 : 씨알과 쏠림 , 유유상종 , 일파만파

이미지 참조 : http://www.forbes.com/forbes/2010/0830/e-gang-mit-sandy-pentland-darpa-sociometers-mining-reality.html/ ( 검색일 :2013.06.18.)

평균값이 의미가 없어진 자리에 마이크로 레벨의 분석이 자리잡음그리고 8:2 의 법칙 , 롱테일의 법칙 , 멱함수의 이론이 꽃핌

Page 8: 빅데이터와 프라이버시 강장묵 130619_ver1

데이터의

범주

Legacy system + Big Data

이미지 참조 : http://exploringbigdata.blogspot.kr// ( 검색일 :2013.06.18.)

낡은 시스템이나 방법론 또는 기술 환경에서 축적된 정형 데이터에소셜 네트워크 서비스 등의 개인 속성 기반의 비정형데이터가 빠른 속도로 결합

Legacy system 의 정형 데이터와 비정형데이터가 빅데이터의 범주임

Page 9: 빅데이터와 프라이버시 강장묵 130619_ver1

하드웨어적으로

가능해진

이유

일거수일투족을 평생 실시간 저장 가능

1980 년 =1 Gbyte=100 만달러 (11 억 2 천 5 백만원이상 )

2010 년 =0.1$ (112 원 )

대략 1000 만분의 1 미만으로 저장 비용 하락

Page 10: 빅데이터와 프라이버시 강장묵 130619_ver1

일상의

활동이

모두

저장되고

스마트폰 기본적 이용에 정보 100 가지 따라붙어

관련 기사 : http://media.daum.net/digital/newsview?newsid=20130617163210621 ( 검색일 :2013.06.)이미지 : http://blog.naver.com/PostView.nhn?blogId=jonggyu324&logNo=140156570123&categoryNo=502&viewDate=&currentPage=1&listtype=0&from=postList

“ 스마트폰 촬영 : 전자메일 , 페이스북 또는 트위터에 올리기”서버에 공유되는 정보 : 사진 촬영지의 좌표 , 촬영 · 전송 시간 , 이용 언어 , 사용 기기 종 류 , 노출 정도 , 플래시 사용 유무

프라이버시 위협 : 사진 자체가 아닌 메타정보 또는 데이터셋이 더 큰 위협

Page 11: 빅데이터와 프라이버시 강장묵 130619_ver1

뒷담화도

마음

놓고

없는

빅데이터의 히스토리기업의 정보 자원 확보 방법의 진화

ERP

DW( 주로 거 래데이터 , Structured 데이터 )

SNS(Transaction data + Interaction data)

뒷담 화Social behavior data (Unstructured format)

“ 소셜 네트워크 서비스에서도 가치 창조와 생명력이 구성원 간의 상호작용에 존재한다 . 페이스 북 등 소위 소셜 네트워크 서비스의 플랫폼으로 기능하는 SNS 는

참여자들 간의 역동적인 상호작용을 가치창 출의 원천으로 삼는 특징을 보인다 . 즉 소셜 네트워크 서비스에서는 미물과 같이 하찮은 이용자 들이 없다 . 페이스북과 트위터 등의

소셜 네트워크 이용자 들이 자신의 하루하루 생활 속에서 발견하는 감정과 생각을 쏟아낸다 . 이를 친구들과 교감하는데 있어 실시간성 , 모바일성 , 위치와 시간 정보 등을 중요한 연결고리이다 .”

Page 12: 빅데이터와 프라이버시 강장묵 130619_ver1

현존하는 서비스빅데이터는 지금보다 미래에 더 큰 프라이버시 문제를 야기할 수 있다 . 반면 , 빅데이터 이전의 서비스에서 이미 만연한 프라이버시 침해 , 개인정보 위협의 사례를 통해 , 미래 빅데이터를 가 늠해본다 .

B I G

D A

T A

& P

R I V

A C

Y

Page 13: 빅데이터와 프라이버시 강장묵 130619_ver1

B I G

D A

T A

& P

R I V

A C

Y 아마 존 구매 권유 방식 I

‘ 킨들’을 검색하였을 뿐인데 ,

어떻게 태그 등 다양한 추천하는 것일까 ?

Page 14: 빅데이터와 프라이버시 강장묵 130619_ver1

B I G

D A

T A

& P

R I V

A C

Y 아마 존 구매 권유 방식 II

추천자에 따라 콘텐츠 기반 또는 협력 필터 링 기반으로 세분화컨텐츠 기반 : 상품 정보를 통해 사용자가 높게 평가한 품목과 유사 상품

협력 필터 링 기반 : 유사한 고객의 구매 기록을 분석하여 추천

외에도 아래와 같은 순서로 상 품을 소개함 ( 이용자의 사용빈도 등 특성에 따라 달라짐 )

-the personalized collaborative recommender-1. Try Amazon Prime Today and Get Unlimited FREE Two-Day Shipping

2. New For You3. Related to Items You’ve Viewed

4. Inspired by Your Browsing History5. Additional Items to Explore

6. Recommendations for You in Cell Phones & Accessories

이용자 별로 상이한 상 품 추천 메뉴는 이용자에 대한 프로파일 링 기술로 구 현 ( 행동 이 력 분석 기반 )

프로파일 링은 범죄 분석 등에서 폭넓게 활용 됨마이크로 레벨 까지 분석가능 한 , 빅데이터로 효과 극대화될 전망

Page 15: 빅데이터와 프라이버시 강장묵 130619_ver1

B I G

D A

T A

& P

R I V

A C

Y 편리 : 현대카드 어 플 , 마이메 뉴

< 개발 배경 >기존 맛 집 추천 정보는 “ 파워블로거의 협 찬 , 블로거 개인의 주관적 추천 등”‘Abuse of Information’ 을 선별해야 하는 문제 발생

< 고객의 카드 정보와 위치정보의 결합 >-현대카드 고 객의 가맹점 이용 패턴을 분석하여- 실제 구매 및 결제 행위가 일어난 -맛 집 중심으로 추천

이미지 참조 : http://blog.naver.com/junmor7079?Redirect=Log&logNo=60169689728 ( 검색일 : 2013.06.17.)

Page 16: 빅데이터와 프라이버시 강장묵 130619_ver1

아이폰 사용자의 어플리케이션 구매 , 해외 쇼핑 사이트 구매 , 해외 여행 시 항공권 예매 , 호텔 , 토플 뿐만 아니라 아이 엘츠(IELTS), GRE( 미국 대학원입학능력 시험 )

등 국제시험을 카드로 결제 할 경우 ,

통상적인 카드 사용 패턴 ( 위치 등 ) 에서 벗어나는 경 우신용카드 도난 및 도용 방지를 위해 상 담원이 실제 연락함

고객정보의 무분별한 사용은 편리 , 안전을 볼모로 전방의적으로 서비스되나프라이버시에 대한 안전장치는 어떻게 되는지 알 길이 없다 .

이미지 참조 : http://blogl.tistory.com/1464 ( 검색일 :2013.06.19.)

안전 : 해외 사용 안심 서비스 B I G

D A

T A

& P

R I V

A C

Y

Page 17: 빅데이터와 프라이버시 강장묵 130619_ver1

이미지 참조 : http://www.youtube.com/watch?v=rPfPG_npV54 ( 검색일 :2013.06.19.)

SAS, 빅데이터 전문기업의 광고 B I G

D A

T A

& P

R I V

A C

Y

Page 18: 빅데이터와 프라이버시 강장묵 130619_ver1

이미지 참조 : http://blog.socialmkt.co.kr/61 ( 검색일 :2013.06.19.)

[S/W] 페이스북의 알고리즘 , 엣지랭크 B I G

D A

T A

& P

R I V

A C

Y

EdgeRank= Affinity (친밀도 , 콘텐츠 게시자와 소비자의 관계 )+ Edge Weight (엣지 가중치 , 좋아요와 댓글 빈도 또는 동영상 또는 이미지 , 외부연결 , 텍스트 등 )+ Recency ( 시의성 , 새롭고 신선한 상태 유지 )

Page 19: 빅데이터와 프라이버시 강장묵 130619_ver1

이미지 참조 : http://blog.socialmkt.co.kr/61 ( 검색일 :2013.06.19.)

기업의 경쟁력 vs. 프라이버시 사각지대 B I G

D A

T A

& P

R I V

A C

Y구글 , 페이스북 등 사용자의 행동 ( 속성 값 ) 특히 관계 정보 기반의 활동 정보를 면 밀하게 분석하여가장 최적의 개인화된 화면구성 ( 고관여 콘텐츠 배치 ) 과 검색 결과를 제공하여 경 쟁력 우위 유지

고객 동의 하에 이루어지는 모 든 서비스는 경쟁력인가 ? 잠재적 프라이버시 위협인가 ?

Page 20: 빅데이터와 프라이버시 강장묵 130619_ver1

이미지 참조 : http://jennyhottle.wordpress.com/2011/09/20/project-3-digital-footprint/ ( 검색일 :2013.06.19.)

디지털 족적 (Digital Footprint) B I G

D A

T A

& P

R I V

A C

Y

Page 21: 빅데이터와 프라이버시 강장묵 130619_ver1

이미지 참조 : http://www.androidpub.com/1305/ ( 검색일 :2013.06.19.)

[H/W] 센싱값의 결합 B I G

D A

T A

& P

R I V

A C

Y

스마트 디바이스에는 수 많은 센서가 존재그 중 Gyro센서 하나만 가지고 생각해봅니다 .

1. 늦은 시간 ..움직임이 없다 .-- 사용자가 숙면 중임을 유추 가능

2. 하교 시간 ..심하게 상하 /좌우로 움직인다 .-- 폭력 등 사용자가 위 험에 처해있을 가능

3. 천천히 완만하게 움직이는 값이 수신-- 사용자가 도보 또는 산 책 중임을 유추 가능

4. 조금 빠르게 좌우로 움직이는 값 수신-- 사용자가 운동 중임을 유추 가능

: 위 / 경도 , 조도 , 압력 , 나침반 , GPS 등 여타 센서를 결합하면 ? 외부 디바이스와 연동하면 ? SNS 등 외부 서비스 값과 결합하면 ?

Page 22: 빅데이터와 프라이버시 강장묵 130619_ver1

예상되는 빅데이터 서비스데이터 폭발만이 아니다 . 식별 가능한 개인정보 이용의 폭발…더 나아가 프라이버시의 폭발도 우려된다 .

B I G

D A

T A

& P

R I V

A C

Y

Page 23: 빅데이터와 프라이버시 강장묵 130619_ver1

특허를 통해 본 향후 서비스의 일부 B I G

D A

T A

& P

R I V

A C

Y

참조 : 키사 , 주간인터넷동향 , 2012.09. pp.7-8.

애플은 NFC 의 다양한 기능을 살려 가정 , 여가 , 쇼핑 등 일상생활과 밀접하게 연관된 서비스 모델 형태의 NFC 특허

Page 24: 빅데이터와 프라이버시 강장묵 130619_ver1

식별되는 모 든 정보의 추론 가능성 B I G

D A

T A

& P

R I V

A C

Y

참조 : http://blackhat.com/docs/webcast/acquisti-face-BH-Webinar-2012-out.pdf ( 검색일 :2013.06.18.)

Large-scale real-time Surveillance

The emergence of PPI (Personally predictable information)

Page 25: 빅데이터와 프라이버시 강장묵 130619_ver1

SNS 를 이용한 유의미한 정보추론 B I G

D A

T A

& P

R I V

A C

Y

참조 : http://zaibear.deviantart.com/art/NI-Facebook-Abuse-134278651 ( 검색일 :2013.06.18.)

Faces as conduits between online and offline data

Page 26: 빅데이터와 프라이버시 강장묵 130619_ver1

공공사망자명부에서 사회보장 번호 추론 B I G

D A

T A

& P

R I V

A C

Y

참조 : http://blackhat.com/docs/webcast/acquisti-face-BH-Webinar-2012-out.pdf ( 검색일 :2013.06.18.)

현재 , 공 공 사망자 명부(death master file) 에 서 미국의 사회보장명부를통 계 적 으로 유 의 미 하 게 추론하는 것이 가능

Page 27: 빅데이터와 프라이버시 강장묵 130619_ver1

SNS 와 공공정보의 결함 B I G

D A

T A

& P

R I V

A C

Y

참조 : http://blackhat.com/docs/webcast/acquisti-face-BH-Webinar-2012-out.pdf ( 검색일 :2013.06.18.)

장래에는페이스북 , 링크드인 등 SNS와 CCTV 등 영상정보 그리고 공공정보 등이 결합된다면 ?RFID 외 사물의 인 터넷이 모두 개인 식별에 활용된다면 ?

기술 배경 : 고성능 분산병렬처리 기술의 보급에 따른 특정개인을 단기간에 식별 가능해짐

Page 28: 빅데이터와 프라이버시 강장묵 130619_ver1

증강현실 세계에서의 프라이버시의 미래 B I G

D A

T A

& P

R I V

A C

Y

참조 : http://blackhat.com/docs/webcast/acquisti-face-BH-Webinar-2012-out.pdf ( 검색일 :2013.06.18.)

Page 29: 빅데이터와 프라이버시 강장묵 130619_ver1

누적된 프라이버시 문제웹 1.0 시대의 문제를 해결하지 못한 상태에서

빅데이터 등에 따른 신규 문제가 누적되어 프라이버시에 대한 피로감과 동시에 무감각 그리고 눈덩이처럼 누적되는 위협

B I G

D A

T A

& P

R I V

A C

Y

이미지 참조 : http://cafe.naver.com/poketmonsti/13395 ( 검색일 : 2013.06.18)

Page 30: 빅데이터와 프라이버시 강장묵 130619_ver1

정형 데이터의 메타 태그 , 주민등록번호 유출 B I G

D A

T A

& P

R I V

A C

Y

이미지 참조 : http://cafe.naver.com/poketmonsti/13395 ( 검색일 : 2013.06.18)

주민등록번호 , 실명 , 출신학교 정보 ( 아이러 브스쿨 해킹 ),백화점 고객정보 (VIP 고객정보를 입수한 살인범들의 살인 행각 ), 금융정보 등이 중 국 등 동 남아를 거 쳐 다시 피싱 등에 활용

Page 31: 빅데이터와 프라이버시 강장묵 130619_ver1

해킹된 정형 데이터에 빅데이터 처리된 비정형 데이터 까지 B I G

D A

T A

& P

R I V

A C

Y

이미지 참조 : http://blackhat.com/docs/webcast/acquisti-face-BH-Webinar-2012-out.pdf ( 검색일 : 2013.06.18)

Legacy system 을 통한 개인정보 활용은 기 업 , 정부 등에서 광범위하게 진행반면 , Legacy Data 에 따른 개인정보 침해는 해결되지 않은 채 누적

누적된 문제를 남겨둔 채 , 빅데이터 등 새로운 서비스 이용에 집중

Page 32: 빅데이터와 프라이버시 강장묵 130619_ver1

정치 , 종교 , 유전자 , 질병 등 민 감한 정보도 서비스로 B I G

D A

T A

& P

R I V

A C

Y

이미지 참조 : https://electnext.com/ ( 검색일 : 2013.06.18)

빅데이터는 기존의 정형 데이터에 분석 가능해진 비정형 데이터를 결합하여 민감한 식별정보를 데이터마이 닝할 수 있다 .

Page 33: 빅데이터와 프라이버시 강장묵 130619_ver1

출처 : https://www.facebook.com/photo.php?fbid=515705001824196&set=a.123136714414362.17880.123106001084100&type=1&theater

감사합니다 .

Page 34: 빅데이터와 프라이버시 강장묵 130619_ver1

부록시간과 지면의 제 약으로 설명하지 못한 이야기들

B I G

D A

T A

& P

R I V

A C

Y

Page 35: 빅데이터와 프라이버시 강장묵 130619_ver1

개인에 대한 프로파일 링 기반 추천

추천시스템은 아마 존 상품 추천 , 넷플릭스 영화추천 , 페이스북의 친구 추천 등 다양그런데 , 누구의 정보를 누가 어 떻게 이용해서 이 런 추천이 가능할까 ?

이미지 참조 : http://spectrum.ieee.org/computing/software/deconstructing-recommender-systems ( 검색일 :2013.06.17.)

Page 36: 빅데이터와 프라이버시 강장묵 130619_ver1

빅데이터는 더 많은 정보원을 확보

이미지 참조 : http://spectrum.ieee.org/computing/software/deconstructing-recommender-systems ( 검색일 :2013.06.17.)

Page 37: 빅데이터와 프라이버시 강장묵 130619_ver1

Alessandro Acquisti 교수의 연구문제

참조 : http://blackhat.com/docs/webcast/acquisti-face-BH-Webinar-2012-out.pdf ( 검색일 :2013.06.18.)

Page 38: 빅데이터와 프라이버시 강장묵 130619_ver1

실험 과정

참조 : http://blackhat.com/docs/webcast/acquisti-face-BH-Webinar-2012-out.pdf ( 검색일 :2013.06.18.)

Page 39: 빅데이터와 프라이버시 강장묵 130619_ver1

실험 시스템

참조 : http://blackhat.com/docs/webcast/acquisti-face-BH-Webinar-2012-out.pdf ( 검색일 :2013.06.18.)

Page 40: 빅데이터와 프라이버시 강장묵 130619_ver1

Digital Footprint 관련 동영상

동영상 참조 : http://vimeo.com/52767343 ( 검색일 :2013.06.19.)

Page 41: 빅데이터와 프라이버시 강장묵 130619_ver1

Social Behavior 관련 동영상

동영상 참조 : http://vimeo.com/65632472 ( 검색일 :2013.06.19.)

Page 42: 빅데이터와 프라이버시 강장묵 130619_ver1

비디오 사생활 보호법

원본 참조 : http://conex.kisa.or.kr/jsp/main/mainBoardView.jsp?mode=VIEW&catNo=&knwldNo=132631&menuCode=&catName=ALL&kmapNo= ( 검색일 :2013.06.19.)

Page 43: 빅데이터와 프라이버시 강장묵 130619_ver1

EU Data Protection Regulation(안 ) 20조

원본 참조 : http://eur-lex.europa.eu/smartapi/cgi/sga_doc?smartapi!celexplus!prod!CELEXnumdoc&lg=en&numdoc=52012PC0011 ( 검색일 :2013.06.19.)

Page 44: 빅데이터와 프라이버시 강장묵 130619_ver1

빅데이터 분석의 프로파일 링의 대상

원본 참조 : http://eur-lex.europa.eu/smartapi/cgi/sga_doc?smartapi!celexplus!prod!CELEXnumdoc&lg=en&numdoc=52012PC0011 ( 검색일 :2013.06.19.)

선언적 의미이나 , 자연인이 빅데이터 분석의 프로파일 링 대상이 되지 않을 권리를 선언실제로는 , 자연인의 ‘동의’로 이 권리가 무력화되는 문제 점도 존재

Page 45: 빅데이터와 프라이버시 강장묵 130619_ver1

?

[ 민감한 개인정보의 이용 ]

사용의 범위

그러함에도 인격권 , 행복추구권 등의 측면에서 지 켜져야 할 프라이버시 영역은 ?

약관에 따른 동의로 프라이버시의 자기정보결정 권이 보장되는지 ?

동의 과정과 실제 과정의 허와 실 ?

이용자 통지

옵트아웃