Arbeitsbereich NATS Prof. Menzel Seminar Data Mining · Simon Boese – Datenschutzgerechtes Data...
Transcript of Arbeitsbereich NATS Prof. Menzel Seminar Data Mining · Simon Boese – Datenschutzgerechtes Data...
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Datenschutzgerechtes Data Mining
Seminarvortrag von Simon BoeseStudent der Wirtschaftsinformatik
Simon Boese – Datenschutzgerechtes Data Mining 2
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Wissensgewinnung
Rohdaten
aus
DataWarehouse
/
OLAP
Neue Infos:
allgemeine
Aussagen
/
Zusammen-
hänge
/
Muster
Klassifikation
/
Assoziation
Simon Boese – Datenschutzgerechtes Data Mining 3
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Rohdaten
aus
DataWarehouse
/
OLAP
Neue Infos:
allgemeine
Aussagen
/
Zusammen-
Hänge
/
Muster
Klassifikation
/
Assoziation
Wissensgewinnung
Datenschutz ??
Simon Boese – Datenschutzgerechtes Data Mining 4
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Agenda
Ziele des Data Mining und Problemstellung
Privatsphäre
Was muss sich ändern?
Vorgehensweisen
Zusammenfassung
Simon Boese – Datenschutzgerechtes Data Mining 5
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Was soll erreicht werden?Wissensgenerierung
Individuelle Informationen bilden die BasisKundenverhaltensdaten etc.
Klassifikation, Regression, Assoziation, Clustering
Optimierung der Vertriebsstruktur
Produktplatzierunggezielte Werbung
SCMProduktionsverfahrenLieferantenbeziehungen
Simon Boese – Datenschutzgerechtes Data Mining 6
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
…was noch?
Überwachung
Sicherheit
Prävention
Wer darf wasund wozu?
Simon Boese – Datenschutzgerechtes Data Mining 7
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
EU-Richtlinie(95/46/EG )
Jede Person hat das Recht, sich keiner (teil-) automatisierten Entscheidung zu unterwerfenEntscheidungen aufgrund Data Mining Resultate
Ausnahmen für Strafverfolgung und Geheimdienste
Richtlinie über „die Verarbeitung personenbezogener Daten und den Schutz der Privatsphäre in der elektro-nischen Kommunikation“
Simon Boese – Datenschutzgerechtes Data Mining 8
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Data Mining Reporting Act1US-Senat 2003
mind. eine DB von nicht-staatlichen Stellen erzeugt/erhoben oder kontrolliert wurde/wird ODER die ursprüngliche Erhebung durch staatliche Stelle keinen geheimdienstlichen oder strafverfolgungsrelevanten Hintergründe hatte.
Definition des Data Mining
Eine Anfrage, Suche oder Analyse auf einer oder mehrerer Datenbanken, wobei
Simon Boese – Datenschutzgerechtes Data Mining 9
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Data Mining Reporting Act2US-Senat 2003
bei der Suche keine personenbezogenen Daten verwendet werden dürfen, um nach Informationen über diese bestimmte Person zu suchen,
eine staatl. Behörde auch nach Mustern, die auf terroristische oder andere kriminelle Aktivitäten hinweisen, suchen darf.
Definition des Data Mining
Eine Anfrage, Suche oder Analyse auf einer oder mehrerer Datenbanken, wobei
Simon Boese – Datenschutzgerechtes Data Mining 10
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Problemstellung
Data Mining Infrastruktur Data Mining Ergebnisse
je umfangreicher die (verteilte) Datensammlung desto besser die Resultate
Einschnitt in Privatsphäre (unzulässige Speicherung und
Erkenntnisgewinn)
zunehmende Mißbrauchsgefahr
neuer Typ von zusammen-gefassten Daten
Einschnitt in Privatsphäre durch Dritte
(Erkenntnisgewinn)
zunehmende Mißbrauchsgefahr
Simon Boese – Datenschutzgerechtes Data Mining 11
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Agenda
Ziele des Data Mining und Problemstellung
Privatsphäre
Was muss sich ändern?
Vorgehensweisen
Zusammenfassung
Simon Boese – Datenschutzgerechtes Data Mining 12
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Privatsphäre1
informationelleSelbstbestimmung
/Unversehrtheit der
Daten
Persönlichkeits-profile/
(Verhaltens-)Analysen
vs.
Sammlung,Speicherung & von Daten bedarfVerwendung
Zweckbindung/
ZustimmungÜberprüfung?
Simon Boese – Datenschutzgerechtes Data Mining 13
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Privatsphäre2
Solange keine konkrete Person identifiziert werden kann, stellen Data Mining Ergeb-nisse keinen Eingriff dar.
Jede Wissenserweiterung (über die Basis-daten hinausgehend) ist bereits eine Stö-rung der Privatsphäre.
Wann ist die Privatsphäre verletzt?
Simon Boese – Datenschutzgerechtes Data Mining 14
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Privatsphäre3
Der Erkenntnisgewinn muss bewertet werden und den Möglichkeiten, aus den Daten Rückschlüsse auf Individuen zu ziehen, gegenüber gestellt werden:
Messung der Schwere des Eingriffs
Definition von Akzeptanzwerten
Wissenserweiterung ist jedoch oberstes Ziel!
Simon Boese – Datenschutzgerechtes Data Mining 15
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Erhebungsprozess
Datenerhebung (Anonymisierung und Pseudonymisierung)
Teilnehmende Parteien (Datensicherheit)
Veröffentlichung/Nutzung
Die Privatsphäre muss während des gesamten Prozesses geschützt bleiben:
Simon Boese – Datenschutzgerechtes Data Mining 16
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Agenda
Ziele des Data Mining und Problemstellung
Privatsphäre
Was muss sich ändern?
Vorgehensweisen
Zusammenfassung
Simon Boese – Datenschutzgerechtes Data Mining 17
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Anforderungen1
nicht zu einem Individuum zurückverfolgt werden können
keine Verletzung der Privatsphäre darstellen
Datenschutzgerechtes Data Mining muss zu-sichern, dass die offen gelegten Daten…
Simon Boese – Datenschutzgerechtes Data Mining 18
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Anforderungen2
das Risiko einer Identifikation minimieren
auch nicht in Kombination mit anderen verfügbaren Daten zu einer Verletzung der Privatsphäre führen
Datenschutzgerechtes Data Mining muss zu-sichern, dass die offen gelegten Daten…
Simon Boese – Datenschutzgerechtes Data Mining 19
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Agenda
Ziele des Data Mining und Problemstellung
Privatsphäre
Was muss sich ändern?
Vorgehensweisen
Zusammenfassung
Simon Boese – Datenschutzgerechtes Data Mining 20
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
k-Anonymität1
Grundgedanke: Bildung einer Gruppe von k Datensätzen
Maximal: Identifikation einer Gruppe
Quasi-Identifikatoren (QI): alle Informationen, die in Kombination mit regulär zugänglichen Daten die Identifikation eines Einzelnen ermöglichen
Simon Boese – Datenschutzgerechtes Data Mining 21
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
k-Anonymität2
Definition:sd
Kein Datensatz darf in seinen QI einzigartig sein. Es müssen immer mind. k Datensätze die selben QI aufweisen
Simon Boese – Datenschutzgerechtes Data Mining 22
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
k-Anonymität3
Um die QI bereinigten Daten, machen die Identifikation eines Individuums unmöglich
Unsicherheit bei Informationen über eine konkrete Person
Rückschlüsse nur auf eine Gruppe
Simon Boese – Datenschutzgerechtes Data Mining 23
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Verschleierung
Anhand einer bestimmten Verteilung die Originaldaten verzerren.
Statistisch ungenau machen.
Verwendbarkeit der Ergebnisse?
Verzerrung mittelt sich möglicherweise heraus.
Rückrechnung schwierig, falls überhaupt die Methode der Verschleierung bekannt ist.
Simon Boese – Datenschutzgerechtes Data Mining 24
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Schwellenwerte und Generalisierung1
Schwellenwerte: Kriterien erst ab gewisser Anzahl an Treffern veröffentlichen
Generalisierung:weniger Details, Zusammenfassung
„beschneiden“ des Entscheidungsbaumes
können auch bei der k-Anonymität verwendet werden
Simon Boese – Datenschutzgerechtes Data Mining 25
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Schwellenwerte und Generalisierung2 – Bsp.
Haushalte = 9
Eigentum = 3
1-Person-Haushalt = 1
Miete = 6
2-Personen-Haushalt = 2
1-Person-Haushalt = 3
2-Personen-Haushalt = 2
3-Personen-Haushalt = 1
Simon Boese – Datenschutzgerechtes Data Mining 26
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Beispiel:Schwellenwerte
Haushalte = 9
Eigentum = 3 Miete = 6
1-Person-Haushalt = 3
Schwellenwert = 3
Simon Boese – Datenschutzgerechtes Data Mining 27
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Beispiel: Generalisierung
Haushalte = 9
Eigentum = 3 Miete = 6
weniger Detail
Simon Boese – Datenschutzgerechtes Data Mining 28
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Sicherheit
Bisheriger Fokus: Data Mining Ergebnisse
Verletzung der Privatsphäre einzelner Individuen bei Veröffentlichung
Neuer Fokus: Data Mining Prozesse
„collaboration meets competition“Datensicherheit
Kryptographie
Simon Boese – Datenschutzgerechtes Data Mining 29
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Verteilung der Daten1
Wann muss überhaupt datenschutzge-rechtes Data Mining eingesetzt werden?
Wenn Daten zentralisiert bzw. verteilt vorliegen, aber nur von einer Stelle kontrolliert, besteht keine zusätzlicheGefahr einer Verletzung der Privatsphäre.
anderer Ansatz
Simon Boese – Datenschutzgerechtes Data Mining 30
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Verteilung der Daten2
Wann muss überhaupt datenschutzge-rechtes Data Mining eingesetzt werden?
Liegen Daten verteilt vor und werden von unterschiedlichen Stellen kontrol-liert, könnten durch Kooperation dieser Stellen sensible Daten offen gelegt werden.
Simon Boese – Datenschutzgerechtes Data Mining 31
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Verteilung der Daten3
Horizontal/Homogen verteilte Daten
Vertikal/Heterogen verteilte Daten
An k verschiedenen Orten P werden in einer Datensammlung D bestehend aus den Spaltenbezeichnungen I und den Entitäten EInformationen gespeichert:
Dk = (Ek,Ik)
Simon Boese – Datenschutzgerechtes Data Mining 32
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Horizontale Datenverteilung1
an verschiedenen Orten sind gleiche Daten über verschiedene Objekte vorhanden
Datenmenge erhöhen, statistische Genauig-keit steigt
k
i
iGEEEE UUU ...
1==
k
i
iGIIII III ...
1==
Simon Boese – Datenschutzgerechtes Data Mining 33
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Horizontale Datenverteilung2
Kontostandneu?überfällig?aktiv?Nr.
>1000,-€nnj912
400-600€jnn833
<400,-€jjj607
Bank 1 Bank 2
400-600€njj457
>1000,-€njn296
<400,-€jnj113
Ik
Ek
Quelle: „Privacy Preserving Data Mining“; J.Vaidya, C.W.Clifton, Y.M.Zhu
Simon Boese – Datenschutzgerechtes Data Mining 34
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Vertikale Datenverteilung1
an verschiedenen Orten liegen unterschied-liche Daten über gleiche Objekte
Datenumfang erhöhen, globale Zusammen-hänge erkennen
k
i
iGEEEE III ...
1==
k
i
iGIIII UUU ...
1==
Simon Boese – Datenschutzgerechtes Data Mining 35
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Vertikale Datenverteilung2
400-600€njj457
>1000,-€njn296
<400,-€jnj113
Krankenakten Handy-Daten
Ik
Ek
AkkuStd/TagModelDiabetes?Tumor?Id
Typ 2keinQRY
keinMetastasenMFN
Typ 1GehirnABC
NiCd0,53610QRY
kein0,2keinMFN
Li/Ion>15250ABC
Quelle: „Privacy Preserving Data Mining“; J.Vaidya, C.W.Clifton, Y.M.Zhu
Simon Boese – Datenschutzgerechtes Data Mining 36
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Secure Multi-partyComputation (SMC)
Generelles Problem bei der Berechnung von Funktionen, wenn die Input-Daten verteilt –vertikal/horizontal – vorliegen
Kommunikation via Protokoll
Ziel: Außer dem Ergebnis erfährt keine Partei etwas Neues
Erfolgt eine Berechnung sicher, dann war sie auch privat! (Goldreich et al. basierend auf Yaos Millionärs Protokoll)
Simon Boese – Datenschutzgerechtes Data Mining 37
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
SMC – Beispiel1
Berechnung einer Summe
Jede (beteiligte) Partei hält einen Wert, der nicht bekannt gegeben werden soll
Annahme: der Wertebereich Ω der zu be-rechnenden Summe ist bekannt
gleichverteilte Zufallszahl als Verschleierung Ω∈r
Ω
Simon Boese – Datenschutzgerechtes Data Mining 38
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
SMC – Beispiel2
5
17 4
12
Stelle 1
Stelle 4 Stelle 3
Stelle 2
32 + 5 mod 50 = 37
49 + 4 mod 50 = 3
3 + 17 mod 50 = 20 37 + 12 mod 50 = 49
| Ω | = 50 r = 32
∑ = 3820 – r = -12
-12 mod 50 = 38
Quelle: „Privacy Preserving Data Mining“; J.Vaidya, C.W.Clifton, Y.M.Zhu
Simon Boese – Datenschutzgerechtes Data Mining 39
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Agenda
Ziele des Data Mining und Problemstellung
Privatsphäre
Was muss sich ändern?
Vorgehensweisen
Zusammenfassung
Simon Boese – Datenschutzgerechtes Data Mining 40
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Wann ist die Privatsphäre
verletzt?
Verteilung der Daten & SMC
k-Anonymität(Quasi-Identifkatoren),
Verschleierung, Schwellenwerte, Generalisierung
Erkenntnisgewinnevs.
Datensicherheit und -integrität
Simon Boese – Datenschutzgerechtes Data Mining 41
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Literatur
J. Vaidya, Ch.W. Clifton, Y.M. Zhu;
„Privacy Preserving Data Mining“;
Springer Science+Business Media;
New York 2006
Simon Boese – Datenschutzgerechtes Data Mining 42
Seminar Data Mining
Prof. Menzel
Arbeitsbereich NATS
Ende
Vielen Dank für Ihre/Eure Aufmerksamkeit.
Fragen , Anregungen und/oder Kritik?