Biosignale und Benutzerschnittstellen -...

93
1 Biosignale und Benutzerschnittstellen Muskelaktivität Biosignale und Benutzerschnittstellen Biosignal: Muskelaktivität Entstehung, Messung (EMG), Anwendungen Prof. Dr. Tanja Schultz Dipl. Math. Michael Wand Vorlesung WS 2012/2013

Transcript of Biosignale und Benutzerschnittstellen -...

1 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

Biosignale und Benutzerschnittstellen

Biosignal: Muskelaktivität

Entstehung, Messung (EMG), Anwendungen

Prof. Dr. Tanja Schultz

Dipl. Math. Michael Wand

Vorlesung WS 2012/2013

2 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Literatur für diese Vorlesung

R. Schandry, Biologische Psychologie – Ein Lehrbuch. 2. Auflage, 2006, BeltzPVU

• „Bewegung“, Kapitel 9, pp. 194-216

• „Die zelluläre Basis der Informationsverarbeitung im Nervensystem“, Kapitel 4, 47-69

R. Kramme, Medizintechnik. Kapitel 11

Lena-Maier Hein: Speech Recognition Using Surface Electromyography. Diplomarbeit 2005, UKA http://csl.anthropomatik.kit.edu -> Publikationen ->

Diplomarbeiten

3 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Taxonomie Biosignale – Muskelaktivität

Biosignale

Mechanische Biosignale

Elektrische Biosignale

Akustische Biosignale

Chemische Biosignale

Sprache

Nichtsprachl. Artikulation

Hirn EEG

Augen EOG

Muskeln EMG

Herz EKG

Bewegung

Mimik

Wärme MEG/PET

fMRI

Körper- geräusche

Thermische Biosignale

Gestik

4 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Überblick

• Einführung

• Aufbau des Muskels

• Muskelkontraktion

• Elektromyographie (EMG)

• Anwendungsbeispiele

• Emotionserkennung

• Spracherkennung

• Weitere Anwendungen

5 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Einstieg

• Ziel: Wir wollen die menschliche Bewegung erfassen, beispielsweise zur Steuerung von Maschinen (im weitesten Sinne)

• Bewegungserfassung ist auf verschiedene Arten möglich:

• visuelle Erfassung durch Kameras

• direkte Erfassung der Bewegung z.B. durch Winkelmesser oder Beschleunigungssensoren

• indirekt durch die Erfassung der Muskelaktivität, die die Bewegung erzeugt

• Wir betrachten hier die Elektromyographie (EMG), die die elektrischen Potentiale erfasst, die durch Muskelaktivität entstehen

• Wir wollen Maschinen steuern und daher insbesondere willentliche Bewegungen erfassen, im Gegensatz zu autonom motorischen Bewegungen

• Daher Einschränkung auf somatisch motorische innervierten Muskulatur Skelettmuskeln

• Diese Vorlesung beschränkt sich auf die Betrachtung des Signals ab dem Rückenmark (α-Motoneuronen)

• Vorgänge im Hirn haben wir bereits behandelt

6 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Motivation

Warum ist es interessant für Mensch-Maschine Schnittstellen, die Bewegung zu erfassen?

Große Bedeutung der Bewegung für den Menschen:

• Bewegung ist ein wesentliches Merkmal des Belebten

• Ein Mensch, dessen Körper völlig starr ist und bei dem keine Bewegungen auslösbar sind, ist tot oder im Koma

• Fluss und Vielfalt der Bewegung drückt Lebendigkeit + Lebensfreude aus, ermöglicht Kunst, Musik, Malerei

7 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Motivation

• Differenzierte Bewegungssteuerung und fein abgestimmter Bewegungsapparat erlauben Beherrschung der Umwelt

• Sprache durch besondere Anatomie des Artikulationsapparates und komplexes sprachmotorisches System

• Fortbewegung

• Mimik, Gebärden, Körperhaltung

• Ausdruck von Emotionen, Persönlichkeit

• ...

• Alle diese Erscheinungsformen der Bewegung können für Benutzerschnittstellen interessant sein!

8 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

Definition: Bewegungen sind räumliche Verschiebungen von Gewebe

• Großräumige Bewegungen, z.B. ausgreifende Bewegungen der Beine beim Gehen

• Kleinste, fast unmerkliche Bewegungen, z.B. Mimik, Augenbewegungen, Körperbalance

Jegliche Bewegung geschieht durch Muskeln.

• Skelettmuskeln: Muskeln des Bewegungsapparates

• Glatte Muskeln: Muskeln der inneren Organe und Gefäße (autonome Kontraktion, keine oder wenig direkte Kontrolle durch das Bewusstsein)

• Unser Augenmerk gilt den Skelettmuskeln

• Ziel ist die Erfassung willentlicher (und gezielter) Bewegungen

Bewegung

9 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Überblick

• Einführung

• Aufbau des Muskels

• Muskelkontraktion

• Elektromyographie (EMG)

• Anwendungsbeispiele

• Emotionserkennung

• Spracherkennung

• Weitere Anwendungen

10 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Aufbau des Skelettmuskels

• Es gibt zwei Haupttypen von Muskeln: glatte Muskulatur und quergestreifte / Skelett- Muskulatur.

• Muskeln der inneren Organe = glatte Muskulatur

• Muskel des Bewegungsapparates = Skelettmuskel = quergestreifte Muskulatur

• Wir betrachten nur die Skelettmuskeln.

• Skelettmuskeln sind das ausführende Glied beim Ablauf eines motorischen Programms

• Bewegung (und Muskelarbeit) kommt dadurch zustande, dass sich der Muskel verkürzt (Muskelkontraktion).

• Die Elemente, die zur Kontraktion fähig sind, heißen Myofibrillen.

11 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

• Skelettmuskeln sind über Sehnen mit dem Skelett (Knochen) verbunden

Aufbau des Skelettmuskels

12 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

• Die kleinste funktionelle Einheit des Skelettmuskels ist die Muskelzelle = Muskelfaserzelle = Muskelfaser

• Muskelfasern schließen sich zu Faserbündeln zusammen, die man mit bloßem Auge als „Fleischfasern“ erkennen kann

Aufbau des Skelettmuskels

13 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

• Muskelfaser

• 1/100 – 1/10 mm Durchmesser

• Bis 20cm Länge

• Das Zytoplasma (Zellplasma) der Muskelfaser (Sarkoplasma) wird von der Membran (Sarkolemm) umschlossen

• Im Inneren der Muskelfaser befinden sich die Myofibrillen

• Nehmen größten Teil des Zellvolumens ein

• Myofibrillen

• Langgestreckt

• Durchmesser ca. 1/1000 mm

Aufbau des Skelettmuskels

14 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

• Myofibrillen sind in Zonen unterteilt

• Unter dem Lichtmikroskop erkennt man, dass diese Zonen weiter untergliedert sind: in A-Bande (stark brechend) und I-Bande (schwach brechend)

• Innerhalb der I-Bande befindet sich die Z-Linie

• Der Bereich zwischen zwei Z-Linien heißt Sarkomer.

• Unter dem Mikroskop erkennt man die A/I-Bande als Querstreifen, woraus sich der Name „quergestreifte Muskulatur“ herleitet.

Aufbau des Skelettmuskels

15 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Aufbau des Skelettmuskels

• Myofibrillen bestehen aus 2 Typen von parallel gelagerten fadenartigen Filamenten

• Myosinfilamente

• Aktinfilamente

• Myosinfilament: langgestreckte Myosinmoleküle (Protein)

• Aktinfilament: kugelförmiges Protein, kettenförmig gelagert verdrillt zu Faden

• Die beiden Filamenttypen berühren sich, wo Ausstülpungen des Myosinmoleküls, die Myosinköpfe, die Aktinfilamente berühren.

F-Aktin G-Aktin (Wikipedia)

16 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Überblick

• Einführung

• Aufbau des Muskels

• Muskelkontraktion

• Elektromyographie (EMG)

• Anwendungsbeispiele

• Emotionserkennung

• Spracherkennung

• Weitere Anwendungen

17 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

• Bei einer Muskelkontraktion läuft folgender Vorgang ab:

• Aktivierung der Myosin-Aktin-Querbrücke

• Myosinköpfe verändern ihre Konformation

• Dadurch verschieben sich die Aktin- und Myosinfilamente in Längsrichtung gegeneinander (Filamentgleitmechanismus)

• Dies sind minimale Verschiebungen, aber ….

• … in vielen hintereinander geschalteten Sarkomeren!

• Insgesamt ergibt sich so eine beachtliche Längenverkürzung

Diesen Prozess nennt man Muskelkontraktion

Aufbau des Skelettmuskels

18 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Muskelkontraktion

Ausgangssituation:

• Muskeln in erschlafftem Zustand

• ATP (Adenosintriphosphat) gespalten in ADP + P und an Myosinkopf gebunden

• Bindungsstellen des Aktins mit Tropomyosin belegt

Vorgang bei Erregung:

• Muskelfaser wird erregt, dadurch strömt Ca2+ in die Muskelfibrillen

• Diese Depolarisierung breitet sich als Aktionspotential aus

• Ca2+-Ionen binden sich an Troponinmoleküle Tropomysin löst sich von Aktin-Bindungsstellen Myosin kann an Aktin andocken Quelle: http://www.lukashensel.de/

19 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Muskelkontraktion

Erregung (Fortsetzung)

• ADP und P wurden freigesetzt Myosinhals knickt um

• Myosinfilament zieht sich an Aktin entlang

• Muskel kontrahiert

Nach der Kontraktion:

• ATP bindet sich an Myosinköpfchen

• Das ATP wird aufgespalten

• Durch Energie, die bei Spaltung in ADP+P frei wird klappt Myosinkopf zurück in Ausgangsposition und löst sich von Bindungsstelle

http://www.lukashensel.de/

20 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Muskelkontraktion

21 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Neuromuskuläre Übertragung

Woher kommt die Erregung eines Muskels, die eine Kontraktion bewirkt?

• Die Aktivierung einer quergestreiften Muskelfaser erfolgt durch einzelnes Motoneuron.

• Die spinalen Motoneuronen = -Motoneuronen sind sehr gut erforscht und die mit am besten untersuchten Neuronen überhaupt!

• Das Axon des -Motoneuron bildet im Bündel mit anderen Axonen einen efferenten Nerv, der vom Rückenmark zur Peripherie läuft.

• Das Axon endet in einer oder mehreren Synapsen, die an den Muskel andocken und als motorische Endplatten bezeichnet werden.

22 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Aktivierung einer Muskelfaser

• Wenn das Motoneuron feuert, entsteht im Muskel ein Aktionspotential (MUAP, motor unit action potential)

• Dieses breitet sich längs der Muskelfaser vom Ursprung aus

• Führt zu Kalziumeinstrom

• Dieser Kalziumeinstrom führt zur Konformationsänderung der Myosinköpfe und somit zur Muskelkontraktion

23 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Aktivierung einer Muskelfaser

• Die Zahl der von einem Motoneuron versorgten Muskelfasern liegt zwischen 1 und mehreren Tausend

• Je größer die Anforderungen an die muskuläre Feinsteuerung, desto geringer ist die Zahl der Muskelfasern pro Einheit

• Augenmuskel 1:1; Arme oder Beine etwa 1:5000

• Jede Muskelfaser hat nur eine motorische Endplatte, d.h. wird von genau einem Motoneuron innerviert.

• Als motorische Einheit (MU, motor unit) bezeichnet man ein Motoneuron + alle von ihm innervierten Muskelfasern.

• Um eine Muskelkontraktion aufrechtzuerhalten, muss das Motoneuron wiederholt feuern. Damit entsteht im Muskel eine Abfolge von Aktionspotentialen, die als MUAPT (motor unit action potential train) bezeichnet wird.

• Die Intervalle zwischen den einzelnen MUAPs einer MUAPT sind etwa gaussverteilt, wobei der Mittelwert der Intervalllänge von der Innervierung abhängt.

24 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Kontraktionsstärke

Die Stärke der Kontraktion hängt von Zahl der den Muskel versorgenden gleichzeitig feuernden Motoneuronen und von der Frequenz ihres Feuerns ab.

Oben: Schematische Darstellung

Unten: Kontraktionsstärke versus „rekrutierte“ MUs und ihre Aktivitätsraten

Die Darstellung basiert auf einer Zerlegung des gemessenen EMG- Signals

Quelle: C. J. de Luca et al.; Decomposition of Surface EMG Signals. J Neurophysiol, 2006, 9

25 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Überblick

• Einführung

• Aufbau des Muskels

• Muskelkontraktion

• Elektromyographie (EMG)

• Anwendungsbeispiele

• Emotionserkennung

• Spracherkennung

• Weitere Anwendungen

26 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Einordnung der EMG-Messung

27 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Aktionspotentiale

• Reizung der Muskelzelle erzeugt Aktionspotential in der Muskelfaser (MUAP)

• Aktionspotential entsteht durch Einstrom von Ionen in den Muskel, es breitet sich vom Ursprung ausgehend gerichtet aus und erhält und verstärkt sich dabei selbst (siehe Vorlesung "Nervensystem/Informationsfluss").

• Die durch das Aktionspotential entstehenden Potentialdifferenzen kann man sowohl invasiv (durch Nadelelektroden) als auch an der Hautoberfläche messen.

• Besonders an der Hautoberfläche hat man allerdings immer eine Überlagerung vieler Aktionspotentiale, die einzelnen Potentialquellen zu identifizieren, ist eine schwierige Aufgabe!

28 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Aktionspotentiale

Betrachten wir ein einzelnes Aktionspotential an der Hautoberfläche!

• Platziert man zwei Elektroden an zwei Positionen links (A) und rechts (B) auf dem Muskel, beobachtet man folgende Abfolge:

1. Muskel in Ruhe: überall Ruhepotential, keine Differenz zwischen A und B

2. Muskel wird aktiviert, d.h. Aktionspotential AP entsteht

3. Da AP sich nur längs der Muskel- fasern ausbreitet, wird die Elektrode nahe der Quelle (A) schneller von der Depolarisation erfasst als die quellferne Elektrode (B) Potentialdifferenz A – B > 0

4. AP wandert weiter und erreicht nun Elektrode B nun ist A – B < 0

5. AP wandert noch weiter, Potential- differenz ist wieder 0

Der positive und der negative Ausschlag sind etwa gleich groß.

29 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Das EMG-Signal

• Wenn eine Muskelkontraktion aufrecht erhalten werden soll, müssen die dazugehörigen Motoneuronen wiederholt feuern.

• Bei einer längeren Muskelkontraktion entsteht somit eine ganze Serie von Aktionspotentialen, die MUAPT (motor unit action potential train) genannt wird.

• Die Grafik unten zeigt das Signal an einem Muskel, gemessen mit einer

• Oberflächenelektrode (sEMG – surface EMG – Oberflächen-EMG, oben)

• Nadelelektrode (iEMG, indwelling EMG – Nadel-EMG, unten)

• Man erkennt eine Abfolge von Ausschlägen, die Aktionspotentialen entsprechen

• Was sind die Unterschiede zwischen den Signalen?

• Oberflächen-EMG:Viel mehr Rauschen, Formen der einzelnen MUAPs eher schlecht erkennbar, erscheint tiefpassgefiltert (!)

30 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Messung – Nadel- vs. Oberflächenelektrode

• Nadelelektrode: mit Mikroelektrodentechnik können Potenzialschwankungen einzelner motorischer Einheiten erfasst werden, mit Spezialnadeln sogar einzelner Muskelfasern

• Wird direkt in Muskel eingebracht

+ Spezifische, eng umrissene Aufzeichnungszone

+ Erfasst auch kleine und tiefliegende Muskeln

- Nadeln sind unbequem und erfordern sterile Bedingungen, und nur durch Arzt einzubringen

- Schwierig, exakte Position wiederholt zu treffen

• Oberflächenelektrode: zeitliche und räumliche Summe der Aktionspotenziale aller aktiven Motoreinheiten in der Aufzeichnungszone der Elektrode an der Haut

+ Keine Schmerzen, kein Risiko

- Mehr Cross-talk, schlechtere räumliche Auflösung

• Für Anwendungen im Bereich der Benutzerschnittstellen verwenden wir nur Oberflächenelektroden!

31 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Der Muskel als Leiter

• Der Muskel ist ein relativ schlechter elektrischer Leiter.

• Durch die isolierende Wirkung seiner inaktiven Fasern werden Potentialfolgen mit höheren Frequenzen 8 - 10 mal schneller gedämpft als tieferfrequente Signale.

• Der Muskel wirkt somit als Tiefpassfilter.

• Weiterhin ist die Leitfähigkeit in Richtung der Muskelfasern höher als senkrecht zu ihnen.

• Infolgedessen sind die Daten abgeleiteter Potentiale stark von der Elektrodenpositionierung abhängig.

• Eine entscheidende Rolle spielt hier vor allem der Elektrodenabstand von der aktiven Faser.

• In einem Abstand von nur 0,5 mm von der Faseroberfläche fallen die Potentialamplituden auf ein Zehntel ihres Ausgangswertes ab!

32 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Nadel- vs. Oberflächenelektromyographie

Betrachten wir noch einmal ein identisches Ursprungssignal, einmal mit Nadelelektrode (unten) und einmal mit Oberflächenelektrode (oben) erfasst.

Probleme bei Oberflächen-EMG:

• Nicht genau zu klären, welche motorischen Einheiten erfasst werden

• Keine Aussagen zu Entfernungen zwischen Elektrode und motorischer Einheit. Einflussfaktoren sind:

• Stärke des Unterhautfettgewebes (Filter!)

• Genaue Richtung des Aktionspotentials

• Struktur des aktivierten Muskelgewebes

• Die elementare Auswertung des Oberflächen-EMG-Signals gibt somit lediglich Aufschluss über die allgemeine Kraftentwicklung und die grobe Lokalität der Kraftentwicklung.

• Mehr Informationen sind nicht so einfach zu erhalten! (Man versucht es aber trotzdem.)

34 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Überblick

• Einführung

• Aufbau des Muskels

• Muskelkontraktion

• Elektromyographie (EMG)

• Anwendungsbeispiele

• Emotionserkennung

• Spracherkennung

• Weitere Anwendungen

35 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Klinische Anwendung

Wendet man Elektromyographie in der Medizin an,

• ... untersucht man das Verhalten des Muskels bei gewissen wohldefinierten Reizen.

• Nur ganz bestimmte Kontraktion erwünscht

• Kontraktion soll messbar sein, z.B. mit Kraftmesser

• Muskel soll seine Länge nicht verändern (weil sich sonst auch das Signal ändert), muss also fixiert werden

• ... ist man an exakt quantifizierbaren Eigenschaften des Signals interessiert.

• Welche MUs feuern? Mit welcher Frequenz?

• Haben die Signale die richtige Form, oder liegt Anomalie vor?

• Ist der Ablauf der Kontraktion so, wie er sein soll?

• Man verwendet nach Möglichkeit Nadelelektroden!

• Die gewünschte Information aus Oberflächen-EMG zu extrahieren, ist viel schwieriger.

36 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Klinische Anwendung

Quelle: De Luca et al., Decomposition of Surface EMG Signals. J Neurophysiol 96: 1646–1657, 2006

Der erste Schritt bei der medizinischen/physiologischen Anwendung von EMG ist oft die Zerlegung des Signals in die einzelnen MUAPTs.

• Jedes einzelne AP muss identifiziert werden.

• Die APs, die zur selben MU gehören, müssen gruppiert werden.

• Am Ende steht eine lückenlose Auflistung der MUs, die an einem EMG-Signal beteiligt sind, und ihren Aktivitätsmustern.

• Rechts unten: Deutlich erkennbar ist, wie bei zunehmender Kontraktionsstärke mehr MUs „rekrutiert“ werden.

37 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Klinische Anwendung

• Der übliche Algorithmus zur Zerlegung eines EMG-Signals besteht aus folgenden Schritten:

1. Suche nach nächstem Peak im Rohsignal. Dieser wird Kandidat für MUAP.

2. Ordne diesen Peak einer Klasse von MUAPs zu, oder erzeuge eine neue Klasse. Jede Klasse wird durch die bishere zugeordneten MUAPs definiert. Bei der Zuordnung wird auch die Statistik über die Aktivität jeder MU berücksichtigt. Bei Bedarf kann ein menschlicher Experte eingreifen.

3. Nach erfolgter Zuordnung wird der Peak von Rohsignal subtrahiert, und dieses Restsignal wird dann mit Schritt 1 weiterverarbeitet.

• Der Algorithmus bricht ab, wenn im Restsignal keine Peaks mehr vorhanden sind.

Dieser Algorithmus wird seit ca. 30 Jahren entwickelt und kann mittlerweile weitgehend problemlos angewendet werden. Aktuelle Forschung befasst sich besonders damit, wie der Algorithmus mit extrem geringer menschlicher Intervention noch exakter werden kann.

38 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Zerlegung des Obenflächen-EMG-Signals

• Bei der Zerlegung eines sEMG-Signals gibt es weitere Schwierigkeiten:

• Die SNR ist geringer

• Die Formen der MUAPs ähneln sich mehr (wegen der Filtereigenschaften der Haut), gleichzeitig ist der Crosstalk höher!

• Üblicherweise verwendet man Mehrkanalelektroden, um höhere Diskriminanz zu erreichen.

• ICA o.ä. können hier auch weiterhelfen.

• Ungelöstes Problem!

Quelle: De Luca et al., Decomposition of Surface EMG Signals. J Neurophysiol 96: 1646–1657, 2006

39 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Anwendung im Bereich der Benutzerschnittstellen

• Alle weiteren Anwendungen, die wir in dieser Vorlesung vorstellen, haben das Ziel, das EMG-Signal zu interpretieren und es dann weiterzuverwenden, z.B. zur Steuerung von Maschinen.

• Das Ziel ist jetzt also weniger die exakte Untersuchung des Signals.

• Viel wichtiger ist es, möglich gut unterscheidbare Klassen zu bekommen.

• Es werden so gut wie ausschließlich Oberflächenelektroden verwendet.

40 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Überblick

• Einführung

• Aufbau des Muskels

• Muskelkontraktion

• Elektromyographie (EMG)

• Anwendungsbeispiele

• Emotionserkennung

• Spracherkennung

• Weitere Anwendungen

41 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Erkennung von Emotionen mittels EMG

Dieser Abschnitt: Diplomarbeit von Martin Pruzinec am CSL

• Frage: wie kann man menschliche Emotionen computerbasiert erkennen und für affektive Benutzerschnittstellen nutzen?

• Emotionen werden oft durch Gesichtsausdrücke vermittelt

• Sechs interkulturell erkennbare Basisemotionen (Ekman)

Erkennung des Gesichtsausdrucks anhand der Muskelbewegungen im Gesicht

Erkennung durch Oberflächenelektromyographie

Freude Ärger Sorgen Angst Überraschung Ekel

42 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Warum EMG?

• Nicht-invasive Methode

• Kleines Device

• Elektroden sind einfach anzubringen

• Warum keine Videoerkennung?

• EMG ist in der Lage, Bewegungen aufzunehmen, die auf Videos nicht sichtbar sind

Geeignet für Ausdrücke, die nicht sehr deutlich gezeigt werden

• Bei Verwendung außerhalb des Labors ist der Umgang mit Videokamera recht umständlich

• Mobiler kabelloser Rekorder kann überall mit hingenommen werden

• Benutzte Elektroden sind klein und leicht nicht störend!

43 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Elektrodenplatzierung und Datensammlung

Elektroden werden auf Muskeln platziert, die an Gesichtsausdruck beteiligt sind:

• Es werden in dieser Arbeit strenggenommen keine Emotionen aufgenommen, sondern gestellte Gesichtsausdrücke.

• Probanden erhalten Bilder gezeigt, die einer der 6 Basisemotionen oder einem neutralen Ausdruck entsprechen. Dieser Ausdruck soll nachgeahmt werden.

• 4 Sessions, 350 Aufnahmen pro Session (50 Aufnahmen pro Gesichtsausdruck)

44 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Datenvorverarbeitung und Erkenner

• SVM-basierter Erkenner, in Matlab implementiert.

• Verschiedene Arten der Feature Extraction wurden getestet, meist Features im Zeitbereich:

• Zunächst Filterung (Butterworth-Filter, 20Hz high-pass)

• frame-based power, frame-based mean, Gradient, Komplexitätsmaße (Nulldurchgangsrate...)

• Jede Session wird in Trainings- und Testmenge aufgespalten.

• Bestes Erkennungsergebnis: ca. 86% korrekt klassifiziert

• Chance Level: 14.3% (=100%/7, dies ist die Erkennungsrate, wenn der Erkenner ein zufälliges Ergebnis ausgeben würde)

45 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Überblick

• Einführung

• Aufbau des Muskels

• Muskelkontraktion

• Elektromyographie (EMG)

• Anwendungsbeispiele

• Emotionserkennung

• Spracherkennung

• Weitere Anwendungen

46 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Elektromyographie – lautlose Sprache

Ziel: Spracherkennung durch (Oberflächen-)Elektromyographie

• Wir messen die elektrischen Aktivierungs- potentiale der Gesichtsmuskeln

• Da wir nur die Bewegung aufnehmen, nicht das akustische Signal, ist lautloses Bewegen der Lippen ausreichend

Motivation: Erkennung lautloser Sprache

• Keine Interferenz lautloses Sprechen stört keine anderen Personen (z.B. in Bibliothek, auf Meetings)

• Robustheit das Signal wird nicht durch laute Umgebung gestört

• Privatsphäre/Vertraulichkeit die Information kann nicht von jemand anderem mitgehört werden

• Sprechen in einer fremden Sprache

• Kombination von lautloser Spracherkennung, Übersetzung und Resynthese

• Medizinische Anwendung: kann gewissen sprachbehinderten Personen helfen

47 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Lautlose Sprache - Noise

Robustheit:

• Das Signal wird nicht durch Umgebungsgeräusche gestört (Restaurant...) ...na ja, es gibt schon Störungen, aber von anderer Art als bei der akustischen Spracherkennung

1. Störung durch Muskelsignale Alle Muskelkontraktionen (willentlich oder autonom), die nicht zur Sprachproduktion gehören, sind ein Problem (Essen, Mimik, Emotionen, Augenblinzeln...)

2. Elektromagnetische Effekte z.B. 50/60 Hz-Brummen oder Felder benachbarter Geräte

3. Elektrode-Haut-Kontakt Probleme bei Bartträgern, Schweiß, Luftfeuchtigkeit, Änderung des Signals über längeren Zeitraum

4. Cross-Talk Signale durch benachbarte Muskeln, die ebenfalls im Bereich der Elektrode liegen

49 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Entwicklung der Forschung

NASA, USA: 2 Elektroden, lautlose Sprache 6-Worte-Vokabular: 92% 16-Worte-Vokabular: 73% 23 Konsonanten: 33%

University of New Brunswick, Canada 5 Elektroden in Sauerstoffmaske 10-Worte-Vokabular: 93%

NTT DoCoMo R&D center, Japan 3 Elektroden, lautlose Sprache 5 japanische Vokale: 95%

Angegeben sind die Erkennungsraten

50 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Entwicklung der Forschung

Lena Maier-Hein: Beginn der Arbeiten an den Interactive Systems Labs, Karlsruhe/Pittsburgh 10-Worte-Vokabular: 97.3% nach Repositionierung der Elektroden: 76.2% Mit Adaption: 87.1% Unterschiede in der Artikulation zwischen gesprochener und lautloser Sprache

Szu-Chen (Stan) Jou (und weitere): Übergang zur Erkennung kontinuierlicher Sprache Erkennung von Unterworteinheiten (kontextunabhängigen Phonemen) 101-Worte-Vokabular: 68% Modellierung durch phonetische (oder artikulatorische) Features (später) Angepasste Signalvorverarbeitung (später)

Angegeben sind die Erkennungsraten

51 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

• EMG signals for speech – pilot’s oxygen masks, digit recognition A.D.C. Chan, K.Englehart, B. Hudgins, and D.F. Lovely: Hidden markov model classification of myoelectric signals in speech. Engineering in Medicine and Biology Magazine, IEEE, vol. 21, pp. 143–146, 9 2002.

• Augment normal ASR by MES A.D.C. Chan, K.Englehart, B. Hudgins, and D.F. Lovely: Myoelectric signals to augment speech recognition. Medical and Biological Engineering and Computing, vol. 39, pp. 500–506, 2001.

• Application to non-audible speech C. Jorgensen, D. Lee, and S. Agabon: Sub auditory speech recognition based on EMG/EPG signals. Proceedings of the International Joint Conference on Neural Networks, 2003.

Weiterführende Literatur

52 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

• First move towards phoneme recognition (vowels) C. Jorgensen and K. Binsted: Web browser control using emg based sub vocal speech recognition. Proceedings of the 38th Annual Hawaii International Conference on System Sciences, 2005.

• Ring-shaped electrodes wrapped around fingers H. Manabe, A. Hiraiwa, and T. Sugimura: Unvoiced speech recognition using EMG - mime speech recognition. In Proceedings of the 2003 Conference on Human Factors in Computing Systems, Florida, 2003.

• MES signal is effected by tissue, temperature, positioning … Selected topics in surface electromyography for use in the occupational setting: Expert perspective. 3 1992, DHHS(NIOSH) Publication No 91-100.

• Recognition on sub-word units Szu-Chen (Stan) Jou, Tanja Schultz, et al.: Towards Continuous Speech Recognition using Surface Electromyography

• … und weitere aktuelle Papers auf unserer Homepage

Weiterführende Literatur

53 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Der aktuelle EMG-Spracherkenners

• Unsere aktuellen Systeme erkennen kontinuierliche Sprache auf mittelgroßen Vokabularen (Erkennungs- vokabular Standard 108 Wörter, bester Erkenner >2100 Wörter).

• Der Grundaufbau ist wie bei einem akustischen Spracherkenner.

• Welche Bestandteile muss man wohl verändern?

• Welche Probleme sind zu lösen?

EMG (fünf Kanäle)

Erzeugung des initialen Alignments Merkmalsextraktion Erzeugung initialer Modelle für Phoneme und phonetische Features Viterbi-Training Sprachmodellintegration

Erkennung der Wortsequenz

"TEXT"

EMG-Signal des Wortes „four“ (3 Wdh)

EMG-Signal des Wortes „zero“ (3 Wdh)

54 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Elektroden, Kanalauswahl

• Positionierung der Elektroden

• Die Elektroden sollen möglichst alle Muskeln erfassen, die für‘s Sprechen relevant sind

• … oder?

• Herausforderungen

• Dürfen nicht beim Sprechvorgang stören

• Elektrodengröße limitiert die Platzierungsdichte

• Sind die Positionen bei jedem gleich, d.h. sitzen die Muskel bei jedem am identisch gleichen Ort...?

• Repositionierung, auch bei demselben Sprecher

• Ansatz: Erst einmal geeignete Muskeln identifizieren, dann ausprobieren, welche Positionen gut funktionieren

56 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Elektrodenpositionierung

Wir messen das EMG-Signal von sechs artikulatorischen Muskeln:

• levator angulis oris (EMG2,3),

• zygomaticus major (EMG2,3),

• platysma (EMG4,5),

• depressor angulis oris (EMG5),

• anterior belly des digastric (EMG1),

• und der Zunge (EMG1,6,7)

• EMG 2,6,7: Bipolare Ableitung, ca. 2 cm voneinander entfernt

• EMG 1,3,4,5: Unipolare Ableitung, direkt auf dem Muskel platziert Referenz: Nase (EMG1) oder beide Ohren (EMG3,4,5)

• EMG7 liefert keine zusätzliche Information, kann entfallen

57 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Muskeln für Sprachproduktion

59 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Elektroden

Von uns verwendete Elektrodentypen.

Oben rechts: Gewöhnliche Einwegelektrode für Masseverbindung

Unten: Spezialelektroden für Gesichts-EMG (Becker Meditec)

60 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

Worauf müssen wir bei der Signalvorverarbeitung achten?

Signalvorverarbeitung

Noise Bedeutungstragende Anteile?

Mehrere Kanäle

Überlagerung von Signalen

Entstehungsprozess

Spektrogramme: Sprache und EMG

61 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Signalvorverarbeitung

Die grundlegende Signalverarbeitung für den EMG-Spracherkenner:

• Schritt 1: Betrachte Eigenschaften des Signals im Zeitbereich: fensterbasierte Energie und Mittelwert, Nulldurchgangsrate

• Schritt 2: Verwende Kontextfilter, um den zeitlichen Ablauf der Aktionspotentiale zu erfassen. Solche Filter erzeugen aus einem bestehenden Feature (also einer Serie von Frames im Zeitbereich) durch Kombination benachbarter Vektoren ein neues Feature. Beispiel:

• Delta-Filter: Differenz zweier benachbarter Frames, approximiert Ableitung, hatten wir schon mal bei der Spracherkennung

• Trend-Filter: Wie Delta-Filter, Differenz über größeren Abstand hinweg

• Stacking-Filter: „stapelt“ benachbarte Frames, siehe Bild

ein Feature, entstanden z.B. durch STFT

auch ein Feature

62 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

Durch geeignete Wahl einer Vorverarbeitung (frame-based power, mean, zero-crossing rate, stacking filter) verbessert sich die Wortfehlerrate.

Datenkorpus aus einer Session: 78% -> 32%

Auffällig hier: sehr hohe Dimensionalität der Vektoren, Kompression (LDA) nötig

Vorverarbeitung

nach Stan Jou: Links

Baseline mit STFT

(+ Kontextfilter),

Rechts Time-Domain

Features + Kontextfilter

Signalvorverarbeitung: Resultate

63 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Signalvorverarbeitung – Probleme

• Noise: Durch Signale anderer Muskeln und Artefakte der Aufnahme ist das Signal gestört, die Störungen unterscheiden sich von denen, die bei akustischer Spracherkennung auftreten

• Cross-Talk (Überlagerung): Signale verschiedener Muskeln überlagern sich

• Mehrere Kanäle: Wir haben z.B. sechs EMG-Kanäle – was lässt sich daraus machen?

• Signalcharakteristik: Das EMG-Signal entsteht aus den Aktivationspotentialen der Muskeln

• Signal setzt sich also nicht aus Frequenzanteilen zusammen, sondern aus vielen zeitlokalisierten Aktivierungspotentialen, die bei gleichbleibender Kontraktion in nicht exakt periodischer Abfolge auftreten

• Spektralbetrachtung erweist sich als wenig nützlich

• Können wir das EMG-Signal in seine konstituierenden Aktionspotentiale zerlegen?

64 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Signalvorverarbeitung – Ausblick

Die folgenden Forschungsansätze werden (von uns) verfolgt:

• Artefaktreduktion durch bessere Filterung

• Zerlegung des Signals in konstituierende Aktionspotentiale

• Haben wir vorhin besprochen

• Schwierig bei Oberflächenelektromyographie

• Die meisten Forschungsgruppen verwenden Mehrkanalelektroden

Bieten mehrere „Ansichten“ desselben Signals

Blind Source Separation (BSS)-Techniken möglich

• Verwendung von Elektrodenarrays

• Räumliche Filterung möglich, um die Ausbreitung eines Signals zu erfassen und eine Signalquelle zu lokalisieren

• ICA und/oder BSS möglich

• Liefert mehr Eingabekanäle

• Kann auch bei Zerlegung in Aktionspotentiale helfen (diverse Arbeiten)

Alles work in progress!

65 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Modellierung

• Wir erinnern uns: In der Spracherkennung modelliert man in aller Regel kontextabhängige Phoneme.

• Unser Problem: Wegen der kleinen Datenmengen in unserem EMG-Korpus kann keine kontextabhängige Modellierung durchgeführt werden.

• Lösung: Modellierung durch phonetische Features und phonetic feature bundling als Ersatz für Kontextabhängigkeit.

66 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Modellierung von phonetischen Features

Phonetische Features (PFs, auch artikulatorische Features genannt) repräsentieren Eigenschaften von Phonemen.

Die folgende Tabelle zeigt einige Beispiele:

Wir verwenden binärwertige phonetische Features, d.h. jedes PF hat den Wert true oder false, abhängig vom aktuellen Phonem.

•Phone type

•Phone type •CONSONANT VOWEL APPROXIMANT

•Place of articulation (for consonants)

•GLOTTAL VELAR LABIAL

•Vowel articulation •CLOSE OPEN ROUND FRONT BACK

67 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Phoneme vs. Phonetische Features

Ein phonembasiertes HMM für das Wort „Hallo“

Ein HMM für das selbe Wort, basierend auf dem PF „VOWEL“. Es ist zu beachten, dass das HMM immer noch Phoneme enthält (es sollen ja auch Phoneme erkannt werden!), nur werden diese jetzt durch PFs modelliert.

H A L O

H A L O

H A L O

NON-VW VOWEL NON-VW VOWEL

HMM Gaussian models

HMM Gaussian models

68 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Phonetic Feature Bundling

• Ein zentraler Vorteil der PFs: Jedes PF vereint Trainingsdaten mehrerer Phoneme auf sich. PFs sind also bei kleinen Datenmengen besser zu trainieren.

• Ein einzelnes PF reicht natürlich nicht ("HALO" vs "HOLA")?

• Informationen von phonetischen Features werden mittels einem Multi-Stream-Modell gewichtet kombiniert (siehe Grafik)

vgl. Metze/Waibel, A Flexible Stream Architecture for ASR Using Articulatory Features, Proc. ICSLP 2002

69 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Phonetic Feature Bundling

• Aber die binärwertigen PFs alleine reichen nicht zur Spracherkennung (egal ob mit Akustik oder mit EMG).

• Als Modelle zu ungenau (zu hohe Entropie)

• Beobachtung: Realisierungen von PFs sind nicht unabhängig voneinander – z.B. dürfte die Akustik eines Frikativs extrem davon abhängig sein, ob dieser stimmlos ist oder nicht.

• Idee: phonetic feature bundling

• PFs werden gebündelt, so dass wir am Ende Modelle der Form „stimmhafter Frikativ“ oder „runder vorderer Vokal“ entstehen.

• Dies entspricht einer iterativen Aufspaltung der einzelnen PF-Modelle: Anstatt z.B. einem Modell Frikativ gibt es nun zwei Modelle Frikativ (stimmhaft) und Frikativ (stimmlos) (in der Praxis werden es noch viel mehr Modelle sein).

• Prinzip der unabhängigen Streams (Multi-Stream-Modell) bleibt gleich.

• Wir sprechen von BDPF-Modellen (bundled phonetic features).

70 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Phonetic Feature Bundling

• Ein Beispiel für phonetic feature bundling: Das Modell Consonant wird aufgespalten.

• Die Aufspaltung lässt sich als Frage nach dem aktuellem Phonem beschreiben (0=Voiced – ist das aktuelle Phonem stimmhaft?)

• Aber welche Fragen sind sinnvoll?

• Hatten wir das Problem nicht schon mal?

• Doch – bei der kontextabhängigen Phonemmodellierung!

• Wir verwenden den selben CART-Algorithmus, separat für jeden Stream, nur die Menge der Fragen enthält jetzt Fragen nach dem aktuellen Phonem. Schließt man noch Fragen nach dem Phonemkontext ein (warum auch nicht?), spricht man von kontextabhängigen BDPFs.

• Aufspaltung erfolgt iterativ bis zu Abbruchkriterium.

CONSONANT

NON-CONSONANT

CONSONANT

NON-CONSONANT

CONSONANT

(VOICED)

CONSONANT

(NON-VOICED)

0=VOICED?

no yes

71 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Gesamtsystem: Bundled Phonetic Features

Hier ist ein Überblick über das Gesamtsystem. Der aktuelle EMG-Sprach- erkenner verwendet neun Feature-Streams. Jeder Stream hat 70-220 akustische Modelle (Gauss-Mischverteilungen, Zahl abhängig von Trainings- datenmenge, muss vorher festgelegt werden)

72 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t BDPFs – Anwendung

• Auf dem EMG-PIT-Sprachdatenkorpus haben wir Versuchsreihen zur BDPF-Modellierung durchgeführt. Als optimale Parameter ergaben sich:

• Abbruchkriterium für Bundling: 70 nodes (Modelle) pro Stream in den sprecherabhängigen Systemen, 220 nodes bei sprecherunabh. Systemen

• Verwendung der neun häufigsten PFs (Voiced, Consonant, Vowel, Alveolar, Unround, Fricative, Unvoiced, Front, Plosive)

• Stream-Gewichte: 0.11 pro PF stream, 0.01 für den Phonemstream!

• Die Ergebnisse sind wie folgt: Für CD BDPFs ergibt sich eine Gesamtverbesserung gegenüber Phonemmodellen von über 33%!

Experiment Average WER Relative Gain

Baseline (context-independent phoneme models) 47.15%

PF modeling, no bundling, no context dependency 45.50% 3.5%

BDPFs 35.78% 21.3%

Context-dependent BDPFs 31.49% 12.0%

73 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t BDPFs – Beobachtungen

• Wenn man das BDPF-Clustering sehr lange durchführt, erhält man am Ende wieder Phonemmodelle. Beispiel: Consonant -> Voiced Consonant -> Voiced Plosive Consonant -> Bilabial Voiced Plosive Consonant = ‚b‘.

• Ungebündelte PFs sind andererseits die einfachsten Modelle überhaupt, weil sie nur eine binäre Entscheidung treffen.

• BDPFs sind also Zwischenstufen zwischen Phonemen und Binärklassifikatoren

• Durch datengetriebenen Prozess optimal geclustert

• Besonders für kleine Korpora geeignet

• Bisher hauptsächlich bei EMG-Daten angewendet

• Experimente mit Audio-Daten laufen gerade

• Ob BDPFs auch bei Daten von geringer Qualität eine robustere Erkennung ermöglichen, ist noch nicht geklärt.

74 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Hörbare und lautlose Sprache

• Zur Erinnerung: EMG-Spracherkennung kann insbesondere lautlose Sprache erkennen! Alle bisherigen Ergebnisse zeigen Resultate bei normaler Sprache.

• Wir unterscheiden zwischen verschiedenen Sprachmodi:

• hörbares EMG (=EMG von hörbarer Sprache)

• lautloses EMG (=EMG von lautloser Sprache)

• Problem: Um den sprecherabhängigen EMG-Erkenner zu trainieren, brauchen wir ein Phonemalignment der Trainingsdaten (wir müssen also wissen, welche Phoneme an welchen Stellen zu finden sind).

• Bei hörbarem EMG nehmen wir dazu das parallel aufgenommene Audiosignal!

• Bei lautlosem EMG: ???

• Idee: Trainiere einen EMG-Erkenner auf hörbarer Sprache, verwende die trainierten Modelle, um einen Erkenner für lautloses EMG zu bauen.

• Problem: Klappt nicht optimal, weil sich die Signale von hörbarem und lautlosem EMG unterscheiden.

• Ist aber trotzdem die beste bekannte Lösung.

75 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t

• Probieren wir etwas anderes: Können wir Unterschiede zwischen hörbarem und lautlosen EMG quantifizieren?

• Grafik: Beispiele für Amplitudenspektra von hörbarem, geflüstertem und lautlosem EMG von zwei Sprechern. Beim linken Sprecher ist die Erkennungs-rate bei Silent EMG deutlich schlechter als bei Audible EMG, beim rechten Sprecher kaum Unterschied. Rechts sind die Spektra auch unter- schiedlicher als rechts.

• Idee: Spektraler Gehalt korreliert mit Erkennungsrate von Silent EMG.

• Idee: Definiere spektrales Mapping (eine Adaptionsmethode im Frequenzbereich), das diese Unterschiede ausgleicht!

Hörbare und lautlose Sprache

76 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Hörbare und lautlose Sprache

• Ergebnisse für zwei Silent-EMG-Erkenner:

• cross-modal testing: Verwende auf audible EMG trainierten Erkenner direkt, um silent EMG zu testen

• cross-modal labeling: Verwende auf audible EMG trainierten Erkenner, um ein Phonemalignment zu erzeugen, und trainiere dann einen völlig neuen Erkenner für silent EMG.

• Ergebnisse mit und ohne Spectral Mapping (Janke, Wand & Schultz, 2010)

77 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Session-Abhängigkeit

Eine weitere Herausforderung der EMG-basierten Spracherkennung

• Sprecherabhängigkeit (Sprachstil, Sprachgeschwindigkeit)

• Sessionabhängigkeit: Performance hängt stark von Elektrodenposition, Hauteigenschaften, ... ab

• Aus der akustischen Spracherkennung kennt man ähnliche Effekte: Kanalabhängigkeit (Mikrophon, Übertragungsqualität, ...)

• Können wir ein sprecherunabhängiges System trainieren?

• Oder der Einfachheit halber ein sessionunabhängiges?

• Idee: Adaption

• Man nehme ein großer sprecher- bzw. sessionunabhängiges System

• Dieses System wird mit einer kleinen Menge spezifischer Daten angepasst.

• Wie viele Anpassungsdaten sind nötig? (wird noch erforscht)

78 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Session-unabhängiges System

Aktuelle Forschung (Wand & Schultz, Session-Independent EMG-based Speech Recognition, Biosignals 2011):

• Trainiere Systeme auf Daten mehrerer Sessions

• Nett: Dadurch stehen mehr Trainingsdaten zur Verfügung!

• Vergleich ist daher nur bedingt möglich, weil wir nicht so viele "große" Sessions haben

• Resultat: Ein Session-Independent System funktioniert gut, bei 7 Trainigssessions mit je 40 Sätzen noch etwa 20% WER

• Großer Unterschied: Sind Daten der Testsession im Training enthalten?

79 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Session-adaptives System

Können wir das Ergebnis noch verbessern, wenn wir Adaption zulassen?

• Idee: Es kommt in der Praxis darauf an, dass das System möglichst schnell zur Verfügung steht

• Alte Trainingsdaten sind viel leichter zu bekommen

• Also: Trainiere ein SI-System auf vielen alten Sessions und adaptiere es mit möglichst wenig Daten von einer neuen Session

• Resultat: Funktioniert hervorragend, mit >=30 Adaptionssätzen (das ist nicht viel!) deutlich bessere Ergebnisse als auf den ursprünglichen 40 Sätzen mit einem Session-dependent system

80 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Session-unabhängiges System

• Ein Session-independent system ist auch stabiler, wenn Daten aus unbekannten Sessions erkannt werden sollen.

• Die Grafik zeigt Erkennungsergebnisse auf unbekannten Sessions:

• Bei Session-dependent training: Na ja

• Bei Session-independent training: super! Ca. 21% WER.

81 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Sprecherunabhängiges System

Unten: Ergebnisse für sprecherunabhängiges System (Wand & Schultz, 2009):

Rot: Getesteter Sprecher war nicht in den Trainingsdaten vorhanden

Grün: Wie Rot, aber zusätzlich Adaption der Modelle

Pink: Sprecherabhängiges System (Baseline)

Ergebnis: Adaption geht schon, aber es gibt noch viel zu tun.

82 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Demovideo zur EMG-Spracherkennung

83 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Überblick

• Einführung

• Aufbau des Muskels

• Muskelkontraktion

• Elektromyographie (EMG)

• Anwendungsbeispiele

• Emotionserkennung

• Spracherkennung

• Weitere Anwendungen

84 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Praktikum: Bewegungserkennung

Mit Material von den Teilnehmern des Praktikums Biosignale 2008 (danke!)

Immer im Sommersemester am CSL: Praktikum Biosignale

Im Jahr 2008:

• Erkennung von Bewegungsabfolgen mit EMG- und Beschleunigungssensoren (bei mir kurz „ACC“)

• Entwurf eines Experimentalszenarios

• Datenerfassung

• Bau eines Erkenners, Anpassung von Modellierung und Vorverarbeitung

• Optimierung der Resultate

• Erfolg: Erkennungsraten von über 80%

Nächsten Sommer wieder! Praxisnahe Aufgabenstellung, gute Vertiefung des Themas „Biosignale“, hervorragende Vorbereitung auf SA/DA/BA/MA am CSL. Bitte rechtzeitig melden!

85 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Bewegungserkennung: Szenario

Szenario:

• 3 Bewegungsabläufe (Rühren, Stampfen, Schneiden) aus dem Bereich Küche (vgl. SFB 588: Roboter zum Einsatz in Küchenszenario)

• Unterscheidung von 12 Einzelbewegungen (Messer_holen, Messer_weglegen, Schneiden, …)

• Es sollen jeweils Einzelbewegungen erkannt werden

• Bigramm-Bewegungsmodell (es ist bekannt, mit welcher Wahrscheinlichkeit von einer Bewegung in eine bestimmte Folgebewegung übergegangen wird)

86 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Bewegungserkennung: Datenerfassung

Datenerfassung:

• Ein Proband

• Synchrone Aufnahme von EMG- und ACC-Signal

• 3x40 Aufnahmen

• 6 EMG-Elektroden, 3 Beschleunigungs- sensoren (d.h. 9 Kanäle für jeweils 3 räumliche Dimensionen)

• 1 kHz Sampling Rate

• EMG-Sensoren: Bipolare Ableitung, meist Agonist & Antagonist

• ACC-Sensoren: Blaue Punkte

87 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Bewegungserkennung: Datenbearbeitung

Die aufgenommenen Daten müssen jetzt so vorbereitet werden, dass der Erkenner mit ihnen trainiert werden kann

• Formatkonversion

• Synchronisierung durch parallel aufgenommene Videos mit Hilfe eines Markersignals

• In EMG- und ACC-Aufnahme: Markerkanal

• In Video: Leuchtdiodenblitz

• Time-Alignment durch manuelle Zuordnung von Videosequenzen und Bewegungen

Merke: Die Bearbeitung der Daten, bis der Erkenner überhaupt laufen kann, ist oft sehr aufwendig!

88 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Bewegungserkennung: Der Erkenner

Herausforderungen beim Bau des eigentlichen Erkenners:

• Welche Signalvorverarbeitung ist geeignet?

• Für ACC: Nur Mittelwertssubtraktion + Resampling

• Für EMG: Wavelet-Zerlegung (RDWT)

• Resampling des Signals

• Die ursprüngliche Samplingrate war im Featurebereich zu hoch

• Modellierung: HMMs

• Zustandszahl

• Topologie (Zustandsübergänge)

89 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Bewegungserkennung: Ergebnis

Zur Bestimmung der Erkennungsrate wird ein Alignment der Referenz und der Hypothese durchgeführt

Hier: 1 Ersetzung, 1 Deletion auf 6 Bewegungen: 1/3 Fehlerrate, also 2/3 Accuracy

Ergebnis (Zusammenfassung)

• Beschleunigungssensoren: Über 80% korrekt

– Eignen sich gut für die Aufgabe

• EMG-Elektroden: etwas geringer (war eigentlich zu erwarten)

– Noch viel Optimierung möglich

Holen Pause Schneiden Schneiden Pause Weglegen Referenz

Holen Schneiden Schneiden Schneiden Pause Hypothese

90 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Was kann man noch so mit EMG machen?

• NASA

• Jorgensen

• Barnif

• Kevin Warwick - Cyborg

• Stelarc – Performance

• FES

• … und vieles mehr, was NICHTS mit Sprache zu tun hat

91 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Jorgensen: Unterarm EMG - Biosleeve

• Jorgensen NASA 2001

• Training am richtigen Objekt, Anwendung virtuell

• Latenzzeit so gering, dass von Benutzer unbemerkt

• Anwendung

• suit-integrated tele-operation devices

• silent communication

• automated interface adaptation via state assessment

• virtual cockpit/command consoles

• tele-presence

• tele-operation in the presence of delays

• Weitere Infos unter http://www.nasa.gov/centers/ames/research/ technology-onepagers/human_senses.html

Oben: Bedienung eines Tastenfelds Unten: Steuerung Flugsimulator

92 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Yair Barniv: Vorhersage von Bewegungen

• Yair Barniv, NASA

• Vorhersage von Kopfbewegungen für die Steuerung von Bildern und Orientierung in virtuellen Realitäten

• Problem: Erfassen mit Beschleunigungsmessern dauert zu lang!

• Vorhersage mittels EMG

• Frühe Bereinigung der Effekte

• Weiteres unter:

http://vision.arc.nasa.gov/personnel/

yair/yair.html

93 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Barretto, Scargle & Adjouadi: Kopfmaus

• Ableitung der Muskelsignale am Kopf

• Steuerung einer Maus durch spezifische Muskelbewegungen

Quelle: A real-time assistive computer interface for users with motor

Disabilities, ACM SIGCAPH Computers and the Physically Handicapped

Issue 64 (June 1999), pages: 6 - 16

94 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t Kevin Warwick - Cybernetics

• Kevin: „the first cyborg“

• Universität Reading in England

• Ließ sich 1997 einen Chip in den Arm implantieren

• Verbindet sich wirelessly mit anderen Geräten

• Telepräsenz ….

• Schritt 2: Implantat, was an die Nerven andockt

• Armbewegung wird direkt auf eine künstliche Hand remote übertragen

• http://www.kevinwarwick.com/

Video!

95 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t FES – Funktionale Elektrische Stimulation

• FES Funktionale Elektrische Stimulation

• Verfahren zur Wiederherstellung der Bewegungsfunktion der Gliedmaßen

• Anwendungsgebiet: Bei Lähmungen als Folge von Krankheiten oder Verletzungen, bei denen nur die Nervenbahnen zum betreffenden Muskel, aber nicht der Muskel selbst geschädigt sind

• Ziele:

1. Verhinderung von Muskelschwund, Sehnenkontraktion

2. „Fernsteuerung“ des betreffenden Muskels

96 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t FES – Funktionale Elektrische Stimulation

Idee FES:

• Elektroden werden am Muskel angebracht

• Oberflächenelektroden oder Implantat

• Übertragen elektrische Impulse an Muskel

• Muskel kontrahiert

• Steuerung der Impulse?

• Sensoren an gesunde Körperteilen anbringen

• Erfassen der Bewegungen

• Übertragung auf defekten Muskel

97 Bio

sign

ale

un

d B

en

utz

ersc

hn

itts

telle

n –

Mu

skel

akti

vitä

t FES-Interfaces: kommerzielle Anwendungen

• Neurocontrol http://www.neurocontrol.com

• Cleveland FES Center Grasp System für Querschnittgelähmte

• Neurorehabilitation http://www.nessltd.com

Video!

• Nicht bewusst kontrolliert: Bsp. Unterschenkel-Prothesenträger oder Schlaganfall – typischer Schlurf- und Stolpergang: erfasst die Elektrode eine Beugung im Kniegelenk, wird Fuß angewinkelt