Detektion und Identifikation von Figur-Grund-Unterschieden...

177
DETEKTION UND IDENTIFIKATION VON FIGUR-GRUND-UNTERSCHIEDEN: Psychophysik, Elektrophysiologie und Magnetresonanztomographie Sirko Straube DISSERTATION zur Erlangung des akademischen Grades DOKTOR DER NATURWISSENSCHAFTEN (Dr. rer. nat.) vorgelegt dem Fachbereich 02 (Biologie/Chemie) der Universität Bremen Bremen 2009

Transcript of Detektion und Identifikation von Figur-Grund-Unterschieden...

DETEKTION UND IDENTIFIKATION

VON

FIGUR-GRUND-UNTERSCHIEDEN:

Psychophysik, Elektrophysiologie

undMagnetresonanztomographie

Sirko Straube

DISSERTATION

zur Erlangung des akademischen Grades

DOKTOR DER NATURWISSENSCHAFTEN

(Dr. rer. nat.)

vorgelegt dem

Fachbereich 02 (Biologie/Chemie)

der Universität Bremen

Bremen 2009

1. Gutachter: Prof. Dr. Manfred Fahle

2. Gutachter: Prof. Dr. Michael Bach

Dissertationskolloquium: 25.05.2009

„Ein Tier muß nicht nur Dinge identifizieren und klassifi-

zieren, sondern außerdem entscheiden, was es zu tun ge-

denkt angesichts der Tatsache, dass es –von einigen festste-

henden Programmen (...) abgesehen, die es der Evolution

verdankt– keine detaillierten Beschreibungsprogramme

vorfindet.”

(Gerald M. Edelman „Unser Gehirn - ein dynamisches Sys-

tem”)

Publikationsliste

Die vorliegende Arbeit beruht auf denmit einem (*) gekennzeichneten

Arbeiten. Die betreffenden Artikel sind zur Veröffentlichung in interna-

tionalen neurowissenschaftlichen Zeitschriften eingereicht.

Artikel

• (*) Straube, S.& Fahle,M. (2009). The electrophysiological correlate

of saliency: evidence from a figure-detection task. Brain Research

(eingereicht)

• (*) Straube, S., Grimsen, C. & Fahle, M. (2009). Electrophysiological

correlates of figure-ground segregation directly reflect perceptual

saliency. Psychophysiology (eingereicht)

• (*) Straube, S. & Fahle, M. (2009). Visual detection and identifi-

cation are not the same: evidence from psychophysics and fMRI.

NeuroImage (eingereicht)

• Morrison, A., Straube, S., Plesser, H. E. & Diesmann, M. (2007). Ex-

act subthreshold integrationwith continuous spike times in discrete

time neural network simulations.Neural Computation 19, 47-79

• Hoffmann, M.B., Straube S. & BachM. (2003). Pattern-onset stimu-

lation boosts central multifocal VEP responses. Journal of Vision

3(6), 432-439

I

Kurzbeiträge

• (*) Straube, S. & Fahle, M. (2008). ERP correlates of detection in

visual segregation. Perception 37, ECVP Abstract Supplement, 123

• Dorgau, B., Straube, S. & Fahle, M. (2008). Category conjunction in

ultra-rapid visual categorization: an EEG study. Perception 37, ECVP

Abstract Supplement, 30

• (*) Straube, S. & Fahle, M. (2007). What ERPs tell us about the per-

ception of a figure defined by multiple visual cues. 31st Göttingen

Neurobiology Conference, Poster T17-5A

• (*) Straube, S. & Fahle, M. (2007). Identification of a figure defi-

ned by multiple visual cues. An ERP study., Brain Topography 20,

Proceedings of the 15th German EEG/EPMapping Meeting, 51

• Morrison, A., Straube, S., Hake, J., Plesser, H. E. & Diesmann, M.

(2005) Precise Spike Timing with exact subthreshold integration in

discrete time network simulations. 30th Göttingen Neurobiology

Conference, Poster 205b

II

Externe Vorträge

• (*) Straube, S. (2009). Salienz als kritisches Merkmal bei Figur-

Detektion und Identifikation. Neurobiologisches Kolloquium der

Universität Oldenburg, 09.01.2009

• (*) Straube, S. (2008). The central role of perceptual saliency in ob-

ject recognition: evidence from event-related potentials. Bernstein-

Seminar der Universität Bremen, 28.02.2008

III

Inhaltsverzeichnis

1 Einleitung 5

1.1 Visuelle Merkmale . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2 Detektion und Identifikation . . . . . . . . . . . . . . . . . . 8

1.3 Salienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Visuelle Informationsverarbeitung 11

2.1 Das visuelle System . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2 Verarbeitungspfade und Kommunikationswege . . . . . . . 15

2.3 Zur Rolle von Aufmerksamkeit . . . . . . . . . . . . . . . . . 17

3 VerwendeteMethodik 19

3.1 Psychophysik . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.1.1 Verfahren zumMessen der psychometrischen Funk-

tion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1.1.1 Adaptives Verfahren: QUEST . . . . . . . . . 22

3.1.1.2 Die Methode der konstanten Stimuli . . . . 23

3.1.2 Die Signal-Entdeckungstheorie . . . . . . . . . . . . . 24

3.1.2.1 Das Entscheidungskriterium . . . . . . . . . 24

3.1.2.2 Das SDT-Experiment . . . . . . . . . . . . . 25

3.1.2.3 Der SDT-Parameter d’ . . . . . . . . . . . . . 27

3.1.3 2-Alternative Forced-Choice . . . . . . . . . . . . . . 29

3.2 EEG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2.1 Ereigniskorrelierte Potentiale . . . . . . . . . . . . . . 33

3.2.2 Zeit-Frequenz Analysen . . . . . . . . . . . . . . . . . 36

3.3 Funktionelle Magnetresonanztomographie (fMRT) . . . . . 39

1

INHALTSVERZEICHNIS

3.3.1 funktionelle Kartierung visueller Areale . . . . . . . . 41

3.3.2 Cortex Based Alignment . . . . . . . . . . . . . . . . . 45

4 Zusammenfassung & Fazit 47

4.1 Fragestellung undMotivation . . . . . . . . . . . . . . . . . . 47

4.2 Merkmalskombination im EEG bei Detektion und

Identifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.3 Vergleich von Detektion und Identifikation im fMRT . . . . 51

4.4 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5 The electrophysiological correlate of saliency: evidence from a

figure-detection task 55

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.2 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.5 Experimental Procedure . . . . . . . . . . . . . . . . . . . . . 75

6 Electrophysiological correlates of figure-ground segregation di-

rectly reflect perceptual saliency 83

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.2 Materials andMethods . . . . . . . . . . . . . . . . . . . . . . 86

6.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7 Visual detection and identification are not the same: evidence

from psychophysics and fMRI 115

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

7.2 Materials andMethods . . . . . . . . . . . . . . . . . . . . . . 119

7.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

7.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

7.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

Literaturverzeichnis 139

2

INHALTSVERZEICHNIS

Anhang 159

Abkürzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Danksagung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

Eigenständigkeitserklärung . . . . . . . . . . . . . . . . . . . . . . 165

Lebenslauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

3

Kapitel 1

Einleitung

„Warum untersucht man in der Hirnforschung Objekterkennung?” Diese

Frage wurde mir schon oft gestellt, wenn ich mich mit Menschen außer-

halb der Wissenschaft über das Themameiner Doktorarbeit unterhalten

habe. Eigentlich zeigt bereits die Tatsache, dass man diese Frage stellt,

dass wir uns kaum der Prozesse bewusst werden, die uns dazu befähigen

jegliche Objekte in unserer Außenwelt wahrzunehmen. Erst wennman

versucht, Schritt für Schritt den Vorgang der Objekterkennung nachzu-

vollziehen, wird einem klar, dass in der Evolution viel Aufwand betrieben

worden sein muss, damit unser Gehirn eine solche Fähigkeit so selbst-

verständlich einsetzen kann. Objekte, also Dinge in unserer Außenwelt

(z.B. Gegenstände, Menschen, Tiere und Pflanzen), zeigen eine enorme

Vielfalt des Aussehens und der Eigenschaften. Beispielsweise begegnen

wir ständig unterschiedlich geformten, gefärbten, sich bewegenden und

unbewegten Objekten. Trotz dieser Vielfalt fällt es uns leicht, Objekte zu

erkennen, sie in bestehende Konzepte einzuordnen bzw. neue Konzep-

te zu entwerfen: Auch wenn wir einen bestimmten Hut noch nie zuvor

gesehen haben, so wissen wir doch, dass es ein Hut ist und wozu dieser

dient. Dieses Beispiel liefert einen weiteren Grund, warum das Verständ-

nis der Objekterkennung auch viel über die Prinzipien der Verarbeitung

im Gehirn aussagen kann: Neben Erkenntnissen über die sensorische

Verarbeitung visueller Information, untersucht man bei der Objekterken-

nung auch die Art undWeise, wie das Gehirn Informationen einordnet,

5

KAPITEL 1. EINLEITUNG

so dass unser Organismus in der Lage ist, angemessen zu reagieren und

die Vorgänge in der Außenwelt zu verstehen. Da die Einordnung und

das Verständnis der Außenwelt im Gehirn nicht nur für visuelle Objekte

gilt, ist es wahrscheinlich, dass die zugrunde liegenden Prinzipien der

Objekterkennung auch für viele andere Aspekte der neuronalen Informa-

tionsverarbeitung gelten.

Je länger man sich mit der Objekterkennung beschäftigt, desto klarer

wird, dass sich dahinter ein komplexer Vorgang und eine unglaubliche

Leistung unseres Gehirns verbirgt. Wie kompliziert es ist, die Prozesse,

die uns zur Objekterkennung befähigen, zu verstehen, zeigt der bislang

misslungene Versuch eine Maschine zu bauen, die dieselbe Leistung wie

unser Gehirn vollbringt. Maschinen werden von Menschen entworfen

und für eine erfolgreiche Imitation des visuellen Systems haben wir noch

zu wenig verstanden, wie dieses eigentlich funktioniert. Die meisten

Computeralgorithmen und Rechenmodelle verfolgen außerdem ganz

andere Strategien bei der Lösung von Problemen als unser Gehirn (für

eine ausführliche Diskussion siehe Edelman & Griese, 1993, S. 73 ff.,

Perkins, 1983).

Die vorliegende Arbeit beschäftigt sich mit einem Teilaspekt der Ob-

jekterkennung, nämlich der Figur-Grund-Unterscheidung. Der Begriff

der Figur soll verdeutlichen, dass die hier behandelten Objekte durch

eine einfache, zweidimensionale Form charakterisiert sind. Visuelle Ob-

jekte sind dagegen in einer natürlichen Umgebung dreidimensional und

wir verknüpfen sie meist mit einer Kategorie (z.B. Auto, Tier, Tisch). Die

Figur-Grund-Unterscheidung ist ein fundamentaler Prozess bei der Ob-

jekterkennung, denn sie ist notwendig, um Objekte aus ihrem Hinter-

grund zu lösen: Bevor man in der Lage ist, einen Tisch zu erkennen,

muss bereits ein Eindruck seiner Form entstanden sein. Dieser Eindruck

basiert auf denMerkmalen, die den Tisch von seiner Umgebung unter-

scheiden (z.B. seine Farbe oder seine Tiefe im Raum). Eine Kernfrage

der vorliegenden Arbeit ist, wann und wo diese verschiedenen Merk-

male in der neuronalen Verarbeitung integriert werden und inwieweit

mehrere, gleichzeitig auftretende Merkmale unsere Wahrnehmung ver-

6

1.1. VISUELLE MERKMALE

bessern. Die zweite Kernfrage beleuchtet unsere Wahrnehmung unter

dem Aspekt der Verhaltensrelevanz: Unterliegen derWahrnehmung expe-

rimentell trennbare Prozesse, die es uns ermöglichen –abhängig von der

Verhaltensrelevanz– optimal auf unterschiedlichste Anforderungen zu

reagieren? Als Beispiel hierfür werdenmögliche Unterschiede zwischen

einer Figur-Detektion und einer Figur-Identifikation untersucht. Verhal-

tensrelevant für eine Detektion ist nicht dasWas eines Objekts, sondern

dasOb, wohingegen eine Identifikation eindeutig nach demWas fragt.

In den folgenden Abschnitten dieses Kapitels werden die grundlegen-

den Begriffe dieser Arbeit kurz erläutert. Diese Abschnitte sollen dem

Leser einen Zugang zu den Fragestellungen der in dieser Arbeit beschrie-

benen Studien geben. Weitere Grundlagen liefern die folgenden Kapitel

mit einem kurzen Überblick über die Verarbeitung im visuellen System

(Kapitel 2) und die verwendeten Methoden (Kapitel 3). Anschließend

folgt eine Zusammenfassung der durchgeführten Studien (Kapitel 4), die

in den Kapiteln 5-7 beschrieben werden.

1.1 Visuelle Merkmale

Jegliches Auffinden eines Zielreizes basiert auf einem oder mehreren

Merkmalen, welche den Zielreiz von seiner Umgebung unterscheiden.

Einfache Merkmale für das visuelle System können z.B. Farbe, Helligkeit

oder räumliche Orientierung sein. Gibt es ein eindeutigesMerkmal, so

„springt” einem der Zielreiz unmittelbar ins Auge (engl. pop-out). So wird

man beispielsweise keine Mühe haben, eine rote Jacke unter blauen

Jacken zu finden.

Definiert man ein Merkmal über diesen pop-out Effekt, so ist es

schwierig, den Begriff genau einzugrenzen, da man selbst mit komplexen

Objekt-Kategorien (wie z.B. der Kategorie Tier) ein pop-out Phänomen

erzeugen kann (Thorpe et al., 1996; Thorpe & Fabre-Thorpe, 2001). Au-

ßerdem können pop-out Effekte auch durch persönliche Erfahrung ver-

ändert werden, da beispielsweise Spinnenphobiker im Entdecken einer

Spinne deutlich schneller sind als Normalprobanden (Ohman et al., 2001;

Ohman &Mineka, 2001). Die grundlegenden Bausteine für eine Objek-

7

KAPITEL 1. EINLEITUNG

terkennung (zu denen die Merkmale gehören) scheinen daher auch von

Erfahrung abzuhängen, und es ist Gegenstand der aktuellen Forschung,

den Begriff des Merkmals in der visuellen Informationsverarbeitung zu

charakterisieren.

Um diesen Begriff in der vorliegenden Arbeit stärker einzugrenzen,

wird eine Definition benutzt, die sich auf die visuelle Verarbeitungshierar-

chie stützt (siehe Kapitel 2): Als visuelles Merkmal wird all das angesehen,

was bereits in den ersten visuellen Arealen (bis etwa V4) verarbeitet wird.

Beispiele hierfür sind Kanten und deren Orientierung, die räumliche

Frequenz von Kanten (Ortsfrequenz), sowie Farb-, Bewegungs- und Tie-

feninformation. Ein Objekt in unserer natürlichen Umgebung ist fast

immer über eine Vielzahl dieser Merkmale definiert, und unsere Objekt-

Wahrnehmung ist immer ganzheitlich: Wir trennen nicht bewusst, ob

wir z.B. ein Auto sehen, weil es rot ist (Merkmal: Farbe) oder weil es fährt

(Merkmal: Bewegung). Für unsere interne Repräsentation eines Objektes

scheint die genaue Merkmals-Zusammensetzung unerheblich, aber alle

Merkmale, aufgrund derer wir das Objekt sehen, gehören in demMoment

untrennbar zumObjekt. Dies zeigt, dass die Information dieserMerkmale

während der Verarbeitung zusammenkommt. Inwiefern eine Merkmals-

kombination die Wahrnehmung eines Objektes verbessert, ist in der

Literatur recht strittig und scheint von den verwendetenMerkmalskom-

binationen und der Aufgabenstellung abzuhängen. Eine systematische

Aufklärung der in der Literatur beschriebenen Effekte durchMerkmals-

kombination würde aber entscheidende Hinweise darüber liefern, wie

das visuelle System ein Objekt vom Hintergrund trennt, und wie es zu

einer Repräsentation des Objektes kommt. Genau hier setzen zwei der

vorgestellten Studien an (Kapitel 5 und 6).

1.2 Detektion und Identifikation

Die Außenwelt stellt zwei unvereinbare Forderungen an unser visuelles

System: Sei schnell und sei genau! Ist man zu langsam, so kann man

der nahenden Gefahr nicht schnell genug begegnen. Andererseits, falls

die Erkennung unserer Außenwelt nicht ausreichend genau ist, kann

8

1.3. SALIENZ

man echte Gefahren nicht von unechten unterscheiden. Das Beispiel

der vermeintlichen Schlange im Gras zeigt, dass unser visuelles System

versucht, beiden Anforderungen gerecht zu werden: Man reagiert auf

etwas bevor man erkennt, dass es doch nur ein Ast ist.

In der vorliegenden Arbeit wird der Versuch unternommen, diese

verschiedenen Wahrnehmungsebenen der Figur-Grund-Unterscheidung

durch zwei spezifische Aufgabenstellungen zu trennen. In der einen Auf-

gabe sollen die Versuchspersonen eine Figur detektieren, in der anderen

identifizieren.

Bei der Detektion fragt man die Versuchsperson nach dem Vorhan-

densein der Figur. Hierfür ist es nicht zwingend notwendig, tatsächlich

zu erkennen, was es für eine Figur war. Um experimentell eineWahl zu

erzwingen (siehe Kapitel 3), soll die Versuchsperson im Experiment an-

geben, ob die Figur links oder rechts zu sehen war. Die Detektion wird

hierbei also über die Angabe des Ortes erfragt. Bei der Identifikation hin-

gegen spielt der Ort keine Rolle, sondern es soll die Form erkannt werden.

Durch diese unterschiedlichen Fragestellungen soll geklärt werden, ob (i)

die Art der Aufgabe die Kombination der Figurmerkmale beeinflusst und

(ii) der Verarbeitungsprozess bei beiden Aufgaben derselbe ist.

1.3 Salienz

Die Salienz (aus dem engl. Hervorspringen) ist ein Maß dafür, wie deut-

lich wir etwas wahrnehmen und hängt von den sensorischen Eigenschaf-

ten unserer Sinne und verschiedenen internen Faktoren ab:

• Die rein sensorische Wahrnehmung ist nicht absolut (siehe Ab-

schnitt 3.1), sondern wir nehmen Reize in der Außenwelt immer

im Kontext wahr: Sitzt man in einem abgedunkelten Raum und

jemand macht das Licht an, so erlebt man dieses Licht zunächst

viel greller, als wennman sich daran adaptiert hat.

• Es hängt von der konkreten Situation und unserer Interpretation

ab, wie viel Bedeutung wir Ereignissen in unserer Umgebung bei-

9

KAPITEL 1. EINLEITUNG

messen: Das Klingeln eines Telefons wird umso wichtiger, je mehr

man auf einen Anruf wartet.

Der Begriff der Salienz bezieht sich in dieser Arbeit auf denwahrgenom-

menenUnterschied einer Figur zu ihremHintergrund. Demgegenüber

steht der tatsächliche, physikalisch definierte Unterschied (z.B. ein Ori-

entierungsunterschied zumHintergrund von 10°). Wie man die Salienz

messen kann, wird in Abschnitt 3.1 beschrieben.

Auch die experimentelle Aufgabenstellung beeinflusst die Salienz,

denn sie gehört zu den internen Faktoren. Den Versuchspersonen wurde

gesagt, worauf sie achten sollen, d.h. man beeinflusst im Experiment die

Situation und auch die Interpretation der jeweiligen Person. Mit einer

neuen Aufgabe wird auch die Salienz verändert: Eine Figur, die ich nicht

mehr richtig erkennen kann, ist für eine Identifikation wenig salient, aber

für eine Detektion deutlich salienter, da ich Letztere noch durchführen

könnte. Dieser Salienzbegriff ist grundlegend für das Verständnis dieser

Arbeit: Salienz ist die Stärke des im jeweiligen Kontext wahrgenommenen

Unterschieds zwischen Figur und Hintergrund.

10

Kapitel 2

Visuelle

Informationsverarbeitung

Das vorliegendeKapitel gibt einenÜberblick über die Signal-Verarbeitung

im visuellen System. Abschnitt 2.1 liefert in vereinfachter Darstellung die

Stationen der visuellen Informationsverarbeitung –von der Netzhaut bis

zu den in Kapitel 7 untersuchten kortikalen Arealen– und erläutert diese.

Die Darstellung beschränkt sich auf den primären Verarbeitungspfad,

es sei aber darauf verwiesen, dass noch weitere Pfade existieren. Die

Charakteristika der einzelnen Stationen des primären Pfades sind unter-

schiedlich gut bekannt: Man kennt beispielsweise sehr genau den Aufbau

des primären visuellen Kortex (V1), weiß aber vergleichsweise wenig über

die exakten Verbindungen im dritten visuellen Verarbeitungskomplex

(V3).

Die Areale des visuellen Kortex weisen eine Verarbeitungshierarchie

auf, die von zahlreichen reziproken Verbindungen gekennzeichnet ist

(Van Essen et al., 1992). Abschnitt 2.2 beleuchtet die Verarbeitung jenseits

von V1 unter globalen Aspekten und nennt dabei in der Literatur etablier-

te Konzepte von Verarbeitungspfaden und neuronalen Kommunikations-

wegen. Die Aufgaben der verschiedenen visuellen Areale und deren Kom-

munikation sind weiterhin Gegenstand der aktuellen Forschung. Man

kennt bislang nicht alle Wege und alle Aufgaben der einzelnen Areale,

weshalb die postulierte Verarbeitungshierarchie nur ein Modell darstellt.

11

KAPITEL 2. VISUELLE INFORMATIONSVERARBEITUNG

Der letzte Abschnitt dieses Kapitels (Abschnitt 2.3) liefert einen kurzen

Überblick über den Begriff der Aufmerksamkeit, da diese in erheblichem

Maße die visuelle Verarbeitung beeinflusst und auch auf die in der vorlie-

genden Arbeit untersuchte Salienz Einfluss nimmt.

2.1 Das visuelle System

Die Verarbeitung visueller Signale beginnt mit dem Auftreffen von Pho-

tonen auf lichtempfindliche Moleküle in der Netzhaut (Retina). Dies ist

der Auslöser, durch den eine Signalkaskade in Gang gesetzt wird, die

schließlich Bioelektrizität in der Retina erzeugt. Schon auf diesen ersten

Stufen wird das Signal vorverarbeitet (für eine detaillierte Darstellung

siehe Kandel et al., 2000, S. 507 ff.; Kolb, 2003). Auf der Retina liegen

verschiedene Rezeptortypen in unterschiedlicher Dichte vor. BeimMen-

schen z.B. ist der Ort der höchsten räumlichen Auflösung, die Fovea,

auch das Zentrum der Fixation. Das elektrische Signal wird über mehrere

Zellschichten, die Horizontal- und Vertikalverbindungen enthalten, an

die Ganglienzellen weitergeleitet. Signale in diesen Ganglienzellen ent-

halten bereits Informationen über Zentrum und Umgebung des Ortes

der sie über Zwischenstufen innervierenden Rezeptoren. Die Axone der

Ganglienzellen verlassen in einem dichten Bündel (dem Sehnerv) die

Netzhaut am sogenannten „Blinden Fleck”, dem Ort auf der Netzhaut,

auf dem daher keine Photorezeptoren existieren. Die Sehnerven beider

Augen kreuzen sich im „Chiasma Opticum” (der Sehnervkreuzung), so

dass Information aus dem linken Gesichtsfeld in die rechte Hemisphäre

des Gehirns wandert und umgekehrt. Ein Großteil der Ganglienzellaxone

(etwa 90%) enden im „Corpus Geniculatum Laterale” (CGL - seitlicher

Kniehöcker), einer Region imThalamus, in der die Ganglienzellen auf wei-

tere Neurone verschaltet werden (Kandel et al., 2000, S. 528 ff.). Das CGL

besteht aus sechs Schichten, von denen jede nur von den Ganglienzel-

len jeweils eines Auges innerviert werden. Die Schichten unterscheiden

sich zudem durch die funktionellen Eigenschaften (z.B. Farbsensitivi-

tät) der sie innervierenden Ganglienzellen. Neben seiner Funktion als

Umschaltstation, werden dem CGL noch weitere Filter- und Vorverar-

12

2.1. DAS VISUELLE SYSTEM

Abbildung 2.1:Der Weg der visuellen Information und Lage der visuellenAreale (verändert nach Logothetis, 2002). (A) Gesamtdarstellung. (B) Pri-märer visueller Pfad. (C) Lage der visuellen Areale in der Innenansicht derrechten Hemisphäre (Sagittalschnitt).

beitungsfunktionen zugesprochen, da es auch nicht-retinale Eingänge,

sowie Querverbindungen innerhalb der Schichten hat (Kastner et al.,

2006; Sherman, 2007; Suder & Worgotter, 2000). Vom CGL aus ziehen die

Axone der Neurone als „Radiatio Optica” (Sehstrahlung) zu V1 (siehe Abb.

2.1A und B).

Die Verarbeitung in V1 ist funktionell säulenartig organisiert (Kan-

del et al., 2000, S. 532 ff.). Eine Säule ist ein kleiner Bereich des Kortex

(inklusive der darunter senkrecht zur Oberfläche liegenden sechs Schich-

ten), dessen Neurone Information über einen definierten Bereich in der

Außenwelt (dem sogenannten rezeptiven Feld) kodieren. In V1 werden

13

KAPITEL 2. VISUELLE INFORMATIONSVERARBEITUNG

in diesen Säulen Information über Orientierung, Farbe, Bewegung und

binokuläre Interaktion (Stereopsis) kodiert. Die Anordnung der Säulen

zueinander entspricht den Rezeptorbeziehungen auf der Retina, d.h. be-

nachbarte Orte auf der Retina sind auch in V1 (und im CGL) benachbart.

Man nennt diese Ordnung retinotop (Tootell et al., 1982). Da die Rezep-

tordichte auf der Retina, wie oben erwähnt, unterschiedlich ist, sind

auch verschiedene Bereiche der Retina dementsprechend unterschied-

lich stark in V1 ausgeprägt. So ist die Fovea im Verhältnis zur Größe des

Bereichs, den sie in der Außenwelt kodiert, überrepräsentiert (vgl. Abb.

3.9). Die Repräsentationen des oberen und unteren Gesichtsfeldes sind in

V1 an einer anatomischen Einfaltung des Kortex, der „Fissura Calcarina”

getrennt: Anatomisch gesehen oberhalb (dorsal) der Fissura Calcarina

liegt die Repräsentation des unteren Gesichtsfeldes, wohingegen unter-

halb (ventral) die Repräsentation des oberen Gesichtsfeldes liegt. Die

sich jeweils zu beiden Seiten anschließenden dorsalen und ventralen

Teile der Areale V2 und V3 enthalten ebenfalls Repräsentationen nur des

unteren bzw. des oberen Gesichtsfeldes (siehe Abb. 2.1A und C). Erst

beide Teile dieser Areale bilden gemeinsam das gesamte Gesichtsfeld ab.

Im Folgenden wird diese zusätzliche Unterteilung vernachlässigt. Die

Areale V3A (eine funktionale Untereinheit von V3) und V4 enthalten dann

wieder vollständige Repräsentationen der jeweiligen Gesichtsfeldhälfte

(McKeefry & Zeki, 1997; Tootell et al., 1997), getrennt in linker und rechter

Hemisphäre.

Das Areal V2 wird als Schnittstelle zwischen V1 und dem restlichen

visuellen Kortex angesehen (Sincich & Horton, 2002), da ein Großteil

der aus V1 kommenden Neurone V2 innerviert. Somit integriert V2 In-

formation aus V1. Es ist funktionell und anatomisch gut geeignet, um

entscheidend an Figur-Grund Unterscheidungsprozessen beteiligt zu

sein (Shipp & Zeki, 2002a,b). Gestützt wird diese Ansicht durch den Be-

fund, dass Neurone in V2 zeitlich vor V1 auf Scheinkonturen reagieren

(Ffytche & Zeki, 1996; Lee & Nguyen, 2001).

Das sich an V2 anschließende Areal V3 (ventral auch als VP bezeich-

net) wird auf der dorsalen Seite mit der Verarbeitung von globaler Bewe-

14

2.2. VERARBEITUNGSPFADE UND KOMMUNIKATIONSWEGE

gung in Verbindung gebracht (Braddick et al., 2001; Moutoussis & Zeki,

2008; Tootell et al., 1998), sowie auf der ventralen Seite mit der Verar-

beitung von Form- und Tiefeninformation (Georgieva et al., 2009). Die

genaue funktionelle Bedeutung von V3 ist allerdings weitgehend unbe-

kannt, da es hohe interindividuelle Unterschiede in den Größen von V3

gibt und auch zahlreiche Primaten bekannt sind, bei denen man kein

homologes Areal gefunden hat (Kaas, 1996; Kaas & Lyon, 2001). Auf der

ventralen Seite schließt sich Areal V4 an (siehe Abb. 2.1A und C), wel-

ches eine große Rolle bei der Verarbeitung von Farben und komplexen

Formen spielt (McKeefry & Zeki, 1997; Pasupathy & Connor, 2002; Zeki,

1973, 1980). Das klassische Areal für die Auswertung von Bewegung ist

V5 (auch bezeichnet als MT – Zeki, 1974; Zeki et al., 1991). Bis zu diesem

Punkt ist die retinotope Ordnung weitgehend erhalten geblieben. Auch

die Trennung zwischen linkem und rechten Gesichtsfeld ist noch vor-

handen, allerdings gibt es bereits in V1 Querverbindungen in die andere

Hemisphäre, so dass sich die visuellen Areale beider Hemisphären auch

gegenseitig beeinflussen.

Die weitere Spezialisierung der in der Hierarchie noch höher liegen-

den Areale geht einher mit einer Abnahme der retinotopen Ordnung. So

reagieren Areale im „Lateral Occipital Complex” (LOC) auf das Vorhan-

densein von Objekten, relativ unabhängig davon, wo sie im Gesichtsfeld

auftauchen (Malach et al., 1995).

2.2 Verarbeitungspfade und Kommunikationswege

Die Verarbeitungswege im visuellen System wurden überschaubarer

durch das Postulat zweier von V1 wegführender Pfade, den dorsalen

und den ventralen Pfad (Mishkin et al., 1983). Funktionell wurden diesen

Pfaden unterschiedliche Bedeutungen zugeteilt: Im dorsalen Pfad (in

Abb. 2.1 von V1 in Richtung V3A) wird die räumliche Lage von Objek-

ten ausgewertet, wohingegen der ventrale Pfad (in Abb. 2.1 von V1 in

Richtung V4) die Objekte an sich verarbeitet. Die oben erwähnten objekt-

sensitiven Areale des LOC gehören beispielsweise zum ventralen Pfad.

Neuere Studien erweitern dieses Konzept, indem sie zeigen, dass Objekte

15

KAPITEL 2. VISUELLE INFORMATIONSVERARBEITUNG

im dorsalen Pfad in egozentrischen (d.h. auf die Position des Individu-

ums zentrierten) Koordinaten repräsentiert sind, wohingegen Objekte im

ventralen Pfad in allozentrischen (d.h. auf das Objekt selbst zentrierten)

Koordinaten repräsentiert sind (Carey et al., 2006; Schenk, 2006). Der

dorsale Pfad führt hin zum somatosensorischen undmotorischen Kortex,

was ein weiterer Hinweis darauf sein könnte, dass im dorsalen Pfad die

handlungsrelevante, eben auf das Individuum zentrierte, Information

verarbeitet wird. Um die Kommunikationswege entlang dieser Pfade bes-

ser verstehen zu können, werden im Folgenden kurz deren Prinzipien

auf der Ebene einzelner Zellen bzw. Areale behandelt.

In vielen kortikalen Arealen finden sich oftmals Zellen mit unter-

schiedlichen Antworteigenschaften innerhalb des gleichen Areals. Bei-

spielsweise reagieren in V1 verschiedene Zellen auf Orientierungs- und

Farbinformation. Diese Unterschiede auf gleicher hierarchischer Ebene

führten zu der Ansicht, dass das visuelle System Information parallel aus-

wertet, also z.B. Orientierungs-, Farb- undTiefeninformation unabhängig,

nebeneinander und gleichzeitig verarbeitet werden (Hubel & Livingstone,

1987; Lennie, 1980; Livingstone &Hubel, 1988; Merigan &Maunsell, 1993;

Zeki, 1978). Die Filterung von Signalen, sowie deren spezialisierte Auswer-

tung sind wesentliche Prinzipien der visuellen Verarbeitung. Allerdings

ist eine strikte Trennung verschiedener Subsysteme unwahrscheinlich,

da es innerhalb nahezu aller Stufen Interaktionen zwischen Neuronen,

sowie in der Hierarchie vorwärts- und rückwärtsgerichtete Verbindungen

zwischen visuellen Arealen gibt (Van Essen et al., 1992). So hat beispiels-

weise V1 auch direkte Hin- und Rückprojektionen zu V3 oder V4. Das

visuelle Signal steigt also nicht, ähnlich einer Treppe, in der Hierarchie

Stufe um Stufe hinauf, sondern es wird permanent zwischen und inner-

halb der Stufen interagiert. Trotzdem unterliegt diese Interaktion einer

strengen Ordnung, die aber bislang nur in Teilen verstanden ist.

Die Wege der neuronalen Kommunikation werden auf der Ebene der

(z.B. visuellen) Areale folgendermaßen klassifiziert: Neurone, die inner-

halb eines Areals kommunizieren, interagieren „lateral”. Wird ein Signal

in der Verarbeitungshierarchie aufsteigend weitergeleitet, so spricht man

16

2.3. ZUR ROLLE VON AUFMERKSAMKEIT

von einem „bottom-up” Signal (übersetzt: von unten nach oben). Dem-

gegenüber steht das „top-down” Signal (übersetzt: von oben nach unten),

in dem die Signalleitung von einem hierarchisch höher gelegenen Areal

zu einem niedrigeren Areal verläuft. In diesem Zusammenhang steht

das Konzept vom Zusammenspiel externer und interner Faktoren: Eine

sensorische, von externen Reizen getriebene neuronale Aktivität verur-

sacht das bottom-up Signal, wohingegen interne Zustände das top-down

Signal verursachen und bestimmen, wie bottom-up Signale verarbeitet

werden. Im Hinblick auf die Salienz eines Reizes gibt es also bottom-up

Signale, welche durch den Reiz selbst ausgelöst werden, sowie top-down

Signale, die z.B. von der Aufgabenstellung beeinflusst werden. Teilwei-

se werden die Begriffe „feedforward” (übersetzt: vorwärtsgerichtet) und

„feedback” (übersetzt: Rückkopplung) im Kontext der Kommunikation

zwischen Arealen als Synonyme für bottom-up und top-down verwendet

(Lamme et al., 1998; Lamme & Roelfsema, 2000).

Das Konzept der Aufmerksamkeit stellt einen der wichtigsten top-

down Einflüsse auf die visuelle Informationsverarbeitung dar und wird

daher im folgenden Abschnitt näher beleuchtet.

2.3 Zur Rolle von Aufmerksamkeit

Im alltäglichen Sprachgebrauch wird dasWort Aufmerksamkeit u.a. als

Synonym für Wachsamkeit, Teilnahme und Sorgfalt benutzt. Manmuss

sich also auf etwas konzentrieren, um aufmerksam zu sein und damit

anderes vernachlässigen. Auch unser Gehirn filtert und selektiert perma-

nent Information, um ein optimales Verhalten zu ermöglichen. Auf das

visuelle System bezogen bedeutet das: Wenn wir basierend auf visuel-

ler Information handeln wollen, können wir nicht immer die gesamte

Information verarbeiten undmüssen daher unsere Aufmerksamkeit auf

etwas Bestimmtes richten. Diese kontextabhängige Selektion der visu-

ellen Information bezeichnet man als den Prozess der Aufmerksamkeit

(Wolfe, 2000). Allerdings sei darauf verwiesen, dass es unterschiedliche

Definitionen von Aufmerksamkeit gibt, da dieser Begriff für viele, z.T.

17

KAPITEL 2. VISUELLE INFORMATIONSVERARBEITUNG

verschiedene Aspekte verwendet wird (für eine ausführliche Diskussion

des Begriffes siehe Pashler, 1999, S. 1 ff.).

Der oben genannte Selektionsprozess ist auf der neuronalen Verarbei-

tungsebene ein top-down Einfluss auf bottom-up Information (Maunsell

& Treue, 2006; Treue, 2003). Das visuelle System nimmt also nicht einfach

passiv die Information auf, sondern es filtert und selektiert (Heeger &

Ress, 2004). Bezüglich dieser Selektion können räumliche (Assad, 2003;

Reynolds & Chelazzi, 2004; Yantis & Serences, 2003), Objekt-basierte

(O’Craven et al., 1999; Scholl, 2001) undMerkmals-basierte Aufmerksam-

keitseffekte (Corbetta et al., 1990; Maunsell & Treue, 2006) unterschieden

werden. Die räumliche Aufmerksamkeit liegt, ähnlich einem Scheinwer-

fer, auf einem bestimmten Ort des Gesichtsfeldes. Jede visuelle Infor-

mation, die innerhalb dieses Scheinwerfers liegt, wird stärker gewichtet

als Information außerhalb. Bei der Objekt-basierten Aufmerksamkeit

wird das Objekt selbst stärker gewichtet als andere Objekte, wohingegen

bei der Merkmals-basierten Aufmerksamkeit nur die Verarbeitung des

Merkmals gewichtet wird.

Durch die oben genannten Definitionen von Aufmerksamkeit wird

unmittelbar klar, dass Aufmerksamkeit auch die Salienz eines Objekts be-

einflusst. Steht das Objekt im Fokus eines Aufmerksamkeitsprozesses (z.B.

durch seinen Ort, seine Merkmale oder weil das Objekt selbst relevant

ist), so wird es deutlich salienter sein, als wenn es nicht in diesem Fokus

liegt. Um diese Effekte zu berücksichtigen, wurde in den Studien dieser

Arbeit versucht, die Bedingungen für den Einfluss von Aufmerksamkeit

jeweils konstant zu halten.

18

Kapitel 3

VerwendeteMethodik

Im folgenden Kapitel werden die Grundlagen der in dieser Arbeit ver-

wendetenMethoden kurz erläutert. Die drei Abschnitte –Psychophysik,

Elektrophysiologie und funktionelle Magnetresonanztomographie– be-

schreiben die Methodik nur insoweit, wie es für das Verständnis der drei

Studien (Kapitel 5, 6 und 7) notwendig ist.

3.1 Psychophysik

Die Messung vonWahrnehmungsleistungen auf der Basis des Verhaltens

stellt die zugleich intuitivste und indirekteste Methode dar. Die große

Schwierigkeit liegt hierbei in der Frage, wie man die subjektive Empfin-

dung jedes Einzelnen charakterisieren kann, um schließlich generelle

Aussagen über die Wahrnehmung treffen zu können. Eine Antwort hier-

für liefert die Psychophysik, die versucht, den scheinbarenWiderspruch

zu lösen, subjektive Empfindung objektiv messbar zu machen. Gewis-

sermaßen Vater der Psychophysik ist Gustav Fechner (1801-1887), der

diese 1860 in seinemWerk „Elemente der Psychophysik“ begründete. Er

definiert die Psychophysik als die Lehre von der Beziehung „zwischen

körperlicher und geistiger, physischer und psychischer, Welt“ (Fechner,

1860, S. 8).

Ausgangspunkt der Psychophysik ist die Tatsache, dass unsere Wahr-

nehmung nicht exakt physikalische Verhältnisse widerspiegelt. Bereits

19

KAPITEL 3. VERWENDETE METHODIK

vor Fechner stellte Ernst Heinrich Weber (1795-1878) fest, dass unsere

Wahrnehmung vom Kontext abhängig ist. Nimmtman ein Gewicht von

1 g in die eine und eines von 2 g in die andere Hand, so wirdman leicht sa-

gen können, welches Gewicht schwerer wiegt. Macht man denselben Ver-

such aber mit 101 g und 102 g, so wird man es nicht mehr sagen können,

denn beides wird sich gleich schwer anfühlen. Die Physik misst in bei-

den Fällen einen Unterschied von 1g, unsere Wahrnehmung allerdings

nimmt eher prozentuale Unterschiede wahr. Weber untersuchte daher

gerade wahrnehmbare Unterschiede (engl. just noticeable differences)

unserer Sinne. Offensichtlich muss eine äußere physikalische Größe ei-

neWahrnehmungsschwelle überschreiten, um von uns überhaupt erst

bemerkt zu werden. Das Messen dieser Wahrnehmungsschwellen ist bis

heute einer der Schwerpunkte der Psychophysik. Fechner unterteilte

die Wahrnehmungsschwellen in Reiz- und Unterschiedsschwellen. Die

Reizschwelle ist der absolute Mindestwert, ab dem überhaupt innerhalb

der betrachteten Sinnesmodalität wahrgenommen werden kann. Zur

Beschreibung der Reizschwelle schreibt Fechner für das Hören: „So hö-

ren wir eine zu ferne Glocke nicht mehr. Sollten aber 100 Glocken, deren

keine wir einzeln hören, in derselben Ferne zusammen lauten, so würden

wir sie hören. Also muss doch auch jede einzelne Glocke in dieser Ferne

ihren Beitrag zum Hören geben (...)“ (Fechner, 1860, S. 242). Die Unter-

schiedsschwelle hingegen betrachtet den Punkt, ab demman in der Lage

ist, zwei Reize voneinander zu trennen. Das oben erwähnte Beispiel zur

Unterscheidung von Gewichten beschreibt auch das Wesen der Unter-

schiedsschwelle. Diese ist im ersten Fall (1 g gegenüber 2 g) überschritten

und im zweiten Fall (101 g gegenüber 102 g) unterschritten.

Das Konzept einer Wahrnehmungsschwelle suggeriert, dass es einen

festen Punkt in der Reizintensität gibt, ab dem der Reiz von nicht wahr-

nehmbar aufwahrnehmbar springt (illustriert in Abb. 3.1B). Tatsächlich

aber hat die gemessene Beziehung zwischen Reizintensität und Wahr-

nehmung den Charakter einer sigmoiden Funktion, d.h. es gibt keinen

diskreten Übergang, sondern einen Bereich, in dem die Wahrnehmung

(gemessen als Detektionsleistung) langsam ansteigt. Diese gemessene

20

3.1. PSYCHOPHYSIK

Abbildung 3.1: Psychometrische Funktionen. (A) Rot markiert ist dieSchwelle (hier Detektionsleistung von 50%) einer psychometrischenFunktion (durchgezogene Linie). Die gestrichelten Linien illustrieren dieVeränderung der Funktion bei Verschiebung der Steigung (�) oder der La-ge desWendepunktes (μ). Eine Änderung der Steigung alleine ändert nichtden Schwellenwert, wohingegen eine Verschiebung desWendepunktesauch die Schwelle verschiebt. (B) Ideale Schwellenfunktion, d.h. es erfolgtentweder keine oder zu 100% erfolgreiche Detektionen.

Beziehung zwischen Reizintensität und Wahrnehmung nennt man psy-

chometrische Funktion (dargestellt in Abb. 3.1A). Man misst die psycho-

metrische Funktion über mehrere „Versuchsdurchgänge” (engl. trials).

Hierbei wird einer Versuchsperson der Reiz bei verschiedenen Intensi-

täten gezeigt, und sie muss wiederholt die gestellte Aufgabe lösen (z.B.

angeben, ob der Reiz da war). Für jede Reizintensität berechnet man nun

den Anteil richtiger Antworten und trägt die beiden Werte, wie in Abb.

3.1, gegeneinander auf. Die psychometrische Funktion ist dann gekenn-

zeichnet durch einen prozentualen Anstieg der richtigen Antworten und

die Schwelle ist definiert als der Intensitätswert, bei dem die Versuchsper-

son den Zielreiz in 50% der Fälle entdecken kann (siehe Abb. 3.1). Auch

andere Schwellendefinitionen sind möglich, werden aber nicht weiter

ausgeführt, da sie hier nicht verwendet werden. Im Folgenden werden

die in dieser Arbeit angewandten Verfahren vorgestellt, mit denenman

21

KAPITEL 3. VERWENDETE METHODIK

die psychometrische Funktion messen kann. Diese Methoden gründen

sich auf die von Fechner vorgeschlagenenMethoden zur Messung von

Wahrnehmungsschwellen.

3.1.1 Verfahren zumMessen der psychometrischen Funktion

Die psychometrische Funktion ermittelt man, indemman die Funktion

durch die gemessenen Daten legt (engl. fit). Da man die Parameter der

tatsächlichen (d.h. dem Prozess unterliegenden) Funktion nicht kennt,

benutzt man eine Modellfunktion (wie z.B. die in Abb. 3.1 dargestellte

Funktion). Dieses Problem haben auch alle Verfahren, mit denen man

psychometrische Funktionen misst (für eine ausführliche Diskussion

siehe Macmillan & Creelman, 2005, S. 273 ff.). Es wird immer eine vorher

definierte Modellfunktion benutzt, deren Parameter für die Repräsentati-

on der Daten angepasst werden.

3.1.1.1 Adaptives Verfahren: QUEST

Die „Quick Estimation by Sequential Testing“ (QUEST – übersetzt: schnel-

le Schätzung durch sequentielles Testen) gehört zu den adaptiven Stairca-

se Verfahren (engl. Treppenstufe). Diese haben sich aus der von Fechner

vorgeschlagenen „Methode der richtigen und falschen Fälle” entwickelt

(Fechner, 1860, S. 71 ff.). Das Prinzip der adaptiven Staircase (für eine

Übersicht siehe Treutwein, 1995) beginnt mit einem Startwert für die

Reizintensität. Die Versuchsperson versucht nun, die gestellte Aufgabe

zu lösen (z.B. „War der Reiz links oder rechts?”). In Abhängigkeit von

der Antwort ändert der Staircase-Algorithmus nun die Reizintensität. Bei

falscher Antwort wird die Intensität erhöht, bei richtiger Antwort wird

sie verringert. Auf diese Art nähert man sich schrittweise der gesuchten

Schwelle auf der psychometrischen Funktion.

Bei der QUEST-Strategie (Watson & Pelli, 1983) wird von vornherein ei-

ne bestimmte psychometrische Funktion benutzt und auf deren Schwel-

lenwert getestet. Die hierbei angenommene psychometrische Funktion

(z.B. die Sigmoidfunktion) ist eindeutig durch Wendepunkt und Steigung

beschrieben. In Abhängigkeit von der Antwort werden nun der geschätz-

22

3.1. PSYCHOPHYSIK

te Wendepunkt und die Steigung neu ermittelt und es wird wiederum

auf dem resultierenden Schwellenwert getestet. Man erhält nach dem

letzten Versuchsdurchlauf den Wendepunkt und die Steigung der zu ver-

wendenden Funktion nach dem zuletzt getesteten Wert. In Ergänzung

der ursprünglichen QUEST-Strategie, stammen die Schwellen- und Stei-

gungswerte in der vorliegenden Arbeit aus einer post-hoc Analyse des

gesamten Versuchs. Diese Erweiterung wurde auch schon von Watson

& Pelli (1983) vorgeschlagen, da sie den Vorteil hat, dass der gesamte

Versuchsverlauf miteinbezogen wird.

Die Verwendung der QUEST-Strategie ist sehr effizient in der Ermitt-

lung der gesuchten Schwelle, daher werden nur relativ wenige Versuchs-

durchgänge benötigt (etwa 50-100). Mit QUEST wird sehr schnell auf

der tatsächlichen Schwelle getestet, daher ist dieses Verfahren nicht so

genau bezüglich der Bestimmung der Steigung der psychometrischen

Funktion. Um diese Genauigkeit zu erhöhen, wurde in der vorliegenden

Arbeit zusätzlich die „Methode der konstanten Stimuli” angewandt.

3.1.1.2 DieMethode der konstanten Stimuli

Das heute als „Methode der konstanten Stimuli” (engl. Method of Con-

stant Stimuli) bekannte Verfahren, wurde von Fechner als die „Methode

der mittleren Fehler” (Fechner, 1860, S. 71 ff.) eingeführt. Im Gegensatz

zu adaptiven Verfahren wird bei dieser Methode auf feststehenden In-

tensitätswerten getestet. Diese werden nicht von einem Rechenalgorith-

mus ermittelt, sondern vom Experimentator vorgegeben und wieder-

holt in zufälliger Reihenfolge präsentiert. Die Reizintensitäten sollten so

gewählt sein, dass sie sowohl überschwellige als auch unterschwellige

Werte enthalten und auf dem Anstieg der psychometrischen Funktion,

d.h. zwischen den beiden Extrema 0% und 100% Detektionsleistung

(Abb. 3.1), liegen. Man wählt also z.B. fünf Werte (zwei über der Schwelle,

die Schwelle selbst und zwei unter der Schwelle), präsentiert sie jeweils

50 mal in zufälliger Reihenfolge, und wertet am Schluss aus, wie oft die

Versuchsperson auf jedemWert richtig geantwortet hat (man erhält ei-

ne Prozentzahl richtiger Antworten). Durch die erhaltenen fünf Werte

23

KAPITEL 3. VERWENDETE METHODIK

legt man die psychometrische Funktion (vgl. Abb. 3.1) und erhält somit

Wendepunkt und Steigung.

Die Anwendung dieser Methode ist nur sinnvoll, wenn man vorher

ungefähr abschätzen kann, wo die Schwelle liegt. Die Versuchsreihen dau-

ern deutlich länger (Watson & Fitzhugh, 1990), als beispielsweise bei der

QUEST-Strategie (im obigen Beispiel bräuchte man 250 Versuchsdurch-

gänge), aber, falls man die Intensitätswerte geschickt wählt, erhält man

eine genauere Bestimmung des Anstiegs der psychometrischen Funktion.

Ummöglichst genaue psychometrische Funktionen zu erhalten, wur-

de in beiden EEG-Studien (Kapitel 5 und 6) erst die Schwelle mit der

QUEST-Strategie bestimmt und dann auf der von QUEST vorhergesagten

psychometrischen Funktion die Steigung mit der „Methode der konstan-

ten Stimuli” nachgemessen.

3.1.2 Die Signal-Entdeckungstheorie

Die Signal-Entdeckungstheorie (engl. Signal Detection Theory, abgekürzt

SDT) beinhaltet einen neueren psychophysikalischen Ansatz, um Detek-

tionsleistung zu messen. Im Jahre 1966 veröffentlichten David M. Green

und John A. Swets das Buch „Signal Detection Theory and Psychophy-

sics”, in dem sie das einheitliche Schwellenkonzept durch zwei Prozesse

ersetzten: einen unveränderlichen sensorischen Prozess und einen strate-

gischen Entscheidungsprozess. Sie charakterisierten die Versuchsperson

als einen „Betrachter” (engl. observer) mit dem Ziel, sich optimal in einer

Umgebung unvorhersagbarer Variabilität zu verhalten. Auf Basis dieser

Theorie beschrieben sie experimentelle und analytischeMethoden, um

Entscheidungs- von sensorischen Faktoren zu trennen.

3.1.2.1 Das Entscheidungskriterium

Irgendwann währendmeines Studiums beschloss ich mit meiner Freun-

din, eine Nachtwanderung zu machen. Wir zogen also los, völlig naiv

ohne Taschenlampe nachts in den Wald. Anfangs ging es uns gut, wir

haben uns unterhalten und fühlten uns auch nicht unwohl, obwohl man

fast nichts sah. Mit der Zeit aber begannen wir uns gegenseitig aufzuzie-

24

3.1. PSYCHOPHYSIK

hen, links oder rechts vomWeg wäre ein Wildschwein oder ein anderes

Tier. Anfangs war das nur ein Scherz, um den Anderen zu verunsichern,

aber es führte dazu, dass wir beide extrem verunsichert waren und tat-

sächlich überall Tiere sahen. Ich bin mir bis heute sicher, dass nichts von

dem, was wir da sahen, ein Tier war.

Dieses Beispiel zeigt, dass wir nicht einfach nur automatisch auf sen-

sorische Information reagieren, sondern sie immer im Kontext wahrneh-

men. Vergleichbare visuelle Erfahrung wurde zu Beginn der Nachtwan-

derung als unkritisch betrachtet und später als Bedrohung interpretiert.

Dies stellt eine Verschiebung des Entscheidungskriteriums (engl. respon-

se bias) dar. Das Entscheidungskriterium hängt von der Situation, aber

auch von der Persönlichkeit (vorsichtig gegenüber mutig) der Versuchs-

person ab. In einem klassischen psychophysikalischen Experimentwürde

man für obiges Beispiel eine Verschiebung der Wahrnehmungschwelle

messen, ungeachtet ob sich nun die visuelle Erfahrung oder die Motiva-

tion verändert hat. Die SDT hingegen nimmt an, dass die Sensorik die

gleiche ist, und unterschiedliches Verhalten aus dem veränderten Ent-

scheidungskriterium resultiert. Gleichzeitig liefert die SDT eine Methode,

um sensorische Wahrnehmung und Entscheidungskriterium zu trennen.

Die sensorischeWahrnehmung wird hierbei durch den Parameter d ge-

kennzeichnet, das Entscheidungskriterium durch den Parameter β. Um

d und β zu berechnen, schlägt die SDT ein spezifisches experimentelles

Vorgehen vor, welches im folgenden Abschnitt erläutert wird. Die Be-

rechnung von d wird dann in Abschnitt 3.1.2.3 erklärt. Es wird gezeigt,

dass das Entscheidungskriterium im SDT-Experiment eine große Rolle

spielt, auf genaue Beschreibung seiner Berechnung wird hier allerdings

verzichtet, da es in der vorliegenden Arbeit nicht verwendet wird.

3.1.2.2 Das SDT-Experiment

Auch vor der SDTwar das Problem des Entscheidungskriteriums bekannt

(für Übersichtsartikel siehe Ehrenstein & Ehrenstein, 1999; Palmer, 2002,

S. 665 ff.). Um das Entscheidungskriterium in die Auswertung mitein-

zubeziehen, benutzte man sogenannte „Catch-Trials”, d.h. zufällig im

25

KAPITEL 3. VERWENDETE METHODIK

Zielreiz „Ja” „Nein”

korrekteErkennungen

Auslassungen

vorhanden 80 % 20 % 100 %

falsch Positive korrekteAblehnungen

nicht vorhanden 40 % 60 % 100 %

60 % 40 %

Tabelle 3.1: Antwortklassifizierung nach einem SDT-Experiment. Die Prä-sentationen von Zielreiz vorhanden und nicht vorhanden werden nachrichtiger und falscher Zuordnung sortiert. Unter der Tabelle findet sicheine prozentuale Zusammenfassung der Ja-Nein Antworten. Eine sol-che Versuchsperson hätte ein Entscheidungskriterium in Richtung derJa-Antwort.

Versuch auftretende Versuchsdurchgänge, in denen es keinen Reiz gab.

Aus den erhaltenen „Ja”-Antworten (für „Ja, ich habe den Reiz gesehen.”)

konnte man den Einfluss des Entscheidungskriteriums abschätzen. Die

SDT erweitert diese Idee, indem Catch-Trials systematisch mit in das

Experiment integriert werden.

Der grundlegende Aufbau eines SDT-Experiments ist in Tabelle 3.1

dargestellt. In jedem Versuchsdurchlauf ist der zu ermittlende Zielreiz

vorhanden oder nicht (beides kommt gleich häufig vor) und die Versuchs-

person antwortet mit „Ja” oder „Nein”. Nach dem Versuch werden alle

Antworten in vier Klassen aufgeteilt:

1. korrekte Erkennung (engl. hits): das Vorkommen des Zielreizes wur-

de mit „Ja” beantwortet

2. falsch Positive (engl. false alarms): es wurde „Ja” geantwortet, aber

der Zielreiz war nicht vorhanden

3. Auslassungen (engl. misses): der Zielreiz war vorhanden, es wurde

aber mit „Nein” geantwortet

26

3.1. PSYCHOPHYSIK

4. korrekte Ablehnungen (engl. correct rejections): der Zielreiz war

nicht vorhanden, es wurde entsprechendmit „Nein” geantwortet

Wie der folgende Abschnitt zeigt, kann man nach einer solchen Zuord-

nung der Antworten ausrechnen, wie hoch die vom Entscheidungskrite-

rium unabhängige, sensorische Wahrnehmung d ist.

3.1.2.3 Der SDT-Parameter d’

Der SDT-Parameter d ist ein Maß für die sensorisch wahrgenommene

Stärke des Zielreizes. Die SDT nimmt an, dass sensorische Systeme ver-

rauscht sind, d.h. die Entdeckung eines Eingangssignals (des Zielreizes)

wird ebenfalls mit Rauschen belegt sein. Das ist auch der Grund, weshalb

dieWiederholung eines Versuchsdurchgangs allein auf Basis sensorischer

Information zu unterschiedlichen Ergebnissen führen kann. Die Ausga-

be des Systems ist nicht von einer festen Schwelle abhängig, sondern

charakterisierbar durch Wahrscheinlichkeitsdichtefunktionen. Um so

höher die Zielreizintensität ist, um so wahrscheinlicher ist auch seine

korrekte Entdeckung. Es gibt also zwei Verteilungen der Wahrschein-

lichkeitsdichte (siehe Abb. 3.2): eine Verteilung ohne eingegangenes Si-

gnal (die Rauschverteilung) und eine Verteilung mit einem Signal (die

Signal +Rausch -Verteilung). Zur Vereinfachung nimmt man an, dass die-

se Verteilungen durchNormalverteilungen beschriebenwerden, und dass

die Varianz beider Verteilungen gleich ist. Dieser vereinfachte Fall wird als

d’ (ausgesprochen d-Strich) bezeichnet. Die in Tabelle 3.1 dargestellten

Antworthäufigkeiten resultieren aus dem Abstand der beiden Verteilun-

gen und aus der Lage des Entscheidungskriteriums (siehe Abb. 3.2). In

psychophysikalischen Experimenten überlappen beide Verteilungen oft,

da die Experimente oft schwierig und damit die Zielreizintensitäten sehr

gering sind. Diese Überlappung ist die Quelle für Fehler, sowohl falsch po-

sitive Antworten als auch Auslassungen. Die sensorischwahrgenommene

Stärke definiert sich allein aus dem Abstand der Verteilungen, unabhän-

gig davon, wo das Entscheidungskriterium liegt. Dieser Abstand ist in

Abb. 3.2 auf der x-Achse dargestellt. Man erhält ihn bei einer Standard-

Normalverteilung (in die jede Normalverteilung überführbar ist) aus der

27

KAPITEL 3. VERWENDETE METHODIK

��

��������� ����������������������������������������

������������������������

����������������������������

!�" #��"

���������$%���������

$�����������

��������������������

&�����'���(�

)��

���

���

��

���

��

��

Abbildung 3.2: Wahrscheinlichkeitsdichten für Rausch-und Signal+Rausch-Verteilung. Gezeigt sind zwei Standard-Normalverteilungen. Der Parameter d’ ist definiert als der Abstandder beiden Verteilungen. Die gemessenen Antworthäufigkeiten ausTabelle 3.1 entstammen aus dem Abstand der beiden Verteilungenund der Lage des Entscheidungskriteriums. Hierbei gibt beispiels-weise die gemessene Rate korrekter Erkennungen die Fläche unterder Signal+Rausch-Verteilung bis zum Entscheidungskriterium an.Das Entscheidungskriterium liegt in dieser Abbildung etwa bei einersensorisch wahrgenommenen Intensität von 0.5, d.h. Reize links davon (<0.5) werdenmit „Nein” beantwortet, Reize rechts davon (> 0.5) mit „Ja”.

z-Transformation der gemessenen Häufigkeiten (Tabelle 3.1). Läge das

Entscheidungskriterium in Abb. 3.2 bei 0, ergäbe sich der Wert für d’ aus

der z-Transformation der korrekten Erkennungen. Liegt es nicht bei 0

(was der Normalfall ist), so muss der Abstand des Entscheidungskriteri-

ums miteinfließen. Allgemein erhält man d’ aus

d ′ = z(kor rekte Erkennungen)− z( f al schPosi t i ve) (3.1)

28

3.1. PSYCHOPHYSIK

(Green & Swets, 1988, S. 58 ff.; Macmillan & Creelman, 2005, S. 3 ff.).

Die z-Transformation überführt die entsprechende Rate in den soge-

nannten z-score, d.h. in Einheiten auf einer Standard-Normalverteilung

(Mittelwert = 0, Varianz = 1). Im Beispiel aus Tabelle 3.1 erhält man für

z(korrekte Erkennungen) = 0.84 und für z(falsch Positive) = -0.25, d.h. die

sensorische wahrgenommene Reizstärke beträgt anhand von Gleichung

3.1: d’ = 1.09.

3.1.3 2-Alternative Forced-Choice

Da in den Studien dieser Arbeit sensorische Prozesse untersucht werden,

ist das Entscheidungskriterium in allen Studien eine mögliche Störva-

riable. Eine Messmethode, um das Entscheidungskriterium direkt zu

umgehen, liefern die „Forced-Choice” Verfahren (übersetzt: erzwungene

Wahl). Auch sie haben ihre Grundlagen in der Mitte des 19. Jahrhunderts

(Bergmann, 1858, S. 88 ff.; Fechner, 1860, S. 242 ff.; für eine Übersicht sie-

he Ehrenstein & Ehrenstein, 1999). Anstatt der Versuchsperson die Wahl

zu lassen, ob sie etwas gesehen hat oder nicht, lässt man sie wählenwas

sie gesehen hat, d.h. man erzwingt eine Ja-Antwort in jedem Versuchs-

durchgang. Die Wahl kann entweder räumlicher (z.B. links oder rechts),

zeitlicher (z.B. erste oder zweite Darbietung) oder kategorialer Natur (z.B.

Hund oder Katze) sein. Das zugrundeliegende Entscheidungskriterium

gilt per Definition immer, d.h. durch den in der 2-AFC erzwungenen

Vergleich „War es dieses oder jenes?” fällt es heraus.

Bei der „2-Alternative Forced-Choice” (Abk.: 2-AFC; übersetzt: er-

zwungene Wahl mit zwei Alternativen) muss man sich zwischen zwei

Alternativen entscheiden.Wenn sich die Versuchsperson also nicht sicher

ist, muss sie raten, was bedeutet, dass eine Versuchsperson, die immer

rät, durchschnittlich 50% richtige Antworten erreicht. Dementsprechend

verläuft die psychometrische Funktion einer 2-AFC nicht zwischen 0%

und 100% (wie in Abb. 3.1), sondern zwischen 50% und 100% korrekter

Antworten. Ihr Wendepunkt liegt demnach bei 75% korrekter Antwor-

ten. Gemessene %-korrekt Antworten und d’ sind verbunden über die

29

KAPITEL 3. VERWENDETE METHODIK

Beziehung

d ′ =�2∗ z(pc) (3.2)

(Macmillan &Creelman, 2005, S. 165 ff.). Der Parameter pc steht für die ge-

messene Rate richtiger Antworten, die mit Hilfe der z-Transformation in

eine Standard-Normalverteilung überführt wird. Anhand von Gleichung

3.2 ergibt eine 2-AFCMessung auf der Schwelle ein d’ von 1.0.

Zwar fällt bei Forced-Choice Verfahren das Entscheidungskriterium

heraus, die Instruktion und Kontrolle des Versuchs ist aber dennoch

unverzichtbar. Grundvoraussetzung für ein Forced-Choice Verfahren ist,

dass die Versuchsperson tatsächlich rät, falls sie sich nicht sicher ist.

Dies sollte nach einem Versuch überprüft werden, denn of entwickeln

Versuchspersonen eine Tendenz für die Antwort, wenn sie nichts sehen

(z.B. „Wenn ich nichts sehe, sage ich immer links!”). Eine solche Strategie

führt aber zu falschenHäufigkeiten für korrekte Antworten und verfälscht

deutlich den Verlauf der psychometrischen Funktion.

3.2 EEG

1875 berichtete der englische Arzt Richard Caton (1842-1926) von elek-

trischer Spontanaktivität des Gehirns bei Hunden und Affen, die sich

in Wach- und Schlafzuständen unterscheidet und nach dem Tod nicht

mehr nachzuweisen ist. Caton erhielt seine Daten mit Elektroden, die er

auf dem intakten Gehirn oder der Schädeldecke anbrachte. Es handel-

te sich also um ein erstes Electroencephalogramm (EEG) bei Tieren. Es

sollte aber noch 50 Jahre dauern, bis das EEG beimMenschen beschrie-

ben wurde. Hans Berger (1873-1941) veröffentlichte 1929 seine Arbeit

„Über das Elektroenkephalogramm des Menschen“ und legte damit den

Grundstein für das heutige EEG. Wie zuvor Caton erkannte auch Ber-

ger, dass die gemessene elektrische Aktivität Zustände des Probanden

widerspiegelte. Im konzentrierten Zustand gab es kleine schnelle Wellen

(genannt β-Wellen), bei Entspannung gab es größere langsamere Wellen

(genannt α-Wellen). Heute wird das EEG als praktikable, nicht invasive

Methode in Medizin und Forschung vielfach (wenn auch z.T. sehr unter-

30

3.2. EEG

Abbildung 3.3: Elektrodenpositionen. Schematische Darstellung desKopfes von oben; die Nase ist durch ein Dreieck gekennzeichnet. DieNomenklatur der Positionen beginnt mit einem Buchstaben für die Lage(z.B. F=Frontal; C=Central; P=Parietal; T=Temporal; O=Okzipital). Danachfolgt eine Zahl (Ausnahme die z-Linie für zentrale Elektroden), die ungera-de für linke und gerade für rechte Positionen ist. (Quelle: www.easycap.de)

schiedlich) amMenschen verwendet. Die Positionierung der Elektroden

ist dabei weitgehend standardisiert worden, so dass sich medizinische

Befunde und Forschungsergebnisse meist gut vergleichen lassen. Hierbei

werden die Elektroden nach einem System der relativen Abhängigkeiten

angebracht, dem sogenannten 10-20 System (American Electroencepha-

lographic Society, 1994). Die zugehörigen Elektrodenpositionen (sowie

weitere, aus diesem System abgeleitete) sind in Abb. 3.3 dargestellt.

Mit Hilfe des EEGs ist man in der Lage, den zeitlichen Verlauf der

neuronalen Reaktion sehr genau abzubilden, da die zeitliche Auflösung

des EEGs imMillisekundenbereich liegt. Für die Untersuchung zeitlicher

Verläufe ist das EEG damit deutlich besser geeignet als beispielsweise die

funktionelle Magnetresonanztomographie (fMRT; siehe Abschnitt 3.3).

Die räumliche Auflösung des EEGs, d.h. die Lokalisation der gemessenen

Potentiale im Gehirn, ist dagegen vergleichsweise gering. Potentialunter-

schiede, die man an bestimmten Elektrodenpositionen findet, werden

nicht notwendigerweise auch darunter generiert. Inzwischen gibt es Me-

31

KAPITEL 3. VERWENDETE METHODIK

�����������*��+��� ��

�������

,� ������-�.��

*��+

Abbildung 3.4: Skizze der biologischen Grundlagen des EEGs. Pyrami-denzellen sind senkrecht zu Kortexoberflächen angeordnet (links). Wirdnun eine Subpopulation synchron aktiviert, entsteht ein Dipol, der an derKortexoberfläche (rechts) als extrazelluläres Feldpotential zu messen ist(verändert nach Luck, 2005).

thoden für Quellenlokalisation im EEG (siehe Slotnick, 2005), aber auch

diese sind sehr indirekt,mitUnsicherheit behaftet und liegennoch immer

unterhalb der hohen räumlichen Auflösung der fMRT (siehe Abschnitt

3.3).

Bevor in den folgenden zwei Abschnitten die Grundlagen für die in

dieser Arbeit verwendeten Mess- und Analysemethoden beschrieben

werden, wird noch auf die Bedeutung der gemessenen Potentiale ein-

gegangen. Im EEGmisst man immer Spannungsunterschiede zwischen

zwei Elektroden, der Messelektrode und der Referenz. Die Wahl der Refe-

renz hängt vom Experiment ab, wennman also beispielsweise Cz (Abb.

3.3) als Referenz wählt, fungieren alle anderen Elektroden als Messelek-

troden relativ zu Cz. Das Zustandekommen von Potentialschwankungen

zwischen Mess- und Referenzelektrode wird durch die relativ strenge

zytoarchitektonische Schichtung des Kortex begünstigt. Hier liegen die

Dendriten (also die neuronalen Eingänge) der Pyramidenzellen (große

Neurone) in den oberen Schichten, während die Zellkörper etwas tiefer

liegen. Wird nun eine Neuronenpopulation durch ein Eingangssignal an-

geregt, so entsteht im Extrazellularraum ein elektrischer Dipol zwischen

Dendrit und Zellkörper. In die Zellen strömende positive Ionen verur-

32

3.2. EEG

sachen im Extrazellularraum der Dendritenregion eine Negativierung

gegenüber der Zellkörperregion. Da die Pyramidenzellen außerdem noch

senkrecht zur Kortexoberfläche ausgerichtet sind, sorgt die synchrone

Aktivierung dieser Neurone für die Ausbildung eines Dipols, den man

als elektrisches Feldpotential an der Kortexoberfläche messen kann (sie-

he Abb. 3.4). Im EEG werden die Potentiale am deutlichsten gesehen,

deren Dipole möglichst direkt zwischen Mess- und Referenzelektrode

ausgerichtet sind. Die eigentlichenWährung neuronaler Kommunikati-

on, das Aktionspotential, wird im EEG nicht direkt gemessen. Stattdessen

misst man postsynaptische Aktivierung, die durch Aktionspotentiale ver-

ursacht wurde, und die ihrerseits wieder zu Aktionspotentialen führt.

3.2.1 Ereigniskorrelierte Potentiale

Ereigniskorrelierte Potentiale (EKPs) sind diejenigen Potentiale im EEG,

die spezifischmit einer Reizpräsentation zusammenhängen, d.h. die re-

lativ zeitgenau vor, während oder nach einem Reiz auftreten. Sie sind im

Roh-EEG nicht unmittelbar sichtbar, da sie von Spontanaktivität (d.h. an-

derer, nicht spezifisch von dem Reiz ausgelöster Aktivität) überlagert wer-

den. Zeigt man nun wiederholt den zu untersuchenden Reiz, so wird die

mit dem Reiz korrelierte Aktivität immer wieder im EEG auftauchen. Für

die Berechnung der EKPs braucht man nun den genauen Zeitpunkt der

Reizpräsentation. Diesen bekommtman in einem geeigneten Messauf-

bau (siehe Abb. 3.5) durch das Trigger-Signal (übersetzt: Auslöser), das

vom Reizrechner zum EEG-Aufnahmerechner geschickt wird. Nach der

Datenaufnahme legt man einen festen Zeitbereich relativ zur Reizdarbie-

tung fest (die sogenannte Epoche, z.B. -100ms bis 500ms). Anschließend

mittelt man alle Epochen, so dass sich die nicht mit dem Reiz korre-

lierte Spontanaktivität herausmittelt. Beispielhaft ist dieser Vorgang in

Abb. 3.6 dargestellt. Das resultierende EKP enthält dann charakteristi-

sche Wellenformen, sogenannte Komponenten, die abhängig von der

untersuchten Sinnesmodalität vielfach charakterisiert sind (für Übersich-

ten siehe Fabiani et al., 2000; Key et al., 2005; Luck, 2005, S. 34 ff.). Die

Benennung dieser Komponenten verläuft nach einem Buchstaben für

33

KAPITEL 3. VERWENDETE METHODIK

Abbildung 3.5: EEG-Messaufbau zumMessen von EKPs. Die Versuchsper-son sitzt vor dem Reizaufbau, die Elektroden sind am Kopf angebrachtund über eine Elektrodeneingangsbox mit dem Aufnahmerechner ver-bunden. Zusätzlich gibt es eine Trigger-Verbindung vom Reizrechner zumAufnahmerechner.

die Polarität (N für negativ, P für positiv) und einer Zahl (entweder für

die Latenz, oder eine Nummer als Index). Von solch einer Komponente

können nun Amplitude und Latenz bestimmt werden, wobei deren Ver-

änderung Rückschlüsse auf die neuronale Verarbeitung zulässt. Hierbei

gilt als Faustregel, dass frühe Komponenten (z.B. die P1) eher sensorisch

angeregt werden (deswegen nennt man sie auch evozierte Potentiale)

und späte Komponenten (z.B. die P3) eher von inneren Zuständen der

Versuchsperson abhängen.

Eine Alternative zur Komponentenauswertung stellt die Bildung von

Differenz-EKPs dar. Hierbei interessieren nicht die Charakteristika der

absoluten EKP-Wellen, sondern deren Unterschiede. Diese geben Auf-

schluss über den Zeitpunkt, an dem sich anhand der neuronalen Antwort

die Versuchsbedingungen unterscheiden und liefern damit wichtige Hin-

weise darauf, zu welchem Zeitpunkt welche Verarbeitung abläuft.

34

3.2. EEG

/��������

/��������

0 1

Abbildung 3.6: Bildung von EKPs (verändert nach Luck, 2005). In diesemVersuch zeigt man der Versuchsperson häufig ein X oder selten ein O.(A)Die Zeitpunkte werden über ein Trigger-Signal festgehalten. (B) Ausder EEG-Spur einer Elektrode werden nun die mit dem Reiz korreliertenEpochen entnommen und anschließend nach Zugehörigkeit gemittelt.Man erhält dann zwei EKPs (C)mit Komponenten (siehe Text). In diesemBeispiel sieht man deutlich, dass die dritte Positivierung (P3) für denseltenen Reiz (O) vergrößert ist. Anmerkung: In dieser Abbildung sindnegative Potentiale nach oben aufgetragen und Positive nach unten. DieseArt der Auftragung findet man häufig in der psychologischen Literatur; sieist begründet durch die Tatsache, dass neuronale Aktivierung, bei idealerLage der Dipole, eine Negativierung im EEG verursacht (siehe Text).

35

KAPITEL 3. VERWENDETE METHODIK

Frequenz Name (Symbol)

0-4 Hz Delta (δ)4-8 Hz Theta (θ)8-12 Hz Alpha (α)12-30 Hz Beta (β)30-80 Hz Gamma (γ)

Tabelle 3.2: Frequenzbänder im EEG (nach Herrmann et al., 2005).

3.2.2 Zeit-Frequenz Analysen

Auch Hans Berger erkannte bereits, dass unterschiedliche Frequenzen

im EEG unterschiedliche Zustände widerspiegeln. Die Konzentration ei-

ner Versuchsperson bewirkt, dass hochamplitudige α-Wellen in kleinere

β-Wellen zerfallen. Man interpretiert diesen Effekt als die gebündelte

Aktivierung kleinerer Neuronenverbände während der Verarbeitung, wo-

hingegen im Ruhezustand große Neuronenverbände -wahrscheinlich

vom Thalamus ausgehend- in einem α-Rhythmus gehalten werden (Bir-

baumer & Schmidt, 2006, S. 468 ff.). Somit trägt auch die Frequenz des

EEG-Signals Information darüber, wann und wie stark bestimmte Kor-

texregionen bei der Verarbeitung involviert sind. Man unterteilt den Fre-

quenzraum heute in Frequenzbänder, denen unterschiedliche Funktio-

nen zugeschriebenwerden (sieheHerrmann et al., 2005). Eine Aufstellung

der gängigen Frequenzbänder findet sich in Tabelle 3.2.

Allgemein zerlegt man ein Signal in seine Frequenzanteile über die

Fourier-Transformation. Bei dieser klassischen Methode verliert man

allerdings den Zeitpunkt, d.h. man kann zwar sagen, aus welchen Fre-

quenzen sich das Signal zusammensetzt, aber nicht wann die jeweiligen

Frequenzanteile wie stark im Signal waren. Aus diesem Grund wurde in

der vorliegenden Arbeit die sogenannte „Wavelet-Analyse” (übersetzt:

Wellchen) benutzt, da manmit dieser Methode Frequenzanteile in zeit-

licher Abhängigkeit bestimmen kann. Wavelet-Analysen werden nicht

nur in der Neurobiologie eingesetzt, sondern auch in vielen anderen Be-

reichen, in denen man Zeitreihen analysiert (z.B. in der Klimaforschung,

siehe Torrence & Compo, 1998). Das Prinzip der Wavelet-Analyse ist es,

36

3.2. EEG

zu testen, wie gut eine Funktion endlicher Dauer und definierter Fre-

quenz die Daten abbildet. Welche Funktion man dabei zugrunde legt ist

variabel und sollte von den Eigenschaften der zugrundeliegenden Daten

bestimmt werden (vgl. Samar et al., 1999). Die Wavelet-Funktion wird

in alle zu testenden Frequenzbereiche skaliert, und man testet nun an

jedem Zeitpunkt, wie gut die Funktion zu den Daten passt. Anders gesagt,

man schiebt das Wavelet über das EEG-Signal und berechnet an jedem

Punkt einen Koeffizienten, der die Ähnlichkeit von Funktion und Signal

ausdrückt. Ein Beispiel, wie man die Frequenzanteile eines EKPs mit

Hilfe einer Wavelet-Analyse darstellt, findet sich in Abb. 3.7. Analog zur

Heisenbergschen Unschärferelation, nimmt bei der Wavelet-Analyse die

zeitliche Genauigkeit mit sinkender Frequenz ab (vgl. Abb. 3.7A) und die

Genauigkeit in der Frequenz zu (nicht dargestellt). Die Wavelet-Analyse

bietet einige ergänzendeMöglichkeiten, um die EEGDaten über die EKPs

hinaus zu analysieren:

• Hohe Frequenzen werden in EKPs oftmals herausgefiltert; mit der

Wavelet-Analyse kannman gerade Effekte in hohen Frequenzen gut

nachweisen.

• Man sieht im EKP ausschließlich die zeitlich präzise, durch den

Reiz ausgelöste neuronale Aktivität, aber nicht jede Verarbeitung

im Gehirn wird mit dieser hohen zeitlichen Präzision arbeiten und

somit im EKP sichtbar sein. Mit Hilfe der Wavelet-Analyse lassen

sich gut einzelne Epochen der EEG Daten analysieren, so dass man

auch in der Lage ist, nicht zeitlich präzise auftretende Potentiale,

die sogenannten induzierten Potentiale, aufzuspüren (Herrmann

et al., 2005).

• Nach Frequenzen zerlegte Daten enthalten nicht nur Amplituden,

sondern auch Phaseninformationen. Durch Auswertung dieser In-

formation ist man in der Lage, neuronale Kommunikationswege im

Gehirn funktional sichtbar zu machen, da entfernte Gehirn-Areale

sich während ihrer Kommunikation in Phase befinden (Mima et al.,

37

KAPITEL 3. VERWENDETE METHODIK

23

43

53

33

�3�6 �566 �266 �766 �866 ��9��

�3:3

�5:3

�4:3

/��������

;�<�����=��

/��������

36�=�

56�=�

26�=� /��������266 766566

9�

36

��>

3>

�>

� 00

1

Abbildung 3.7: Schema der Wavelet-Analyse anhand der Transformati-on eines EKPs in den Zeit-Frequenzraum (verändert nach Herrmannet al., 2005). (A) EineWavelet-Funktion (hier die Morlet-Funktion) wirdin verschiedene Frequenzen übersetzt. (B)Das zu analysierende EKP. Fürjeden Zeitpunkt werden Koeffizienten berechnet, die die Ähnlichkeit zwi-schen jeweiliger Wavelet-Funktion und Signal (EKP) quantifizieren. (C)Zeit-Frequenz Repräsentation des EKPs. Aus den Koeffizienten wurdenFrequenzamplituden (μV) errechnet. Hohe Frequenzen haben deutlichhöhere Zeitgenauigkeit als niedrige Frequenzen.

38

3.3. FMRT

2001; Sarnthein et al., 1998; Singer, 1999; von Stein & Sarnthein,

2000).

3.3 Funktionelle Magnetresonanztomographie (fMRT)

Die funktionelle Magnetresonanztomographie (fMRT) macht es möglich,

hochaufgelöste Bilder vom Gehirn zu erhalten und gleichzeitig Korre-

late neuronaler Aktivität zu messen. Sie ist die jüngste und technisch

aufwendigste der hier verwendeten Methoden. Wie in diesem Abschnitt

erläutert wird, liegen ihre Vorteile in einer hohen räumlichen Auflösung

neuronaler Aktivierung allerdings bei schlechter zeitlicher Auflösung. Da

diese Eigenschaften entgegengesetzt zu denen des EEGs (siehe Abschnitt

3.2) liegen, versucht man in den heutigen Neurowissenschaften, beide

Methoden zu vereinen (Hopfinger et al., 2005).

Im Gegensatz zu den, in den Abschnitten 3.1 und 3.2, bereits vorge-

stelltenMethoden gibt es nicht nur einenUrheber derMRT. Die Geschich-

te der MRT-Entwicklung hatte viele aufeinander aufbauende Stufen im

Laufe der letzten 100 Jahre (für eine geschichtliche Übersicht siehe Huet-

tel et al., 2004, S. 11 ff.). Das erste Magnetresonanz-Bild wurde 1973 von

Paul C. Lauterbur (1929-2007) publiziert (Lauterbur, 1973), der für seine

Entdeckungen zusammen mit Peter Mansfield (*1933) im Jahre 2003 den

Nobelpreis für Medizin erhielt. Mansfield entwickelte 1976 mit dem noch

heute in der fMRT angewandten „Echo-Planar Imaging” ein Verfahren,

das die Aufnahme vonMR-Bildern beschleunigte (Mansfield &Maudsley,

1976).

Eine detaillierte Beschreibung der physikalischen Grundlagen und

verwendeten Technik liefert Huettel et al. 2004, S. 49 ff. Das Prinzip des

Kernspintomographen (des MRT-Geräts) basiert auf der Ausnutzung der

magnetischen Eigenschaften von Atomen. Diese werden im Kernspinto-

mographen durch einMagnetfeld ausgerichtet, welches weitaus stärker

ist als das Erdmagnetfeld. Der in dieser Arbeit verwendete Kernspintomo-

graph hat beispielsweise ein Magnetfeld von 3 Tesla, d.h. sein Magnetfeld

ist etwa 60 000 mal stärker als das Erdmagnetfeld. Während der Messung

werden die ausgerichteten Atomemit einemHochfrequenz - Impuls (im

39

KAPITEL 3. VERWENDETE METHODIK

Bereich von Ultrakurzwellen-Radiofrequenzen) ausgelenkt. Hierbei ist

die verwendete Impulsfrequenz spezifisch für einen Atomtyp und richtet

sich nach dem Zweck der MRT-Messung (d.h. Wasserstoffatome werden

mit einer anderen Frequenz ausgelenkt als Kohlenstoffatome). Nach ei-

nem Impuls kehren die ausgelenkten Atome in ihrer Ausrichtung wieder

zum angelegtenMagnetfeld zurück. Die hierfür benötigte Zeit unterschei-

det sich für verschieden Arten von Gewebe, was zu unterschiedlichen

Signalstärken imMR-Bild führt.

Im fMRT wird die Hirnaktivität über das Signal eines Stoffwechsel-

korrelats der neuronalen Aktivität gemessen, dem sogenannten „Blood-

Oxygen-Level Dependent Signal” (BOLD-Signal, übersetzt: vom Sauer-

stoffgehalt des Blutes abhängiges Signal). Das Zustandekommen des

BOLD-Signals basiert auf der Tatsache, dass das Sauerstoff transportieren-

de Protein des Blutes, Hämoglobin, unterschiedliche magnetische Eigen-

schaften besitzt, je nachdem ob es mit Sauerstoff beladen ist oder nicht.

Neuronale Aktivität führt im Blut zu einer Veränderung des Sauerstoff-

Gehaltes. Allerdings misst man -entgegen der Intuition- einen Anstieg

des Sauerstoff-Gehaltes bei Verstärkung der neuronalen Aktivität, da

in aktiven Hirnregionen der Blutfluss ansteigt (für eine Diskussion des

Zusammenhangs zwischen BOLD-Signal und neuronaler Aktivierung

siehe Arthurs & Boniface, 2002; Logothetis, 2002). Wird eine Region im

Gehirn in einem Versuch aktiviert, dauert es etwa 2s, bis auch das BOLD-

Signal ansteigt. Dies ist auch der Grund, warum das fMRT eine sehr

schlechte zeitliche Auflösung hat, da man erste neuronale Antworten auf

sensorische Reize bereits nach wenigenMillisekundenmisst (Thorpe &

Fabre-Thorpe, 2001).

Die räumliche Auflösung des BOLD-Signals wird durch die Größe von

dreidimensionalen Pixeln, den „Voxeln”, bestimmt. Die Größe der Voxel

ist abhängig vom verwendeten Kernspintomographen und der Messse-

quenz. In der hier beschriebenen Studie (Kapitel 7) liegt die Voxelgröße

bei 2.7mm*3.0mm*3.0mm. Zur Analyse der Voxeldaten legt man ein Mo-

dell der theoretisch erwarteten BOLD-Antwort zugrunde, falls der Voxel

in der entsprechenden Versuchsbedingung aktiviert wurde. Diese mo-

40

3.3. FMRT

dellierte Antwort nennt man die „hämodynamische Antwortfunktion”.

Ein Beispiel für Rohdaten eines Voxels und die modellierte hämodyna-

mische Antwortfunktion für eine Versuchsbedingung sind in Abb. 3.8A

dargestellt. Mit Hilfe einer statistischenMethode, dem „Allgemeinen Li-

nearenModell” (ALM), bestimmtman bei der hohen Anzahl von Voxeln

(in der in Kapitel 3.3 beschriebenen Studie besteht allein eine Aufnahme

des Gehirns aus über 150000 Voxeln) welche Voxel signifikant in der je-

weiligen Versuchsbedingung aktiviert wurden (siehe Huettel et al., 2004,

S. 336 ff.). Die Auftragung der aktivierten Voxel erfolgt gewöhnlich als

signifikanter Kontrast zwischen Versuchsbedingung und Ruhebedingung

(siehe Abb. 3.8B), bzw. zwischen zwei Versuchsbedingungen. Hierbei wer-

den die funktionellen Daten auf das Ergebnis eines anatomischen Scans

projiziert.

3.3.1 funktionelle Kartierung visueller Areale

Es steht ein einfacher Grundgedanke hinter dem Bestreben, das Gehirn

in separate Bereiche einzuteilen: Hätte man eine Karte des Gehirns, so

bräuchte man nur noch die für den jeweiligen Versuch relevanten Areale

zu untersuchen undmüsste nicht mehr das gesamte Gehirn betrachten.

Schon früh verwendete man Karten des Gehirns basierend auf anatomi-

schen und histologischen Unterschieden, wie z.B. die auch heute noch

verwendeten Karten des Neuroanatomen Korbinian Brodmann (1868-

1918). Solche Karten sind allerdings sehr grob, und nicht immer sind

anatomische und histologische Unterschiede gleichbedeutendmit funk-

tionellen Unterschieden. Die genaue Position von funktionellen Arealen

ist darüber hinaus nicht immer anatomisch exakt zu bestimmen (z.B.

ist die Lage des visuellen Areals LOC individuell sehr verschieden). Aus

diesen Gründen (und weil man die individuelle Histologie nicht kennt)

verwendet man, soweit möglich, funktionelle Karten, d.h. man macht

sich die spezifischen Eigenschaften einzelner Areale zu Nutze. So kann

man auch für das visuelle System individuelle funktionelle Karten er-

stellen, die aus einem separaten fMRT-Versuch stammen. Der konkrete

Vorteil einer vom eigentlichen Versuch unabhängigen Kartierung liegt

41

KAPITEL 3. VERWENDETE METHODIK

Abbildung 3.8:Daten aus einem visuellen fMRT Experiment. (A) Gemes-senes BOLD-Signal eines Voxels (links) undmodellierte hämodynamischeAntwort (rechts). Die gezeigtenDaten stammen aus einemVersuchsdurch-lauf mit mehreren Bedingungen, d.h. die unterschiedlichen Farben sym-bolisieren verschiedene Reizbedingungen. Die einzelnen Bedingungenwaren getrennt durch eine Ruhebedingung (schwarze Balken). Die hiergezeigte hämodynamische Antwortfunktion symbolisiert die Erwartung,dass der betreffende Voxel spezifisch in der rot dargestellten Bedingungaktiviert wird. (B) fMRT-Bild des Gehirns als Sagittal- (links), Transversal-(mittig) und Coronalschnitt (rechts). Die Bilder kommen aus zwei über-einandergelegten Scans, einem anatomischen (grau) und einem funktio-nellen (farbig). Die funktionellen Daten stammen aus der ALM-Analyseund zeigen signifikant unterschiedlich aktivierte Voxel im Vergleich zwi-schen Ruhe- und Versuchsbedingung. Voxel, die stärker in der Versuchs-bedingung aktiv waren, sind in gelb-orange dargestellt, wohingegen dieblau-grün markierten Voxel stärker in der Ruhebedingung aktiviert waren.Das Signifikanzniveau ist auf der rechten Seite angegeben.

42

3.3. FMRT

darin, dass man die Zahl der in Frage kommenden Voxel reduzieren kann,

was die Analyse der Daten vereinfacht und die statistische Teststärke

erhöht. Außerdem lassen sich gefundene Effekte besser in ihrer Funktion

interpretieren, wenn man genau sagen kann, in welcher Gehirnregion

der Effekt lokalisiert ist. Um ein Areal funktionell zu kartieren, muss man

generell wissen, wie man die Neurone in diesem Areal anregen kann.

Für primär sensorische Areale geht dies vergleichsweise einfach, da man

sie mit externen Reizen (z.B. Bildern für visuelle Areale) aktivieren kann.

Es wird umso schwieriger, je höher man in der Verarbeitungshierarchie

kommt, da Aktivität in höheren Arealen auch stark von internen Faktoren

der Person abhängt und sich somit nicht mehr gut selektiv durch externe

Reize steuern lässt.

Als Beispiel für eine funktionelle Kartierung visueller Areale wurde

hier ein Teil der „Retinotopen Kartierung” gewählt (für eine ausführliche

Beschreibung siehe Warnking et al., 2002), die zusammenmit weiteren

Kartierungen in der vorliegenden Arbeit benutzt wurde. Bei diesem Ver-

fahren macht man sich die retinotope Ordnung visueller Areale zu Nutze

(siehe Abschnitt 2.1). Das Prinzip der retinotopen Kartierung beruht auf

der Beziehung zwischen Ort im Gesichtsfeld und neuronaler Aktivierung,

wie für V1 und V2 in Abb. 3.9A dargestellt. Informationen aus dem linken

Gesichtsfeld landen in der rechten Hemisphäre und umgekehrt. An der

„Fissura Calcarina” (einer charakteristischen Einfaltung des okzipitalen

Kortex) liegt die Grenze zwischen oberem und unterem Quadranten des

Gesichtsfeldes (der horizontale Meridian). Aufgrund der retinotopen An-

ordnung bildet die Repräsentation des vertikalen Meridians in V1 auch

dessen Grenze, die nach oben und unten von der Fissura Calcarina weg

liegt. In V2 ist es, von der Fissura Calcarina aus gesehen, genau umge-

kehrt. Erst kommt die Repräsentation des vertikalen Meridians. Da V2

wieder retinotop geordnet ist, liegt die andere Begrenzung von V2 bei

der Repräsentation des horizontalen Meridians. Im fMRT stimuliert man

nun getrennt jeweils den horizontalen und vertikalen Meridian (Abb.

3.9B). Die nach der fMRT-Auswertung erhaltenen Aktivierungen spiegeln

die in Abb. 3.9A dargestellten Verhältnisse wider. Demnach liegt V1 von

43

KAPITEL 3. VERWENDETE METHODIK

Abbildung 3.9: Retinotope Kartierung visueller Areale. Stimulation desvertikalen Meridians bzw. die dadurch verursachte funktionelle Aktivie-rung im Gehirn ist grün markiert, entsprechende Stimulation und Ak-tivierung des horizontalen Meridians gelb. (A) Schema der Beziehungzwischen Ort im Gesichtsfeld und neuronaler Repräsentation in V1 undV2. Die Zahlenfelder im Gesichtsfeld sind nur für V1 dargestellt. Für dierechte Hemisphäre sind die Grenzen von V1 und V2 anhand der Meridia-ne mit eingezeichnet. Hierbei teilen sich die visuellen Areale in dorsale (d;Repräsentation unterer Gesichtsfeldquadranten) und ventrale Anteile (v;Repräsentation oberer Gesichtsfeldquadranten) auf. Beide Anteile bildendas gesamte Areal V1 bzw. V2 (verändert nach Kandel et al., 2000). (B)Entsprechende Stimulation im fMRT-Versuch. Dargestellt sind der verwen-dete Reiz und Aktivierungen der linken Hemisphäre (3D-Rekonstruktion)für Stimulation des horizontalen (gelb) und vertikalen Meridians (grün).(C) Aktivierungen und Lage der Areale (schwarze Linien) auf einer aufge-blasenen 3D-Repräsentation der linken Hemisphäre.

44

3.3. FMRT

der Fissura Calcarina bis zur Mitte der Aktivierungen auf dem vertikalen

Meridian. Dann schließt sich V2 an, dessen Grenze bis zur Mitte der Ak-

tivierungen auf den horizontalen Meridian geht, usw. (siehe Abb. 3.9C).

Auf diese Art kann man Grenzen bis in das vierte visuelle Areal finden.

Danach löst sich die retinotope Ordnung immer mehr auf.

Nach erfolgreicher Kartierung kann man nun im Hauptversuch unter-

suchen, inwieweit das BOLD-Signal in den einzelnen visuellen Arealen

entsprechend der jeweiligen Versuchsbedingung verändert ist.

3.3.2 Cortex Based Alignment

Hat man nicht die Möglichkeit, kartierte Gehirne zu verwenden, da

nicht klar ist, wo die Effekte lokalisiert sind, so muss man unter Um-

ständen das gesamte Gehirn betrachten. Hierbei hat man das Problem,

dass bereits auf anatomischer Ebene individuelle Unterschiede existie-

ren. Eine Möglichkeit, damit umzugehen, liefert das „Cortex Based Ali-

gnment” (übersetzt: Angleichung basierend auf dem Kortex). Das Cor-

tex Based Alignment reduziert individuelle Unterschiede, indem 3D-

Rekonstruktionen der untersuchten Gehirne einer Studie ineinander

überführt werden (Goebel et al., 2006). Dabei werden beide Hemisphären

getrennt behandelt. Das Verfahren basiert rein auf der Anatomie und

ist daher dazu geeignet, anatomische Unterschiede zu kompensieren;

individuelle Unterschiede in der Lage funktioneller Areale werden nicht

berücksichtigt. Das Cortex Based Alignment wurde in der fMRT-Studie

dieser Arbeit (Kapitel 7) verwendet, umUnterschiede außerhalb der kar-

tierten visuellen Areale zu finden.

Das Prinzip des Cortex Based Alignments ist in Abb. 3.10 dargestellt.

Die eigentliche Angleichung benutzt eine Kugel-Repräsentation der He-

misphäre, welche bereits eine Standardisierung darstellt, da individuelle

Größenunterschiede herausfallen (die Kugel hat eine definierte Größe).

Anhand der Lage der Gyri (Windungen) und Sulci (Furchen) gleicht das

Verfahren die individuellen Gehirne aneinander an. Das Ergebnis ist eine

Durchschnittsrepräsentation der Hemisphäre über alle Versuchsperso-

nen einer Studie. Die funktionellen Daten werden ebenfalls in das so

45

KAPITEL 3. VERWENDETE METHODIK

$ �

Abbildung 3.10: Cortex Based Alignment. (A) Für jede Hemisphäre je-der Versuchsperson wird eine 3D-Rekonstruktion erstellt. (B)Diese 3D-Rekonstruktion wird in eine Kugel transformiert, auf deren Basis alleHemisphären (links und rechts getrennt) aneinander angeglichen wer-den. Gyri sind in gelb dargestellt, Sulci in blau. (C) Die funktionelle Datenwerden ebenfalls transformiert und können nun auf dem angeglichenenGehirn der Gruppe analysiert werden.

gewonnene Gruppengehirn überführt und anschließend analysiert, z.B.

mit dem ALM (siehe Abschnitt 3.3).

46

Kapitel 4

Zusammenfassung & Fazit

Die vorliegende Arbeit beschäftigt sich mit den psychophysikalischen

und neuronalen Eigenschaften der Figur-Grund-Unterscheidung i) bei

unterschiedlicher Zusammensetzung der zur Wahrnehmung der Figur

führendenMerkmale und ii) unter verschiedenen Aufgabenstellungen

(Detektion und Identifikation). Die EEG-Studien behandeln Veränderun-

gen der Figur-Salienz in Abhängigkeit zu den verwendetenMerkmalen.

Dies wurde getrennt für Detektion (Kapitel 5) und Identifikation (Kapitel

6) untersucht. Mit Hilfe der funktionellen Bildgebung wurden schließ-

lich die neuronalen Korrelate der Detektion und Identifikation direkt

verglichen (Kapitel 7).

4.1 Fragestellung undMotivation

Wir sehen Objekte immer als Ganzes, unsere Wahrnehmung basiert je-

doch oft auf Unterschieden bezüglich mehrerer Merkmale (z.B. Tiefe,

Helligkeit oder Farbe), die unterschiedlich stark ausgeprägt sein können.

Bis heute ist weitgehend unklar, inwieweit spezifische Merkmale bei der

Objektverarbeitung interagieren, da psychophysikalische Studien unter-

schiedliche Resultate erhielten, die von den verwendeten Merkmalen

und der Art der Aufgabe abhingen. In den Studien dieser Arbeit wurde

die Salienz der Figur benutzt um i) unterschiedliche Figur-Merkmale und

deren Kombination miteinander zu vergleichen und ii) Detektion und

47

KAPITEL 4. ZUSAMMENFASSUNG & FAZIT

Identifikation zu trennen. Bisherige Studien verwendeten vielfach hoch-

saliente Reize bzw. kontrollierten die Salienz ihrer Reize nicht. Daher ist

es fraglich, ob Effekte der Merkmalszusammensetzung und der Aufgabe

bei hochsalienten Reizen überhaupt gefunden werden können.

Die folgende Aufstellung fasst die Leitfragen der in den in Kapitel 5

bis 7 beschriebenen Studien zusammen:

1. Führt die Kombination zweier Merkmale zu einer verbesserten

Wahrnehmung der zu detektierenden/identifizierenden Figur? Un-

terscheidet sich diese Verbesserung von der Erwartung bei unab-

hängiger Verarbeitung beider Merkmale?

2. Wenn es zu einer verbesserten Wahrnehmung kommt, gibt es dann

auch ein elektrophysiologisches Korrelat dieser Verbesserung, bzw.

einen Effekt der Kombination? Was ist dieser Effekt? Wann und wo

tritt er auf?

3. Ist der Effekt der Kombination ein anderer, wenn sich die Anforde-

rung (z.B. die Aufgabenstellung) an das visuelle System ändert?

4. Unterliegt der geänderten Aufgabenstellung auch eine veränderte

sensorische Verarbeitung? Spiegeln sich psychophysikalische Un-

terschiede zwischen Detektion und Identifikation im fMRT wieder?

Sind unterschiedliche neuronale Netzwerke aktiviert? Kommt eine

der Aufgaben z. B. mit einem kleineren Netzwerk aus?

4.2 Merkmalskombination im EEG bei Detektion und

Identifikation

EEG-Studien, die spezifisch die Effekte von Merkmalskombinationen

auf die elektrophysiologische Antwort hin untersuchen, fehlen bislang.

Aufgrund seiner hohen zeitlichen Auflösung ist das EEG jedoch für diese

Fragestellung geradezu prädestiniert: Kennt man die zeitliche Abfolge

der Verarbeitungsprozesse, so lässt sich nachvollziehen, wann die Infor-

mationen der unterschiedlichenMerkmale zusammenfließen und wie

die Wahrnehmung entsteht.

48

4.2. EEG-VERSUCHE

Abbildung 4.1: Verwendeter Reiz. Die Gabor-Elemente des Hintergrundshaben alle dieselbe Orientierung und Ortsfrequenz. In dem gezeigtenBeispiel sind die Figur-Elemente bezüglich ihrer Orientierung und Orts-frequenz verändert.

Im elektrophysiologischen Teil der vorliegenden Arbeit wurden Psy-

chophysik und Elektrophysiologie (EKPs undWavelet-Analyse) kombi-

niert, um den Einfluss von Merkmalskombinationen auf die visuelle

Verarbeitung zu untersuchen. Die Grundlagen dieser Methoden sind in

Kapitel 3 beschrieben. Beide Studien verwenden dasselbe Paradigma,

unterscheiden sich aber hinsichtlich ihrer Aufgabenstellung (Detektion

versus Identifikation). Das Paradigma ist angelehnt an psychophysikali-

sche Studien vonMeinhardt et al. (Meinhardt & Persike, 2003; Meinhardt

et al., 2004, 2006), die eine Interaktion bei der Verarbeitung der Figur-

Merkmale Orientierung und Ortsfrequenz aufzeigten. Der verwendete

Reiz besteht aus einer Matrix von Gabor-Elementen (siehe Abb. 4.1), in

der die Elemente der Figur sich von denen des Hintergrunds in ihrer

Orientierung, Ortsfrequenz oder einer Kombination von beidem unter-

scheiden. Die Salienz der Figur wurdemithilfe von d‘ bestimmt. Bei der

49

KAPITEL 4. ZUSAMMENFASSUNG & FAZIT

Detektionsstudie beantworteten die Versuchspersonen in einer 2-AFC,

ob sie die Figur links oder rechts des Fixationspunktes gesehen hatten.

Hierbei war es nicht zwingend notwendig, die ganze Figur zu erkennen.

Bei der Identifikationsstudie mussten die Probanden hingegen zwischen

Bild und Spiegelbild der Figur unterscheiden und somit genau wiederge-

ben,was sie gesehen hatten.

Beide Studien konnten psychophysikalisch die Ergebnisse vonMein-

hardt et al. bestätigen. Orientierung und Ortsfrequenz interagieren als

Figur-Merkmale, so dass ihre Kombination die Salienz deutlich erhöht.

In der Elektrophysiologie zeigt sich, dass die frühesten Effekte mit der Sa-

lienz (d‘) korrelieren. Dies drückt sich in einer sinkenden Amplitude der

posterioren P2-Komponente mit steigender Salienz aus, was zusätzlich

durch eine Reduktion im θ-Frequenzband nachgewiesen werden konnte.

Dieser Befund deutet darauf hin, dass der durch das Zusammenspiel der

Merkmalewahrgenommene Figur-Grund-Unterschied (die Salienz) die

neuronale Antwort viel direkter prägt als der physikalische Figur-Grund-

Unterschied an sich: Der gefundene Amplituden-Effekt der P2 erwies

sich in der Tat als sensitiv für die Salienz der Figur, nicht aber als ebenso

sensitiv für ihre physikalischen Eigenschaften (beispielsweise ob sie nur

ein Merkmal oder zwei beinhaltete).

Dieses Ergebnis wurde in beiden Studien, d.h. für Detektion und Iden-

tifikation, gefunden, was die Robustheit der psychophysikalischen und

elektrophysiologischen Ergebnisse über die Aufgabenstellung hinweg

verdeutlicht. Die Identifikation war die schwierigere Aufgabe, d.h. um

zu gleicher Leistung (in Anteilen richtiger Antworten) wie bei der De-

tektion zu kommen, benötigten die Probanden der Identifikationsstudie

einen höheren physikalischen Figur-Grund-Unterschied. Anders gesagt,

bei gleichem d‘ für Detektion und Identifikation gibt es einen physikali-

schen Unterschied der Merkmalsausprägung. Demnach unterscheiden

sich beide Studien in der Aufgabe und den verwendeten Figur-Grund

Unterschieden. Trotzdemwurden qualitativ dieselben Effekte mit einer

vergleichbaren Amplitude der P2-Komponente in beiden Studien ge-

funden. Diese Ergebnisse beider Studien deuten darauf hin, dass der

50

4.3. VERGLEICH VON DETEKTION UND IDENTIFIKATION IM FMRT

gemessene Salienz-Effekt in der elektrophysiologischen Antwort unab-

hängig von der Aufgabe ist. Der physikalische Figur-Grund-Unterschied

(der zu der gemessenen Salienz führt) hängt hingegen immer von der

jeweiligen Aufgabe ab. Diese Idee der aufgabenspezifischen Beziehung

zwischen physikalischem Figur-Grund-Unterschied und Salienz wurde

in der im Folgenden beschriebenen fMRT-Studie benutzt, um die beiden

Aufgaben zu trennen.

4.3 Vergleich von Detektion und Identifikation im fMRT

Bisherige fMRT-Studien zur Trennung von Detektion und Identifikation

berücksichtigten nicht die Salienz ihrer Reize und fanden –eventuell des-

halb– keine Unterschiede zwischen beiden Aufgaben. Bei Figur-Grund-

Unterschieden, die eine Identifikation ermöglichen, kann eine Detektion

immer miterfolgen, da sie die einfachere Aufgabe ist. Umgekehrt aber ist

nicht bei jeder erfolgreichen Detektion auch eine Identifikation möglich.

In der fMRT Studie wurde ein ähnlicher Reiz wie in den beiden EEG-

Studien verwendet (siehe Abb. 4.1), allerdings gab es nur noch ein Merk-

mal für die Figur, nämlich die Orientierung ihrer Elemente.

Die psychophysikalischen Ergebnisse dieser Studie bestätigen die

im Vergleich der EEG-Studien gefundenen Unterschiede der Wahrneh-

mungsschwellen zwischen beiden Aufgaben: Bei vergleichbarer Salienz

lag der benötigte Figur-Grund-Unterschied für die Detektion weit un-

ter dem erforderlichen Unterschied für die Identifikation. Dieser Effekt

wurde von Anfang an gefunden und blieb auch nach Training stabil. Au-

ßerdem zeigten Reaktionszeit-Messungen, dass längere Reaktionszeiten

für die Identifikation benötigt wurden als für die Detektion. Dieses Er-

gebnis legt nahe, dass die Identifikation mehr Zeit benötigt, evtl. sogar

zusätzliche spezialisierte Areale im Gehirn.

Alle kartierten visuellen Areale zeigten während der Detektion und

der Identifikation erhöhte Aktivierung im Vergleich zu einer Ruhebe-

dingung. Statistische Tests zeigten, dass diese Aktivierung sich erst in

spezialisierten, objektsensitiven Arealen für Detektion und Identifika-

tion unterschied, indem diese während der Identifikation ein höheres

51

KAPITEL 4. ZUSAMMENFASSUNG & FAZIT

BOLD-Signal aufwiesen. Diese Unterschiede wurden in zwei Unterein-

heiten (LO und pFs) des Lateralen-Okzipitalen-Komplex (LOC) sowie in

einer benachbarten Region (CoS) im kollateralen Sulcus gefunden. Dieser

Aktivierungsunterschied konnte nicht auf den erhöhten Figur-Grund-

Unterschied bei der Identifikation zurückgeführt werden, da diese Areale

in einer Kontrollbedingung mit gleichem physikalischen Figur-Grund-

Unterschied aber ohne erkennbare Figur ebenfalls schwächer aktiviert

wurden als bei der Identifikation. Zusammenmit der Psychophysik legen

diese Ergebnisse nahe, dass objektsensitive Areale nicht zwingend an der

Detektion beteiligt sind.

4.4 Fazit

Die Salienz einer Figur ist die entscheidende Einheit unserer Wahrneh-

mung. Sie hat ihr elektrophysiologisches Korrelat etwa bei 200ms, da sie

in beiden EEG-Studien die Amplitude der posterioren P2-Komponente

beeinflusste. Salienz entsteht aus dem Zusammenspiel der vorhandenen

Figur-Merkmale, die zumindest teilweise bei der Verarbeitung interagie-

ren, wie für die Merkmale Orientierung und Ortsfrequenz gezeigt wurde.

Es bleibt zu klären, ob die gefundenen Effekte auch für andere Merkmals-

kombinationen bestätigt werden können. Des Weiteren wird die Salienz

nicht nur durch die Physik des Reizes beeinflusst, sondern auch durch die

Relevanz des Gesehenen: Um einem Tier mit dem Auto auszuweichen,

muss ich es nicht unbedingt identifizieren; es reicht aus, wenn ich dort

etwas detektiere.

Die Psychophysik zeigt in allen drei Studien, dass Detektion und

Identifikation verschiedene Charakteristika haben. Die Detektion ist der

schnellere Prozess, und man kann sie bereits erfolgreich durchführen,

wennmandie ganze Figur noch gar nicht erkennt. Die fMRT-Daten zeigen

zudem übereinstimmend, dass objektsensitive Areale stärker während

der Identifikation angeregt werden als nur durch die Detektion. Offen

bleibt die Frage, ob beide Aufgaben von z.T. unterschiedlichen neuro-

nalen Verarbeitungspfaden gelöst werden, was in der fMRT-Studie nicht

eindeutig zu zeigen war. Beispielsweise bleibt es zu klären, ob Areale im

52

4.4. FAZIT

LOC wirklich für eine Detektion notwendig sind, oder ob die gefundene

Aktivierung von LOC während der Detektion lediglich bedeutet, dass das

Gehirn versucht hat, etwas zu identifizieren.

53

Kapitel 5

The electrophysiological

correlate of saliency: evidence

from a figure-detection task

Sirko Straube &Manfred Fahle

Abstract

Although figure-ground segregation in a natural environment usually

relies on multiple cues, we experience a coherent figure without usu-

ally noticing the individual single cues. It is still unclear how various

cues interact to achieve this unified percept and whether this interaction

depends on task demands. Studies investigating the effect of cue com-

bination on the human EEG are still lacking. In the present study, we

combined psychophysics, ERP and time-frequency analysis to investigate

the interaction of orientation and spatial frequency as visual cues in a

figure detection task. The figure was embedded in a matrix of Gabor

elements, and we systematically varied figure saliency by changing the

underlying cue configuration. We found a strong correlation between the

posterior P2 amplitude and the perceived saliency of the figure: The P2

55

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

amplitude decreased with increasing saliency. Analogously, the power

of the θ-band decreased for more salient figures. At longer latencies,

the posterior P3 component was modulated in amplitude and latency,

possibly reflecting increased decision confidence at higher saliencies.

In conclusion, when the cue composition (e.g. one or two cues) or cue

strength is changed in a figure detection task, first differences in the elec-

trophysiological response reflect the perceived saliency and not directly

the underlying cue configuration.

5.1 Introduction

The first cue for object presence in a visual scene is the local difference of

a visual feature (e.g. a difference in colour, luminance, depth or motion).

The detection of such basic differences at a glance is a powerful tool

to rapidly evaluate which locations might contain objects and to start

preparing appropriate actions. Accordingly, it has been suggested that

a large amount of attention is caught by such bottom-up, image-based

saliency cues (for reviews see e.g. Itti & Koch, 2001; Treue, 2003). But how

is the saliency formed when figure-ground segregation can rely onmulti-

ple cues? Is the processing of these cues independent or do cues interact?

The answers to these questions seem to depend both on task and on cue

type: The majority of studies observe cue interaction (Kubovy et al., 1999;

Kubovy & Cohen, 2001; Meinhardt & Persike, 2003; Meinhardt et al., 2004,

2006; van Mierlo et al., 2007; Nothdurft, 2000; Persike & Meinhardt, 2006;

Rivest & Cavanagh, 1996), while others report independent processing

(Leonards & Singer, 2000; Pashler, 1988; Phillips & Craven, 2000; Phillips,

2001; Treisman & Gelade, 1980; Tsujimoto & Tayama, 2004). Additionally,

there is growing evidence that the effects caused by combination of visual

cuesmight not be the outcome of a hard-wired system, but rather that of a

dynamic system allowing for optimal combination depending on the reli-

ability of the cues and the nature of the task (Blake et al., 1993; Hillis et al.,

2004; Jacobs & Fine, 1999; Landy & Kojima, 2001; Oruc et al., 2003; Triesch

et al., 2002). The neuronal mechanisms underlying these behavioural

findings in humans are unclear, and the effect of cue combination on the

56

5.1. INTRODUCTION

human electroencephalogram (EEG) remains unexplored, although the

high temporal resolution of the EEGmight indicate if and when neural

responses reflect primarily the physical figure-ground properties or the

perceived saliency. Combined with behavioural measurements on cue

combination (providing evidence that cue interaction occurred), such

data could provide insights on where and when the coherent percept is

formed. Existing electrophysiological studies mainly concentrated on

the general effect of textures or figures on the EEG. They found that tex-

tures induce a texture-segregation visual evoked potential (tsVEP) with a

latency between 100 ms and 300 ms (Bach &Meigen, 1992, 1997; Bach

et al., 2000; Caputo & Casco, 1999; Fahle et al., 2003; Lamme et al., 1992).

The tsVEP is mostly a negative shift of the ‘low-level VEP’ that is similar

for a variety of cues (Bach & Meigen, 1997; Fahle et al., 2003). It shows

an early segregation component affected by the presence of low-level

differences between segregated and homogeneous patterns while not by

task-demands or attention, and a later component modulated by both

attention and task (Heinrich et al., 2007). Other studies, decomposing the

electrophysiological signal into specific frequency bands and investigat-

ing propagation of activity in these bands over time, found segregation-

specific activations in the γ-band (Eckhorn et al., 1988). In the EEG, an

early evoked activation was modulated by stimulus properties (such as

size or eccentricity) in object detection and discrimination (Busch et al.,

2004, 2006; Senkowski & Herrmann, 2002) while a late induced activation

was related to object representation (Tallon-Baudry & Bertrand, 1999).

Taken together, a common characteristic of the electrophysiological

response in both, ERP and time-frequency analysis, is an early segregation-

specific effect (around 100 ms), which is modulated by stimulus-driven,

object-based properties, and a later effect (around 200-250 ms), which is

influenced by perceptual, attentional and/or task-related factors. How-

ever, it remains unclear in what way these correlates of figure-ground

segregation are influenced by cue combination. All the effects reported

may reflect the stimulus changes caused by cue combination, since both

the physical figure-ground properties and the perceived saliency are

57

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

L R

A B

Fixation 300 ms

Blank 200 ms

Stimulus 80 ms

Blank 500 ms

Answer + Feedback

Figure 5.1: Stimulus and time course. (A) Stimulus and illustration ofshape and location of figure appearance. The original stimulus in theexperiment only consisted of the Gabor matrix on a grey background. Ifthe figure appeared within the area, outlined by the dashed black line,subjects had to press the left (L) button, if it appeared in the dark grayarea subjects had to press the right button (R). In this example, the figureis displayed on the left, with its Gabor elements differing in orientationfrom the background elements. Below the stimulus all possible shapesare depicted. (B) Time course of one trial.

altered by combined cues. Therefore, we combined psychophysical mea-

sures, ERP and time-frequency analysis in the present study to investigate

how the cue configuration (single versus combined cues) and the related

target saliency influence the human EEG in a figure detection task. The

saliency of the target was adjusted on the basis of the individual psycho-

metric functions for both single cues. This allowed us to define three

comparable saliency levels across subjects and to simultaneously control

the physical figure-ground difference. Our stimuli employed the well

documented interaction between orientation and spatial frequency as

visual cues in detection and identification tasks (Meinhardt et al., 2004,

2006), which we tested with an independent summation assumption

using d’ (see Experimental Procedures). In the present task, subjects

had to detect a 2-dimensional figure in a matrix of Gabor elements by

indicating if the figure occurred left or right from the vertical midline

(see Figure 5.1). The main experiment consisted of three cue conditions

58

5.2. RESULTS

(orientation, spatial frequency and cue combination, respectively) which

were presented with three levels of difficulty (corresponding to a correct

single cue performance of 55%, 76% and 98%, respectively). In the cue

combination condition, figure-ground differences were defined by the

superposition of the two single cue stimuli of the corresponding levels.

We evaluated in a control condition (yes-no paradigm) whether the

figure in our stimulus principally caused a segregation-specific negative

shift in the ERP and whether the ERP components observed in the main

experiment are also elicited by the pure background stimulus.

In our results, we replicate the psychophysical findings of Meinhardt

and colleagues and evaluate to what extent the physical or else the per-

ceptual stimulus properties observed influence the ERP and/or the power

progressions of specific frequency bands.

5.2 Results

Psychophysics. Thresholds of psychometric functions (i.e. points of

75%-correct performance) were similar for both single cue conditions,

respectively, and lay in the main experiment at 44.0° (standard deviation

2.2°) for the orientation and at 4.0 cpd (standard deviation 0.1 cpd) for the

spatial frequency condition. Differences in performance (see Figure 5.2)

attributed to condition or level were tested with a two factorial ANOVA

for repeatedmeasurements, which showed a significant main effect for

level (F(2,22)=137.5, p<0.001) and condition (F(2,22)=12.2, p<0.001) and

an interaction between the two (F(2,27)=5.8, p<0.01). Pairwise compar-

isons on each level revealed no differences between the two single cues

(two-tailed t-test – level 1: p=0.30; level 2: p=0.60; level 3: p=0.07). Hence,

both conditions had similar saliencies on all levels, with level 1 beneath

threshold (d’<1.0), level 2 slightly above threshold (1.0<d’<2.0), and level 3

far above threshold (d’ around or above 2.0). Cue combination signifi-

cantly improved performance on all levels (one-tailed t-test – true for

both single cues: level 1: p<0.01; level 2: p<0.001; level 3: p<0.05). This

improvement significantly exceeded performance as predicted by the lin-

ear summationmodel on levels 1 and 2 (one-tailed t-test – level 1: p=0.05;

59

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

level 1 level 2 level 3

orientation spatial frequency cue combination independent sum

de

tec

tab

ilit

y(d

’) %-c

orre

ct

50

64

76

86

92

96

98

99

Figure 5.2: Behavioural results. Shown are all cue condition plus theresults of the independent summation assumption (Equation 5.1). Cor-responding performance values, according to Equation 5.2, are denotedon the left and right y-axis. Performance for cue combination was sig-nificantly higher than for single cues on all levels (p<0.05) and exceededthe prediction of the independent summation for levels 1 (p=0.05) and 2(p<0.01).

level 2: p<0.01), but not on level 3 (p=0.49), where the improvement met

the performance limit of 100%-correct.

Event-related potentials. The ERPs were very similar across levels and

conditions, exhibiting the earliest difference in the posterior P2 com-

ponent and a later modulation of the posterior P3 component across

conditions. Figure 5.3A illustrates the ERPs near perceptual threshold

(level 2) for all conditions. The amplitude of the P2 component, which

was most prominent over occipital and parieto-occipital electrodes (see

also topographical timeline at 200ms in Figure 5.3B), was negatively

shifted on all levels in the cue combination condition and also for each

condition on level 3 (Figure 5.4A-C).

The same ERP characteristics were observed in the control condition

(Figure 5.4D), although here task and stimulus were slightly changed. The

stimulus containing only the background Gabors and hence no figure

also elicited a posterior P2 component which was diminished when a

60

5.2. RESULTS

Figure 5.3: Grand-average ERPs (n=12) and topographical timeline atlevel 2. (A) ERPs of the main experiment at all electrodes recorded. Blackarrows denote P2 and P3 component and black underlined electrodenamesmark ROI used for their analysis. (B) Voltage maps (top and backview of the head) of orientation condition at level 2, plotted in intervals of50ms.

61

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

Figure 5.4: Grand-average (solid lines) and difference ERPs (dashed lines)of main (n=12) and control experiment (n=8) at Oz electrode. (A-C) Lev-els 1-3 for each cue configuration, i.e. (A) orientation cue, (B) spatialfrequency cue and (C) cue combination. (D) Figure vs. background de-tection: shown are ERPs for conditions with no figure (nofig) and with afigure defined by the single cues orientation (ori) or spatial frequency (sf).

figure was present. This difference was similar to the one observed in the

main experiment between levels 1 and 3.

At higher latencies of the ERP, the P3 was alsomodulated by condition

and level. Again, similar to the differences we observed in the control

experiment, the easiest condition caused the highest P3 amplitude. Both

effects are more specifically investigated below.

Amplitudes and latencies of the P2 component. The earliest difference in

the ERP was an amplitude modulation of the posterior P2 component.

Based on the topography of the P2 (see Figure 5.3B) and the topographi-

cal analysis of the negative amplitude shift of this component (see below),

we defined a region of interest (ROI – see also Figure 5.3A) at central and

62

5.2. RESULTS

mediolateral posterior electrodes. Here, we measured the peak ampli-

tude and latency for each subject in a time window between 180ms and

250ms after stimulus onset. Latencies did not differ across levels and

conditions. Similar means and small standard errors indicate that the P2

occurred strictly time-locked to stimulus onset at about 207ms (mean

across configurations: 207.2ms, sd 1.1ms).

We investigated the topography of the negative shift of the P2 by

testing the voltage-maps at 208ms with two three factorial ANOVAs,

one for lateralization and one for anterior-posterior effects. To obtain

approximately equidistant electrode positions and a uniform distribu-

tion, we omitted the FP and PO electrodes in this analysis. First, we

tested for a possible lateralization by pooling electrode sites accord-

ing to lateral position (i.e. {F7, T7, P7}; {F3, C3, P3, O1}; {Fz, Cz, Pz,

Oz}; {F4, C4, P4, O2}; {F8, T8, P8}), and found a main effect for elec-

trode position (F(2,22)=48.0, p<0.001), but not for condition (F(2,22)=0.3,

p=0.72) or level (F(2,22)=0.1, p=0.94). No interactions were observed

(ELECTRODESITExLEVEL: F(3,33)=1.5, p=0.22; ELECTRODESITExCON-

DITION: F(3,31)=0.9, p=0.47; CONDITIONxLEVEL: F(4,44)=0.5, p=0.71;

ELECTRODESITExLEVELxCONDITION: F(5,55)=0.8, p=0.53). Post-hoc

t-tests revealed that the central electrode site differed from all other sites

(p<0.001). Mediolateral sites also differed from the corresponding con-

tralateral site (p<0.05) and from all other electrodes (p<0.001), while the

temporal electrodes did not differ between corresponding contralateral

sites (p=0.43), but again from all other sites (p<0.001). Second, posterior-

anterior differences were investigated by pooling electrode sites accord-

ing to anterior-posterior positions (i.e. {F7, F3, Fz, F4, F8}; {T7, C3, Cz,

C4, T8}; {P7, P3, Pz, P4, P8}; {O1, Oz, O2}). Again, we found amain effect

of electrode site (F(1,13)=4.7, p<0.05), but no effect of level (F(2,22)=0.7,

p=0.53) or condition (F(2,22)=0.6, p=0.55). Additionally, we observed

an interaction of electrode site with level (F(2,17)=17.8, p<0.001) and

condition (F(2,27)=7.6, p<0.01), but not with both (F(4,41)=1.3, p=0.29).

These results and inspection of the difference topographies (Figure 5.5)

63

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

Figure 5.5: Voltage-map differences between level 3 and level 1 for allconditions at the peak of the posterior P2 component (208ms).

show that the negative shift of the P2 amplitude was most prominent at

posterior central and mediolateral electrodes.

P2 amplitudes were now analysed in the ROI depicted in Figure 5.3A.

The means of all subjects are illustrated in Figure 5.6A. A two factorial

ANOVA for repeated measurements showed a significant main effect,

both for level (F(2,22)=6.7, p<0.01) and condition (F(1,15)=9.6, p<0.01)

but no significant interactions (F(4,44)=1.3, p=0.29). P2 amplitudes for

the two single cue conditions differed on level 1 (p<0.05) and level 3

(p<0.05) but not on level 2 (p=0.79) as revealed by a two-tailed t-test. The

amplitude of the P2 was reduced for the cue combination condition on all

levels compared to the amplitude in the spatial frequency condition (one-

tailed t-test – level 1: p<0.01; level 2: p<0.001; level 3: p<0.01), but not

compared to the orientation condition (level 1: p=0.14; level 2: p=0.15;

level 3: p=0.10). This analysis reveals that the amplitude of the P2 compo-

nent was strongly influenced by both level and cue condition. However,

the P2 amplitude showed a large variability across subjects (see large am-

plitude standard errors in Figure 5.6A) and hence the present results are

not unambiguous regarding exactly which factor reduces this component.

Therefore, in the following we compared normalized amplitude changes

with our behavioural results.

64

5.2. RESULTS

Figure 5.6: Analysis of posterior P2 component. Means of peak amplitudeand latency were computed from posterior electrodes (marked in Figure5.3) in a time window between 180ms and 250ms. (A)Mean amplitudes(n=12) and standard errors for all levels and conditions. Amplitudes dif-fer significantly between levels and conditions (p<0.01). Correspondinglatencies (and standard errors) are indicated above each bar (in ms). (B)Correlation between amplitude change of the posterior P2 component(y-axis) and figure saliency (x-axis), for all experimental conditions (sin-gle cue and cue combination). Each square denotes the P2-amplitudechange and the corresponding performance of a single subject in one ex-perimental configuration (cue condition x level). For illustration purposes,each condition is colour-coded according to the legend above. Amplitudechange is measured as the difference of amplitude between the experi-mental configuration (xs) and the individual mean amplitude (μs). Thecorrelation coefficient is -0.52 (p<0.001).

65

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

P2-amplitude and saliency. Amplitude of the P2 declined, both from lev-

els 1 to 3 and (at least partly) from single cue to cue combination. In

both cases, the task became easier, as demonstrated in Figure 5.2. Per-

formance was best on level 3 for all conditions and cue combination

was always the easiest condition. Therefore, the negative shift of the

P2 amplitude might also be a direct indicator of the figures’ saliency,

i.e. the perceived difference between the figure and its background. To

test this assumption, we correlated the individual amplitude changes

with the performance measured in the same experimental configuration

(level x condition). The amplitude change was defined as the deviation

from the individual mean (calculated of all nine individual P2-amplitude

measurements) and correlated with the individually measured d’ value

as a performance measure. The results (Figure 5.6B) illustrate a signifi-

cant correlation between amplitude reduction of the P2 component and

increasing figure saliency (correlation coefficient -0.52, p<0.001), which

revealed that a smaller P2 amplitude (deviation from individual mean)

represented an increase in perceptual saliency.

Amplitudes and latencies of theP3component. The relation of P3 changes,

observed at parietal, parieto-occipital and occipital electrodes, to cue

condition and/or level was evaluated in the ROI that was used in the anal-

ysis of the P2 component (see above and Figure 5.3). The P3 component

was defined as the positive peak in a time window between 300ms and

500ms. It had amean amplitude of 8.3μV (standard deviation 1.1μV) and

mean latency of 371.8ms (standard deviation 16.8ms). The amplitude of

the P3was significantlymodulated by the factor level (F(2,22)=8.7, p<0.01)

and by an interaction of level and condition (F(4,44)=5.7, p<0.01), but

not by the factor cue condition alone (F(2,22)=2.0, p=0.16). The latency

of the P3 was significantly modulated by level (F(1,15)=5.5, p<0.05) and

condition (F(2,22)=5.0, p<0.05). No interactionwas observed (F(2,19)=1.4,

p=0.25). The P3 component varied both in amplitude and latency across

experimental configurations. Further inspection of the results implied

that both modulations (of amplitude and latency) may also be related

to individual performance. Therefore, we correlated latencies and am-

66

5.2. RESULTS

plitude changes with the measured d’ values. Amplitude changes were

again computed as the deviation from the individual mean (see above).

Both correlationswere significant (amplitude: correlation coefficient 0.35,

p<0.001; latency: correlation coefficient 0.26, p<0.001). In our paradigm,

higher saliencies obviously caused increased P3 amplitudes and longer

latencies.

Time-frequency analysis. For all stimulus configurations, we observed a

pronounced power increase around 100ms (mean: 96.7ms; sd: 6.6ms)

in the lower γ-band (30-50Hz) and a broad power increase in the θ-band

(4-8Hz), peaking at 161.3ms (sd: 4.3ms). Both effects were most promi-

nent at posterior electrodes with a maximum at the Oz electrode whose

data are illustrated in Figure 5.7. To evaluate at these frequencies how

cue condition or level influenced the distribution of power over time,

we pooled the individual peak data of each subject across the whole fre-

quency range of the particular frequency-band. A two factorial ANOVA for

repeated measurements was performed on these data, revealing that the

early peak of the γ-band was not affected by cue condition (F(2,22)=1.7,

p=0.20) nor level (F(2,22)=1.4, p=0.26) nor an interaction between the

two (F(4,44)=1.1, p=0.38).

The peak of the θ-bandwas instead significantly influencedby saliency

level (F(2,22)=3.5, p<0.05), but not by condition (F(2,22)=2.4, p=0.12)

nor interaction (F(3,29)=0.3, p=0.89). Closer inspection revealed that

θ-activity was slightly reduced from level 1 to 3 in all cue conditions.

To evaluate whether the saliency of the figure causes a reduction in θ-

activity, we applied the same individual normalization procedure that

was used for the amplitude changes of the P2 component (see above),

and correlated the normalized power changes with the performance pa-

rameter d’. This correlation was significant (correlation coefficient: -0.33,

p<0.001), showing that θ-activity decreased with increasing d’ similar to

the effect observed for the P2 component (see Discussion). Furthermore,

a decrease in θ-activation was correlated with a decrease in P2 amplitude

(correlation coefficient: 0.49, p<0.001).

67

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

Figure 5.7: Time-frequency analysis (average of all subjects) of γ andθ-bands at electrode Oz. In both frequency bands, there was no powersuppression after stimulus onset, so only positive values occur. (A) Pro-gression of γ-activity (upper panels) and θ-activity (lower panels) as powerincreases relative to baseline (see differential colour bars) for all experi-mental configurations. (B) The data of (A) are pooled for the γ and theθ-band.

68

5.3. DISCUSSION

5.3 Discussion

Consistent with previous studies (Meinhardt & Persike, 2003; Meinhardt

et al., 2004, 2006) we observed an interaction between the orientation

and spatial frequency cues during the detection of a figure. This interac-

tion was revealed on all saliency levels by a performance benefit for cue

combination, exceeding the prediction of an independent summation

assumption. In the present study we moreover demonstrated that the

electrophysiological response reflects this performance benefit by means

of an amplitude decrease of the posterior P2 component between 150ms

and 250ms and a corresponding reduction in θ-power, indicating that

neural activity at these latencies is closely related to perception, which is

non-linearly related to the underlying cues. In addition, the posterior P3

component of the ERP increases in amplitude and latency from level 1 to

3 at higher latencies.

The P2-effect and physical stimulus properties. The figure present in the

stimulus as compared to the stimulus without a figure (Figure 5.4D)

causes the well-known segregation-specific negativity in the ERP (Bach

& Meigen, 1992, 1997; Bach et al., 2000; Caputo & Casco, 1999; Fahle

et al., 2003; Heinrich et al., 2007; Mathes et al., 2006; Mathes & Fahle,

2007). This negativity has similar characteristics for both single cues

(Figure 5.4D). Since the figure is always present in the main experiment,

the segregation-specific shift becomes considerably blurred in the ERPs

(see difference ERPs in Figure 5.4A-C). The remaining differences can

either be attributed to the different physical cue configurations or to

different saliencies. The correlation between physical figure-ground

difference and saliency (measured as performance) is given by the psy-

chometric function. The P2 amplitude modulation is clearly related to

figure saliency (Figure 5.6B), but it is not unambiguously clear that this

modulation indeed reflects the percept rather than the physical figure-

ground properties. To clarify this point, we correlated the P2 changes

with the corresponding physical single cue values, both for the single cue

and the cue combination condition (see Figure 5.8A for the orientation

69

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

cue and Figure 5.8B for the spatial frequency cue). For the cue combi-

nation condition, the increase of physical figure-ground difference from

left to right (in Figure 5.8A-B) is higher than that of the corresponding

single cue, because the value of the second cue (not visible on the x-axis)

increases similarly. As expected from the interdependence between the

saliency and the physical figure-ground difference of a given stimulus,

the modulation of the P2 also correlates with the physical differences

(orientation/cue combination: correlation coefficient -0.46, p<0.01/-0.40,

p<0.05; spatial frequency/cue combination: correlation coefficient -0.49,

p<0.01/-0.45, p<0.01), but the regression lines obtained are parallel. As

indicated above, the physical figure-ground differences increase more in

Figure 5.8A-B for cue combination, because the value of the second cue

also changes. Therefore, if the effect we observed on the P2 would directly

reflect changes of physical figure-ground differences, the regression line

for cue combination should not be parallel to the single cue regression

line but steeper. The reason that we observe parallel regression lines is

demonstrated in Figure 5.8C-D. On the behavioural level, the cue combi-

nation shifted d’ upwards by a nearly constant value leading to parallel

regression lines for the correlation between d’ and the physical figure-

ground difference. This constant shift is also reflected in the amplitude

modulation of the P2, which clearly demonstrates that the P2 amplitude

is tightly coupled to saliency changes.

P2 amplitude as a signature of saliency. The occurrence of a distinct pos-

terior P2 component is rarely observed in the literature, since N1, N2 and

P3 components are often overlapping (Luck, 2005, Chapter 1). A possible

reason might be that most ERP studies use highly salient stimuli, which,

according to our results, would cause a disappearance of the P2. When

observed, the posterior P2 component is related to object processing,

influenced by spatial attention, feature selection and object memory

(Anllo-Vento & Hillyard, 1996; Mecklinger &Muller, 1996; Tallon-Baudry

et al., 1998). Consistent with our results, a recent study reported an am-

plitude decline of the posterior P2 with increasing d’ (Kotsoni et al., 2007),

although the authors did not explicitly test this relationship. Interestingly,

70

5.3. DISCUSSION

-6

-4

-2

0

2

4

6

0 5 10 15 20 25

Difference to Background (°)

x-μ

(μV

)s

s

-2

2

4

6

d’

0

0 0.2 0.4 0.6 0.8 1.0

Difference to Background (cpd)

A B

DC

Figure 5.8: Relation of P2 amplitudemodulation and behavioural changesto figure-ground differences. (A-B) Correlation between amplitudechange of the P2 component and figure-ground difference in the stimulusfor single and combined cues. (A)Orientation cue in black (correlationcoefficient -0.46; p<0.01) and cue combination in grey (correlation coeffi-cient 0.40; p<0.05). (B) Spatial frequency cue in black (correlation coeffi-cient -0.49; p<0.01) and cue combination in grey (correlation coefficient-0.45; p<0.01). (C-D) Correlation between saliency (d’) and figure-grounddifference in the stimulus for single and combined cues. (C)Orientationcue in black (correlation coefficient 0.88; p<0.001) and cue combinationin grey (correlation coefficient 0.83; p<0.001). (D) Spatial frequency cue inblack (correlation coefficient 0.83; p<0.001) and cue combination in grey(correlation coefficient 0.74; p<0.001).

71

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

stimulus and paradigm of this study (common-onset visual masking)

profoundly differed from our study suggesting that the saliency-effect

on the P2 amplitude is robust across tasks and stimuli. This notion is

further supported by recent results from our lab, where subjects had to

identify the figure in a stimulus similar to the one reported here (Straube,

Grimsen & Fahle, submitted for publication). In this study, the same

effect of decreasing P2 amplitude with increasing d’ was observed, al-

though the task differed and the figure-ground differences required to

solve the identification task were much higher than for the detection task

described here. In summary, the P2 effect we find seems to be directly

correlated to saliency, an effect which is robust across tasks and stimulus

configurations. This finding supports the theory of a common saliency-

map (for a review see Treue, 2003) which is a cue-independent neural

representation of the object/target, formed by the combined responses of

selectively modulated neurons. The P2 modulation reported here could

well be a correlate of this saliency representation, since it is affected by

saliency irrespective the specific type of cue.

Alternatively, themodulation of the P2 could be interpreted as a corre-

late of top-down attentional resource allocation. Psychophysical studies

demonstrated that highly salient stimuli are effortlessly perceived (they

‘pop-out’ of the scene), while the same stimuli embedded in a display

with similar distractors will only be perceived when attention is directed

towards them (Nothdurft, 2000). Similarly, more difficult trials in our

study (i.e. trials of level 1) require more elaborate computation for an ap-

propriate behavioural result (correct answer). This increased processing

in more difficult trials might be mediated by attention. Then, increased

saliency means less attentional resource allocation, which is reflected in

the amplitude modulation of the posterior P2.

The neural resources performing this increased processing could

principally be situated in the earliest cortical visual areas. Neurons of the

primary visual cortex (V1) detect orientation and spatial frequency, but

interaction between these detectors is mandatory to segregate the figure

from the background. Either lateral interaction in V1 or an intermediate

72

5.3. DISCUSSION

area like the secondary visual cortex (V2) is required. It has been shown

that V2 is anatomically and functionally ideally suited for segregation

processes (Shipp & Zeki, 2002b,a). The feedback onto these very early

areas could principally originate in the lateral-occipital complex (LOC),

an area related to object processing. Indeed, it has been shown that

both, an early negative ERP-shift during processing of illusory contours

(Murray et al., 2002, 2004) and a later shift associated with closure of

contours (Doniger et al., 2000, 2001; Sehatpour et al., 2006) are located

in LOC. On the other hand, the detection of a figure can rely on local

differences or object parts in the stimulus, so the percept of the object

is not necessary for successful detection. Therefore, it is questionable if

the LOC is really involved in our paradigm, because the figure-ground

differences in our stimulus may not be sufficient to activate LOC.

Time-frequency analysis. All stimuli evoked a clear peak in the γ-band

around 100ms (see Figure 5.7). This activation of the γ-band is known to

occur strictly time-locked in object detection and discrimination tasks

(Busch et al., 2004, 2006; Senkowski & Herrmann, 2002). However, we

could not provide evidence that this early activation is sensitive to cue

condition or saliency, since there was no significant effect of any of these

on the γ-peak. Induced activations at higher latencies that have been

hypothesized to be involved in object representation (Tallon-Baudry &

Bertrand, 1999) were not observed in our study (compare Figure 5.7). As

argued above, the recognition of the figure was not necessary for success-

ful detection, so there was no real need for an object representation.

Similar to the reduction of the P2 amplitude, we observed a decrease

of θ-activation with increasing saliency and, akin to the P2 component,

modulations of the θ-band have been reported for short termmemory

and selective attention (Basar et al., 1999). The temporal resolution of a

wavelet analysis at such low frequencies is rather poor (i.e. at 4Hz a single

wavelet with 6 cycles has a time span of 1500ms), so the latency of the

θ-peak is necessarily imprecise. Nevertheless, the timing and direction of

changes observed are strikingly similar to the effect on the P2 observed

and a significant correlation was revealed. Furthermore, the P2 has a

73

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

strong θ-component and the peak of the θ-band is mainly evoked (and

not induced), as was tested by analyzing θ-activity in the ERP. Therefore,

both effects strongly depend on each other, if they are not the same. In

summary, the effect of increased saliency is reflected by a decrease in P2

amplitude and a decrease in θ-activation.

The P3 component near perceptual threshold. About 150ms after the P2

effect, we observed a second modulation in the ERP which influenced

amplitude and latency of the posterior P3 component. The P3 is an ex-

tensively studied ERP component which is elicited in a large variety of

paradigms, and it has been shown that it is a major endogenous com-

ponent often related to decisionmaking and response certainty (for an

overview see Fabiani et al., 2000; Key et al., 2005; Luck, 2005, Chapter

1). Consistent with the literature (Picton, 1992; Polich & Kok, 1995), we

observe higher P3 amplitudes in trials where subjects were more certain

of their response. Accordingly, we find a positive correlation between

P3 amplitude and saliency, because -in our paradigm- higher response

certainty is at least partly mediated by higher saliency.

However, we also observe increasing P3 latencywith increasing saliency

as opposed to the classical view (Polich & Kok, 1995; Polich, 2004) that

postulates increased latencies for more difficult trials. Generally, the

figure in our stimulus is hardly visible and it has been shown that visual

noise distorts the P3 (McCarthy & Donchin, 1981). Most research on the

P3 has been performed with highly salient stimuli and hence our result

of increased latency may reflect the emergence of the P3 out of noise.

Possibly some classical characteristics of the P3, such as a negative corre-

lation between latency and amplitude, do not hold close to the perceptual

threshold.

5.4 Conclusions

In agreement with existing studies, we demonstrated that orientation

and spatial frequency interact as visual cues during figure detection.

Differences in the recorded potentials are strongly coupled with saliency

74

5.5. EXPERIMENTAL PROCEDURE

irrespective of the precise cue configuration, as revealed by an amplitude

decrease of the posterior P2 component and a reduction in θ-activity with

increasing saliency. No direct correlates of the physical stimulus changes

were observed, although we varied cue configuration (i.e. cue type and

number of cues) and cue intensity. This observation indicates that after

200ms, a target representation is established which is independent of the

precise type of cues. According to this view, it should make no difference

for the neural response if the figure-ground difference is increased by

higher cue intensity alone, an additional cue, or both.

5.5 Experimental Procedure

Subjects. Twelve undergraduate students (4 men, 8 women) aged be-

tween 21 and 28 years (mean 24.1, standard deviation 2.5) participated in

this study. All participants had normal or corrected-to-normal vision as

assessed by means of the Freiburger Visual Acuity Test (Bach, 1996) and

reported no neurological or psychiatric disorders. All subjects were naive

to task and stimulus. Each subject was informed about the nature and

the purpose of this study and gave written consent to participate. The

study was conducted in accordance with The Code of Ethics of the World

Medical Association (Declaration of Helsinki).

Task and stimulus. The stimulus consisted of a matrix of 33 x 25 Gabor

patches on a grey background, as demonstrated in Figure 5.1A, which

were presented at a distance of 70 cm on a Samsung Syncmaster 1100 MB

monitor with a resolution of 1600 x 1200 pixels at a frame rate of 100Hz.

The Gabor patches had a centre-to-centre distance of 1° of visual angle

and a size defined by the width of the Gaussian envelope of �=10 arcmin.

The target figure was part of this matrix with its elements differing from

the background either in orientation, spatial frequency, or both (cue

combination). The background elements had a spatial frequency of

3.5 cpd (cycles per degree) and an orientation of 36°.

In a two-alternative forced choice task, subjects had to indicatewhether

the figure occurred left or right of the vertical midline of themonitor. This

75

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

position (left/right) was varied in a pseudorandomized order. Correct

detection was complicated by two further uncertainties: First, there was

a randomized positional jitter with the limitation that outer edges of the

figure were nomore eccentric than 7° of visual angle (in horizontal and

vertical direction) and that inner edges always intruded into the oppo-

site half of the visual field by 1° (Figure 5.1A). Second, the figure was

presented in one of eight possible versions (Figure 5.1A bottom). The

procedure of the experiment was as follows: A trial started with a fixation

period (300ms – black fixation point) followed by a blank screen (200ms).

Subsequently, the stimulus appeared for 80ms, again followed by a blank

screen (500ms). Finally, a small white square in the centre of the screen

indicated the answering period. There was no time limit for this period,

so subjects were free to answer whenever they wanted to (Figure 5.1B).

Auditory error-feedback was given (a 2000Hz tone for 100ms). The back-

ground colour of the monitor was grey during the whole sequence of

each trial.

Procedure

Training. Subjects were familiarized with the task and stimulus during

training sessions with a highly salient figure. These sessions were con-

ducted for both single cue conditions (30 trials per session), with the

figures’ Gabor elements oriented at 86° (i.e. 50° difference to the back-

ground) in the orientation condition, and with a spatial frequency above

5 cpd (i.e. 1.5 cpd difference to the background) in the spatial frequency

condition. The training session ended when observers reached at least 90

percent correct answers, otherwise the training was repeated. No subject

needed more than two repetitions.

Psychometric Functions of Single Cues. Saliency levels of the main exper-

iment were defined by the percent correct (pc) performance in the single

cue conditions. These performances were estimated by measuring the

psychometric functions for the detection of a figure purely defined by

a difference in orientation or else spatial frequency. The psychometric

76

5.5. EXPERIMENTAL PROCEDURE

function was characterized by its slope (�) and by the turning point (μ).

These parameters were used to evaluate the figure-ground difference

leading to the aspired performances (see below). The goodness of the

fit was evaluated with a chi-square test. Measurements were repeated in

case of insufficient fit.

To achieve an accurate measure of the psychometric function, we

used both an adaptive staircase procedure and themethod of constant

stimuli (MCS). First, we estimated thresholds –defined as the figure-

ground difference corresponding to 75 percent correct performance–

and slope of the psychometric function using the QUESTmethod (Wat-

son & Pelli, 1983) with 50 trials. Second, we validated these results using

aMCS by pseudorandomizing five values of the estimated function (pa-

rameters corresponding to a correct performance of 55%, 65%, 75%,

85% and 95%) andmeasuring the performance corresponding to these

values with 30 trials per value (i.e. 150 trials per MCS).

The psychometric functions thus measured were then used for the

main experiment.

Main Experiment. The three conditions of the main experiment were:

detection of a figure defined by a figure-ground difference in i) orienta-

tion (single cue), ii) spatial frequency (single cue) or iii) orientation and

spatial frequency (cue combination). Each condition was tested with

three levels of difficulty, which were derived from the psychometric func-

tions of the single cue conditions (see above). These levels were defined

as stimuli corresponding to a correct performance of 55%, 76% and 98%,

respectively. The values of both cues were combined for the correspond-

ing level in the cue combination condition. For instance, on level 1 of the

cue combination condition, the Gabor patches of the figure displayed the

figure-ground difference corresponding to level 1 regarding both single

cue conditions. Each configuration (condition x level) was repeated 100

times and presented in a pseudo-randomized order. Therefore the main

experiment consisted of three runs (one run=one condition, 300 trials

per run), with a sequence counterbalanced between subjects. All partic-

77

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

ipants were instructed to blink only during the answer phase to avoid

blink artefacts in the time span of the ERP.

Control Experiment – Figure present or not? Eight subjects performed the

control experiment in the same session. Stimulus, sequence and position-

ing of the figure were the same as in the previous experiments, but here

the stimulus either contained a figure or else none. Subjects reported

the presence of the figure in a yes-no detection paradigm. When a figure

was present, it consisted of the single cue differences (either spatial fre-

quency or orientation) corresponding to level 3. Trials without the figure

contained only the background elements described above. The control

experiment again consisted of 300 trials (100 trials per cue condition plus

100 trials without any figure).

Electrophysiological Recording. The electroencephalogram (EEG) was

recorded in the main experiment from 25 recording sites (FP1, FP2, F7,

F3, Fz, F4, F8, T7, C3, Cz, C4, T8, P7, P3, Pz, P4, P8, PO7, PO3, POz,

PO4, PO8, O1, Oz, O2) chosen from standard electrode positions (Ameri-

can Electroencephalographic Society, 1994) using Ag/AgCl sintered elec-

trodes placed in an electrode cap (Easycap, Herrsching-Breitbrunn). Elec-

trode Cz served as reference during data acquisition. The data were

re-referenced off-line to the averaged earlobes (A1 and A2) to allow a

direct comparison with published studies. Electrode impedance was

kept below 10k�. Eye movements, such as blinks, were monitored with

two additional electrodes above and lateral to the left eye. The electrode

potentials were amplified using a Nihon Kohden system (Neurofax EEG-

1100). During recording, a time constant of 0.3 s (cutoff frequency: 0.5Hz)

and a high-frequency cutoff of 120Hz were used. The EEG was digitized

at a sampling rate of 500Hz.

Data Analysis

Performancemeasures and independent summationmodel. The work by

Meinhardt and colleagues demonstrated that orientation and spatial

78

5.5. EXPERIMENTAL PROCEDURE

frequency interact as visual cues for detection and identification (Mein-

hardt & Persike, 2003; Meinhardt et al., 2004, 2006). Interaction during

cue combination can be tested by comparing the actual performance

for combined cues with the prediction of an independent summation

assumption of both single cues. Under this assumption, provided by

signal detection theory, independent cue processing should produce a

combined performance (d ′⊥) that is based on the performances of the

single cues alone, according to

d ′⊥ =

√(d ′

f )2+ (d ′

φ)2, (5.1)

(Ashby & Townsend, 1986; Green & Swets, 1988, p.271 ff.; Macmillan &

Creelman, 1991, p. 240 ff.). The parameter d’ is a measure of the dis-

tance between the noise and signal distributions, hence an increase in

d’ denotes an increase in performance. The two single-cue distributions

(index f for spatial frequency cue, indexφ for orientation cue) are orthog-

onal to each other in case of independent summation (d ′⊥) (Tanner, 1956),

so the resulting perceptual object saliency is defined by the Euclidean

distance between them.

Percent correct performance in a 2-alternative forced choice task and

d’ are related by

d ′ =�2∗Θ−1(pc). (5.2)

Here,Φ is the normal distribution function, and thereforeΦ−1(pc) givesthe z-score of the percent correct value (Macmillan & Creelman, 1991,

p. 124 ff.). Due to this direct relationship, we can rescale performance

values to d’ and evaluate the prediction of the independent summation

model (see Equation 5.1).

In the case of perfect performance (100%-correct) the value of d’

becomes infinite. In order to compute a finite value of d’ in this case,

we set its value to a maximum of 4.0, which corresponds to a correct

performance of 99.8% according to the relationship in Equation 5.2.

79

KAPITEL 5. SALIENCY-ERP & DETECTION TASK

Event-related potentials. ERPs were investigated in a time span from

-100ms to 500ms relative to stimulus onset, filtered with a 30Hz (slope

24dB/oct) low-pass filter prior to averaging. Trials with blink artefacts,

large eye movements, extensive muscle activity or other noise transients

within this time span were rejected automatically on all recorded chan-

nels through an amplitude limitation of ±70μV (5 subjects at ±100μV)

and by visual inspection. Further control of eyemovement was not neces-

sary, since saccades to specifically search for the figure were not possible

due to the short stimulus duration (80ms). Only trials with correctly

detected stimuli were included in the analysis. Remaining trials after arte-

fact rejection for each level (mean and standard deviation) were: 63 trials

(sd 7 trials) for level 1, 81 trials (sd 9 trials) for level 2 and 88 trials (sd

3 trials) for level 3.

Themean signal of the 100ms time window prior to stimulus onset

served for baseline correction. Filtering, artefact rejection and ERP gener-

ation were performed using BESA 5.1.8 software (MEGIS Software GmbH,

Munich). Evaluation of grand average ERPs was carried out with in-house

software usingMatlab (Release 12.1, TheMathWorks Inc., Massachusetts).

Amplitudes were defined as distance to baseline.

Time-frequency analysis. Trials with artefacts identified in the ERP anal-

ysis were also not included in the time-frequency analysis, which was

computed over a time span from -1500 ms to 1250 ms relative to stimulus

onset to avoid border artefacts. We used aMorlet basedwavelet transform

with a width of 6 cycles for the inspection of power changes of defined

frequencies (4–80Hz). The core routine was provided by Torrence and

Compo (1998). Only trials with correctly identified stimuli were included

in the analysis (see above). In contrast to the ERP analysis, the data were

not filtered to avoid filter distortions. We investigated normalized me-

dian power values of total activity (evoked and induced – for details see

Herrmann et al., 2005). The procedure was as follows: For each subject

separately, we computed the power values (in μV²) in each trial for each

frequency (f ) and summarized all trials by taking the median power at

each frequency and time point. Moreover, we normalized the power

80

5.5. EXPERIMENTAL PROCEDURE

value (Pf ) at each time point t by the mean of the baseline power (P̄0f )

according to

Pnormf (t )=

Pf (t )− P̄0f

P̄0f

. (5.3)

Therefore the resulting normalized power value (Pnormf ) at time has no

unit and represents the activity in proportion to baseline activity. As

baseline, we used the time window 750ms prior to stimulus onset. Since

the normalization factor (P̄0f ) here is frequency-dependent, the normal-

ization also accounts for the fact that high frequencies have less power in

the EEG than low frequencies do. Hence, the normalized power values

represent the frequency-specific increase compared to baseline power.

Finally, the normalized data were averaged over all subjects. Due to

nine experimental configurations (condition x level) we obtained nine

time-frequency plots for each electrode.

Statistics. The statistical analysis was performed using SPSS 15.0 (SPSS

Inc., Chicago). All results (performance, ERPs and time-frequency analy-

sis) were validated by using repeatedmeasurement ANOVAs. Wherever

appropriate, p-values were adjusted by Greenhouse-Geisser corrections.

Pairwise comparisons were conducted by using post-hoc t-tests. The cor-

relations computed in this study report Pearson’s correlation coefficient.

Acknowledgements

We would like to thank C. Grimsen for invaluable support throughout the

project.

81

Kapitel 6

Electrophysiological correlates of

figure-ground segregation

directly reflect perceptual

saliency

Sirko Straube, Cathleen Grimsen &Manfred Fahle

Abstract

During visual processing, we constantly separate figures from their back-

ground. It is currently under debate whether multiple figure cues are

processed independently. We investigated the influence of different cue

configurations on the human EEG in a figure identification task. In a

Gabor matrix, either spatial frequency, orientation or both (cue combi-

nation) served as figure cues. Psychophysically, we observed an inter-

action for cue combination. Combining psychophysics with ERP and

time-frequency analysis, we show that the neural response at a latency

of 200 ms reflects perceptual saliency rather than physical cue contrast.

Increasing saliency caused a negative shift of the posterior P2 compo-

nent coinciding with a decrease in the posterior θ-band (4-8Hz), while

83

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

decision confidence was reflected in the posterior P3. We demonstrate

that visual cues interact for a percept that is non-linearly related to the

physical figure-ground properties.

6.1 Introduction

When looking at a visual scene, we simultaneously identify different ob-

jects without caring about the visual features underlying this percept.

However, we often recognize objects based on a conjunction of cues

instead of using only one single visual cue (e.g. depth, colour or orienta-

tion in space). The percept of the object is coherent, meaning that the

information from various cues is integrated by the visual system.

To what extent is it easier to perceive an object defined by multiple

cues instead of one defined by a single cue? Several behavioural studies

dealing with cue combination tried to answer this important question

with the result that combination seems to depend on task and cue type.

Therefore, the amount of behavioural benefit from cue combination is

still under debate, with the majority of studies observing cue interaction

(Abele & Fahle, 1995; Kubovy et al., 1999; Kubovy & Cohen, 2001; Mein-

hardt & Persike, 2003; Meinhardt et al., 2004, 2006; van Mierlo et al., 2007;

Nothdurft, 2000; Persike & Meinhardt, 2006; Rivest & Cavanagh, 1996),

while others find independent processing (Leonards & Singer, 2000; Pash-

ler, 1988; Phillips & Craven, 2000; Phillips, 2001; Treisman & Gelade, 1980;

Tsujimoto & Tayama, 2004). A deeper understanding of the underly-

ing processes could be provided by electrophysiological measurements

which allow to link physical stimulus properties and behavioural mea-

surements with the timing of the neural response and are therefore ideal

to examine the effect of cue combination on figure-ground segregation.

Although a number of electrophysiological studies investigated the effect

of figure-ground segregation on the electroencephalogram (EEG), there

is no study specifically testing the effect of cue combination. Hence, an

electrophysiological correlate of the combination process is still missing.

At least it is known from a lot of studies that segregation of textures and

figures causes a similar segregation-specific negative potential shift for a

84

6.1. INTRODUCTION

number of cues, suggesting that objects are recognized by the visual sys-

tem with a high temporal and spatial congruence across cue types. This

shift occurs between 100 ms and 300 ms in the event-related potential

(ERP) and was termed the texture-segregation visual evoked potential

(tsVEP – Bach &Meigen, 1992, 1997; Bach et al., 2000; Caputo & Casco,

1999; Fahle et al., 2003). Similarly, a contour-specific negative response

was found for contour integration paradigms (Mathes et al., 2006; Mathes

& Fahle, 2007), whereas later parts (maximally at 290 ms) were associ-

ated with closure processes (Doniger et al., 2000, 2001). Even when the

contour was not physically present (i.e. it was illusory), an early negative

modulation of the ERP was reported (Herrmann & Bosch, 2001; Murray

et al., 2002, 2006). Although these potentials occur partly at different

latencies in the ERP and likely reflect different aspects of object recog-

nition, it seems to be a common observation that the ERP is negatively

modulated when objects are recognized.

An alternative way of looking at the electrophysiological response to

a given stimulus is the investigation of specific frequency modulations

in the EEG over time. Here, segregation-specific activity has been found

in the γ-band (Eckhorn et al., 1988) and it has been shown that an early

evoked activation in the γ-band is sensitive to stimulus properties in

object detection and discrimination (Busch et al., 2004, 2006; Senkowski

&Herrmann, 2002), while an induced activation at higher latencies seems

to be involved in object representation (Tallon-Baudry & Bertrand, 1999).

Both effects, the segregation-specific negativity of the ERP and the mod-

ulation of the γ-band are closely related to figure-ground segregation,

which suggests that bothmay be sensitive to cue combination and/or the

corresponding effect on the saliency of an object.

In the present study we specifically investigate for the effect of cue

combination and the related saliency changes on the human EEG (both,

ERPs and specific frequency bands). Combining signal-detection the-

ory and electrophysiology, we tested how the identification of a figure is

altered by the underlying cue configuration, specifically by comparing

single cues with cue combination, and how these changes influence the

85

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

electrophysiological data. The paradigm is inspired by work fromMein-

hardt and colleagues who found an interaction in psychophysical tests

when combining orientation and spatial frequency as visual cues (Mein-

hardt et al., 2004, 2006). They also reported differences in cue interaction

between detection and identification tasks. Here, we concentrate on iden-

tification by using a figure discrimination task requiring identification of

the target. Segregation of the figure from its background is not sufficient

to solve this task but a classification is required. According to the results

of Meinhardt et al., we expect a synergy effect for cue combination on the

behavioural level. Our study focuses on the earliest electrophysiological

changes (ERP and/or time frequency analysis) that can be attributed

either to the physical properties of the stimulus and/or the percept. Due

to the fact that orientation and spatial frequency interact as visual cues

during figure-ground segregation, the expected changes should occur

in the time range of the segregation specific negativity of the ERP (i.e.

between 100ms and 300ms). As outlined above, we also consider the

γ-band (evoked and induced activity) as a candidate, possibly reflecting

the cue configuration of the target or the perceived saliency of the figure.

6.2 Materials andMethods

Subjects

Twelve undergraduate students (6 men, 6 women) aged between 22 and

27 (mean 23.7, sd 1.3) participated in this study. All participants had nor-

mal or corrected-to-normal vision as assessed bymeans of the Freiburger

Visual Acuity Test (Bach, 1996) and reported no history of neurological or

psychiatric disorders. Each subject was informed about the nature and

the purpose of this study and gave written consent to participate. The

study was conducted in accordance with The Code of Ethics of the World

Medical Association (Declaration of Helsinki) and approved by the local

ethics committee.

86

6.2. MATERIALS AND METHODS

Task and Stimulus

The stimulus consisted of a matrix of 33 x 25 Gabor patches on a grey

background, as demonstrated in Figure 6.1A, which were presented at a

distance of 70 cm on a Samsung Syncmaster 1100MBwith a resolution

of 1600 x 1200 pixels at a frame rate of 100Hz. The Gabor patches had

a centre-to-centre distance of 1° visual angle and a size defined by the

width of the Gaussian envelope of �=10arcmin. The target figure was

part of this matrix with its elements differing from the background either

in orientation, spatial frequency, or both (cue combination). Parameters

of background elements were set to arbitrary values, exhibiting a spatial

frequency of 3.5 cpd (cycles per degree) and an orientation of 36°.

Subjects had to discriminate between twomirror-symmetrical figures

in a binary forced choice task (Figure 6.1B). The figures were presented in

a pseudorandomized order and subjects had to press one of two buttons

to indicate whether they identified Figure 1 or 2. The position of the

figure was varied randomly, with a maximum centre-to-centre distance

of 3° (centre stimulus to centre target), and the figure was moreover

randomly rotated into one of four orientations. Due to these variations,

subjects had to recognize the whole figure in order to solve the task. It

was impossible to answer correctly from detecting only part of the figure

due to its asymmetrical form. The procedure was as follows: A single trial

started with a fixation period (300ms – black fixation point) followed by

a blank screen (200ms). Subsequently, the stimulus (Gabor matrix as

illustrated in Figure 6.1A) appeared for 80ms, again followed by a blank

screen (500ms). Finally, a small white square in the centre of the blank

screen indicated the answer period. There was no time limit for this

period, so subjects were free to answer whenever they wanted to (Figure

6.1C). Auditory feedback was given for incorrect answers (2000Hz tone

for 100ms). The background colour of the monitor was grey during the

whole sequence of one trial.

87

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

Fixation 300 ms

Blank 200 ms

Stimulus 80 ms

Blank 500 ms

Answer +Feedback

A B

C

Figure 1 Figure 2

90°

180°

270°

Rotation

Figure 6.1: Stimulus and task. (A) Amatrix of Gabor elements containinga figure (shown here is the cue combination condition). The dashedline is shown for illustration purposes only and was not present in theoriginal stimulus. All background elements had the same orientation andspatial frequency. Figure elements differed either in orientation, spatialfrequency or both (cue combination). (B) Subjects had to discriminatebetween two mirror symmetrical figures, which were presented randomlyat one of four orientations. Figure 1 is rotated counterclockwise (indicatedby arrow), while Figure 2 is rotated clockwise, so that opposite pairs arealways mirror images. (C) Sequence of one trial. The white square at theend of each trial indicated the answering period, which had no time limit.Auditory error feedback was given.

88

6.2. MATERIALS AND METHODS

Procedure

Training. To ensure that all subjects were able to identify the figure prop-

erly, they were trainedwith a highly salient figure prior to the experiments.

Training sessions were conducted for both single cue conditions (30 tri-

als per session), with the figures’ Gabor elements having an orientation

of above 86° (i.e. 50° difference to the background) in the orientation

condition and a spatial frequency above 5 cpd (i.e. 1.5 cpd difference

to the background) in the spatial frequency condition, respectively. If

the subject reached an accuracy of at least 90 percent correct answers,

the training session was finished, otherwise it was repeated. No subject

needed more than one repetition.

Psychometric Functions of SingleCues. The levels of difficulty in themain

experiment were defined by the percent correct (pc) performance in the

single cue conditions. Performance was estimated by measuring the

psychometric functions for the identification of a figure defined purely

by a difference in orientation or else spatial frequency. Any parameter-

performance pair can be evaluated in this way due to the fact that the

psychometric function is characterized by the location of a perceptual

threshold and by its slope.

To achieve an accurate measure of the psychometric function, we

sequentially used both an adaptive staircase procedure and the method

of constant stimuli (MCS). First, we estimated the threshold – defined as

the figure-ground difference corresponding to 75 percent correct perfor-

mance – and the slope of the psychometric function using the QUEST

method (Watson & Pelli, 1983) with 50 trials. Second, we validated these

results with the MCS by taking 5 values of the estimated function (param-

eters corresponding to a correct performance of 55%, 65%, 75%, 85%

and 95%) presented pseudorandomized with 30 trials per configuration,

which leads to 150 trials per MCS.

The psychometric functions thus measured were then used for the

main experiment.

89

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

Main Experiment. Three conditions were tested in the main experiment:

identification of a figure defined by a figure-ground difference in i) orien-

tation (single cue), ii) spatial frequency (single cue) or iii) orientation and

spatial frequency (cue combination). Each of these conditions was tested

with three levels of difficulty, which were derived from the psychometric

functions of the single cue conditions (see above). These levels were de-

fined as stimuli corresponding to a correct performance of 55%, 76% and

98%, respectively. In the cue combination condition, figure-ground dif-

ferences were defined by the superposition of the two single cue stimuli

of the corresponding levels. For instance, on level 1 of the cue combi-

nation condition, the Gabor patches of the figure had a figure-ground

difference corresponding to level 1 regarding both single cue conditions.

Each configuration (condition x level) was repeated 100 times and pre-

sented in pseudo-randomized order. Therefore, the main experiment

consisted of three runs (one run=one condition, 300 trials per run), with

the sequence counterbalanced between subjects. All participants were

instructed only to blink during the answer phase to avoid blink artefacts

in the time span of the ERP.

Control Experiment – Figure versus Background. In a separate session,

five of the subjects that took part in the main experiment performed

a control experiment. The purpose of this experiment was to evaluate

whether the figure in our stimulus by itself caused a segregation-specific

negative shift in the ERP and whether the rarely observed P2 component

(see Results and Discussion) is also observed in the pure background

stimulus with a slightly modified task.

Stimulus, sequence and positioning of the figure were the same as in

the previous experiments, but here the stimulus either contained a figure

or else none. Subjects reported the presence of the figure in a yes-no

detection paradigm. When a figure was present, it consisted of the single

cue differences (either spatial frequency or orientation) corresponding to

level 3. Trials without the figure contained only the background elements

described above. The control experiment again consisted of 300 trials

(100 trials per cue condition plus 100 trials without any figure).

90

6.2. MATERIALS AND METHODS

Electrophysiological Recording. The EEG was recorded in the main ex-

periment from 25 recording sites (F7, F3, Fz, F4, F8, T7, C3, Cz, C4, T8,

P7, P3, Pz, P4, P8, PO7, PO3, POz, PO4, PO8, O1, Oz, O2, O9, O10) chosen

from standard electrode positions (American Electroencephalographic

Society, 1994) using Ag/AgCl sintered electrodes placed in an electrode

cap (Easycap, Herrsching-Breitbrunn). For the control experiment, we

reduced this configuration to 11 recording sites (Fz, C3, Cz, C4, Pz, PO3,

POz, PO4, O1, Oz, O2). The average of both earlobe electrodes (A1 and A2)

served as the reference and electrode impedance was kept below 10k�.

Eye movements, such as blinks, were monitored with a combined elec-

trode pair above and lateral to the left eye. The EEG activity was amplified

using a Nihon Kohden system (Neurofax EEG-1100). During recording,

a time constant of 0.3 s (cutoff frequency: 0.5Hz) and a high-frequency

cutoff of 120Hz were used. The EEG was digitized at a sampling rate of

500Hz.

Data Analysis

Psychophysics. The relationship between figure-ground difference and

perceptual saliency (measured in percent correct) is not linear due to the

sigmoidal form of the psychometric function. Close to threshold, a small

variation in physical figure-ground difference has a strong impact on the

observers’ performance. In contrast, this impact will be much weaker

close to performance boundaries, i.e. close to both floor and ceiling of

performance. Therefore, we rescaled the percent correct values into units

of the sensitivity measure d’ to linearize the measured object saliency

according to the underlying sensory process. The relationship between d’

and percent correct in a 2-alternative-forced choice task is given by

d ′ =�2∗Θ−1(pc). (6.1)

Here,Θ is the normal distribution function, and thereforeΘ−1(pc) givesthe z-score of the percent correct value (Macmillan & Creelman, 1991, p.

124 ff.).

91

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

In case of perfect performance (100%-correct) the value of d’ becomes

infinite. In order to compute a finite value of d’ in this case, we set its

value to a maximum of 4.0, which corresponds to a correct performance

of 99.8% according to the relationship in Equation 6.1.

To characterize the perceptual benefit of cue combination, we com-

pared our results with an independent summation assumption. If ori-

entation and spatial frequency are processed by independent neural

pathways, the increase in performance is predicted by signal detection

theory according to

d ′⊥ =

√(d ′

f )2+ (d ′

φ)2, (6.2)

(Ashby & Townsend, 1986; Green & Swets, 1988, p. 271 ff.; Macmillan

& Creelman, 1991, p. 240 ff.). The parameter d’ denotes the distance

between the mean of the noise distribution and the particular signal dis-

tribution. The two single-cue distributions (index f for spatial frequency

cue, index φ for orientation cue) are orthogonal to each other in case of

independent summation (d ′⊥) (Tanner, 1956). Therefore, the resulting

perceptual object saliency is defined by the distance between them.

Event-related potentials. To investigate ERPs, 30Hz (slope 24dB/oct)

low-pass filtered averages were used. We examined a time span from

-100ms to 500ms relative to stimulus onset. Trials with blink artefacts,

large eye movements, extensive muscle activity or other noise transients

within this time span were rejected automatically on all recorded chan-

nels through an amplitude limitation of ±70μV (2 subjects at ±100μV)

and by visual inspection. Further control of eyemovement was not neces-

sary, since saccades to specifically search for the figure were not possible

due to the short stimulus duration (80ms). Only trials with correctly

identified stimuli were included in the analysis. Remaining trials after

artefact rejection for each level in mean and standard deviation (sd) were:

67 trials (sd 9 trials) of level 1, 83 trials (sd 8 trials) of level 2 and 92 trials

(sd 2 trials) of level 3.

92

6.2. MATERIALS AND METHODS

The mean signal of the 100ms time window prior to stimulus on-

set served for baseline correction. The ERPs were sorted according to

stimulus level and to the observers’ answers. Filtering, artefact rejection

and ERP generation were carried out using BESA 5.1.8 (MEGIS Software

GmbH, Munich). Grand average ERPs, amplitude and latency measure-

ments of components were computed with in-house software using Mat-

lab (Release 12.1, The MathWorks Inc., Massachusetts). Amplitudes were

defined as distance to baseline.

Time-frequency analysis. AMorlet based wavelet transform with a width

of 6 cycles was used for the inspection of power changes within defined

frequency bands (4–80Hz). The core routine was provided by Torrence

and Compo (1998). Trials with artefacts identified in the ERP analysis

were again not included in the time-frequency analysis, which was com-

puted over a time span between -1500ms and 1250ms relative to stimulus

onset to avoid border artefacts. Only trials with correctly identified stim-

uli were included in the analysis. In contrast to the ERP analysis, the

data were not filtered. We investigated normalized median power values

of total activity (evoked and induced – for details see Herrmann et al.,

2005). The procedure was as follows: For each subject separately, we

computed the power values (in μV²) in each trial for each frequency (f )

and summarized all trials by taking the median power at each frequency

and point in time. Moreover, we normalized the power value (Pf ) at each

time point t by the mean of the baseline power (P̄0f ) according to

Pnormf (t )=

Pf (t )− P̄0f

P̄0f

. (6.3)

Therefore the resulting normalized power value (Pnormf ) at time has no

unit and represents the activity relative to baseline. As baseline, we

used the time window 750ms prior to stimulus onset. Since the nor-

malization factor (P̄0f ) is frequency-dependent, the normalization also

accounts for the fact that high frequencies have less power in the EEG

93

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

than low frequencies. Hence, the normalized power values represent the

frequency-specific increase compared to baseline power.

Finally, the normalized data were averaged over all subjects. We ob-

tained nine time-frequency plots for each electrode for the nine experi-

mental configurations (condition x level).

Statistics. Statistical analysis was performed using SPSS 12.0 (SPSS Inc.,

Chicago). All results (performance, ERPs and time-frequency analysis)

were validated by using repeatedmeasurement ANOVAs. Wherever ap-

propriate, p-values were adjusted by Greenhouse–Geisser corrections.

Pairwise comparisons were conducted by using post-hoc t-tests. The cor-

relations computed in this study report Pearson’s correlation coefficient.

6.3 Results

Psychophysics. The measurement of the psychometric functions for

both single cue conditions in the main experiment revealed similar

thresholds (points of 75 %-correct performance) for all subjects, which

lay at 50.8° (sd 2.2°) for the orientation and at 4.7 cpd (sd 0.2 cpd) for

the spatial frequency condition. Figure 6.2 shows an increase in per-

formance from levels 1 to 3 in all conditions. Furthermore, both single

cue conditions had similar saliencies at all levels, with level 1 beneath

threshold (d’<1.0), level 2 slightly above threshold (1.0<d’<2.0), and level 3

way above threshold (d’>2.0) and close to the performance limit. A two

factorial ANOVA for repeated measurements showed a significant main

effect for both level (F(2,22)=70.0, p<0.001) and condition (F(2,22)=14.2,

p<0.001), whereas we observed no significant interactions (F(4,44)=2.3,

p=0.08). Pairwise comparisons of the three conditions on each level

yielded no differences between the two single cue performances (two-

tailed t-test – level 1: p=0.35; level 2: p=0.19; level 3: p=0.57), while there

was a significant improvement for the cue combination (one-tailed t-test

– true for both single cues: level 1: p<0.01; level 2: p<0.001; level 3: p<0.05).

Hence, the combination of both cues increased object-saliency compared

to single cues on all levels. On levels 1 and 2, the perceptual improve-

94

6.3. RESULTS

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

level 1 level 2 level 3

orientation spatial frequency cue combination independent sum

50

64

76

86

92

96

98

99

dis

crim

inab

ilit

yd

%-c

orrect

Figure 6.2: Psychophysical Results. Performance in the three experimen-tal conditions plus performance predicted by the independent summa-tion model (estimated from single cue performances of each subject).Performance is indicated by d’-values (left axis) and corresponding valuesof %-correct (right axis). Performance differs significantly between levelsand conditions (levels: p<0.001; conditions: p<0.001). Performance forcue combination stimuli is significantly higher than predicted by inde-pendent summation (p<0.05) for levels 1 and 2.

ment by cue combination was significantly higher (p<0.05, one-tailed

t-test) than what would be expected by the applied independent summa-

tionmodel (see Materials andMethods), indicating a synergy effect. At

level 3 the improvement reached a ceiling due to the performance limit

of 100%-correct.

Event-related potentials. All three conditions elicited very similar ERPs.

An example is illustrated near the perceptual threshold (level 2) in Figure

6.3. Comparison of the single cue conditions with the cue combination

showed two pronounced differences. The first was a negative shift around

200ms which was most prominent over occipital and parieto-occipital

electrodes, influencing mainly the posterior P2 component, while the

second effect was an increase of the posterior P3 component.

In each cue condition, the most salient figure (level 3) elicited the

smallest P2 amplitude (Figure 6.4A-C). These characteristics of the ERP

95

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

Figure 6.3: Grand-average ERPs (n=12) of level 2. (A) All electrodes forall three conditions. Grey arrows mark posterior P2 and P3 components.Dashed-dotted line (grey) marks electrodes used for P2 and P3 analysis.(B) Topographical timeline of the grand-average ERP for the orientationcondition.

96

6.3. RESULTS

-10

-5

0

5

10μ

V

l1

l2

l3

l2-l1

l3-l1

A

0 100 200 300 400-10

-5

0

5

10

ms

μV

l1

l2

l3

l2-l1

l3-l1

C

0 100 200 300 400-15

-10

-5

0

5

10

15

ms

nofig

ori

sf

ori-nofig

sf-nofig

D

l1

l2

l3

l2-l1

l3-l1

B

-10

-5

0

5

10

Figure 6.4: ERPs for each experimental condition (solid lines) and corre-sponding differences (dashed lines) at electrode Oz. (A-C)Main experi-ment (n=12): Levels 1-3 for each cue configuration, i.e. (A) orientationcue, (B) spatial frequency cue and (C) cue combination. (D) Control-experiment (figure vs. background; n=5): Shown are ERPs for conditionswith no figure (nofig) and with a figure defined by the single cues orienta-tion (ori) or spatial frequency (sf).

were also observed in the control condition (Figure 6.4D), although here

task and stimulus were slightly modified (see Discussion). Background

and figure-ERPmainly differ in a negative shift of the figure-ERP, which

maximally influences the posterior P2 component.

Amplitudes and latencies of the P2 component. Since the objective of the

present study was to investigate electrophysiological correlates of figure-

ground segregation as part of an early sensory process, we focussed our

analysis on the earliest differences. We found an amplitude modulation

of the posterior P2 component which was defined as the positive peak

in a time window between 180ms and 250ms after stimulus onset. To

characterize the P2 component for each experimental configuration (cue

97

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

condition and level), wemeasured both amplitude and latency at each

electrode for each subject, separately within this time window. We de-

fined a region of interest (ROI – see Figure 6.3), according to where the

P2 was most prominent, and calculated the mean amplitude and latency

of the associated electrodes for each subject. Themeans of all subjects

are illustrated in Figure 6.6A. Latencies did not differ across levels and

conditions. Similarly, means and small standard errors indicate that the

P2 occurred strictly time-locked to stimulus onset at about 208ms (mean

across configurations: 208.4ms, sd 1.6ms).

We investigated the topography of the negative amplitude shift of the

P2 by testing the voltage maps at 208ms with two three factorial ANOVAs,

one for lateralization and one for anterior-posterior effects. To have ap-

proximately equidistant electrode positions we omitted PO-electrodes in

this analysis. First, we investigated possible lateralization by pooling elec-

trode sites according to lateral position (i.e. {F7, T7, P7, O9}; {F3, C3, P3,

O1}; {Fz, Cz, Pz, Oz}; {F4, C4, P4, O2}; {F8, T8, P8, O10}). We found a main

effect for electrode position (F(2,18)=24.3, p<0.001) but not for condition

(F(2,22)=1.1, p=0.35) or level (F(2,22)=0.2, p=0.79). No interactions were

observed (ELECTRODESITExLEVEL: F(3,30)=2.8, p=0.07; ELECTRODE-

SITExCONDITION: F(3,34)=1.5, p=0.22; CONDITIONxLEVEL: F(4,44)=1.2,

p=0.31; ELECTRODESITExLEVELxCONDITION: F(4,39)=2.2, p=0.09). Post-

hoc t-tests revealed that the central electrode site differed from all other

sites (p<0.001), while the lateral electrodes did not differ between corre-

sponding contralateral sites (mediolateral sites: p=0.29; temporal sites:

p=0.97), but again from all other sites (p<0.01). Hence, we observed

no effect of lateralization for the peak of the P2 component. Second,

posterior-anterior differenceswere investigated by pooling electrode sites

according to anterior-posterior positions (i.e. {F7, F3, Fz, F4, F8}; {T7, C3,

Cz, C4, T8}; {P7, P3, Pz, P4, P8}; {O9, O1, Oz, O2, O10}). We found nomain

effect of electrode site (F(1,16)=0.5, p=0.57), level (F(2,22)=0.2, p=0.79) or

condition (F(2,22)=1.1, p=0.35), but observed an interaction of electrode

site with level (F(3,28)=25.5, p<0.001) and condition (F(2,22)=4.5, p<0.01),

while not with both (F(3,33)=0.7, p=0.74). Further inspection of the inter-

98

6.3. RESULTS

Figure 6.5: Difference maps of topographies (level 3 - level 1) of grand-average ERPs for all cue conditions at the peak of the posterior P2 compo-nent (208ms).

actions revealed that the negative shift of the P2 component is reversed

into a positive shift at frontal electrode sides. Results of the topographical

analysis are illustrated by the difference maps between level 3 and level

1 (see Figure 6.5), indicating that the negative shift was not lateralized

and was most pronounced at posterior electrode sites. At the peak of the

P2 component (208ms) this shift reversed into a positive shift at frontal

electrodes.

P2 amplitudes were now analysed in the ROI, depicted in Figure 6.3.

The amplitude of the P2 decreased in all conditions from level 1 to 3. At

each level, its smallest amplitude always occurred in the cue combination

condition. A two factorial ANOVA for repeatedmeasurements showed a

significant main effect, both for level (F(2,22)=16.2, p<0.001) and condi-

tion (F(2,22)=3.7, p<0.05), whereas there were no significant interactions

(F(4,44)=0.8, p=0.56). The P2 amplitudes did not differ between the two

single cue conditions at any level as revealed by a two-tailed t-test (level 1:

p=0.84; level 2: p=0.38; level 3: p=0.09). Pairwise testing for significant

negative amplitude shift of cue combination relative to both single cue

conditions on each level (one-tailed t-test) yielded no differences for

level 1 (p=0.11), while there were significant differences on the other two

levels. On level 2, both single cue P2-amplitudes differed from those for

99

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

cue combination (p<0.05). Whereas this also held for the comparison

between the orientation and the cue combination condition on level 3

(p<0.05), the difference between spatial frequency and cue combination

conditions did not reach statistical significance (p=0.08). This hetero-

geneity of results was due to a large diversity in P2-amplitudes across

subjects (see amplitude standard errors in Figure 6.6A). In the further

analysis we dealt with this fact by using an amplitude normalization

technique.

Relationship betweenP2-component and saliency. Subjects’ performance

increased monotonically with increasing object saliency. This fact makes

performance a direct indicator for saliency, irrespective of the underlying

cue configuration. The behavioural data (Figure 6.2) show that all subjects

benefited perceptually in the cue combination condition (as indicated by

better performance). Hence, within a given level, the cue combination

condition differed not only in its physical parameters (two cues), but

also in its saliency. Is the observed effect at the posterior P2 component

primarily related the physical stimulus properties or else to perceived

saliency?

To disclose the nature of the reduction in P2-amplitude, we re-exam-

ined the individual P2-amplitude changes in relation to individual per-

formance in each particular experimental configuration (cue condition

and level). The amplitude change was defined as the deviation from the

individual mean (composed of all nine individual P2-amplitude mea-

surements) and correlated with the individually measured d’ value as a

performance measure. Figure 6.6B illustrates the significant correlation

between amplitude reduction of the P2 component and increasing object

saliency (correlation coefficient -0.42, p<0.001), revealing that a smaller

P2 amplitude represents an increase in perceptual saliency.

Amplitudes and latencies of the P3 component. We also observed an ef-

fect of level and cue condition on the P3 component at parietal, parieto-

occipital and occipital electrodes and evaluated these differenceswith the

samemethod and ROI as was used in the analysis of the P2 component

100

6.3. RESULTS

Figure 6.6: Results of posterior P2 amplitude and latency analysis. The P2component was defined as the positive peak between 180ms and 250ms.Each amplitude and latency measurement is the mean of marked elec-trodes in Figure 6.3. (A)Mean amplitudes (all subjects) and standard er-rors for all levels and conditions. Amplitudes differ significantly betweenlevels and conditions (levels: p<0.001; conditions: p<0.05). Correspond-ing latencies (and standard errors) are indicated above each bar (in ms).(B) Correlation between amplitude change of the posterior P2 compo-nent (y-axis) and figure saliency (x-axis), for all experimental conditions(single cue and cue combination). Each square denotes the P2-amplitudechange and corresponding performance of a single subject in one exper-imental configuration (cue condition x level). For illustration purposes,each condition is colour-coded according to the legend above. Amplitudechange is measured as the difference of amplitude in the experimentalconfiguration (xs) to the individual mean amplitude (μs). The correlationcoefficient is -0.42 (p<0.001).

101

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

(see above and Figure 6.3). The P3 component was defined as the positive

peak in a time window between 300ms and 500ms. It had a mean am-

plitude of 7.0μV (sd 3.3μV) and a mean latency of 375.5ms (sd 38.0ms).

A two factorial ANOVA for repeatedmeasurements showed nomain ef-

fect for condition (amplitude: F(2,22)=0.5, p=0.62; latency: F(2,22)=1.1,

p=0.36), but a significant main effect for level regarding both amplitude

(F(2,22)=4.0, p<0.05) and latency (F(2,22)=11.1, p<0.001). Additionally,

the amplitude was modulated by an interaction between condition and

level (F(4,44)=4.0, p<0.01), while the latency was not (F(4,44)=1.1, p=0.36).

The P3 component varied both in amplitude and latency across experi-

mental configurations. The results imply that this modulation is mainly

based on saliency level, while the influence of the cue conditions is rather

limited. To evaluate the relation between the amplitude of the P3 compo-

nent and the saliency of the object, we correlated its amplitude changes

with the results of the behavioural analysis using the same method as

applied for the P2 component (see above and Figure 6.6B). There was no

significant correlation (see Discussion). In contrast, the peak of the P3 oc-

curred significantly later with increasing saliency (correlation coefficient

0.45, p<0.001).

Time-frequencyanalysis. Generally, we found apower increase in a broad

frequency range up to 50Hz after stimulus onset, most prominent at oc-

cipital and parieto-occiptal electrodes, with maximum activity at Oz.

Power changes at central and frontal electrodes were relatively small. We

observed no significant power reduction compared to the pre-stimulus

period. The averaged power of normalized single-subject data (see Ma-

terials andMethods) is illustrated in Figure 6.7 for all experimental con-

figurations (condition x level) at electrode Oz. This figure demonstrates

highly similar power progressions across cue conditions or performance

levels at all frequencies.

The Oz-electrode, where the power increases were most pronounced,

served as basis for our analysis. Here, we evaluated the peak of the power

increase in each frequency band (for definitions see Herrmann et al.,

2005) after stimulus onset across the whole epoch in the normalized

102

6.3. RESULTS

0 200 400

70 50

30 20 15 10 8

50 200 400

70 50

30 20 15 10 8

50 200 400

70 50

30 20 15 10 8

5

0 200 400

70 50

30 20 15 10 8

50 200 400

70 50

30 20 15 10 8

50 200 400

70 50

30 20 15 10 8

5

0 200 400

70 50

30 20 15 10 8

50 200 400

70 50

30 20 15 10 8

5

time (ms)fr

eque

ncy

(Hz)

0 200 400

70 50

30 20 15 10 8

5

rela

tive

pow

er

0

0.5

1

1.5

2

Orientation Spatial Frequency Cue Combination

Level 1

Level 2

Level 3

Figure 6.7: Time-frequency results (average of all subjects) for all ex-perimental configurations at the Oz-electrode. Normalized activity (seeMaterials andMethods) in a time window between -100ms and 500msrelative to stimulus onset. There was no power suppression after stimulusonset, so only positive values occur.

data of each subject. The standard deviation (sd) was computed across

experimental configurations. The results are summarized in Table 6.1.

The earliest increase occurred in the lower γ-band (30-50Hz), starting at

about 50ms after stimulus onset with the peak at 112.5ms (sd 23.3ms).

Next,α-activity (8-12Hz) increasedwith the peak at 127.6ms (sd 13.5ms),

followed by the peak of the β-band (12-30Hz) at 140.3ms (sd 19.1ms).

The strongest increase was observed in the θ-band (4-8Hz), peaking at

188.2ms (sd 5.9 ms). Power progressions for γ- and θ-band are illustrated

in Figure 6.8A.

To investigate whether the amplitude of these peaks is affected by the

cue condition and/or saliency level, we applied a two factorial ANOVA for

repeated measurements (see also Table 6.1). Only the peak of the θ-band

was significantly modified by cue condition (F(2,22)=3.6, p<0.05) and

level (F(2,22)=7.2, p<0.01). Post-hoc comparisons revealed a significant

difference between level 3 and both level 2 (p<0.05) and level 1 (p<0.001),

103

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

0 200 400

ms

rela

tive

po

wer

0 200 400 0 200 400

0 200 4000

1

2

3

ms

rela

tive

po

wer

0 200 4000

1

2

3

0 200 4000

1

2

3

0

-0.2

0.2

0.4

0.6

0.8

0

-0.2

0.2

0.4

0.6

0.8

0

-0.2

0.2

0.4

0.6

0.8

orientation spatial frequency cue combination

Level 1 Level 2 Level 3

lower -band

(30-50 Hz)

�-band

(4-8 Hz)

A

B C

-1

1

0 1 2 3 4

d'

ch

an

ge

of

po

wer

-6

-4

-2

0

2

4

6

-2 -1 0 1 2

change of power

ch

an

ge

of

P2

(μV

)

Figure 6.8: Time-frequency analysis with averaged (all subjects) and nor-malized power at electrode Oz. (A) Power progression (normalized bypre-stimulus power) in the lower γ-band (upper panel) and θ-band (lowerpanel) for all levels and conditions. Stimulus onset is indicated by thedashed grey line. (B-C) Correlations to behaviour and ERP. Conditionis colour-coded (as in Figure 6.6) for orientation (white squares), spa-tial frequency (black squares) and cue combination (grey squares). (B)Changes of peak θ-power (mean 188.2ms, sd 5.9ms) were correlated withobject saliency. Each square denotes the power change and correspond-ing performance of a single subject in one experimental configuration(cue condition x level). Power change is measured as the difference be-tween the normalized power in the experimental configuration (xs) andthe individual mean of normalized power (μs). The correlation coefficientis -0.38 (p<0.001). (C) Correlation of amplitude change of the P2 compo-nent (see Figure 6.6B) and change of θ-power (see (B)). The correlationcoefficient is 0.34 (p<0.001).

104

6.3. RESULTS

Table 6.1: Summary of time-frequency analysis. The first column showslatency of peaks, computed from the normalized power of each subject.The second column shows results of a 2-factorial ANOVA with the normal-ized power values of these peaks. The last two columns show values ofcorrelations of amplitude changes of these peaks with d’ and amplitudechange of the P2 component, respectively. For the θ-band, these data areillustrated in Figure 6.8B and C. Not significant results are denoted by ns.

as well as a difference of spatial frequency and cue combination (p<0.05)

across levels. In the α-band, the cue condition significantly influenced

the peak (F(2,22)=3.9, p<0.05). Pairwise comparisons indicated that single

cues differed significantly (p<0.05), with spatial frequency causing higher

α-power.

Frequencymodulations according to saliency. As with the analysis of the

P2 component, we tried to relate the power changes to object saliency.

The individual change in power was correlated with d’, i.e. the deviation

of the normalized peak-power to the individual mean power in each

frequency band. This method was also used for the correlation of the

P2 component with the detection parameter d’ (see above). The results

are summarized in Table 6.1. In line with the results obtained from the

two factorial ANOVA, we found a significant correlation only in the θ-

band (correlation coefficient -0.38, p<0.001), indicating that θ-activity

decreased with increasing saliency (Figure 6.8B). Since we observed sim-

ilar effects for P2 and θ-band with a similar latency for both peaks, we

tested the relation between the two by correlating the change in θ-power

with the change of the posterior P2 amplitude. This correlation was signif-

icant (correlation coefficient 0.34, p<0.001), as becomes evident in Figure

6.8C.

105

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

Surprisingly, we also observed such a significant correlation for the

β- (correlation coefficient 0.30, p<0.01) and lower γ-bands (correlation

coefficient 0.37, p<0.001), although the corresponding peaks occurred

much earlier and we found no effect of cue condition or saliency onto

these peaks (see also Table 6.1).

6.4 Discussion

A definition of an object by cue combination improves its identification

by the visual system. At least for spatial frequency and orientation this

improvement is synergistic. Both behavioural and electrophysiological

results imply that the visual system uses both cues for the recognition

process. The first correlates of this process are observed as a negative

amplitude shift, influencing mainly the peak amplitude of the poste-

rior P2 component at about 200ms. We demonstrated that this shift is

strongly correlated to the perceived saliency of the figure and therefore

only indirectly related to the underlying physical cue configuration. The

same effect can be demonstrated by a relative power decrease of the

θ-band. In the following, we integrate the findings of our study in the

present literature and further discuss the relationship between saliency

and the underlying physical figure-ground differences, as well as the ob-

served P2 effect. Finally, we briefly deal with the changes of the P3, whose

characteristics slightly change near perceptual threshold.

Synergy through combination of cues. Our results confirm that the com-

bination of spatial frequency and orientation improves the identification

of a figure, exceeding the predictions of an independent summation

assumption (Meinhardt & Persike, 2003; Meinhardt et al., 2004, 2006;

Persike &Meinhardt, 2006). This result was obtained, although subjects

trained the single cue conditions (during QUEST andMCSmeasures) and

were first confronted with the cue combination in the main experiment,

indicating that the strong perceptual benefit of cue combination is a very

robust and reliable effect.

106

6.4. DISCUSSION

The electrophysiological data showmarked changes for cue combi-

nation even on level 3, where behavioural improvement was limited due

to ceiling effects, indicating that ERPs reflect easier recognition even

for perfect performance. The main finding is an early ERP modulation

that is linearly related to object saliency, which in turn is based on all

cues. Therefore, the process of cue combination occurs before or during

the segregation of the figure. Visual cues like orientation and spatial

frequency are detected in the primary visual cortex (V1), while the pro-

cessing of cue differences requires interactions between the detectors

for figure and background regions. The earliest intermediate area, inte-

grating information from V1, is area V2, which seems to be anatomically

and functionally ideally suited for segregation processes (Shipp & Zeki,

2002a,b). Computational models of texture segregation have demon-

strated that the actual segregation process is accomplished by feedback

from higher onto early visual areas (Bullier, 2001; Deco & Rolls, 2004;

Itti & Koch, 2001; Roelfsema et al., 2002; Zwickel et al., 2007) and there-

fore occurs later in time. Saliency, which is a rather perceptual object

property, is certainly related to these reactivations of early visual areas

by top-down control. Indeed, it has been shown that an early negative

shift in the ERP during the processing of illusory contours was caused by

the lateral-occipital complex (LOC) or at least modulated via feedback

from the LOC (Murray et al., 2002, 2004), a region which is known to be

involved in object recognition. Also the later negativity associated with

closure has been attributed to LOC (Doniger et al., 2000, 2001; Sehatpour

et al., 2006).

Saliency as a non-linear function of physical figure-ground difference. The

earliest electrophysiological difference between both performance levels

and cue conditions is an amplitude change of the posterior P2-amplitude.

Unfortunately, there are only a few studies that observe a posterior P2,

since N1, N2 and P3 components are often overlapping (Luck, 2005,

Chapter 1). The present study shows that the amplitude change of the

P2 represents a change in perceptual saliency rather than directly rep-

resenting the physical properties of the stimulus. Saliency is of course

107

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

a product of figure-ground differences, but the influence of an increase

in figure-ground difference (e.g. an increase in the orientation differ-

ence between figure and background elements) on saliency is variable,

depending on where on the psychometric function this increase takes

place (see also Data Analysis inMaterials andMethods). Since saliency

is a non-linear function of the figure-ground difference, the observed

modulation of the P2 should also be correlated with changes in the physi-

cal figure-ground difference. This is the case, as shown in Figure 6.9A-B,

where we correlated the change of the P2 with the adjusted single cue

difference, both in the single cue and in the cue combination conditions.

The figure shows parallel regression lines for both comparisons of single

cue and cue combination. If the amplitude of the P2 would be a direct

indicator of the physical figure-ground difference, the regression line for

the cue combination condition should be steeper than that for the single

cue condition, since the value of the second cue also increases in the

cue combination condition from left to right (i.e. in Figure 6.9: values on

the left are mainly from level 1 and values on the right are mainly from

level 3). Hence, the difference between figure and ground increases more

from left to right in the cue combination condition than in the single cue

condition. The finding of parallel regression lines, however, does not sup-

port the notion that changes in the P2 directly reflect the figure-ground

difference. The observed shift of the regression line is also observed in

the correlation of d’ with the physical figure-ground differences (Figure

6.9C-D), supporting the conclusion that the shift in Figure 6.9A and B

is caused by a nearly constant benefit of saliency in the cue combina-

tion condition. Taken together, these findings clearly demonstrate that

the amplitude of the P2 reflects the perceptual saliency as a non-linear

function of the physical figure ground difference.

The P2 component as a signature for saliency. Classically, the posterior P2

component has been related to object processing, influenced by spatial

attention, feature selection and object memory (Anllo-Vento & Hillyard,

1996; Mecklinger &Muller, 1996; Tallon-Baudry et al., 1998). The timing

(P2 latency: 208ms) and direction (decreasing amplitude with increasing

108

6.4. DISCUSSION

x-μ

(μV

)s

s

-6

-4

-2

0

2

4

6

A B

0 5 10 15 20 25 30

Difference to Background (°)

C

-2

0

2

4

6

d’

'

0 0.5 1.0 1.5 2.0

Difference to Background (cpd)

D

Figure 6.9: Electrophysiological and behavioural changes with increasingfigure-ground differences. (A-B) Correlation between amplitude changeof the P2 component and figure-ground difference in the stimulus forsingle and combined cues. (A) Orientation cue in black (correlation coef-ficient -0.38; p<0.05) and cue combination in grey (correlation coefficient-0.30; p=0.07). (B) Spatial frequency cue in black (correlation coefficient-0.54; p<0.01) and cue combination in grey (correlation coefficient -0.55;p<0.001). (C-D) Correlation between saliency (d’) and figure-ground dif-ference in the stimulus for single and combined cues. (C)Orientation cuein black (correlation coefficient 0.68; p<0.001) and cue combination ingrey (correlation coefficient 0.69; p<0.001). (D) Spatial frequency cue inblack (correlation coefficient 0.70; p<0.001) and cue combination in grey(correlation coefficient 0.65; p<0.001).

109

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

saliency) of the P2 differences we find are in line with previous studies

reporting a segregation-specific negative amplitude shift between 100ms

and 300ms (Bach &Meigen, 1992, 1997; Bach et al., 2000; Caputo & Casco,

1999; Fahle et al., 2003; Mathes et al., 2006; Mathes & Fahle, 2007). The

present findings extend these results by indicating that the negative shift

is not only segregation-specific, but at some point in time directly corre-

lated with perceptual saliency. In an overview article, Bach andMeigen

(1998) reported a correlation between the tsVEP and saliency, when they

increased saliency by changing the line length of a checkerboard stimulus.

In their report, the normal VEP did not show a consistent modulation as

a result of varying saliency, while the amplitude of the tsVEP increased.

Here, we substantiate their conclusion by measuring individual salien-

cies and by systematically varying figure-ground difference and cue. The

saliency-effect we find in the ERP ismostly unaffected by the number and

type of cues. Contrary to Bach and Meigen, we observe a strong effect on

the normal ERP (i.e. a modulation of the P2 component) which is blurred

in the difference-ERPs (compare Figure 6.4). Even when task and stimu-

lus were slightly changed, as in the control experiment, we observed the

occurrence of a P2 component which was diminished when the figure

was present in the stimulus. The task in this control was much simpler,

since only detection (yes/no) of the figure was necessary while recogni-

tion was not mandatory. Therefore, the task was easier to accomplish,

so the task-related saliency was even higher than the adjusted level 3

of the identification experiment. This observation suggests that the P2

effect found in this study is task independent and exclusively related to

saliency. We therefore propose that amplitude changes of the posterior

P2 component generally indicate changing saliency.

Our findings support theories of a common saliency map, which is

created by the combined responses of selectively modulated neurons (for

a review see Treue, 2003). The P2 modulation we observed could well be

a correlate of this saliency representation, since it is mainly affected by

saliency irrespective of cue condition.

110

6.4. DISCUSSION

Butwhy doweobserve an amplitude reduction of the P2when saliency

increases? If the amplitude decrease is interpreted as less neural activ-

ity, one possible explanation would be that the processes involved are

mediated by attention. Global attentional effects were controlled in our

experiment by pseudorandomizing stimulus levels within conditions and

order of blocks between subjects. However, selective attention might

mediate enhanced population activity in order to improve the perfor-

mance for weakly salient stimuli (Maunsell & Treue, 2006; Treue, 2003),

whereas highly salient stimuli needed little or no attentional allocation

in psychophysical tasks (see e.g. Nothdurft, 2000). Then the decrease of

attentional allocation required to solve the task would be inversely pro-

portional to figure saliency, which is exactly what we observe. Consistent

with this view a recent study observed a similar effect on the posterior

P2 component in a masking paradigm (Kotsoni et al., 2007), the ampli-

tude of the posterior P2 also decreasing with increasing d’. The authors

interpret the P2 as a reactivation of primary and secondary visual areas

by feedback from higher areas subserving appropriate representation

of the stimulus. While not specifically quantifying the relationship to d’,

they suggest that an amplitude reduction represents a higher congruence

between bottom-up and top-down signals and therefore less interference

through feedback.

Another indirect support for our findings is given by a study, reporting

a temporal blurring of the posterior P2 with increasing eccentricity (Shoji

& Ozaki, 2006). Here, the saliency of the target (a circle) depended on

the distractor type (squares, hexagons or octagons) and the P2 amplitude

also declined with increasing saliency.

Relation of θ-power to ERP and saliency. We found the earliest increase

of energy in the lower γ-band around 40Hz, a well known phenomenon

in object detection and discrimination tasks (Busch et al., 2004, 2006;

Senkowski & Herrmann, 2002). Yet, this energy was stable across ex-

perimental conditions, so we conclude that the early onset γ-activity

is not specific to the visual cues modified here and neither to object

saliency. Later activations in the γ-band (e.g. induced γ-activity) were

111

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

not observed in our paradigm. It has been suggested that induced γ-band

activity is a candidate for active binding of visual features (Tallon-Baudry

& Bertrand, 1999). However, this does not seem to be the case for simple

visual cues such as orientation and spatial frequency.

At lower frequencies, we observed amodulation of the θ-band (4-8Hz).

Functionally, θ is related to short termmemory and selective attention

(Basar et al., 1999), whereas it is unlikely that it has a single functional

role (Kahana et al., 2001). In our study, θ-activity decreased with increas-

ing saliency at a latency around 188ms. The maximum of θ-activity

is near the peak of the P2 component, which in turn has a strong θ-

component, suggesting that both strongly depend on each other. Ac-

cordingly, a wavelet transformation of the ERP shows a strong θ-peak

at a latency near the P2, indicating that most of the θ-activity is time

locked and therefore shows up in the ERP. However, the temporal reso-

lution of the wavelet analysis is very poor at these low frequencies, and

we could, nevertheless, clearly demonstrate that the effect of increased

cue-independent saliency is related to a reduction in the θ-band.

Moreover, we found significant correlations of activity changes at

other frequency bands with changes of the P2 even at earlier latencies

(compare Table 6.1), although these were unrelated to saliency. These

changes could probably be a hint of how the P2 component is generated,

but this issue should be a subject of future studies.

The P3 component. The P3 represents a major endogenous component,

which is moreover influenced by a number of experimental parameters

(Fabiani et al., 2000; Key et al., 2005; Luck, 2005, Chapter 1). In our study,

the amplitude and latency of the P3 were influenced mainly by perfor-

mance levels, which affect many endogenous parameters (in addition to

exogenous ones), for example by making subjects less confident about

their decision, rendering the task more difficult, requiring longer process-

ing and increasing the proportion of guesses.

Classically, the amplitude of the P3 component has been related to

working memory update (Polich & Kok, 1995; Polich, 2004), although

such update processes seem not mandatory (Picton, 1992). The P3 ampli-

112

6.5. CONCLUSIONS

tude decreases while its latency increases when the task becomes more

difficult, indicating that the P3 is involved in stimulus classification and

decision making processes (Picton, 1992; Polich & Kok, 1995). Although

the ANOVA showed a significant effect of performance level on the P3 am-

plitude, the correlation of P3 amplitude with saliency was not significant,

possibly because a large proportion of trials was near or below perceptual

threshold (d’=1.0) and might have been correctly guessed while not really

recognized. In other words, below perceptual threshold the fraction of

really recognized figures is small compared to the correctly guessed trials

(50 percent correct). Excluding all trials with d’<1.0 and correlating the

remaining trials with the P3 amplitude observed yielded indeed a signifi-

cant correlation between amplitude and saliency (correlation coefficient

0.26, p<0.05). Hence, the classical relationship of increasing P3 amplitude

with decreasing task difficulty holds at least above perceptual threshold.

The latency of the P3 has been attributed to stimulus classification

and processing (Polich & Kok, 1995; Polich, 2004), with longer latencies

occurring in more difficult trials. Quite contrary, we observe longer la-

tencies with easier trials. In contrast to classical studies investigating

the P3, our target is hardly visible even on the easiest performance level.

Visual noise distorts the P3 (McCarthy & Donchin, 1981), so the trend

we observe here may reflect the emergence of the P3 out of noise with

higher saliencies. Our results imply that the characteristics of the P3 near

perceptual threshold have to be reviewed.

6.5 Conclusions

Orientation and spatial frequency interact as visual cues during the iden-

tification of a figure. This interaction, based on cue combination, is

neither specifically reflected in the ERP nor in the power distribution

of frequencies up to 80Hz. Instead, the crucial feature of the neural re-

sponse is a negative shift in the ERP, which occurs on an intermediate

stage (about 200ms after stimulus onset) correlated to saliency. This shift

is measurable as an amplitude modulation of the posterior P2 compo-

nent as well as a power reduction in the θ-band (4-8Hz). A posterior P2

113

KAPITEL 6. SALIENCY-ERP & IDENTIFICATION TASK

component is rarely described in the literature which may be based on

the fact that other studies used highly salient stimuli. With the present

work, we explored the direct relationship between the P2 amplitude and

object saliency, probably reflecting the existence of a cue independent

saliency map and/or reflecting the fact that the more salient an object

is, the less computation is required to detect or identify it. This saliency

effect on the ERP is robust across different cues and number of cues,

maybe even across tasks, and should be considered in future studies as

an important factor affecting the results. Furthermore, our study pro-

vides the basis for the development of an electrophysiological method

to evaluate the strength of perceptual impressions in humans, either by

utilising the negative shift of the ERP (in particular the P2 component) or

the power decrease of the θ-band.

Acknowledgements

The authors like to thank B. Mathes, D. Trenner, U. Ernst and G. Mein-

hardt for valuable suggestions. Supported by grant 01GQ0705 (Bernstein

programme) of the German Federal Ministry of Education and Research

(BMBF).

114

Kapitel 7

Visual detection and

identification are not the same:

evidence from psychophysics

and fMRI

Sirko Straube &Manfred Fahle

Abstract

The remarkable speed of human categorization performance in natural

scenes led to the assumption that detection and identification processes

rely on the same mechanism (Grill-Spector & Kanwisher, 2005). In the

present study we test this assumption by combining psychophysical

measurements and functional magnetic resonance imaging (fMRI) for

both a detection and an identification task. A target was embedded in

a matrix of Gabor elements with its elements differing from the back-

ground ones in their orientation. We yielded equal performance levels for

detection and identification bymeasuring the individual psychometric

functions and adjusting orientation differences accordingly for each ob-

115

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

server. Hence, stimulus saliency was constant allowing a differentiation

between the activations specific for detection versus identification pro-

cesses. There were three task conditions: (i) figure detection (left/right;

based on small orientation differences), (ii) figure identification (sym-

metrical/asymmetrical; requiring larger orientation differences) and (iii)

detection of a scrambled figure (left/right; using the larger orientation dif-

ferences of the identification task). Identification led to higher thresholds

on the psychometric functions and to slower reaction times than detec-

tion. The fMRI data showed increased hemodynamic activations during

the identification task in subdivisions of the lateral-occipital complex

(LOC) and in a neighbouring area in the collateral sulcus. In addition,

analysis using cortex-based alignment revealed four voxel-clusters dif-

ferently activated by the tasks, situated in the inferior parietal lobe, the

precuneus, the anterior cingulum and the medial frontal gyrus. Our re-

sults indicate at least partly separated cortical mechanisms for object

detection and identification.

7.1 Introduction

Visual perception of an object is instantly connected with an idea of

what we see and usually this first impression is correct. Nevertheless,

sometimes we fail and sometimes we just have the impression that there

was something. Our visual system permanently trades off between speed

and accuracy, allowing us to react fast to a snake hidden in the woods and

at the same time preventing us from reacting to every stick thatmight

be a snake. Hence, the detection and the identification of an object are

closely related, one influencing the other (Peterson & Gibson, 1994), and

it is an old questionwhether detection and identification rely on the same

mechanism operating with different outcomes depending on stimulus

strength and task demand, or on at least partly separate mechanisms

operating with different time constants. In the early 1980s, Sagi and

Julesz (1984) characterized detection as a preattentive, parallel process as

opposed to identification as a serial process requiring attention. Since

116

7.1. INTRODUCTION

both processes have different characteristics, it has been suggested they

rely on at least partly different mechanisms.

Nowadays this dichotomy is not so clear anymore. Two behavioural

studies draw opposite conclusions when using backward masking of nat-

ural scenes. They compared the stimulus-onset asynchrony thresholds

of detection, basic-level categorization and within-category identifica-

tion (Grill-Spector & Kanwisher, 2005; Mack et al., 2008). Grill-Spector

and Kanwisher (2005) claim in the title of their article that “As soon as

you know it is there, you know what it is”, implying that detection and

identification of objects in complex scenes are inseparable. Functional

magnetic resonance imaging (fMRI) studies only compared detection and

within-category identification (and not basic-level categorization), also

concluding that detection and recognition are inseparable (Grill-Spector,

2003a; Grill-Spector et al., 2004). On the other hand, Mack and colleagues

(2008) demonstrated that additional stimulus manipulations reducing

object saliency can indeed result in dissociation between detection and

identification. Hence, detecting an object does not necessarily mean to

know what that object is.

In these studies, the term identification is used for discrimination

within a category, which differs clearly from the definition of Sagi and

Julesz (see above) who associate identification more with recognition.

When they refer to recognition, Grill-Spector and Kanwisher use the term

basic-level categorization. In the following, we will follow the nomencla-

ture of Sagi and Julesz and speak of detection, identification (in the sense

of recognition) and within-category identification (i.e. discrimination

within a category).

An fMRI study directly comparing detection and identification (in

the sense of recognition) is still lacking. Our study is a first step in this

direction where we used a novel approach to successfully separate the

two processes. Although our stimulus differs from that of Mack and col-

leagues, the basic idea for dissociating both tasks is similar: detection

does not require global shape perception, so it can be achieved based

on local differences in the stimulus. Therefore, it is crucial to carefully

117

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

control the saliency of the target. The perceived saliency of an object at

detection threshold differs from the saliency of that same object when

it should be identified: As mentioned above, sometimes wemay detect

a snake in the woods without recognizing it. Here, we create a similar

situation by individually adjusting the physical figure-ground difference

according to task demands based on the percept of each individual sub-

ject. We then investigated whether the different tasks of detection versus

identification at identical saliency caused different blood oxygenation

level-dependent (BOLD) responses in visual and object-selective areas,

which were functionally mapped in a separate session. Additionally, we

applied a cortex-based alignment procedure to find further differences

in the processing of these tasks across the whole brain.

Three tasks had to be performed: (i) detection of the figure, i.e. to

indicate whether the figure was left or right, (ii) identification of the

figure, i.e. to indicate whether it was symmetrical or asymmetrical, and

(iii) detection of a scrambled figure, i.e. to indicate whether it was left or

right. The third condition served to control for the effect possibly caused

purely by variation of the figure-ground difference due to the fact that this

difference is larger in the identification task than in the detection task.

This scrambled-figure condition was a detection task, where the target

exhibits the figure-ground difference of the identification task. Here,

performance was varied by distributing the target elements across the

whole area where the figure could appear in the other two tasks. Hence,

subjects had to detect the side with more target elements (left or right).

With this design we kept the target saliency constant and thereby sep-

arated detection and identification processes, while making sure that all

tasks yielded the same level of performance. Differences in behavioural

measurements and/or in BOLD activations would indicate that detection

and identification are at least partly differentially processed, suggesting

that also partly separated mechanisms operate. For neural activations

in the visual system, this could mean that the two tasks do not activate

exactly the same areas. For example, as argued above, shape perception

118

7.2. MATERIALS AND METHODS

is not mandatory for detection, so it is questionable whether activations

in object-selective regions are needed for successful detection.

7.2 Materials andMethods

Subjects

Ten undergraduate students (4 men, 6 women) aged between 25 and 29

years (mean 26.5, standard deviation 1.7) participated in this study. All

participants had normal or corrected-to-normal vision as assessed by

means of the Freiburger Visual Acuity Test (Bach, 1996) and reported

no history of neurological or psychiatric disorders. Each subject was

informed about the nature and the purpose of this study and gave written

consent to participate. The study was conducted in accordance with The

Code of Ethics of the World Medical Association (Declaration of Helsinki).

Subjects were paid for participation and instructed to perform as

precise as possible.

Task and Stimulus

Stimulus. Presentation of the stimulus was provided by in-house soft-

ware, using C++ with OpenGL. The full stimulus consisted of a matrix

of 50 x 40 Gabor patches on a grey background presented with a reso-

lution of 1280 x 1024 pixels at a frame rate of 75Hz. When lying in the

scanner, subjects had a reduced field of view due to a semicircular screen

(covering about 45° x 33° of visual angle, as is illustrated in Figure 7.1A)

which was also simulated in the training sessions using a spatial mask on

a Samsung Syncmaster 1100 MB monitor. In the MRI-scanner, stimuli

were presented with an LCD projector, mirrored towards the subject’s

eye. In all sessions, viewing distance was 40 cm.

The Gabor patches had a centre-to-centre distance of 1° of visual

angle and a size defined by the width of the Gaussian envelope of �=10

arcmin. Background elements had a spatial frequency of 3.5 cpd (cycles

per degree) and an orientation of 36°. The target was part of this matrix

with its elements differing from the background only in their orientation.

119

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

Figure 7.1: Stimulus, Targets and Conditions. (A) Trial sequence (left).Stimulus was presented for 80ms on a semicircular screen. Colour of thefixation point during the fixation phase instructed the subjects which taskto perform. Answer was given after the stimulus disappeared, i.e. duringfixation phase for the next trial. The shapes of the possible figures (exceptscrambled-figure condition) are depicted on the right. Symmetrical orasymmetrical figures occurred balanced in pseudorandomized order. (B)20 x 20 elements cut-out of the original stimulus (see above) to illustrateexperimental conditions. Instruction to subjects is indicated below thestimuli. Arrows denote lower border of the target.

120

7.2. MATERIALS AND METHODS

A trial started with a fixation point in the middle of a grey background

(2000ms), followed by a short flash of the stimulus (80ms). In the subse-

quent fixation phase, subjects had to respond to the previous stimulus

by pressing one of two buttons (2-alternative forced choice). There were

three tasks and a baseline condition (see Figure 7.1B): (i) detection of a fig-

ure, (ii) identification of a figure and (iii) detection of a scrambled figure.

We calibrated the saliency of all three tasks individually for each observer

to a similar level before subjects performed the tasks pseudorandomized

in a block design (see below). The colour of the fixation point indicated

the task demand (detection or else identification). Tasks and baseline

condition are described next, the experimental procedure is illustrated

thereafter.

Figure Detection. A black fixation point instructed the subjects to indi-

cate whether the target appeared left or right of the vertical midline. A

figure (symmetrical or else asymmetrical — see Figure 7.1A) was ran-

domly rotated into one of four orientations to produce the stimulus, but

its appearance was irrelevant for the correct answer. Instead, observers

had to indicate whether its centre of gravity was left or right of themidline.

Its inner edges always intruded into the opposite half by 1° while its outer

edges were no more eccentric than 7° of visual angle.

Figure Identification. A red fixation point instructed the subjects to indi-

cate whether the target was symmetrical or asymmetrical (Figure 7.1A).

The composition of the stimuli was identical to those of the figure de-

tection task, but here subjects had to ignore the position of the figure.

To solve this task, they had to recognize nearly the whole figure, since

detection of single edges was not sufficient to discriminate between the

two figure types.

Detection of Scrambled Figure. Just like in the figure detection task, a

black fixation point instructed the subjects to indicate whether the target

appeared left or right of the midline. The stimuli of the detection and

the identification task differed between each other in two aspects: the

121

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

task itself (which is the object of the current study) and the underlying

physical figure-ground difference in element orientation. To rule out

the possibility that differences in the results are attributable to the latter,

we added this third task which is a detection task without a solid figure,

where the targets’ Gabor elements have the same orientation difference

as in the identification task. Saliency was controlled by variation of the

target position over the whole visual field (see Figure 7.1B). Therefore,

both shape and target position were blurred in this task. To solve the

task, subjects again had to estimate the centre of gravity of this scrambled

figure.

BaselineCondition. This conditionwas as similar as possible to the three

tasks. The Gabor matrix contained no target and consisted only of ho-

mogenous Gabor elements identical to the background elements in the

other conditions. A white fixation point indicated the baseline condition,

and subjects were instructed to alternately press the left and right buttons

once after each stimulus in the answer/fixation phase.

Procedure

Before subjects performed the experiment in the MRI-scanner, they

trained on three days with exactly the same procedure as in the scanner.

Nomore than ten days lay between the first day of training and the final

MRI-experiment. The procedure of these experimental sessions was as

follows: First, we individually measured the turning point and slope of

the psychometric function for each task (detection, identification, scram-

bled figure detection) using a QUEST staircase procedure (Watson & Pelli,

1983) with 100 trials each. Second, the values obtained by the QUEST

measurements were used for six consecutive runs where all conditions

including the baseline condition occurred in a block design paradigm.

QUEST staircase. The psychometric function was scaled between guess-

ing probability (50%) and performance limit (100%). In the figure detec-

tion or identification conditions, the parameter varied by QUEST was the

122

7.2. MATERIALS AND METHODS

orientation difference between the figure elements and the background

elements, starting with a difference of 90°. In the scrambled figure detec-

tion task, the staircase in contrast varied the number of elements that

were presented outside the area of the original target. Here the orien-

tation difference between the target elements and the background was

adopted from the figure identification task (see description of the scram-

bled figure task). The first trial of this procedure startedwith the complete

figure.

In the training sessions auditory error feedback was provided, which

was omitted in the scanner session (day 4). The order of the staircase

measurements was pseudorandomized between sessions and subjects,

with the restriction that the identification task had to be performed before

the scrambled figure detection task, since the figure-ground difference of

the former had to be known for the latter.

Blocked Runs. After measuring the individual psychometric functions

for each task using QUEST, we calculated the differences corresponding

to a correct performance of 90%. Thus, all stimuli had the same saliency.

As indicated above (see task description) the colour of the fixation point

instructed the subjects which task to perform. During each run, each

task occurred three times (10 volumes per block) with the baseline con-

dition separating task blocks (5 volumes). The order of these tasks was

randomized. Thus, we acquired 30 volumes of each task and 50 baseline

volumes per run from each subject. Because six runs were performed, we

obtained 180 volumes of each task and 300 baseline volumes per subject

in total. At the end of each run, a feedback screen informed the subject

about his or her performance.

Mapping Experiments. In a separate scanner-session, subjects under-

went mapping experiments to functionally separate early visual and

object-selective regions for the region-of-interest analysis (ROI-analysis).

During these experiments, subjects were lying in the scanner, fixating

and attending the stimulus.

123

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

Borders between early visual areas (V1, V2, V3d, V3v, V4) were drawn

using a retinotopic mapping procedure in two block-design experiments

(for a detailed description of these procedures, see Spang & Morgan,

2008): First, we mapped the representation of the vertical and horizontal

visual field meridians to delineate the borders between these areas. To

that aim, we alternately stimulated a small wedge of visual field around

the horizontal or else the vertical meridian with a cartoonmovie (6 vol-

umes each block), interrupted by the baseline condition consisting of

a blank screen with a central fixation point (8 volumes/block). We per-

formed two runs, with one run consisting of 72 volumes per condition

(horizontal versus vertical) and 32 baseline volumes. Second, inner and

outer boundaries of these areas weremapped in an additional run, where

the cartoon movie was shown in one of four rings of defined eccentricity

(rings covered eccentricities between 0.8° and 23.8°). Parameters of this

run were adopted from themeridianmapping (see above), such that each

circle was also shown for 72 volumes, interrupted by a baseline condition

with a total of 32 volumes.

Object sensitive visual areas were mapped using gray-scale images of

novel objects (sculptures) contrastedwith scrambled versions of these im-

ages. The basic procedure was adopted fromGrill-Spector and colleagues

(2000). Each stimulus condition (object versus scrambled object) was

presented for 6 stimulus blocks (5 volumes per block) with interleaved

fixation periods (3 volumes per block). The order of the two conditions

was balanced. Each of 20 images for each condition was presented for

500 ms. We conducted two runs, measuring 60 volumes per condition

and 78 baseline volumes in total.

Data Acquisition. All imaging was conducted on a 3.0 T Siemens Allegra

scanner at the University of Bremen, Germany. An echo planar imaging

sequence with gradient echo sampling (TR=2.51ms, TE=30ms) was

used to acquire the functional imaging data. Thirty-eight axial slices

(2.7mm thick with 3.00mm×3.00mm in-plane resolution), covering the

whole brain, were collected with a circular-polarized head coil. The field

of view was 19.2 cm×19.2 cm with an in-plane resolution of 64×64 pixel.

124

7.2. MATERIALS AND METHODS

Data Analysis

Behavioural data. On each experimental day, we measured the parame-

ters (turning point and slope) of the psychometric function for each task

using QUEST (see above). The orientation difference leading to a correct

performance of 90% was extracted from these functions and used for the

block designed runs. During the scanner session (day 4), we additionally

recorded the reaction times for each task with a resolution of 13ms.

fMRI data. Analysis of fMRI data was based on BrainVoyagerQXTM 1.9

software (Brain Innovation, Maastricht). Functional data were pre-proc-

essed, including slice scan time correction, headmovement correction

and removal of linear trends. No spatial filter was applied. The 2D

functional images were aligned to 3D anatomical data, transformed

to Talairach & Tournoux standard coordinates (Talairach et al., 1993).

ROI-analysis and cortex-based alignment were based on segmented,

smoothed and inflated 3D-cortical surface representations (Dale et al.,

1999; Fischl et al., 1999).

We defined the regions-of-interest for each individual subject using

the data of the mapping experiments (see above). Borders between early

visual areas (V1, V2, V3d, VP, V4) were defined by the activations elicited

by stimulation of the vertical and horizontal field meridians (for method-

ology seeWarnking et al., 2002), inner and outer boundaries were defined

with the help of the eccentricity mapping and anatomical criteria. Object-

selective areas were defined by voxels responding stronger to images

containing objects compared to scrambled images (false discovery rate:

p<0.05). For three subjects we lowered this statistical threshold here to

uncorrected p<0.05, because they had very noisy data for this experiment.

Object-selective regions in the ventral pathway were separated according

to Grill-Spector et al. (2000) into three areas (lateral occipital: LO, pos-

terior fusiform gyrus: pFs, collateral sulcus: CoS) based on anatomical

criteria and their location relative to other visual areas. LO and pFs be-

long to the lateral-occiptal complex (LOC), while CoS is an area adjacent

to the LOC. For each subject, we computed for each ROI the beta-values

125

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

of the general linear model (GLM) across all conditions compared to the

baseline condition. These values were normalized to %-signal change.

Effects outside the mapped ROIs were investigated using the Cortex-

Based Alignment (CBA) procedure, implemented in BrainVoyagerTM (see

e.g. Goebel et al., 2006). Hence, for each hemisphere separately, anatomi-

cal 3D-representations of the cortical surface were inflated to a sphere

and then aligned (on the basis of the sphere) for the whole group of

subjects. This procedure reduces the noise caused by inter-individual

anatomical differences during the averaging process of the functional

data. Volume time courses of the aligned brains were then used to evalu-

ate statistically significant differences between the experimental condi-

tions using a random-effects GLM.

Statistics. Statistical analysis of behavioural results and ROI-analysis

was performed using repeated measurement ANOVAs of SPSS 16.0 (SPSS

Inc., Chicago). Wherever appropriate, p-values were adjusted by Green-

house-Geisser corrections. Post-hoc pairwise comparisons were con-

ducted by using t-tests.

Regions outside the investigated ROIs showing differences in activa-

tion after the CBA were statistically tested with the repeated measure-

ments random-effects ANCOVA of the BrainVoyagerTM software package.

7.3 Results

Psychophysics. In the figure identification task, subjects needed higher

orientation differences between figure and background elements to yield

a performance equal to that in the figure detection task. This differ-

ence was evident right from the first day of training through the final

experiment in the scanner and is illustrated by the turning points of the

psychometric function. At these points, subjects perform equally well at

75%-correct for all tasks, while the elements of the figure have different

orientation differences to the background depending on the task (see Fig-

ure 7.2A). A two factorial ANOVA for repeatedmeasurements (with factors

condition and experimental day) revealed that this difference between

126

7.3. RESULTS

Figure 7.2: Behavioural Results for all three experimental conditions: fig-ure detection (white bars), figure identification (black bars) and detectionof a scrambled figure (grey bars). Significant differences are marked withan asterisk. (A) and (B) Turning point of the psychometric function asmeasured on each experimental day using QUEST. (A) Orientation de-viation of figure elements to background elements for figure detectionand identification. These points differ significantly between the two con-ditions (p<0.001). (B) Number of elements that were not shifted in thescrambled figure condition. (C) Performance in fMRI experiment (day 4).Grey dashed line indicates aspired performance level of 90%-correct. (D)Mean of median reaction times in the fMRI experiment (day 4). The twodetection conditions do not differ in their reaction times, but both aresignificantly faster (p<0.05) than identification.

figure detection and identification is significant (F(1,9)=113.5, p<0.001),

whereas neither a general training effect (F(3,27)=2.1, p=0.12) nor an

interaction was observed (F(3,27)=2.7, p=0.06). Similarly, we observed

no training effect for the scrambled figure detection task (F(3,27)=0.6,

p=0.62; see Figure 7.2B). While the turning point of the psychometric

function was at a similar position on all experimental days for each con-

dition, we noticed that the subjects adapted to the three conditions and

–most importantly– to the demands of the block designed runs. Subjects

127

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

learned the quick switch from one condition to another, such that they

were experts when lying in the scanner.

Equal saliency across conditions was a central requirement for the

current study. This saliency is measured by the performance in each

condition, which is illustrated in Figure 7.2C for the fMRI experiment on

day 4. A one-factorial ANOVA for repeated measurements did not show a

significant effect of condition (F(2,18)=2.2, p=0.14), so all conditions had

comparable saliency. The reaction times for the same experimental day

are shown in Figure 7.2D. Here, we computed the median reaction times

for each subject and analyzed their mean. Although all conditions are

equally salient (see Figure 7.2C), subjects still needed slightly, but signifi-

cantly more time for the identification than for the detection condition.

This was revealed by a one-factorial ANOVA for repeated measurements

(F(2,18)=6.6, p<0.01) and post-hoc t-tests showing longer reaction times

for identification (p<0.05, one-tailed t-test), while no difference was ob-

served between the two detection conditions (p=0.41, two-tailed t-test).

Region-of-Interest Analysis. To investigate whether the task condition

influenced the BOLD signal in areas along the visual pathway, we ana-

lyzed activations in functionally mapped ROIs. These ROIs were bilateral

V1, V2, V3d, VP, V4, LO, pFs and CoS (see also Materials and Methods).

Their locations are illustrated in Figure 7.3A, the corresponding positional

statistics are given in Table 7.1 (centre of gravity and number of voxels).

Using the normalized beta values (%-signal change) of a random-

effects GLM analysis we specifically compared the activation changes for

detection, identification and scrambled-figure detection, respectively, rel-

ative to the baseline condition. These %-signal changes are depicted for

both hemispheres in Figure 7.3B. The effect of task condition on each ROI

was tested using a one-factorial ANOVA for repeated measurements. For

both hemispheres we found no significant effect in visual areas V1 (LH:

F(2,18)=0.8, p=0.47; RH: F(2,18)=1.3; p=0.30), V2 (LH: F(2,18)=0.7, p=0.49;

RH: F(2,18)=0.5; p=0.60), V3d (LH: F(2,18)=2.1, p=0.16; RH: F(2,18)=2.7;

p=0.10), VP (LH: F(2,18)=2.5, p=0.11; RH: F(2,18)=0.8; p=0.48) and V4 (LH:

F(2,18)=2.1, p=0.15; RH: F(2,18)=1.8; p=0.20). Object-selective areas, on

128

7.3. RESULTS

Figure 7.3: ROI analysis of fMRI data for the left (LH) and right hemisphere(RH), respectively. Denomination of object-selective regions: LO=lateraloccipital, pFs=posterior fusiform gyrus, CoS=collateral sulcus. (A) ROIsare shown on the flat maps of a single subject. Statistics of these ROIs forthe whole group (n=10) is given in Table 7.1. (B) Activations of ROIs duringfigure detection (white bars), identification (black bars) and detection of ascrambled figure (grey bars), given in %-signal change relative to baselinecondition. Error bars indicate standard errors. Significant differences inactivations of these areas with experimental conditions (1-way ANOVA)are marked with an asterisk above ROI name.

129

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

Table 7.1: Statistics of functionally mapped ROIs for left (LH) and right(RH) hemisphere, respectively. Specified are means and standard errorsof centres of gravity (talairach space) and number of voxels. Experimentalresults are depicted in Figure 7.3.

the other hand, were activated differently by task conditions. This was re-

vealed bilaterally for areas LO (LH: F(2,18)=14.6, p<0.001; RH: F(2,18)=6.3,

p<0.01) and pFs (LH: F(2,18)=19.4, p<0.001; RH: F(2,18)=21.3, p<0.001),

and for the right CoS (LH: F(2,18)=1.3, p=0.29; RH: F(2,18)=3.7, p<0.05). In

all of these areas, which were differently activated by task condition, post-

hoc t-tests indicated a significant increase in BOLD activation for the

identification task as compared to both detection tasks (one-tailed t-test:

LO: LH p<0.01, RH p<0.05; pFs: LH p<0.01, RH p<0.001; CoS: RH p<0.05),

while the latter did not differ significantly from each other (two-tailed

t-test: LO: LH p=0.66, RH p=0.95; pFs: LH p=0.70, RH p=0.38; CoS: RH

p=0.84), in spite of differential orientation differences of their elements.

Cortex-Based Alignment. Task-specific activation changes outside the

ROIs investigated were evaluated by using a CBA procedure. Anatomical

differences within the subject group are reduced in CBA by the align-

ment of 3-D representations of the cortical surface. On these aligned

3D-representations, functional data were re-analyzed using a random-

effects GLM. Regions responding differentially to specific task contrasts,

as tested by a random effects ANCOVA (p<0.01), are illustrated in Figure

130

7.4. DISCUSSION

Table 7.2: Location of regions that responded differently to specific con-trasts after the cortex-based alignment procedure and were not yet ana-lyzed in the ROI analysis (see Figure 7.3 and Table 7.1). The first columngives the index number, which labels these regions in Figure 7.4, the sec-ond column denotes the particular contrast. Coordinates are given intalairach space and anatomical classification, into location and Brod-mann area (BA), was carried out with Talairach Client (Lancaster et al.,2000).

7.4. Most of these regions coincide with areas that were already analyzed

in the ROI analysis (see above). Location of the other regions is given

in Table 7.2. Here, the anatomical classification relies on the Talairach

Client software (www.talairach.org, see also Lancaster et al., 2000).

The identification task causes stronger activation as compared to

both detection tasks in the right cingulate gyrus (BA 24) and the left

precuneus (BA 7). Furthermore, the left inferior parietal lobe (BA24) is

more active for identification than for scrambled-figure detection. The

only difference we observed in the contrast between the two detection

tasks was a higher activation in the medial frontal gyrus (BA 9) for the

figure detection task.

7.4 Discussion

Detection and identification can effectively be separated based on their

different psychometric functions. The two processes have different per-

ceptual thresholds, different reaction times and object-selective areas

are significantly stronger activated during the identification task. The dif-

ference in activation cannot be explained by the stronger figure-ground

difference in the identification task, because the scrambled-figure detec-

131

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

Figure 7.4: Regions that responded significantly (p<0.01; random-effectsANCOVA) to the specified contrasts for the whole group after the cortex-based alignment procedure (LH: left hemisphere; RH: right hemisphere).Talairach coordinates and anatomical classification are given in Table7.2. White arrows mark regions that coincide with regions of the ROIanalysis (see Figure 7.3), numbers in diamonds index other regions. Vox-els are coloured according to the particular contrast yielding significantdifferences in activation.

132

7.4. DISCUSSION

tion condition has exactly the same figure-ground difference. Further

BOLD-effects corresponding to the different tasks appear in distinct pari-

etal, central and frontal regions of the cortex, as revealed by the cortex

based alignment. All these results challenge the conclusions drawn in

several previous studies, namely that detection and identification rely on

the samemechanism and that detecting an object is equivalent to identi-

fying it (Grill-Spector, 2003a,b; Grill-Spector et al., 2004; Grill-Spector &

Kanwisher, 2005). In the following, we will deal with this issue and further

interpret the results.

Differences inmapped visual areas. Location of functionally mapped ar-

eas (Table 7.1) is roughly in agreement with previous reports (for V1 to

V4 see Hasnain et al., 1998, ; for object-selective regions see Grill-Spector

et al., 2000). For analysis of activation (%-signal change) in these areas

each task was contrasted to the baseline condition. The bars in Figure

7.3B clearly show that neural processing is enhanced across all mapped

visual areas for all tasks. However, the low-level properties of the stimulus

are identical for the baseline condition and all other tasks, since the base-

line condition contained as many Gabor elements as the task conditions,

and also stimulus duration andmotor response were the same. Therefore,

only two factors can account for this enhanced activation: First, subjects

knew the current task (colour coded fixation point) and increased their

attentional allocation during the task conditions as compared to the base-

line condition. Indeed, it has been shown that attentionmodulates neural

activity on multiple levels of the visual system (for reviews see Kastner &

Pinsk, 2004; Rees & Lavie, 2001). Second, enhanced activations during the

task conditions might be caused by segregation processes which would

not occur in the baseline condition. Several studies reported the involve-

ment of the primary visual cortex (V1) in segregation processes (Kapadia

et al., 1995; Li et al., 2006; Murray et al., 2006; Polat et al., 1998; Zipser

et al., 1996) implying that figure-ground segregation maymodulate the

activity of neurons in V1 and subsequent areas. In the current study we

cannot dissociate between attentional and segregation effects, but since

attention here operates on the global level, because subjects did not know

133

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

where the figure would appear, we conclude that the enhancement we

see has to be attributedmainly to attentional effects. Then, the amount

of attentional allocation should be roughly the same for detection and

identification, since all tasks were equally salient. Furthermore, it is ques-

tionable if the BOLD-signal, having a poor temporal resolution, reflects

the possible segregation effects mentioned above, since the presentation

time of the stimulus is rather short (80ms versus 2000ms fixation/answer

time) and the target saliency was limited (90%-correct responses).

Regions revealed by the cortex-based alignment. Consistent with the ROI-

analysis we found a higher hemodynamic response for the identification

task in voxel-clusters overlapping with object-selective areas LO, pFs

and CoS. Besides these, we observed further effects of specific contrasts

between the conditions in four distinct regions (illustrated in Figure 7.4).

All of these regions belong to a well known network that has been linked

with attentional control, working memory and conscious perception (for

a meta-analysis see Naghavi & Nyberg, 2005). All response differences we

observe were located unilaterally, which is common for this network.

In the left hemisphere, the identification task caused higher activa-

tions in parts of the precuneus (BA 7) and the inferior parietal lobe (BA

40). Activations in the vicinity of the coordinates we report here are of-

ten attributed to visuospatial processing (Deng et al., 2008), shifting of

attention (Booth et al., 2004; Corbetta et al., 1993; Le et al., 1998) and

spatial workingmemory (Buckner et al., 1996), but also their involvement

in non-spatial attentional allocation has been reported (for a review see

Kanwisher &Wojciulik, 2000). Attentional shifts to recognize the figures’

shape are only mandatory during the identification task, because here,

once the location of the target has been detected, spatial information has

to be integrated for successful recognition. In contrast, for detection the

target location is already sufficient to solve the task. Moreover, a region

comparable to the one we found in the inferior parietal lobe has been

related to orientation judgement (see area pCs in Altmann et al., 2005).

In our experiment this region showed enhanced activation during iden-

tification compared to detection of the scrambled figure, which can be

134

7.4. DISCUSSION

explained by the fact that orientation judgement aids the identification

process and the scrambled figure in turn had no orientation.

In the right hemisphere we found strongly overlapping regions of

enhanced activation for identification compared to both detection tasks

in the anterior cingulate gyrus (BA 24). Generally the anterior cingulate

cortex is considered to contribute to conflict monitoring and cognitive

control (Barch et al., 2001; Botvinick et al., 2001; Mayr, 2004). After per-

forming the experiments, subjects reported that during the identification

task they had to consciously suppress the reaction to push the answer key

according to the side where the figure appeared in order to answer cor-

rectly if it was symmetrical or asymmetrical. Indeed, a similar region has

been reported when subjects had to control opposite finger movement

(Paus et al., 1993).

The only difference we found between the two detection tasks was

an increased activation during figure detection in the right hemisphere

in the medial frontal gyrus (BA 9), close to the border to BA 6. A similar

frontal region (if not the same) was reported to be involved in orientation

judgements (Lee et al., 2005). This possible frontal involvement in ori-

entation judgement might be due to the fact that the figure and hence

its orientation is hardly visible in the figure detection task and therefore

higher cognitive control may be required to optimize performance. The

argument is similar to that for the observed parietal activation related to

orientation judgement: The scrambled figure has no orientation, but in

the figure detection condition it is useful to judge the figures’ orientation,

since its position always slightly crossed the vertical stimulus midline

and the orientation can be a hint to judge whether it is right or left.

Detection versus Identification: Same or different? The behavioural data

of this study corroborate that it is not necessary to recognize the shape

of an object to detect it. Indeed, the differences in the psychometric

functions reveal that even when subjects detect the figure correctly in 90

% of presentations, they are still only marginally above guessing proba-

bility regarding identification. This relation was robust across training

days. The differences in perceptual thresholds between the two tasks ob-

135

KAPITEL 7. DETECTION VERSUS IDENTIFICATION

viously are an intrinsic property of the visual system. Moreover, although

our tasks were saliency-matched, both detections were still significantly

faster (about 40 ms) than identification. These findings support the in-

terpretation of Mack et al. (2008) rather than that of Grill-Spector and

Kanwisher (2005). Our interpretation of partly separate neural mecha-

nisms is supported by additional behavioural studies showing that the

two processes differentially depend on the number of target elements

(Sagi & Julesz, 1984) and on cue combination (Meinhardt et al., 2006).

In addition to the behavioural evidence, we found different hemo-

dynamic responses in object-selective areas of the visual system. These

task-related differences cannot easily be attributed to propagation from

earlier visual areas, because we do not find task-related activation dif-

ferences in any of these. However, all areas showed increased activation

compared to the baseline condition, so we cannot definitely preclude

that object-selective areas are not involved in object detection. On the

other hand, we find this increased activation in all visual areas as com-

pared to the baseline condition and, as argued above, attentional and

segregation effects can account for this finding. A faint exception is the

region we termed CoS, which was activated only in the identification task

in the right hemisphere (compare Figure 7.3B). This special lateralized

activation (although small) strengthens the hypothesis that parts of the

brain are exclusively involved in recognition and not in detection. It will

be worthwhile in future studies investigating detection and identifica-

tion to especially scrutinize this region. Moreover, we did not observe a

hemodynamic response difference between the two detection tasks in

all visual areas considered indicating that the increased activation for

the identification task in object-selective areas reflects shape perception

and not figure-ground segregation. Shape perception was only relevant

(and possible) in the identification task. Therefore we conclude that the

activations of object-selective areas in both detection tasks rather reflect

the effort of the visual system to identify the target.

Further evidence for partly separate mechanisms for detection and

identification comes from fMRI studies investigating how the visual sys-

136

7.5. CONCLUSIONS

tem selects and encodes individual objects from a crowded scene. Here

the first process is termed object individuation and the latter object iden-

tification. In this framework, object individuation in a crowded scene is

the result of multiple, probably parallel detection. Consistent with the

results reported here, it has been found that both processes are realized

by two distinct mechanisms working together to enable fast and accurate

recognition performance (Xu & Chun, 2007; Xu, 2009).

7.5 Conclusions

The visual systemmay successfully detect an object even if identification

fails. We separated the two processes by measuring individual psycho-

metric functions and adjusting the figure-ground differences such that

subjects performed equally well in both tasks. Hence, stimulus salience

was matched for the two tasks. In our study, the BOLD-signal showed

larger activations for identification in object-selective subdivisions of the

LOC (LO and pFs) and an adjacent area (CoS). Area CoS was the only area

that seemed to be exclusively activated during identification. The ab-

sence of differences between the two detection tasks in object-selective

areas indicates that the additional activation during identification re-

flects shape recognition which was impossible during both detection

tasks. This finding underscores the fact that detection does not require

recognition and may rely on a partly separate mechanism. It will be

worthwhile to more specifically investigate if object selective areas are

in fact not essential for successful detection (e.g. by inducing virtual

lesions).

Acknowledgements

The authors like to thank M. Löbe and B. Dorgau for helping throughout

the data acquisition phase. We also like to thank D. Högl, C. Grimsen, P.

Erhard and D. Trenner for improving this study with valuable suggestions.

137

Literaturverzeichnis

Abele,M. & Fahle,M. (1995). Interactions between orientation, luminance

and color cues in figure-ground discrimination. Perception 24, 11.

Altmann, C. F., Grodd, W., Kourtzi, Z., Bulthoff, H. H. & Karnath, H. O.

(2005). Similar cortical correlates underlie visual object identification

and orientation judgment. Neuropsychologia 43(14), 2101–2108.

American Electroencephalographic Society (1994). Guideline thirteen:

guidelines for standard electrode position nomenclature. Journal of

Clinical Neurophysiology 11(1), 111–113.

Anllo-Vento, L. & Hillyard, S. A. (1996). Selective attention to the color

and direction of moving stimuli: electrophysiological correlates of hier-

archical feature selection. Perception & Psychophysics 58(2), 191–206.

Arthurs, O. J. & Boniface, S. (2002). Howwell do we understand the neural

origins of the fMRI bold signal? Trends in Neurosciences 25(1), 27–31.

Ashby, F. G. & Townsend, J. T. (1986). Varieties of perceptual independence.

Psychological Review 93(2), 154–179.

Assad, J. A. (2003). Neural coding of behavioral relevance in parietal

cortex. Current Opinion in Neurobiology 13(2), 194–197.

Bach, M. (1996). The freiburg visual acuity test–automatic measurement

of visual acuity. Optometry and Vision Science 73(1), 49–53.

Bach,M. &Meigen, T. (1992). Electrophysiological correlates of texture se-

gregation in the human visual evoked potential. Vision Research 32(3),

417–424.

139

LITERATURVERZEICHNIS

Bach, M. &Meigen, T. (1997). Similar electrophysiological correlates of

texture segregation induced by luminance, orientation, motion and

stereo. Vision Research 37(11), 1409–1414.

Bach, M. &Meigen, T. (1998). Electrophysiological correlates of human

texture segregation, an overview. Documenta Ophthalmologica. Ad-

vances in Ophthalmology 95(3-4), 335–347.

Bach,M., Schmitt, C., Quenzer, T.,Meigen, T. & Fahle,M. (2000). Summati-

on of texture segregation across orientation and spatial frequency: elec-

trophysiological and psychophysical findings. Vision Research 40(26),

3559–3566.

Barch, D. M., Braver, T. S., Akbudak, E., Conturo, T., Ollinger, J. & Snyder,

A. (2001). Anterior cingulate cortex and response conflict: effects of

response modality and processing domain. Cerebral Cortex 11(9), 837–

848.

Basar, E., Basar-Eroglu, C., Karakas, S. & Schurmann, M. (1999). Are

cognitive processes manifested in event-related gamma, alpha, theta

and delta oscillations in the EEG? Neuroscience Letters 259(3), 165–168.

Berger, H. (1929). Über das Elektroenkephalogramm des Menschen.

European Archives of Psychiatry and Clinical Neuroscience 87(1), 527–

570.

Bergmann, C. (1858). Anatomisches und Physiologisches über die Netz-

haut des Auges. In Henle, J. & Pfeufer, C. (Eds.). Zeitschrift für rationelle

Medicin (3 Ed.)., Band 2. Leipzig & Heidelberg: Winter’sche Verlags-

handlung, S. 83–108.

Birbaumer, N. & Schmidt, R. F. (2006). Biologische Psychologie : mit 41

Tabellen ; [Bonusmaterial imWeb]. Heidelberg: Springer Medizin.

Blake, A., Bulthoff, H. H. & Sheinberg, D. (1993). Shape from texture:

ideal observers and human psychophysics. Vision Research 33(12),

1723–1737.

140

LITERATURVERZEICHNIS

Booth, J. R., Burman, D. D., Meyer, J. R., Gitelman, D. R., Parrish, T. B.

& Mesulam, M. M. (2004). Development of brain mechanisms for

processing orthographic and phonologic representations. Journal of

Cognitive Neuroscience 16(7), 1234–1249.

Botvinick, M. M., Braver, T. S., Barch, D. M., Carter, C. S. & Cohen, J. D.

(2001). Conflict monitoring and cognitive control. Psychological Re-

view 108(3), 624–652.

Braddick, O. J., O’Brien, J. M., Wattam-Bell, J., Atkinson, J., Hartley, T.

& Turner, R. (2001). Brain areas sensitive to coherent visual motion.

Perception 30(1), 61–72.

Buckner, R. L., Raichle, M. E., Miezin, F. M. & Petersen, S. E. (1996). Func-

tional anatomic studies of memory retrieval for auditory words and

visual pictures. The Journal of Neuroscience 16(19), 6219–6235.

Bullier, J. (2001). Integratedmodel of visual processing. Brain Research

Reviews 36(2-3), 96–107.

Busch, N. A., Debener, S., Kranczioch, C., Engel, A. K. & Herrmann, C. S.

(2004). Size matters: effects of stimulus size, duration and eccentricity

on the visual gamma-band response. Clinical Neurophysiology 115(8),

1810–1820.

Busch, N. A., Herrmann, C. S., Muller, M. M., Lenz, D. & Gruber, T. (2006).

A cross-laboratory study of event-related gamma activity in a standard

object recognition paradigm. NeuroImage 33(4), 1169–1177.

Busch, N. A., Schadow, J., Frund, I. & Herrmann, C. S. (2006). Time-

frequency analysis of target detection reveals an early interface bet-

ween bottom-up and top-down processes in the gamma-band. Neu-

roImage 29(4), 1106–1116.

Caputo, G. & Casco, C. (1999). A visual evoked potential correlate of global

figure-ground segmentation. Vision Research 39(9), 1597–1610.

141

LITERATURVERZEICHNIS

Carey, D. P., Dijkerman, H. C., Murphy, K. J., Goodale, M. A. & Milner,

A. D. (2006). Pointing to places and spaces in a patient with visual form

agnosia. Neuropsychologia 44(9), 1584–1594.

Corbetta, M., Miezin, F. M., Dobmeyer, S., Shulman, G. L. & Petersen, S. E.

(1990). Attentional modulation of neural processing of shape, color,

and velocity in humans. Science 248(4962), 1556–1559.

Corbetta, M., Miezin, F. M., Shulman, G. L. & Petersen, S. E. (1993). A

PET study of visuospatial attention. The Journal of Neuroscience 13(3),

1202–1226.

Dale, A. M., Fischl, B. & Sereno, M. I. (1999). Cortical surface-based

analysis. i. segmentation and surface reconstruction. NeuroImage 9(2),

179–194.

Deco, G. & Rolls, E. T. (2004). A neurodynamical cortical model of visual

attention and invariant object recognition. Vision Research 44(6), 621–

642.

Deng, Y., Booth, J. R., Chou, T. L., Ding, G. S. & Peng, D. L. (2008). Item-

specific and generalization effects on brain activation when learning

chinese characters. Neuropsychologia 46(7), 1864–1876.

Doniger, G. M., Foxe, J. J., Murray, M. M., Higgins, B. A., Snodgrass, J. G.,

Schroeder, C. E. & Javitt, D. C. (2000). Activation timecourse of ventral vi-

sual streamobject-recognition areas: high density electricalmapping of

perceptual closure processes. Journal of Cognitive Neuroscience 12(4),

615–621.

Doniger, G. M., Foxe, J. J., Schroeder, C. E., Murray, M. M., Higgins, B. A. &

Javitt, D. C. (2001). Visual perceptual learning in human object reco-

gnition areas: a repetition priming study using high-density electrical

mapping. NeuroImage 13(2), 305–313.

Eckhorn, R., Bauer, R., Jordan, W., Brosch, M., Kruse, W., Munk, M. &

Reitboeck, H. J. (1988). Coherent oscillations: a mechanism of feature

142

LITERATURVERZEICHNIS

linking in the visual cortex? Multiple electrode and correlation analyses

in the cat. Biological Cybernetics 60(2), 121–130.

Edelman, G. M. & Griese, F. (1993). Unser Gehirn - ein dynamisches

System : die Theorie des neuronalen Darwinismus und die biologischen

Grundlagen der Wahrnehmung. München: Piper.

Ehrenstein, W. H. & Ehrenstein, A. (1999). Psychophysical Methods. In

Windhorst, U. & Johansson, H. (Eds.). Modern techniques in neuros-

cience research. Berlin: Springer, S. 1211–1241.

Fabiani, M., Gratton, G. & Coles, M. G. H. (2000). Event-related brain po-

tentials: Methods, theory, and applications. In Cacioppo, J. T., Tassinary,

L. G. & Berntson, G. G. (Eds.). Handbook of psychophysiology (2 Ed.).

Cambridge: Cambridge University Press, S. 53–84.

Fahle, M., Quenzer, T., Braun, C. & Spang, K. (2003). Feature-specific elec-

trophysiological correlates of texture segregation. Vision Research 43(1),

7–19.

Fechner, G. T. (1860). Elemente der Psychophysik. Leipzig: Breitkopf und

Härtel.

Ffytche, D. H. & Zeki, S. (1996). Brain activity related to the perception of

illusory contours. NeuroImage 3(2), 104–108.

Fischl, B., Sereno, M. I. & Dale, A. M. (1999). Cortical surface-based

analysis. ii: Inflation, flattening, and a surface-based coordinate system.

NeuroImage 9(2), 195–207.

Georgieva, S., Peeters, R., Kolster, H., Todd, J. T. & Orban, G. A. (2009). The

processing of three-dimensional shape from disparity in the human

brain. The Journal of Neuroscience 29(3), 727–742.

Goebel, R., Esposito, F. & Formisano, E. (2006). Analysis of functional

image analysis contest (FIAC) data with Brainvoyager QX: From single-

subject to cortically aligned group general linear model analysis and

self-organizing group independent component analysis. Human Brain

Mapping 27(5), 392–401.

143

LITERATURVERZEICHNIS

Green, D. M. & Swets, J. A. (1988). Signal detection theory and psychophy-

sics. Los Altos, CA: Peninsula Publ.

Grill-Spector, K. (2003a). The functional organization of the ventral visual

pathway and its relationship to object recognition. In Kanwisher, N. &

Duncan, J. (Eds.). Functional neuroimaging of visual cognition: attenti-

on and performance XX. Oxford: Oxford University Press, S. 169–193.

Grill-Spector, K. (2003b). The neural basis of object perception. Current

Opinion in Neurobiology 13(2), 159–166.

Grill-Spector, K. & Kanwisher, N. (2005). Visual recognition: as soon as

you know it is there, you know what it is. Psychological Science 16(2),

152–160.

Grill-Spector, K., Knouf, N. & Kanwisher, N. (2004). The fusiform face area

subserves face perception, not generic within-category identification.

Nature Neuroscience 7(5), 555–562.

Grill-Spector, K., Kushnir, T., Hendler, T. &Malach, R. (2000). The dyna-

mics of object-selective activation correlate with recognition perfor-

mance in humans. Nature Neuroscience 3(8), 837–843.

Hasnain, M. K., Fox, P. T. & Woldorff, M. G. (1998). Intersubject varia-

bility of functional areas in the human visual cortex. Human Brain

Mapping 6(4), 301–315.

Heeger, D. J. & Ress, D. (2004). Neuronal correlates of visual attention and

perception. In Gazzaniga, M. S., Ivry, R. B., Mangun, G. R. & Steven,

M. S. (Eds.). Cognitive neuroscience: the biology of the mind (3 Ed.).

New York, NY: Norton, S. 339–350.

Heinrich, S. P., Andres, M. & Bach, M. (2007). Attention and visual texture

segregation. Journal of Vision 7(6), 6.

Herrmann, C. S. & Bosch, V. (2001). Gestalt perceptionmodulates early

visual processing. Neuroreport 12(5), 901–904.

144

LITERATURVERZEICHNIS

Herrmann, C. S., Grigutsch, M. & Busch, N. A. (2005). EEG oscillations

and wavelet analysis. In Handy, T. (Ed.). Event-Related Potentials: A

Methods Handbook. Cambridge, Mass: MIT Press, S. 229–259.

Hillis, J. M., Watt, S. J., Landy, M. S. & Banks, M. S. (2004). Slant from

texture and disparity cues: optimal cue combination. Journal of Visi-

on 4(12), 967–992.

Hopfinger, J. B., Khoe, W. & Song, A. (2005). Combining Electrophysiology

with Structural and Functional Neuroimaging: ERPs, PET, MRI, and fM-

RI. In Handy, T. (Ed.). Event-Related Potentials: A Methods Handbook.

Cambridge, Mass: MIT Press, S. 345–379.

Hubel, D. H. & Livingstone, M. S. (1987). Segregation of form, color,

and stereopsis in primate area 18. The Journal of Neuroscience 7(11),

3378–3415.

Huettel, S. A., Song, A. W. & McCarthy, G. (2004). Functional magnetic

resonance imaging. Sunderland, Mass.: Sinauer.

Itti, L. & Koch, C. (2001). Computational modelling of visual attention.

Nature Reviews Neuroscience 2(3), 194–203.

Jacobs, R. A. & Fine, I. (1999). Experience-dependent integration of tex-

ture andmotion cues to depth. Vision Research 39(24), 4062–4075.

Kaas, J. H. (1996). Theories of visual cortex organization in primates:

areas of the third level. Progress in Brain Research 112, 213–221.

Kaas, J. H. & Lyon, D. C. (2001). Visual cortex organization in primates:

theories of V3 and adjoining visual areas. Progress in Brain Research 134,

285–295.

Kahana, M. J., Seelig, D. & Madsen, J. R. (2001). Theta returns. Current

Opinion in Neurobiology 11(6), 739–744.

Kandel, E. R., Schwartz, J. H. & Jessell, T. M. (2000). Principles of neural

science. New York: McGraw-Hill, Health Professions Division.

145

LITERATURVERZEICHNIS

Kanwisher, N. &Wojciulik, E. (2000). Visual attention: insights from brain

imaging. Nature Reviews Neuroscience 1(2), 91–100.

Kapadia, M. K., Ito, M., Gilbert, C. D. &Westheimer, G. (1995). Improve-

ment in visual sensitivity by changes in local context: parallel studies in

human observers and in V1 of alert monkeys. Neuron 15(4), 843–856.

Kastner, S. & Pinsk, M. A. (2004). Visual attention as a multilevel selection

process. Cognitive, Affective & Behavioral Neuroscience 4(4), 483–500.

Kastner, S., Schneider, K. A. & Wunderlich, K. (2006). Beyond a relay

nucleus: neuroimaging views on the human LGN. Progress in Brain

Research 155, 125–143.

Key, A. P., Dove, G. O. &Maguire, M. J. (2005). Linking brainwaves to the

brain: an ERP primer. Developmental Neuropsychology 27(2), 183–215.

Kolb, H. (2003). How the retina works. American Scientist 91(1), 28–35.

Kotsoni, E., Csibra, G., Mareschal, D. & Johnson, M. H. (2007). Electro-

physiological correlates of common-onset visual masking. Neuropsy-

chologia 45(10), 2285–2293.

Kubovy, M. & Cohen, D. J. (2001). What boundaries tell us about binding.

Trends in Cognitive Sciences 5(3), 93–95.

Kubovy, M., Cohen, D. J. & Hollier, J. (1999). Feature integration that

routinely occurs without focal attention. Psychonomic Bulletin & Re-

view 6(2), 183–203.

Lamme, V. A. & Roelfsema, P. R. (2000). The distinct modes of vision

offered by feedforward and recurrent processing. Trends in Neuros-

ciences 23(11), 571–579.

Lamme, V. A., Super, H. & Spekreijse, H. (1998). Feedforward, horizon-

tal, and feedback processing in the visual cortex. Current Opinion in

Neurobiology 8(4), 529–535.

146

LITERATURVERZEICHNIS

Lamme, V. A., Van Dijk, B. W. & Spekreijse, H. (1992). Texture segregation

is processed by primary visual cortex in man and monkey. evidence

from VEP experiments. Vision Research 32(5), 797–807.

Lancaster, J. L., Woldorff, M. G., Parsons, L. M., Liotti, M., Freitas, C. S.,

Rainey, L., Kochunov, P. V., Nickerson, D.,Mikiten, S. A. & Fox, P. T. (2000).

Automated talairach atlas labels for functional brain mapping. Human

Brain Mapping 10(3), 120–131.

Landy, M. S. & Kojima, H. (2001). Ideal cue combination for localizing

texture-defined edges. Journal of the Optical Society of America A 18(9),

2307–2320.

Lauterbur, P. C. (1973). Image formation by induced local interactions:

Examples employing nuclear magnetic resonance. Nature 242(5394),

190–191.

Le, T. H., Pardo, J. V. & Hu, X. (1998). 4 t-fMRI study of nonspatial shifting

of selective attention: cerebellar and parietal contributions. Journal of

Neurophysiology 79(3), 1535–1548.

Lee, T. M., Liu, H. L., Hung, K. N., Pu, J., Ng, Y. B., Mak, A. K., Gao, J. H.

& Chan, C. C. (2005). The cerebellum’s involvement in the judgment

of spatial orientation: a functional magnetic resonance imaging study.

Neuropsychologia 43(13), 1870–1877.

Lee, T. S. & Nguyen, M. (2001). Dynamics of subjective contour formation

in the early visual cortex. Proceedings of the National Academy of

Sciences of the United States of America 98(4), 1907–1911.

Lennie, P. (1980). Parallel visual pathways: a review. Vision Research 20(7),

561–594.

Leonards, U. & Singer, W. (2000). Conjunctions of colour, luminance and

orientation: the role of colour and luminance contrast on saliency and

proximity grouping in texture segregation. Spatial Vision 13(1), 87–105.

Li, W., Piech, V. & Gilbert, C. D. (2006). Contour saliency in primary visual

cortex. Neuron 50(6), 951–962.

147

LITERATURVERZEICHNIS

Livingstone, M. &Hubel, D. (1988). Segregation of form, color, movement,

and depth: anatomy, physiology, and perception. Science 240(4853),

740–749.

Logothetis, N. K. (2002). The neural basis of the blood-oxygen-level-

dependent functional magnetic resonance imaging signal. Philoso-

phical Transactions of the Royal Society of London. Series B 357(1424),

1003–1037.

Luck, S. J. (2005). An introduction to the event-related potential technique.

Cambridge, Mass: MIT Press.

Mack, M. L., Gauthier, I., Sadr, J. & Palmeri, T. J. (2008). Object detection

and basic-level categorization: sometimes you know it is there before

you know what it is. Psychonomic Bulletin & Review 15(1), 28–35.

Macmillan, N. A. & Creelman, C. D. (1991). Detection theory : a user’s

guide. Cambridge: Cambridge Univ. Press.

Macmillan, N. A. & Creelman, C. D. (2005). Detection theory : a user’s

guide. Mahwah, NJ: Lawrence Erlbaum Associates.

Malach, R., Reppas, J. B., Benson, R. R., Kwong, K. K., Jiang, H., Kennedy,

W. A., Ledden, P. J., Brady, T. J., Rosen, B. R. & Tootell, R. B. (1995). Object-

related activity revealed by functional magnetic resonance imaging

in human occipital cortex. Proceedings of the National Academy of

Sciences of the United States of America 92(18), 8135–8139.

Mansfield, P. &Maudsley, A. A. (1976). Line scan proton spin imaging in

biological structures by NMR. Physics in Medicine and Biology 21(5),

847–852.

Mathes, B. & Fahle, M. (2007). The electrophysiological correlate of con-

tour integration is similar for color and luminance mechanisms. Psy-

chophysiology 44(2), 305–322.

Mathes, B., Trenner, D. & Fahle, M. (2006). The electrophysiological

correlate of contour integration is modulated by task demands. Brain

Research 1114(1), 98–112.

148

LITERATURVERZEICHNIS

Maunsell, J. H. & Treue, S. (2006). Feature-based attention in visual cortex.

Trends in Neurosciences 29(6), 317–322.

Mayr, U. (2004). Conflict, consciousness, and control. Trends in Cognitive

Sciences 8(4), 145–148.

McCarthy, G. & Donchin, E. (1981). A metric for thought: a comparison

of p300 latency and reaction time. Science 211(4477), 77–80.

McKeefry, D. J. & Zeki, S. (1997). The position and topography of the

human colour centre as revealed by functional magnetic resonance

imaging. Brain: A Journal of Neurology 120, 2229–2242.

Mecklinger, A. & Muller, N. (1996). Dissociations in the processing of

”what” and ”where” information in working memory: An event-related

potential analysis. Journal of Cognitive Neuroscience 8(5), 453–473.

Meinhardt, G. & Persike, M. (2003). Strength of feature contrast mediates

interaction among feature domains. Spatial Vision 16(5), 459–478.

Meinhardt, G., Persike, M., Mesenholl, B. & Hagemann, C. (2006). Cue

combination in a combined feature contrast detection and figure iden-

tification task. Vision Research 46(23), 3977–3993.

Meinhardt, G., Schmidt,M., Persike,M. &Roers, B. (2004). Feature synergy

depends on feature contrast and objecthood. Vision Research 44(16),

1843–1850.

Merigan, W. H. & Maunsell, J. H. (1993). How parallel are the primate

visual pathways? Annual Review of Neuroscience 16, 369–402.

Mima, T., Oluwatimilehin, T., Hiraoka, T. &Hallett, M. (2001). Transient in-

terhemispheric neuronal synchrony correlates with object recognition.

The Journal of Neuroscience 21(11), 3942–3948.

Mishkin, M., Ungerleider, L. & Macko, K. (1983). Object vision and spatial

vision: two cortical pathways. Trends in Neurosciences 6, 414–417.

149

LITERATURVERZEICHNIS

Moutoussis, K. & Zeki, S. (2008). Motion processing, directional selectivity,

and conscious visual perception in the human brain. Proceedings of the

National Academy of Sciences of the United States of America 105(42),

16362–16367.

Murray, M.M., Foxe, D.M., Javitt, D. C. & Foxe, J. J. (2004). Setting bounda-

ries: brain dynamics of modal and amodal illusory shape completion

in humans. The Journal of Neuroscience 24(31), 6898–6903.

Murray, M. M., Imber, M. L., Javitt, D. C. & Foxe, J. J. (2006). Boundary

completion is automatic and dissociable from shape discrimination.

The Journal of Neuroscience 26(46), 12043–12054.

Murray, M. M., Wylie, G. R., Higgins, B. A., Javitt, D. C., Schroeder, C. E.

& Foxe, J. J. (2002). The spatiotemporal dynamics of illusory contour

processing: combined high-density electrical mapping, source analysis,

and functional magnetic resonance imaging. The Journal of Neuros-

cience 22(12), 5055–5073.

Murray, S. O., Boyaci, H. & Kersten, D. (2006). The representation of

perceived angular size in human primary visual cortex. Nature Neuros-

cience 9(3), 429–434.

Naghavi, H. R. & Nyberg, L. (2005). Common fronto-parietal activity in at-

tention, memory, and consciousness: shared demands on integration?

Consciousness and Cognition 14(2), 390–425.

Nothdurft, H. (2000). Salience from feature contrast: additivity across

dimensions. Vision Research 40(10-12), 1183–1201.

O’Craven, K. M., Downing, P. E. & Kanwisher, N. (1999). fMRI evidence for

objects as the units of attentional selection. Nature 401(6753), 584–587.

Ohman, A., Flykt, A. & Esteves, F. (2001). Emotion drives attention: de-

tecting the snake in the grass. Journal of Experimental Psychology:

General 130(3), 466–478.

150

LITERATURVERZEICHNIS

Ohman, A. & Mineka, S. (2001). Fears, phobias, and preparedness: to-

ward an evolved module of fear and fear learning. Psychological Re-

view 108(3), 483–522.

Oruc, I., Maloney, L. T. & Landy, M. S. (2003). Weighted linear cue com-

bination with possibly correlated error. Vision Research 43(23), 2451–

2468.

Palmer, S. E. (2002). Vision science : photons to phenomenology. Cam-

bridge, Mass: MIT Press.

Pashler, H. (1988). Cross-dimensional interaction and texture segregation.

Perception & Psychophysics 43(4), 307–318.

Pashler, H. E. (1999). The psychology of attention. Cambridge, Mass.: MIT

Press.

Pasupathy, A. & Connor, C. E. (2002). Population coding of shape in area

V4. Nature Neuroscience 5(12), 1332–1338.

Paus, T., Petrides, M., Evans, A. C. &Meyer, E. (1993). Role of the human

anterior cingulate cortex in the control of oculomotor, manual, and

speech responses: a positron emission tomography study. Journal of

Neurophysiology 70(2), 453–469.

Perkins, D. N. (1983). Why the Human Perceiver Is a BadMachine. In Beck,

J., Hope, B. & Rosenfeld, A. (Eds.). Human andmachine vision, Notes

and reports in computer science and applied mathematics, Band 8.

Orlando, Fla: Academic Press, S. 341–364.

Persike, M. &Meinhardt, G. (2006). Synergy of features enables detection

of texture defined figures. Spatial Vision 19(1), 77–102.

Peterson, M. & Gibson, B. (1994). Must figure-ground organization

precede object recognition? An assumption in peril. Psychological

Science 5(5), 253–259.

Phillips, W. A. (2001). Contextual modulation and dynamic grouping in

perception. Trends in Cognitive Sciences 5(3), 95–97.

151

LITERATURVERZEICHNIS

Phillips, W. A. & Craven, B. J. (2000). Interactions between coincident

and orthogonal cues to texture boundaries. Perception & Psychophy-

sics 62(5), 1019–1038.

Picton, T. W. (1992). The P300 wave of the human event-related potential.

Journal of Clinical Neurophysiology 9(4), 456–479.

Polat, U., Mizobe, K., Pettet, M. W., Kasamatsu, T. & Norcia, A. M. (1998).

Collinear stimuli regulate visual responses depending on cell’s contrast

threshold. Nature 391(6667), 580–584.

Polich, J. (2004). Clinical application of the P300 event-related brain

potential. Physical Medicine and Rehabilitation Clinics of North Ameri-

ca 15(1), 133–161.

Polich, J. & Kok, A. (1995). Cognitive and biological determinants of P300:

an integrative review. Biological Psychology 41(2), 103–146.

Rees, G. & Lavie, N. (2001). What can functional imaging reveal about

the role of attention in visual awareness? Neuropsychologia 39(12),

1343–1353.

Reynolds, J. H. & Chelazzi, L. (2004). Attentional modulation of visual

processing. Annual Review of Neuroscience 27, 611–647.

Rivest, J. & Cavanagh, P. (1996). Localizing contours defined bymore than

one attribute. Vision Research 36(1), 53–66.

Roelfsema, P. R., Lamme, V. A., Spekreijse, H. & Bosch, H. (2002). Figure-

ground segregation in a recurrent network architecture. Journal of

Cognitive Neuroscience 14(4), 525–537.

Sagi, D. & Julesz, B. (1984). Detection versus discrimination of visual

orientation. Perception 13(5), 619–628.

Samar, V. J., Bopardikar, A., Rao, R. & Swartz, K. (1999). Wavelet analysis

of neuroelectric waveforms: a conceptual tutorial. Brain and Langua-

ge 66(1), 7–60.

152

LITERATURVERZEICHNIS

Sarnthein, J., Petsche, H., Rappelsberger, P., Shaw, G. L. & von Stein, A.

(1998). Synchronization between prefrontal and posterior association

cortex during human working memory. Proceedings of the National

Academy of Sciences of the United States of America 95(12), 7092–7096.

Schenk, T. (2006). An allocentric rather than perceptual deficit in patient

DF. Nature Neuroscience 9(11), 1369–1370.

Scholl, B. J. (2001). Objects and attention: the state of the art. Cogniti-

on 80(1-2), 1–46.

Sehatpour, P., Molholm, S., Javitt, D. C. & Foxe, J. J. (2006). Spatiotempo-

ral dynamics of human object recognition processing: an integrated

high-density electrical mapping and functional imaging study of "clos-

ure"processes. NeuroImage 29(2), 605–618.

Senkowski, D. & Herrmann, C. S. (2002). Effects of task difficulty on evo-

ked gamma activity and ERPs in a visual discrimination task. Clinical

Neurophysiology 113(11), 1742–1753.

Sherman, S. M. (2007). The thalamus is more than just a relay. Current

Opinion in Neurobiology 17(4), 417–422.

Shipp, S. & Zeki, S. (2002a). The functional organization of area V2, I:

specialization across stripes and layers. Visual Neuroscience 19(2),

187–210.

Shipp, S. & Zeki, S. (2002b). The functional organization of area V2, II:

the impact of stripes on visual topography. Visual Neuroscience 19(2),

211–231.

Shoji, H. & Ozaki, H. (2006). Topographic change in ERP due to discrimi-

nation of geometric figures in the peripheral visual field. International

Journal of Psychophysiology 62(1), 115–121.

Sincich, L. C. & Horton, J. C. (2002). Divided by cytochrome oxidase: a

map of the projections from V1 to V2 in macaques. Science 295(5560),

1734–1737.

153

LITERATURVERZEICHNIS

Singer, W. (1999). Neurobiology: Striving for coherence. Nature 397(6718),

391, 393.

Slotnick, S. D. (2005). Source Localization of ERP Generators. In Handy,

T. (Ed.). Event-Related Potentials: AMethods Handbook. Cambridge,

Mass: MIT Press, S. 149–166.

Spang, K. &Morgan, M. (2008). Cortical correlates of stereoscopic depth

produced by temporal delay. Journal of Vision 8(9), 10.1–12.

Suder, K. & Worgotter, F. (2000). The control of low-level information flow

in the visual system. Reviews in the Neurosciences 11(2-3), 127–146.

Talairach, J., Tournoux, P., Missir, O. & Turak, B. (1993). Referentially

oriented cerebral MRI anatomy: an atlas of stereotaxic anatomical cor-

relations for gray and white matter. Stuttgart: Thieme u.a.

Tallon-Baudry, C. & Bertrand, O. (1999). Oscillatory gamma activity in

humans and its role in object representation. Trends in Cognitive

Sciences 3(4), 151–162.

Tallon-Baudry, C., Bertrand, O., Peronnet, F. & Pernier, J. (1998). Induced

gamma-band activity during the delay of a visual short-termmemory

task in humans. The Journal of Neuroscience 18(11), 4244–4254.

Tanner, W. P. (1956). Theory of recognition. Journal of the Acoustical

Society of America 28, 882–888.

Thorpe, S., Fize, D. &Marlot, C. (1996). Speed of processing in the human

visual system. Nature 381(6582), 520–522.

Thorpe, S. J. & Fabre-Thorpe, M. (2001). Neuroscience. seeking categories

in the brain. Science 291(5502), 260–263.

Tootell, R. B., Mendola, J. D., Hadjikhani, N. K., Ledden, P. J., Liu, A. K.,

Reppas, J. B., Sereno, M. I. & Dale, A. M. (1997). Functional analysis of

V3A and related areas in human visual cortex. The Journal of Neuros-

cience 17(18), 7060–7078.

154

LITERATURVERZEICHNIS

Tootell, R. B., Mendola, J. D., Hadjikhani, N. K., Liu, A. K. & Dale, A. M.

(1998). The representation of the ipsilateral visual field in human

cerebral cortex. Proceedings of the National Academy of Sciences of the

United States of America 95(3), 818–824.

Tootell, R. B., Silverman, M. S., Switkes, E. & Valois, R. L. D. (1982). Deoxy-

glucose analysis of retinotopic organization in primate striate cortex.

Science 218(4575), 902–904.

Torrence, C. & Compo, G. P. (1998). A practical guide to wavelet analysis.

Bulletin of the American Meteorological Society 79, 61–78.

Treisman, A. M. & Gelade, G. (1980). A feature-integration theory of

attention. Cognitive Psychology 12(1), 97–136.

Treue, S. (2003). Visual attention: the where, what, how and why of

saliency. Current Opinion in Neurobiology 13(4), 428–432.

Treutwein, B. (1995). Adaptive psychophysical procedures. Vision Rese-

arch 35(17), 2503–2522.

Triesch, J., Ballard, D. H. & Jacobs, R. A. (2002). Fast temporal dynamics

of visual cue integration. Perception 31(4), 421–434.

Tsujimoto, S. & Tayama, T. (2004). Independent mechanisms for dividing

attention between the motion and the color of dynamic random dot

patterns. Psychological Research 68(4), 237–244.

Van Essen, D. C., Anderson, C. H. & Felleman, D. J. (1992). Information

processing in the primate visual system: an integrated systems perspec-

tive. Science 255(5043), 419–423.

van Mierlo, C. M., Brenner, E. & Smeets, J. B. (2007). Temporal aspects of

cue combination. Journal of Vision 7(7), 8.1–11.

von Stein, A. & Sarnthein, J. (2000). Different frequencies for different sca-

les of cortical integration: from local gamma to long range alpha/theta

synchronization. International Journal of Psychophysiology 38(3), 301–

313.

155

LITERATURVERZEICHNIS

Warnking, J., Dojat, M., Guerin-Dugue, A., Delon-Martin, C., Olympieff,

S., Richard, N., Chehikian, A. & Segebarth, C. (2002). fMRI retinotopic

mapping–step by step. NeuroImage 17(4), 1665–1683.

Watson, A. B. & Fitzhugh, A. (1990). The method of constant stimuli is

inefficient. Perception & Psychophysics 47(1), 87–91.

Watson, A. B. & Pelli, D. G. (1983). QUEST: a bayesian adaptive psycho-

metric method. Perception & Psychophysics 33(2), 113–120.

Wolfe, J. M. (2000). Visual attention. In DeValois, K. K. (Ed.). Seeing. San

Diego: Acad. Press, S. 335–386.

Xu, Y. (2009). Distinctive neural mechanisms supporting visual object in-

dividuation and identification. Journal of Cognitive Neuroscience 21(3),

511–518.

Xu, Y. & Chun, M. M. (2007). Visual grouping in human parietal cortex.

Proceedings of the National Academy of Sciences of the United States of

America 104(47), 18766–18771.

Yantis, S. & Serences, J. T. (2003). Cortical mechanisms of space-based

and object-based attentional control. Current Opinion in Neurobiolo-

gy 13(2), 187–193.

Zeki, S. (1980). The representation of colours in the cerebral cortex.

Nature 284(5755), 412–418.

Zeki, S., Watson, J. D., Lueck, C. J., Friston, K. J., Kennard, C. & Frackowiak,

R. S. (1991). A direct demonstration of functional specialization in

human visual cortex. The Journal of Neuroscience 11(3), 641–649.

Zeki, S. M. (1973). Colour coding in rhesus monkey prestriate cortex.

Brain Research 53(2), 422–427.

Zeki, S. M. (1974). Functional organization of a visual area in the posterior

bank of the superior temporal sulcus of the rhesusmonkey. The Journal

of Physiology 236(3), 549–573.

156

LITERATURVERZEICHNIS

Zeki, S. M. (1978). Functional specialisation in the visual cortex of the

rhesus monkey. Nature 274(5670), 423–428.

Zipser, K., Lamme, V. A. & Schiller, P. H. (1996). Contextual modulation in

primary visual cortex. The Journal of Neuroscience 16(22), 7376–7389.

Zwickel, T., Wachtler, T. & Eckhorn, R. (2007). Coding the presence of

visual objects in a recurrent neural network of visual cortex. Bio Sys-

tems 89(1-3), 216–226.

157

Anhang

159

ABKÜRZUNGEN

Abkürzungen

Physikalische Einheiten

cpd Schwingungen pro Sehwinkelgrad (aus dem engl. cycles

per degree)

dB Dezibel

g Gramm

Hz Hertz

ms Millisekunde

oct Oktave (aus dem engl. octave)

s Sekunde

T Tesla

V Volt (mV=Millivolt; μV=Microvolt)

Andere Abkürzungen

ALM/GLM allgemeines lineares Modell (engl. general linear model)

ANOVA Varianzanalyse (aus dem engl. analysis of variance)

BOLD-Signal vom Sauerstoffgehalt des Blutes abhängiges Signal in der

fMRT (aus dem engl. blood-oxygen-level dependent signal)

CGL Corpus Geniculatum Laterale (seitlicher Kniehöcker)

EEG Elektroencephalogramm

EKP/ERP ereigniskorreliertes Potential (engl. ERP)

fMRT/fMRI funktionale Magnetresonanztomographie (engl. fMRI)

LOC lateraler okzipitaler Komplex (engl. complex)

QUEST schnelle Schätzung durch sequentielles Testen (aus dem

engl. quick estimation by sequential testing)

SD Standardabweichung (aus dem engl. standard deviation)

161

ANHANG

SDT Signal-Entdeckungstheorie (aus dem engl. signal detection

theory)

TE Echozeit im fMRT (aus dem engl. time of echo)

TR Wiederholzeit im fMRT (aus dem engl. time of repetition)

V1 primärer visueller Kortex (nachfolgende Areale aufwärts

nummeriert)

162

DANKSAGUNG

Danksagung

Zunächst einmal möchte ich meinemDoktorvater Prof. Manfred Fahle

danken, dass er mir die Möglichkeit gegeben hat, an seinem Institut die

Doktorarbeit durchzuführen. Sie haben mich immer dabei unterstützt,

die methodischen Möglichkeiten auszuschöpfen und mir durch eine

Vielzahl an Diskussionen gezeigt, wie wissenschaftliches Arbeiten funk-

tioniert. Meinem Zweitgutachter Prof. Michael Bach danke ich für die

freudige Bereitschaft sich mit meiner Arbeit auseinanderzusetzen und

den damit verbundenenWeg nach Bremen auf sich zu nehmen.

Mein besonderer Dank gilt Dr. Cathleen Grimsen, die mir während

der gesamten Doktorarbeit zur Seite stand und nicht müde wurde, meine

wirren Gedanken zu ordnen. Zahlreiche Steinzeichnungen sind dabei

entstanden, die aber wohl inzwischen dem Bremer Wetter zum Opfer

gefallen sind. Nicht zuletzt durch diese Gespräche habe ich viel über das

visuelle System gelernt („Ganz klar: Ich hatte recht!”).

Für Hilfestellung in der Anfangszeit danke ich herzlich Dr. Birgit Ma-

thes, die mich in Sinn und Unsinn des EEGs einführte und mir bei der

Interpretation der erstenMessergebnisse half. In dem Zusammenhang

möchte ich auch Dennis Trenner erwähnen, der mir die Mysterien der

Sing-Programmierung offenbarte und immer bereit war auf meine z.T.

sehr detaillierten Fragen eine Antwort zu finden.

Für die außergewöhnliche Arbeitsatmosphäre möchte ich mich auch

ganz herzlich bei Dr. SvenWischhusen („EyMann!”) und Daniela Högl

(„Duhu Dani?”) bedanken, die zu unterschiedlichen Zeiten das Büro mit

mir teilten, meine Launen ertrugen, und mir über das kollegiale Verhält-

nis hinaus immer zur Seite standen. Generell sind mir einige Mitarbeiter

des Instituts sehr ans Herz gewachsen: Ich danke Euch allen, dass ihr in

dieser Zeit für mich da wart und freue mich auf den hoffentlich weiteren

Kontakt zu Euch!

Allen Probanden, die an den Studien dieser Arbeit beteiligt waren,

möchte ich an dieser Stelle auch sehr für ihr Engagement und für ihre Be-

reitschaft wiederzukommen, danken. Darüberhinaus bedanke ich mich

163

ANHANG

für alle weiteren direkten und indirekten Hilfen, die zum Gelingen dieser

Arbeit beigetragen haben.

Auf privater Seite haben mich meine Eltern Marita Straube und Lutz

Straube immer unterstützt und fest daran geglaubt, dass ich diesen Weg

gehen kann. Auch meiner sonstigen Verwandtschaft (auf Kölner und

Berliner Seite) ein ganz herzliches Dankeschön für Euer aufrichtiges

Interesse an meinem Tun und der damit verbundenen Unterstützung.

Meinemweit über dieses Land versprengten Freundeskreis möchte

ich hiermit auch deutlich zum Ausdruck bringen, dass ich es sehr zu

schätzen weiß, wieviel Verständnis ihr mir in der letzten Zeit entgegenge-

bracht habt, denn gemeldet habe ich mich fast nie und ihr habt es alle

verstanden. Von jetzt an wird sich wieder einiges ändern!

Zu guter Letzt noch ein mit einem dicken Ausrufezeichen versehe-

ner Dank an meine Freundin, Karin Mörtel: Du hast, egal ob es gerade

für Dich selbst schwierig war oder nicht, immer Deine gesamte Kraft

aufgebracht, um für mich da zu sein. Danke für Deinen unglaublichen

Halt!

Danke Rechner, dass Du in all der Zeit nicht abgestürzt bist!

164

EIGENSTÄNDIGKEITSERKLÄRUNG

Eigenständigkeitserklärung

Hiermit versichere ich, dass ich die vorliegende Arbeit selbstständig unter

Hinzunahme der angegebenenHilfsmittel und Quellen verfasst habe. Die

der Arbeit zugrunde liegenden Studien habe ich selbst durchgeführt und

ausgewertet. Sämtliche inhaltlich und wörtlich entnommene Stellen sind

als solche gekennzeichnet.

Ort, Datum Unterschrift

165

LEBENSLAUF

Lebenslauf

Name, Vorname Straube, Sirko

Geburtsdatum 11.05.1979

Geburtsort Berlin

Staatsangehörigkeit deutsch

e-mail [email protected]

SchulischerWerdegang

1985 - 1989 1. Oberschule Arnold-Zweig, Berlin

1989 - 1998 Georg-Büchner Gymnasium, Köln

Abschluss: Abitur

BeruflicherWerdegang

1998 - 1999 Zivildienst

Rheinische Schule für Körperbehinderte, Köln

1999 - 2005 Biologie-Studium

Albert-Ludwigs-Universität, Freiburg

2002 - 2005 Hilfswissenschaftler

AG Neurobiologie und Biophysik

Albert-Ludwigs-Universität, Freiburg

2004 - 2005 Diplomarbeit

Reinforcement Learning in Spiking Neural

Networks

11/2005 Diplom der Biologie

12/2005 - 03/2009 Wissenschaftlicher Mitarbeiter

Institut für Human-Neurobiologie

Universität Bremen

167