ENTROPIE, INFORMATIE EN HET MAXIMUM ENTROPIE PRINCIPE · MAXIMUM ENTROPIE PRINCIPE Een introductie...

ENTROPIE, INFORMATIE EN HET MAXIMUM ENTROPIE PRINCIPE

Een introductie tot de actuele conceptie en toepassingen van entropie

Verslag van Bachelorproject Natuur- en Sterrenkunde, omvang 12 EC, uitgevoerd tussen 01-09-2011 en 31-05-2012 bij het Institute of Physics aan de Universiteit van Amsterdam, Faculteit der

Natuurwetenschappen, Wiskunde en Informatica.

Door: Rebecca Sier

Studentnummer: 5893011

Inleverdatum: 25 mei 2012

Begeleider: Prof.dr.ir. F.A. Bais

Tweede beoordelaar: J.P. van der Schaar, Ph.D.

Rebecca Sier – Bachelorscriptie natuur- en sterrenkunde

2

ABSTRACT

The concept of entropy as originally defined by physicists Boltzmann and Gibbs has been

radically changed over the past century. In the search for a quantity that measures both

the information in and uncertainty of a stochastic system, Shannon found the same

expression that Gibbs used to define the entropy of a grand canonical system. With this

new conception of entropy as a measure of information, it was Jaynes who first used the

maximum entropy principle as a starting point from which he was able to deduce all of

statististical mechanics concerning states in thermodynamic equilibrium. In this overview

we introduce this chronological development of de concept of entropy, starting as a

thermodynamical quantity, leading to being a measure for probability and information.

Finally the general utility of this new conception will be illustrated by giving examples of

the maximum entropy principle, bringing out the multidisciplinary usefulness of this

quantity, which started out having only physical meaning. Finally, an example in

linguistics is worked out in some detail.

Entropie, Informatie en het Maximum Entropie Principe

3

POPULAIR WETENSCHAPPELIJKE SAMENVATTING

Entropie is van origine een grootheid uit de warmteleer ofwel thermodynamica. Elk

thermodynamisch systeem heeft naast temperatuur, druk en volume ook een waarde voor de

hoeveelheid entropie. De tweede hoofdwet van de thermodynamica definieert een toename in

entropie als de toename in warmte gedeeld door de temperatuur van het systeem. Erg intuïtief is

deze definitie echter niet. Door de jaren heen zijn handigere definities van entropie geformuleerd.

Aan de hand van een voorbeeld met

bits kunnen we deze definities

begrijpen.

Een bit is een systeem met twee opties:

op of neer. Uit de toestand waarin een

bit zich bevindt lezen we informatie af.

Bijvoorbeeld: een magnetron kan aan

of uit staan; zit de bit in toestand , dan

staat de magnetron aan, terwijl bij

toestand de magnetron is

uitgeschakeld. Een tweede bit laten we

corresponderen met de energie-

instelling van de magnetron: toestand

staat voor een vermogen tussen de en watt; toestand voor een instelling tussen de en

watt. Met deze twee bits kunnen vier verschillende toestanden van de magnetron worden

beschreven, zoals te zien in de figuur. Laten we meer bits corresponderen met de instellingen van

de magnetron, dan hebben we meer informatie over de instellingen van het apparaat. We kunnen

daarom zeggen dat het aantal bits aangeeft hoeveel informatie over de magnetron we tot onze

beschikking hebben.

Stel nu dat bij het instellen van de magnetron geen onderscheid bestaat tussen de instelling

watt en watt – de enige instelling die je kunt doen is het aan- of uitzetten van de

magnetron. De twee bittoestanden en beschrijven nu dezelfde magnetroninstelling, aangezien

het wattage niet meer relevant is. Omdat elke bittoestand even waarschijnlijk is zal een

magnetroninstelling die correspondeert met meerdere bittoestanden waarschijnlijker zijn dan een

instelling die slechts door één bepaalde bittoestand wordt beschreven. Het aantal bittoestanden

dat correspondeert met één magnetroninstelling is daarom een maat voor de waarschijnlijkheid

van die instelling.

Zo hebben we in een paar alinea’s twee interpretaties van het bitsysteem gevonden: het aantal bits

is een maat voor de informatie in een systeem en het aantal bittoestanden is een maat voor de

waarschijnlijkheid om het systeem in een bepaalde toestand aan te treffen. Wat heeft dit met

entropie te maken? Wel, de door natuurkundigen gevonden formules voor entropie blijken exact

overeen te komen met de wiskunde die een maat voor informatie en waarschijnlijkheid uitdrukt.

Entropie, informatie en waarschijnlijkheid blijken twee kanten van dezelfde medaille te zijn.

Zo kunnen we entropie herdefiniëren als maat voor het aantal manieren waarop de toestand van

een systeem kan worden gerealiseerd. Daarnaast weten we dat het systeem met maximum

entropie het meest waarschijnlijke systeem is. Dit geeft handvatten voor een methode voor het

verkrijgen van optimale voorspellingsmodellen: het maximum entropiebeginsel. Aan de hand van

dit principe worden uiteenlopende soorten optimale modellen gecreëerd, bruikbaar voor

voorspelling van bijvoorbeeld het weer, de beurskoers en voor het maken van vertalingen. De

opvatting van entropie als maat voor informatie en waarschijnlijkheid laat zien hoe alomvattend en

verbazingwekkend alledaags het begrip is.

Magnetron aan, ingesteld op 400 – 800

watt Magnetron aan, ingesteld op 0 – 400 watt

Magnetron uit, ingesteld op 400 - 800 watt

Magnetron uit, ingesteld op 0 – 400

watt Figuur - de vier toestandsmogelijkheden van een

magnetron beschreven door twee bits


4

INHOUDSOPGAVE

1. EEN BIT___________________________________________________________________________________6

2. FYSISCHE ENTROPIE_____________________________________________________________________9

2.1 HOOFDWETTEN VAN DE THERMODYNAMICA_______________________________9

2.2 ENTROPIE EN STATISTIEK___________________________________________________14

2.2.1 STATISTISCHE MECHANICA, DE BASIS_____________________15

2.2.2 BOLTZMANN ENTROPIE_____________________________________16

2.2.3 GIBBS ENTROPIE_____________________________________________21

2.3 SAMENGEVAT__________________________________________________________________25

3 INFORMATIE EN ENTROPIE___________________________________________________________26

3.1 HET OPTIMALE MODEL_______________________________________________________26

3.2 SHANNON: ENTROPIE, EEN MAAT VOOR INFORMATIE___________________29

3.3 INFORMATIE EN DE TWEEDE HOOFDWET_________________________________37

3.3.1 MAXWELL’S DUIVEL_________________________________________37

3.3.2 SZILARD’S CYCLUS___________________________________________38

3.3.3 LANDAUER’S PRINCIPE______________________________________40

3.3.4 REDDING VAN DE TWEEDE HOOFDWET VAN DE

THERMODYNAMICA_________________________________________42

3.4 SAMENGEVAT__________________________________________________________________42

4 HET MAXIMUM ENTROPIEBEGINSEL_____________________________________________________44

4.1 HET EQUIPARTITIEPRINCIPE________________________________________________44

4.2 HET KANONIEK ENSEMBLE__________________________________________________46

5 ANDERE TOEPASSINGEN VAN HET MAXIMUM ENTROPIE PRINCIPE_________________49

5.1 ANT COLONY OPTIMIZATION________________________________________________49

5.2 BEELDRECONSTRUCTIE______________________________________________________52

5.3 GEOGRAFISCHE DISTRIBUTIE VAN DIERSOORTEN________________________54

6 MAXIMUM ENTROPIE IN DE TAALWETENSCHAP_______________________________________57

6.1 TAALHERKENNINGSPROGRAMMA’S_________________________________________57

6.2 KENMERKEN EN VOORWAARDEN___________________________________________58

6.3 DEFINITIE EN MAXIMALISATIE VAN DE ENTROPIE_______________________60

6.4 DE OPTIMALE GEWICHTEN VAN DE VOORWAARDEN_____________________63

7 CONCLUSIE__________________________________________________________________________________67

DANKWOORD____________________________________________________________________________________70


5

GERAADPLEEGDE LITERATUUR_______________________________________________________________71


6

1. EEN BIT

Laat me u tot het onderwerp van deze scriptie inleiden door te beginnen met een

eenvoudig voorbeeld. Een bit is een systeem met twee opties: of , op of neer, aan of uit,

licht of donker. Uit de toestand waarin een bit zich bevindt lezen we informatie af. Een

voorbeeld: een magnetron kan aan of uit staan, twee mogelijkheden die beschreven

worden door een bit; zit de bit in toestand ‘op’, dan staat de magnetron aan, terwijl bij

toestand ‘neer’ de magnetron is uitgeschakeld. Een tweede bit kunnen we laten

corresponderen met instellingen van de magnetron, zoals het wattage waarop het

apparaat staat ingesteld: toestand ‘neer’ staat voor een vermogen tussen de en watt;

toestand ‘op’ voor een instelling tussen de en watt.

De toestand van de magnetron wordt nu beschreven door twee bits die elk twee

mogelijkheden inhouden. Twee maal twee mogelijkheden geeft vier mogelijke toestanden

waarin de magnetron zich volgens onze informatie bevinden kan. De

toestandsmogelijkheden zijn getekend in Figuur . Een bit in toestand ‘op’ wordt

aangegeven met een omhoog wijzende pijl, de toestand ‘neer’ met een naar beneden

gerichte pijl; de linker pijl geeft de bit weer die correspondeert met het aan- of uitstaan

van de magnetron, de rechtse pijl geeft informatie over het vermogen.

Laten we meer bits corresponderen met de instellingen van de magnetron, dan

hebben we meer informatie over de instellingen van het apparaat. Het ingestelde

Magnetron aan, ingesteld op 400 – 800 watt

Magnetron aan, ingesteld op 0 – 400 watt

Magnetron uit, ingesteld op 400 - 800 watt

Magnetron uit, ingesteld op 0 – 400 watt

Figuur 1 - De vier toestandsmogelijkheden van een magnetron beschreven door twee bits.


7

vermogen kan bijvoorbeeld accurater worden bepaald bij gebruik van extra bits. Het

aantal afleesbare toestandsmogelijkheden van de magnetron groeit hierdoor sterk. Drie

bits kunnen verschillende toestanden beschrijven. Bits kunnen verschillende

toestanden beschrijven. Geven we het aantal toestanden weer met , dan vinden we de

volgende uitdrukking voor het aantal bits :

log .

Hoe meer bits, hoe meer toestanden mogelijk, des te meer informatie over de toestand

van de magnetron. Bovenstaande logaritmische uitdrukking is daarom een maat voor de

hoeveelheid informatie over het beschreven systeem, in termen van het aantal

toestanden waarin het systeem zich kan bevinden.

Stel nu dat meerdere bittoestanden dezelfde instelling van de magnetron beschrijven.

Dit is bijvoorbeeld het geval wanneer er bij het instellen van de magnetron geen

onderscheid bestaat tussen de instelling watt en watt – de enige

instelling die je kunt doen is het aan- of uitzetten van de magnetron. De twee

bittoestanden en beschrijven nu dezelfde magnetroninstelling, aangezien het

wattage niet meer relevant is. Omdat elke bittoestand even waarschijnlijk is zal een

magnetroninstelling die correspondeert met meerdere bittoestanden waarschijnlijker zijn

dan een instelling die slechts door één bepaalde bittoestand wordt beschreven. Het aantal

bittoestanden dat correspondeert met één magnetroninstelling is daarom een maat

voor de waarschijnlijkheid van die instelling, evenals de logaritme van .

Met de twee gevonden interpretaties van – een maat voor de hoeveelheid informatie

en de waarschijnlijkheid van een toestand – is het geen verrassing dat een logaritme in de

uitdrukking voorkomt. De logaritme vervult een handige rol omdat deze voldoet aan de

eigenschap log log log . Wordt beschouwd als maat voor informatie, dan

zorgt de logaritme ervoor dat de totale hoeveelheid informatie een optelling vormt van

afzonderlijke hoeveelheden informatie, : ∑ ∑ log . In het geval dat

wordt beschouwd als maat voor de waarschijnlijkheid van een toestand, dan moet gelden

dat wanneer deze toestand is opgebouwd uit afzonderlijke stappen , het product van de

kansen op deze stappen gelijk is aan de totale waarschijnlijkheid van de toestand:

log log log ∏ . De genoemde eigenschap van de


8

logaritme voldoet aan beide eigenschappen voor de twee betekenissen die gegeven zijn

aan :

∑

∑ log

log (∏

).

Uit dit simpele voorbeeld – de beschrijving van de toestand van een magnetron in

termen van bits – dient zich een interessant verband aan. De logaritme van het aantal

mogelijke toestanden is een bekende uitdrukking voor entropie – een grootheid uit de

thermodynamica – zodat met de gevonden uitdrukking een verband tussen entropie,

waarschijnlijkheid en informatie wordt gesuggereerd. Om dit verband beter te kunnen

begrijpen is kennis over entropie en informatie nodig. Aan de hand van een

chronologische beschrijving van de ontwikkeling van thermodynamica, statistische

mechanica en het begrip entropie zal in hoofdstuk 2 worden toegewerkt naar eerst

Boltzmann’s, dan Gibbs’ begrippen van en uitdrukkingen voor entropie en

waarschijnlijkheid. Shannon’s statistische interpretatie en uitwerking van het begrip

informatie geeft vervolgens in hoofdstuk 3 stevigere handvatten om informatie en

entropie aan elkaar te koppelen. Hoofdstuk 4 laat zien hoe entropie in plaats van het

eindpunt ook als beginpunt van statistische fysica kan dienen, aan de hand van hoe Jaynes

met het principe van maximum entropie gebruik maakte van Shannon’s uitwerking en

perceptie van entropie. Deze aanpak geeft aan dat de statistische mechanica één van de

vele toepassingen van het begrip entropie is, waarna in het vijfde hoofdstuk ter illustratie

een aantal voorbeelden wordt gegeven van nieuwe, geheel van natuurkunde losstaande

toepassingen van het maximum entropie principe. In hoofdstuk zes wordt een laatste

voorbeeld van het maximum entropie principe nauwkeuriger uitgewerkt.

Hoewel in historisch perspectief het entropiebegrip aanvankelijk enkel als onderdeel

van de bèta-disciplines werd beschouwd, is het inmiddels een begrip dat door zijn

interpretatie als maat voor informatie in de meest algemene zin, succesvolle toepassingen

heeft gevonden in tal van vakgebieden. Het is deze verbinding tussen entropie en

informatie die de conceptie en het gebruik van deze fundamentele grootheid veranderden.

In deze scriptie wordt daarvan een overzicht gegeven.


9

2. FYSISCHE ENTROPIE

Om inzicht te geven in het begrip entropie en haar rol in de ontwikkeling van

thermodynamica en statistische mechanica wordt allereerst de ontwikkeling zelf

beschreven. Via de hoofdwetten van de thermodynamica en haar statistische interpretatie

wordt het huidige begrip van entropie geformuleerd.

2.1 HOOFDWETTEN VAN DE THERMODYNAMICA

Thermodynamica ontstond in de 19e eeuw, toen atomen als bouwstenen van materie nog

een omstreden onderwerp waren. Omstreden juist omdat met de thermodynamica,

zonder gebruik te maken van atoomstructuur, een aantal wetten konden worden

opgesteld waarmee conclusies werden getrokken over het gedrag van macroscopische

systemen. Bij een eenvoudige formulering van de thermodynamica denken we aan een

mechanisch systeem dat energie in de vorm van warmte kan opnemen of afstaan en dat

arbeid kan verrichten.

De eerste wet van de thermodynamica luidt

en komt neer op de stelling dat energie behouden is: in een systeem is de verandering in

interne energie gelijk aan de hoeveelheid geabsorbeerde warmte minus de

hoeveelheid verrichtte arbeid . Warmte is een vorm van energie, namelijk thermische

energie – in een systeem opgenomen warmte-energie kan volgens de eerste hoofdwet

worden omgezet in interne energie en mechanische energie, ofwel arbeid. De vergelijking


10

staat toe dat alle opgenomen warmte bijvoorbeeld in arbeid wordt omgezet. Of en in

hoeverre dat mogelijk is wordt vastgelegd door de tweede hoofdwet.

De tweede hoofdwet van de thermodynamica luidt

,

en definieert de verandering in entropie als de ratio van de verandering in warmte

ten opzichte van de temperatuur van het systeem. Entropie wordt hier gedefinieerd als

een “toestandsgrootheid”, net zoals druk, volume of temperatuur. Elk macroscopisch

mechanisch systeem heeft een bepaalde entropie, wat van entropie een fundamentele

grootheid maakt, net zo fundamenteel als bijvoorbeeld temperatuur en even belangrijk

voor begrip van de werking van het betreffende systeem. Des te opvallender is het dat

entropie een relatief onbekende grootheid is. Tevens wordt gesteld – de eigenlijke tweede

hoofdwet – dat de hoeveelheid entropie voor een afgesloten systeem met het verstrijken

van de tijd nooit af zal nemen.

Implicaties van deze wetten blijken uit argumenten van Nicholas Léonard Sadi

Carnot (1796-1832). Hij zette de eerste stappen richting thermodynamica als nieuwe

discipline en haar hoofdwetten. Carnot onderzocht de werking van warmte en was de

eerste natuurkundige die een verband zag tussen warmte en beweging – dit inzicht leidde

tot de zojuist geformuleerde eerste hoofdwet. Afhankelijk van de temperatuur verricht

warmte arbeid, wat hij aantoonde met behulp van de cyclus die inmiddels zijn naam

draagt, weergegeven in Figuur 2. Deze tekening gebruikte Carnot zelf overigens niet, maar

werd pas later door Benoît Paul Émile Clapeyron (1799-1864) zoals in onderstaande

figuur afgebeeld.


11

In de cyclus bekijkt Carnot de veranderingen in druk en volume van een in een

cilinder opgesloten gas. De cilinder is voorzien van een zuiger, zodat het volume van het

gas aan kan worden gepast. Daarnaast zijn er twee warmtereservoirs met verschillende

temperaturen waar de cilinder mee in contact kan worden gebracht als wel van kan

worden geïsoleerd. Het gas krijgt hierdoor achtereenvolgens de temperaturen en ,

waarbij geldt dat .

In vier stappen ondergaat de cilinder Carnot’s cyclus. Van punt naar punt vindt

een isotherme expansie plaats: het gas heeft in punt temperatuur en is gekoppeld aan

het warme reservoir, wat de temperatuur in de cilinder constant houdt. Er wordt een

isotherm beschreven volgens de wet van Boyle en Gay Lussac, , met voor de

hoeveelheid gas in een mol en voor de gasconstante: de druk van het gas zal de zuiger

van de cilinder doen uitschuiven onder absorptie van een hoeveelheid warmte . Met

andere woorden: onder afname van de druk van het gas neemt het volume waarin het gas

zich bewegen kan toe. Van punt naar is de cilinder van het warmtereservoir

losgekoppeld, wat zorgt voor adiabatische expansie: het gas verricht nog altijd arbeid

door de zuiger uit te schuiven, maar ontvangt niet meer de warmte om het verlies aan

energie te compenseren. Zo zal de cilinder in temperatuur dalen tot het in punt

temperatuur bereikt. Voor de stap naar punt wordt de cilinder gekoppeld aan het

koude reservoir, wat zorgt voor isotherme compressie: een hoeveelheid warmte wordt

afgegeven aan het reservoir, de omgeving van de cilinder zal arbeid verrichten om de

Figuur 2 – Carnot’s cyclus, de verandering van een gas in een cilinder afhankelijk van druk 𝑃 en volume

𝑉. Uit: Bais, F.A. & Farmer, J.D. (2008). The physics of information.


12

zuiger in te duwen en het volume te verkleinen. Wordt de cilinder in punt losgekoppeld

van het koude reservoir, dan blijft de omgeving arbeid verrichten, zonder daar nog

warmte van de cilinder voor te ontvangen. Deze adiabatische compressie houdt daarom

een stijging van de temperatuur in de cilinder in, tot de temperatuur is bereikt – de

cyclus is voltooid, de cilinder is terug bij haar beginpunt .

Welke implicaties van de twee hoofdwetten vinden we terug in deze cyclus? Om

dit in te zien kan de in de cyclus netto hoeveelheid verkregen arbeid berekend worden

met de volgende integraal, herschreven met behulp van de eerste hoofdwet

∮ ∮ ∮ .

De interne energie verdwijnt uit de integraal aangezien het een kringintegraal betreft

en de interne energieën op begin- en eindpunt gelijk zijn. De verandering in entropie van

de twee reservoirs kan met behulp van de tweede hoofdwet worden verkregen:

.

De gevonden uitdrukkingen gebruiken we voor berekening van het rendement van een

machine die de Carnot-cyclus ondergaat: de ratio van uitgevoerde arbeid ten opzichte

van de hoeveelheid ontvangen energie .

.

Het rendement is gelijk aan

wanneer de hoeveelheid entropie constant blijft. Dit is

het maximaal haalbare rendement, alleen afhankelijk van de ratio van de koude en warme


13

temperatuurbaden. Een vergroting van entropie maakt het rendement kleiner dan

.

Omdat , geldt onder alle omstandigheden dat het rendement kleiner is dan . Dit

betekent dat in alle gevallen

;

door de cilinder ontvangen energie is altijd groter dan de hoeveelheid uitgevoerde arbeid.

Niet-gebruikte energie wordt omgezet in warmte, wat geen rendement oplevert.

De tweede hoofdwet legt zo restricties op aan de eerste hoofdwet: energie in de

vorm van arbeid kan volledig omgezet worden in warmte, maar warmte kan niet volledig

in arbeid worden omgezet. Er zijn twee verschillende warmtebronnen met verschillende

temperatuur nodig om thermische energie in arbeid om te kunnen zetten. Dit is een

belangrijke consequentie van de tweede hoofdwet: warmte kan niet zomaar van een koud

naar een warm reservoir lopen – er zal arbeid nodig zijn om warmte uit een koelkast naar

een warmere omgeving te transporteren.

Een tweede consequentie van de tweede hoofdwet is de irreversibiliteit van

processen waarbij entropie toeneemt. Zojuist bleek dat bij vergroting van entropie een

lager rendement wordt behaald dan wanneer een Carnot-cyclus wordt doorlopen, met

gelijke entropie in begin- en eindpunt. Bij vergroting van entropie zal extra warmte

verloren gaan, welke niet kan worden teruggewonnen wanneer het proces in

tegengestelde richting wordt doorlopen. Dit in tegenstelling tot de Carnot-cyclus, welke

zowel met de klok mee als tegen de klok in kan worden uitgevoerd. Dit brengt een nieuwe

eigenschap van toename van entropie aan het licht: processen waarbij de entropie

toeneemt zijn irreversibel, in tegenstelling tot processen waarbij de hoeveelheid entropie

gelijk blijft.

Het is deze laatste eigenschap van entropie die een volgende stap in het begrip

over deze grootheid mogelijk maakte. Ludwig Boltzmann zette deze stap, met behulp van

opnieuw een nieuwe tak van de fysica: statistische mechanica.


14

2.2 ENTROPIE EN STATISTIEK

Met de thermodynamica en haar hoofdwetten kwam ook de grootheid entropie, als

nieuwe systeemvariabele naast druk, temperatuur en volume. De nieuwe grootheid

gedefinieerd door de tweede hoofdwet is de oorzaak van thermodynamische processen,

zoals de verschijnselen reversibiliteit en irreversibiliteit, evenals het verschijnsel dat

warmte in bepaalde gevallen niet volledig in arbeid kan worden omgezet. Een veel dieper

begrip van de betekenis en werking van entropie werd echter pas verkregen met de

komst van statistische mechanica. Het doel van de statistische mechanica is om het

macroscopische gedrag van systemen zoals gassen en vloeistoffen te verklaren uit de

microscopische eigenschappen, dat wil zeggen de wetten waaraan de microscopische

bouwstenen voldoen. Anders dan bij de thermodynamica wordt in statistische mechanica

gebouwd op kennis over individuele deeltjes of atomen, met elk een eigen snelheid en

energie. We moeten ons realiseren dat macroscopische systemen een enorm aantal

microscopische vrijheidsgraden hebben, typisch van de orde van het getal van Avogadro,

. Nauwgezette kennis over de precieze toestand van al deze minuscule

deeltjes is natuurlijk onmogelijk te verkrijgen. Dat is ook niet nodig, het blijkt dat om het

macroscopische systeem in evenwicht te beschrijven in termen van de macroscopische

toestandsvariabelen, we alleen maar kennis van de gemiddelde eigenschappen van de

microscopische deeltjes variabelen hoeven te hebben. En aangezien de aantallen zeer

groot zijn, zijn de statistische voorspellingen zeer accuraat, zoals elke verzekeringsagent

je kan vertellen. Zo leveren de fysische wetten waaraan microdeeltjes onderhevig zijn, in

combinatie met de bekende wetten van de statistiek genoeg informatie om een

uitstekende beschrijving van het macroscopische systeem te geven.

Met behulp van deze statistiek kunnen thermodynamische processen van

macroscopische systemen worden begrepen door kennis van onderliggende

microscopische wetten, zonder daarbij de precieze toestand van individuele deeltjes te

hoeven kennen. Zo kon ook de macroscopische grootheid entropie begrepen worden aan

de hand van een microscopische definitie.


15

2.2.1 STATISTISCHE MECHANICA, DE BASIS

Statistische mechanica doet uitspraken over hoe toestanden van grootschalige systemen

in termen van de toestanden van kleinere onderdelen samengesteld zijn, zoals

microscopisch kleine deeltjes. Dit laatste, de toestand van individuele deeltjes, wordt de

microtoestand genoemd, terwijl de grootschaliger toestanden, van een gas bijvoorbeeld,

bekend staan als macrotoestanden. Elke nieuwe toestand door een verschil in

bijvoorbeeld de positie, snelheid of energie van een atoom in een gas, geeft een nieuwe

microtoestand. Het geheel aan mogelijke microtoestanden heet de faseruimte. Eén

microtoestand correspondeert met één punt in de faseruimte. Die faseruimte is dus

gigantisch: elk deeltje wordt beschreven in termen van een positie (drie getallen) en drie

snelheidscomponenten, zodat die fase ruimte dimensies heeft.

Zoals gezegd hebben we geen nauwgezette kennis over welke van de mogelijke

microtoestanden een heersende macrotoestand veroorzaakt. Wel zijn de fysische wetten

bekend waaraan individuele deeltjes zich moeten houden. Daarnaast geeft kennis over de

macrotoestand aan van welke microtoestanden uit de faseruimte sprake zou kunnen zijn.

Deze mogelijke microtoestanden worden de accessible states of toegankelijke toestanden

genoemd. De hoeveelheid toegankelijke microtoestanden, behorend bij een bepaalde

macrotoestand, wordt de multipliciteit van die bepaalde macrotoestand genoemd.

Statistische fysica maakt gebruik van twee grondbeginselen. Het eerste beginsel

stelt dat alle toegankelijke toestanden van een gesloten systeem in evenwicht, dat wil

zeggen van een gegeven macrotoestand, even waarschijnlijk zijn. Met andere woorden, de

kans dat er sprake is van microtoestand is even groot als de kans op het geval van

microtoestand , waarbij beide microtoestanden deel uitmaken van dezelfde groep

toegankelijke microtoestanden. Dit geldt niet voor een systeem waarbij energie of deeltjes

kunnen worden uitgewisseld. In dit laatste geval zal de waarschijnlijkheid van bepaalde

microtoestanden apart moeten worden berekend.

Alvorens het tweede principe van de statistische mechanica te introduceren is

begrip over de in deze tak van de natuurkunde veelgebruikte term ‘ensemble’ vereist. Een

ensemble is een verzameling deeltjessystemen of toegankelijke microtoestanden.

Macroscopische grootheden worden beschreven door statistische kennis over

verschillende ensembles. De volgende deeltjessystemen zijn hierbij gangbaar: het

microkanoniek ensemble, een geïsoleerd systeem met constante energie en constante


16

hoeveelheid deeltjes; het kanoniek ensemble, een systeem met constante hoeveelheid

deeltjes en in thermisch evenwicht, in staat tot uitwisseling van energie met de omgeving;

en het groot kanoniek ensemble, waarin zowel energie als deeltjes met de omgeving

worden uitgewisseld.

Het tweede principe, noodzakelijk voor het trekken van conclusies zoals de

statistische fysica dat doet, is die van ergodiciteit. Volgens deze stelling is de

evenwichtstoestand van een ensemble van deeltjessystemen, gemiddeld over de tijd,

gelijk aan de gemiddelde toestand van dat gehele ensemble op één ogenblik. Dit betekent

dat het niet nodig is om de precieze beweging van alle deeltjes in een ensemble te kennen

– gemiddeld over de tijd is dit namelijk gelijk aan de waarschijnlijkheidsverdeling over de

microscopische toestanden van de systemen in het ensemble op één ogenblik. Omdat het

vrijwel onmogelijk is om de exacte heersende microtoestanden te kennen en gedurende

de tijd bij te houden biedt de stelling van ergodiciteit een belangrijk gereedschap van

waaruit de statistische fysica kon ontstaan: door de mogelijke microtoestanden en hun

waarschijnlijkheden horend bij een macrotoestand te berekenen kunnen uitspraken

worden gedaan over de verandering van microtoestanden alsmede bijbehorende

macrotoestanden in de tijd. Zo kan ondanks een gebrek aan kennis over de heersende

microtoestand toch aan de hand van microscopische systemen een precieze verklaring en

uitdrukking worden gegeven voor de toestandsvariabelen van een macrotoestand en

vervolgens ook van de wetten van de thermodynamica.

2.2.2 BOLTZMANN ENTROPIE

Het was Ludwig Boltzmann (1844-1906) die een verbinding tussen de tweede hoofdwet

en statistiek legde (Cercignani, 1998). Boltzmann stelde dat entropie een maat is voor de

kans op een macrotoestand. De tweede hoofdwet die zegt dat entropie groter of gelijk

blijft stelt daarmee dat er altijd een beweging naar de toestand met een grotere

waarschijnlijkheid zal plaatsvinden.

Hoe Boltzmann tot deze conclusie kwam kan het best worden ingezien aan de

hand van een versimpeld voorbeeld van een fysisch systeem. Boltzmann zelf gebruikte het

meest simpele model van een gas, opgesloten in een vat met perfect reflecterende wanden.


17

Daarnaast nam Boltzmann aan dat het gas uit deeltjes met discrete energieën

, , , , , bestaat. In deze wordt een soortgelijk model gebruikt, met het verschil

dat niet de toestand van gasdeeltjes, maar de toestand van bits wordt beschreven. Een

microtoestand van vier bits bepaalt de energie van de macrotoestand. Een bit in

toestand ‘op’ draagt bij aan de totale energie, een bit in toestand ‘neer’ draagt bij.

Het aantal manieren waarop de vier bits kunnen worden gerangschikt is .

Elk van deze 16 microtoestanden geeft een macroscopische energie . In Figuur 3 staan

de 16 mogelijke microtoestanden weergegeven. Verschillende microtoestanden blijken

dezelfde energie te leveren – dit zijn de toegankelijke microtoestanden van één

macrotoestand.

Het aantal toegankelijke microtoestanden ofwel de multipliciteit van een

macrotoestand wordt volgens de regels van de combinatoriek berekend:

,

𝐸

Ω

𝐸

Ω

𝐸

Ω

𝐸

Ω

𝐸

Ω

Figuur 3 – De 16 mogelijkheden waarop vier bits kunnen worden gerangschikt met bijbehorende

macroscopische energie 𝐸.


18

met voor het totaal aantal bits, het aantal bits in toestand ‘op’ en het aantal bits in

toestand ‘neer’. Een voorbeeld: voor de macrotoestand met geldt , en

, zodat

.

We hebben te maken met een gesloten systeem, zodat het eerstgenoemde

grondbeginsel van de statistische fysica geldt: alle microtoestanden van het systeem zijn

even waarschijnlijk. De macrotoestand met grootste multipliciteit is daarom de meest

waarschijnlijke macrotoestand. Sterker, de multipliciteit behorend bij een macrotoestand

is een maat voor de kans op die bepaalde macrotoestand.

In werkelijkheid hebben we te maken met een groot aantal bits of deeltjes.

Volgens het getal van Avogadro bevat een mol gas , atomen (Schroeder,

2000), zodat we kunnen spreken over een hoeveelheid deeltjes in de orde van .

Vanwege dit grote aantal kan bij berekening van multipliciteit gebruik worden gemaakt

van de formule van Stirling: , waarbij vergeleken met de overige

variabelen uit de formule langzaam verandert, zodat deze als een constante kan worden

beschouwd. Invullen geeft

.

Door de logaritme van te nemen krijgen we een uitdrukking die net als de in het

voorbeeld van een bit uit het eerste hoofdstuk voldoet aan de handige eigenschap

log log log :

log (log log log

) log

log log log log

log log log log ,

waarbij gebruik wordt gemaakt van . In Figuur 4 zien we de gevolgen van deze

uitdrukking in het geval : de piek geeft aan dat een klein aantal macrotoestanden


19

een relatief grote multipliciteit kent – deze macrotoestanden zijn waarschijnlijk. Hiermee

vergeleken hebben de overige mogelijke macrotoestanden een aanzienlijk kleinere

multipliciteit, zodat de kans op voorkomen van deze macrotoestanden klein is. Hoe meer

deeltjes , des te scherper de piek, zodat in de praktijk bij een normaal deeltjesaantal in

de orde grootte van alleen die paar macrotoestanden voorkomen met grote

multipliciteit, enkel omdat de kans op voorkomen van deze macrotoestanden een factor

groter is dan de kans op overige macrotoestanden.

Stel dat een gesloten systeem zich op tijd bevindt in een situatie met relatief

lage multipliciteit. Is het systeem niet in evenwicht, dan zal het vanuit deze

onwaarschijnlijke toestand bewegen richting een waarschijnlijkere toestand, tot de meest

waarschijnlijke toestand is bereikt. Het is zeer onwaarschijnlijk dat een systeem naar een

toestand van lagere multipliciteit beweegt – niet omdat dit een onmogelijkheid is, maar

omdat de kans dat dit gebeurt verwaarloosbaar klein is.

Boltzmann trok uit deze eigenschappen van multipliciteit belangrijke conclusies.

Zo wist hij entropie en de totale multipliciteit van een fysisch systeem ∑ aan elkaar te

koppelen:

“It is well-known that, when a system of bodies undergoes purely reversible

transformations, the total entropy of the system remains constant. If, on the contrary,

among the transformations which the system undergoes, some are irreversible, its entropy

cannot but increase . [T]he same is true of ∑ , the measure of permutability for the set

of bodies. This measure of the permutability is thus a quantity which, in a state of

thermodynamic equilibrium, coincides with entropy, apart from a constant factor, but

Figuur 4 – Multipliciteit Ω uitgezet tegen het aantal bits 𝑛 .


20

which has a meaning even during each irreversible process, when it increases

continuously” Boltzmann, 77 .

Bij vergroting van multipliciteit, gepaard gaande met een vergroting van

waarschijnlijkheid, vindt een irreversibel proces plaats: de multipliciteit zal niet meer

verlagen aangezien daar een verwaarloosbaar kleine kans toe bestaat. Blijft de

multipliciteit tijdens een verandering van het systeem gelijk, dan is deze verandering

reversibel: begin- en eindtoestand van het systeem zijn even waarschijnlijk, zodat er een

goede kans bestaat dat het proces wordt teruggedraaid. Deze eigenschappen zijn gelijk –

zoals het citaat van Boltzmann aangeeft – aan die van entropie, zoals gezien aan de hand

van Carnot’s cyclus: bij een vergroting van entropie vindt een irreversibel proces plaats,

terwijl een toestandsverandering zonder invloed op de hoeveelheid entropie reversibel is.

Aan de hand van simpele telvoorbeelden en statistiek is een verband gelegd tussen

entropie en multipliciteit , zoals Boltzmann stelde en zoals te lezen op zijn graftombe:

log ,

met de constante van Boltzmann .

Entropie blijkt in Boltzmann’s definitie een maat voor de waarschijnlijkheid van

een toestand. De tweede hoofdwet van de thermodynamica is zo niet meer dan de stelling

dat een systeem van minder naar meer waarschijnlijke toestanden zal bewegen – een

tegengestelde beweging is niet onmogelijk maar zo onwaarschijnlijk dat we haar in de

natuur niet tegenkomen.

2.2.3 GIBBS ENTROPIE

De in de vorige sectie verkregen uitdrukking voor entropie, zoals gevonden door

Boltzmann, geldt voor het microkanoniek ensemble waarbij geen energie- en


21

deeltjesuitwisseling mogelijk is. Josiah Willard Gibbs (1839-1903) vond een algemenere

uitdrukking entropie, geldend voor het groot kanoniek ensemble.

Een uitdrukking voor entropie in het geval zowel energie als deeltjes in een

systeem uitwisselbaar zijn houdt een verbinding tussen een macroscopische en een

microscopische grootheid in. Het verbindt thermodynamica met statistische mechanica.

Om een uitdrukking te vinden die beide niveaus bevat dient een aantal nieuwe

grootheden te worden geïntroduceerd.

Allereerst de Helmholtz vrije energie, . Deze macroscopische grootheid geeft de

hoeveelheid energie, beschikbaar voor het verrichten van arbeid en is als volgt

gedefinieerd:

.

De vrije energie is een grootheid uit de thermodynamica, welke een cruciale stap vormde

richting de ontwikkeling van statistische mechanica. Deze stap omvatte de combinatie van

macroscopische met microscopische grootheden, zoals in de volgende alinea’s zal worden

getoond.

Een tweede uitdrukking van belang is de kansverdeling van de toestand van een

systeem in thermisch evenwicht, ofwel een situatie van constante temperatuur . James

Clerk Maxwell (1831–1879) was de eerste die een dergelijke verdeling opstelde aan de

hand van een aantal vooraf opgestelde relaties en aannames (Bais & Farmer, 2008):

1. Een kansverdeling van de toestand van een systeem in thermisch

evenwicht, niet beïnvloed door externe krachten, hangt niet af van plaats

of tijd. De kansverdeling is daarom enkel afhankelijk van de snelheden van

individuele deeltjes.

2. Omdat de kans dat drie of meer deeltjes tegelijkertijd op elkaar inwerken

veel kleiner is dan de kans dat slechts twee deeltjes wisselwerken kan de

versimpelende aanname worden gedaan dat alleen wisselwerking van

twee deeltjes voorkomt.

3. Aangenomen dat de snelheden van twee deeltjes en vóór interactie

onafhankelijk zijn van elkaar kan de samengestelde waarschijnlijkheid

, worden weergegeven als het product van de onafhankelijke

waarschijnlijkheden: , .

4. In (thermisch) evenwicht dient de kansverdeling vóór een interactie gelijk

te zijn aan de kansverdeling na afloop: , ,

. Gevolg


22

hiervan is dat de kansverdeling enkel afhankelijk kan zijn van grootheden

die behouden blijven gedurende de interactie. In het huidige geval van

thermisch evenwicht gebruikte Maxwell het behoud van de kinetische

energie van de deeltjes in het systeem.

Uit deze relaties leidde Maxwell zijn kansverdeling voor een systeem in thermisch

evenwicht af:

(

)

e p (

).

Boltzmann vond een meer algemene kansverdeling door de gevolgen van een

externe kracht werkend op het systeem mee te nemen. Dit is een verdeling voor het

kanoniek ensemble en betekende een vervanging van de kinetische energie in Ma well’s

uitdrukking door de totale behouden energie, welke naast kinetische energie ook

potentiële energie meeneemt. Boltzmann’s kansverdeling werd met deze nieuwe

aanname

⁄ ,

waarbij de totale energie van toestand is. De partitiefunctie dient als

normalisatiefactor, zodat

∑

⁄

⁄

.

Met de Helmholtz vrije energie en Boltzmann’s distributiefunctie in handen kan de

verbinding tussen een macroscopische en een microscopische grootheid worden gemaakt.

Tussen de Helmholtz vrije energie en de partitiefunctie bestaat de volgende relatie:


23

ln .

Met de definitie voor Helmholtz vrije energie wordt gevonden dat

.

Vullen we de uitdrukking voor in in die van , dan volgt

ln

ln .

Hieruit blijkt opnieuw dat een macroscopische grootheid wordt gekoppeld aan een

uitdrukking op microscopisch niveau, aangezien de linkerzijde van de uitdrukking niet

zoals de rechterzijde afhangt van . Tevens wordt gebruik gemaakt van een uitdrukking

voor de interne energie, gedefinieerd als de gewogen som van alle mogelijke

energietoestanden van het systeem

∑

.

Omdat ∑ kan de volgende toevoeging aan de uitdrukking voor worden gedaan:

(∑ ∑ ln

).


24

Invullen geeft de uitdrukking voor entropie waar naar gezocht wordt:

( ∑ ∑ ∑ ln )

∑ ln

∑ ln

.

Deze laatste uitdrukking is die van de bekende Gibbs entropie.

Dat Gibbs entropie algemener is dan de uitdrukking die Boltzmann voor entropie

vond kan worden ingezien door Gibbs’ uitdrukking te bekijken voor het specifieke geval

waarin Boltzmann’s entropie geldt; het microkanoniek ensemble. Omdat er geen energie-

en deeltjesuitwisseling plaatsvindt in dit ensemble zal de kans op voorkomen van de

verschillende microtoestanden gelijk zijn aan

. Invullen in de uitdrukking voor

Gibbs entropie geeft Boltzmann’s entropie

∑

ln

∑

ln ln .

2.3 SAMENGEVAT

De grootheid entropie werd gedefinieerd als

en voldoet aan de tweede hoofdwet

van de thermodynamica:

.


25

De hierin inbegrepen stelling dat de hoeveelheid entropie in een gesloten systeem met het

verstrijken van de tijd nooit af zal nemen heeft verschillende consequenties. Een proces

dat een toename in entropie veroorzaakt is irreversibel. Tevens kan warmte niet volledig

worden omgezet in arbeid, terwijl arbeid wel in zijn geheel kan worden omgezet in

warmte.

Met de opkomst van statistische mechanica werd entropie beter begrepen in

termen van het gedrag van individuele deeltjes. Boltzmann zag in dat entropie een maat

voor het aantal mogelijke toestanden en stelde

log

Voor het microkanoniek ensemble. Gibbs gaf een algemenere uitdrukking voor entropie in

termen van kansverdelingen, geldend voor het groot kanoniek ensemble.

∑ ln

,

waarbij de kansverdeling voor toestand aangeeft.


26

3. INFORMATIE EN ENTROPIE

In de inleiding is een verband tussen entropie, waarschijnlijkheid en informatie

gesuggereerd. In het voorgaande hoofdstuk zagen we hoe Boltzmann inderdaad liet zien

hoe entropie begrepen kan worden in termen van kans ofwel waarschijnlijkheid. Het was

Claude Shannon die entropie definieerde als uitdrukking voor de hoeveelheid informatie

in een systeem. Shannon legde hiermee de basis voor de informatietheorie.

De hier volgende secties geven aan hoe Shannon tot het verband tussen entropie

en informatie kwam en hoe hij en fysici met hem deze ontdekking interpreteerden.

Allereerst een korte introductie tot het optimale model, aanleiding gevend tot Shannon’s

werk.

3.1 HET OPTIMALE MODEL

De complexiteit van fenomenen is vaak te ingewikkeld om er met absolute zekerheid

precieze toekomstvoorspellingen over te doen. Neem de beweging van de beurskoers, het

aantal studenten dat cum laude zal slagen in komend schooljaar of de beweging van

individuele moleculen in een gas – het zijn complexe macroscopische fenomenen, want

afhankelijk van een groot aantal al dan niet meetbare microscopische factoren. Exacte

toekomstvoorspellingen aan de hand van al die factoren vereist daarom een zeer

tijdrovende en ingewikkelde berekening.

Statistiek biedt uitkomst. Ze biedt geen zekerheden over toekomstige beweging

van de beurskoers, maar kan aan de hand van resultaten uit het verleden kansen op

specifieke uitkomsten geven. Met andere woorden: geeft de waarschijnlijkheid

van de uitkomst . Resultaten uit het verleden geven voorwaarden waar een

voorspellingsmodel , bestaande uit de set van waarschijnlijkheden ,

aan dient te voldoen. Verschillende voorspellingsmodellen zullen aan deze

voorwaarden voldoen – de vraag is welk model uit deze set de


27

kansverdeling van mogelijke uitkomsten het beste voorspelt. Om de kansverdeling te

vinden die de toekomstige uitkomst het best voorspelt wordt gezocht naar de optimale

verdeling .

Laten we het voorbeeld van de veranderende beurskoers gebruiken om een

versimpelde voorstelling te geven van de mogelijke voorspellingsmodellen .

Stel dat resultaten uit het verleden vijf reële, mogelijke uitkomsten voor verwachte

stijging of daling van de beurskoers geven: , , , , .

Omdat de kansen van alle mogelijke uitkomsten bij elkaar opgeteld gelijk aan 1

horen te zijn geeft dit een eerste voorwaarde waar het voorspellingsmodel aan

behoort te voldoen:

∑

,

.

Oneindig veel modellen voldoen aan deze voorwaarde. Een voorbeeld is

, wat betekent dat de beurskoers zonder twijfel een stijging van zal

doormaken. Ook het model waarbij

,

en de rest van de kansen

gelijk is aan voldoet. Beide modellen nemen echter meer aan dan bekend is – bekend is

alleen de gegeven normalisatievoorwaarde, niet de individuele kansen op bepaalde

toekomstscenario’s.

Intuïtief is het model dat zo min mogelijk aanneemt en derhalve de grootst

mogelijke onzekerheid over de toekomst laat het aantrekkelijkst: het optimale model

. In het huidige geval is dit het model waarbij alle kansen gelijk zijn:


28

{

De kansverdeling van het optimale voorspellingsmodel is zo uniform

mogelijk zodat de uitkomst van de verandering van de beurskoers zo onzeker mogelijk is.

Dit om niet meer aan te nemen dan in de gegeven voorwaarden besloten zit. Het is in lijn

met Ockhams scheermes: ‘Entia non sunt multiplicanda preater neccessitatem’, ofwel

‘Men moet de zijnden niet zonder noodzaak verveelvoudigen’. Geen object binnen een

hypothese behoort te worden bevoordeeld boven andere objecten zolang daar geen reden

toe is in de vorm van voorwaarden.

Een extra voorwaarde gevonden in de data uit koersbewegingen in het verleden

zal een nieuw, zo onzeker mogelijk toekomstmodel geven. Stel bijvoorbeeld dat de kans

op óf een stijging van , óf geen stijging of daling gelijk is aan

. De nieuwe

voorwaarde luidt

.

Het optimale voorspellingsmodel, behorend bij de twee gegeven voorwaarden met

een zo uniform en onzeker mogelijke kansverdeling is eenvoudig na te rekenen:


29

{

Volgt uit de data een derde voorwaarde, dan wordt het vinden van het optimale

model, kloppend met de gegeven voorwaarden maar niets anders aannemend, complex.

Een wiskundige maat voor uniformiteit of onzekerheid is hierom waardevol:

maximalisatie van onzekerheid zou het unieke, meest uniforme model aanwijzen; het

model dat de optimale waarschijnlijkheidsverdeling voor de mogelijke toekomstige

uitkomsten geeft. Shannon vond deze maat.

3.2 SHANNON: ENTROPIE, EEN MAAT VOOR INFORMATIE

Claude Elwood Shannon (1916- schreef in 9 zijn baanbrekende artikel ‘A

mathematical theory of communication’, waarin hij een maat voor de hoeveelheid

informatie in een bericht vond. Zoals in het eerste hoofdstuk begon Shannon met een

uitdrukking voor de hoeveelheid informatie, gelijk aan het aantal bits welke een bericht

(de toestand van de magnetron uit hoofdstuk 1) uitdrukken:

log ,

met voor het aantal toestanden die de bits kunnen beschrijven en waarbij elke

mogelijke toestand even waarschijnlijk is.

Ook zag Shannon in dat deze uitdrukking voor informatie kan worden

geïnterpreteerd als een uitdrukking voor de waarschijnlijkheid van het voorkomen van

een specifieke toestand, zoals aangegeven in hoofdstuk 1. In de vorige paragraaf zagen we


30

dat een grotere waarschijnlijkheid van een voorspellingsmodel gepaard gaat met een

grotere onzekerheid over de uitkomst.

De twee interpretaties van , die van een hoeveelheid informatie en die van een zo

groot mogelijke onzekerheid, leidden Shannon tot de overtuiging dat er één algemene

maat bestaat voor zowel een hoeveelheid aan informatie als voor onzekerheid. Gegeven

een set kansen, zoals de hierboven gevonden modellen voor het beursverloop, zocht hij

een maat die aangeeft hoeveel keuzevrijheid de kansverdeling openlaat of hoe onzeker de

uitkomst van het model is.

Shannon’s maat , , , hoort volgens hem aan een aantal condities te

voldoen (1948). Hij toonde aan dat er slechts één functie voldoet aan deze

voorwaarden:

1. hoort continu the zijn in , want een continu stijgende kans dient een continue

stijging in waarschijnlijkheid te leveren.

2. Als alle gelijk zijn,

, dan is een monotoon stijgende functie van . Hoe

meer mogelijke uitkomsten met dezelfde kans, hoe groter immers de

keuzevrijheid of onzekerheid.

3. Als een uitkomst wordt verdeeld onder twee elkaar opvolgende keuzes, dan is

de gewogen som van de individuele waarden van .

Deze laatste voorwaarde licht Shannon toe met Figuur 5. De drie mogelijke uitkomsten

van de linkse boom zijn gelijk aan die van de rechtse boom, met het verschil dat de rechtse

meer stappen laat zetten om tot hetzelfde resultaat te komen. De onzekerheid van de

linkerboom moet gelijk zijn aan die van de rechterboom:

(

,

,

) (

,

)

(

,

).


31

De coëfficient

is hierbij de weging van de tweede onzekerheidsmaat in de boom – deze

tweede stap komt slechts in de helft van de gevallen voor.

Aan de hand van de gegeven drie voorwaarden leidt Shannon (1948) als volgt een

uitdrukking voor af.

Laat (

,

, ,

) . Uit conditie (3) volgt dat de onzekerheid over even

waarschijnlijke mogelijkheden gelijk is aan de onzekerheid over achtereenvolgende

stappen van even waarschijnlijke mogelijkheden:

.

In Figuur 6 wordt dit opnieuw geïllustreerd met kansbomen, waarbij en . De

acht mogelijke uitkomsten van de linkerboom zijn gelijk aan die van de rechterboom, met

het verschil dat de rechterboom uit verschillende stappen bestaat.

Figuur 5 – Decompositie van drie mogelijke uitkomsten (Uit: Shannon, 1948).


32

De takken van de linkerboom vormen de mogelijke, even waarschijnlijke uitkomsten met

kansen

. De rechterboom bestaat uit elkaar opvolgende even

waarschijnlijke stappen met kansen

. Uit dit voorbeeld blijkt dat

(

,

,

,

,

,

,

,

) (

,

).

In het algemeen geldt daarom dat

.

En evenzo geldt

.

Shannon stelt dat een en gevonden kunnen worden waarvoor geldt dat

Figuur 6 – 𝐴 𝑠𝑚 𝑚𝐴 𝑠 met 𝑚 en 𝑠 .

1/8

1/8

1/8

1/8

1/8

1/8

1/8

1/8

1/2

1/2

1/2

1/2

1/2

1/2

1/2

1/2 1/2

1/2

1/2

1/2

1/2

1/2

1/8

1/8

1/8

1/8

1/8

1/8

1/8

1/8


33

.

Van deze uitdrukking de logaritme genomen en vervolgens gedeeld door log geeft

log

log

log

log

log

log

log

log

log

log

log

log

log

log

,

zodat,

log

log

,

of

|

log

log |

voor een willekeurig kleine . Uit de tweede conditie volgt voor op soortgelijke wijze

dat


34

en uit een deling door volgt

,

of

|

| .

De twee verkregen ongelijkheden worden als volgt omgeschreven

log

log

.

Vermenigvuldigen we deze laatste uitdrukking met dan krijgen we

.

Dit opgeteld bij de eerste, nog onveranderde ongelijkheid geeft

log

log


35

|

log

log | .

Het getal kan willekeurig klein worden gekozen, zodat deze gelijk aan kan worden

gesteld:

log

log

log

log

log

log .

Omdat de twee zijden van deze laatste vergelijking onafhankelijk zijn van elkaar kunnen

we ze gelijk stellen aan een constante :

log

log .

Shannon’s derde conditie geeft opnieuw een volgende stap. Aangenomen wordt dat een

keuze wordt gemaakt uit ∑ mogelijkheden met waarschijnlijkheden

∑ , zodat

(∑

) log (∑

) , , ∑

, , ∑ log

.

Nu kan een uitdrukking voor worden gevonden, waarbij gebruik wordt gemaakt van de

definitie ∑ ,


36

, , (∑

) log(∑

) (∑ log

)

[(∑

) log(∑

) (∑ log

)] ∑

[log

∑ ]

∑

log .

We hebben Shannon’s maat voor onzekerheid en informatie gevonden, de unieke

oplossing van die voldoet aan de drie gegeven voorwaarden:

∑ log .

Gegeven een aantal mogelijke voorspellingsmodellen wordt het unieke, meest

onbevooroordeelde model gekenmerkt door de grootste onzekerheid . Het

voorspellingsmodel met de maximale waarde voor is daarom het meest uniforme

model, als beste bruikbaar voor toekomstvoorspellingen aan de hand van beperkte data

uit het verleden.

Met Shannon’s maat voor informatie in handen zien we iets bijzonders: de

uitdrukking voor is identiek aan de uitdrukking voor Gibbs’ entropie, aangenomen dat

gelijk is aan Boltzmann’s constante . Dit leidde Shannon tot de conclusie dat de door

Boltzmann en Gibbs gevonden uitdrukkingen voor entropie in termen van statistische

mechanica veel verregaandere toepassingen en betekenis hebben dan enkel de fysische.

Shannon generaliseerde entropie van een thermodynamisch naar een

informatietheoretisch concept, inzicht gevend in de hoeveelheid informatie in elke

denkbare kansverdeling. De Gibbs-entropie geeft de Shannon-informatie van een

kansverdeling.


37

3.3 INFORMATIE EN DE TWEEDE HOOFDWET

Shannon’s generalisatie van entropie wordt inzichtelijk gemaakt door het verband tussen

entropie en informatie. Om dit verband beter aan het licht te brengen volgt een schets van

een bekend fysisch probleem – Ma well’s duivel – welke opgelost werd door toepassing

van het verband tussen entropie en informatie.

3.3.1 MAXWELL’S DUIVEL

Maxwell bedacht in 1871 een probleem waar veel van zijn collega’s zich over zouden

buigen. Een klein wezen, ‘Ma well’s duivel’ genoemd, zou in staat zijn de tweede hoofdwet

van de thermodynamica te omzeilen.

Maxwell beschreef het wezen als klein genoeg om individuele moleculen te

kunnen onderscheiden. We weten dat moleculen in een gas met uniforme temperatuur

zich niet uniform gedragen – de individuele moleculen hebben bijvoorbeeld verschillende

snelheden. Stel nu dat Ma well’s duivel zich in een ruimte bevindt, door een schot

verdeeld in twee compartimenten, A en B. In het schot zit een door de duivel afsluitbaar

gat, klein genoeg om er één molecuul door te laten passeren. De kleine duivel besluit er

met het openen en sluiten van het gat voor te zorgen dat alleen de snellere moleculen van

deel A naar deel B worden doorgelaten, terwijl de meer langzame moleculen van deel B

naar deel A worden gesluisd. Zonder extra energie in de ruimte te stoppen heeft de duivel

zo van een uniforme, ordelijke temperatuurverdeling een onevenwichtige, wanordelijke

verdeling gemaakt – in tegenstelling tot wat de tweede hoofdwet oplegt is de entropie in

de ruimte gedaald, zonder extra toevoeging van energie.

Charles H. Bennett (1987) beschreef hoe fysici vaak tevergeefs geprobeerd

hebben de tweede hoofdwet te beschermen door een onjuiste werking van Ma well’s

duivel aan te tonen. Zo werd onterecht geopperd dat quantum-onzekerheid of Brownse

beweging beperkingen oplegde aan het handelen van het duiveltje. De juiste redding van

de tweede hoofdwet bleek later echter in het gevonden verband tussen entropie en

informatie te zitten.


38

3.3.2 SZILARD’S CYCLUS

Laten we de handelingen van het duiveltje met de vergelijkbare cyclus in Figuur 7

verduidelijken, zoals bedacht door en vernoemd naar Szilard (1929) en zoals ook door

Bennett (1987) gebruikt. De cyclus vormt een eerste stap in de oplossing van Ma well’s

probleem. Bennett stelde zich een cilinder voor met aan beide uiteinden een zuiger. Het

apparaat staat in contact met een warmtebad en in de cilinder zit één deeltje dat

onwillekeurig door het apparaat beweegt. Ma well’s duivel weet in eerste instantie niet

waar in de cilinder het deeltje zich bevindt – zijn kennis over de plaats van het deeltje in

de cilinder is ‘blanco’, in situatie a van de figuur aangegeven met toestand ⟩.

Stel nu dat een schot in het apparaat wordt aangebracht, zoals te zien in stap (b),

zodat het deeltje in één van de twee ontstane compartimenten zit. Nog altijd weet de

duivel niet waar het deeltje zich bevindt, tot hij een meting doet. Na een meting in stap (c)

zal zijn kennis over de plaats van het deeltje veranderen van ‘blanco’ naar ‘links’ of ‘rechts’,

aangegeven met respectievelijk ⟩ of ⟩, afhankelijk van waar hij het deeltje aantreft.

Zoals te zien in stap (d) kan de duivel de zuiger, die zich aan de andere kant bevindt dan

die waar het deeltje zit, induwen tot het schot wordt bereikt. Wordt het schot vervolgens

verwijderd in stap (e), dan zal het deeltje in de cilinder door haar willekeurige

bewegingen tegen dezelfde zuiger botsen en hem daarmee terugduwen naar zijn

begintoestand in stap (f). Rest er nog één stap om daadwerkelijk terug te komen bij de

begintoestand van het proces: de kennis van de duivel over de plaats van het deeltje moet

worden uitgewist. De gemeten toestand ⟩ of ⟩ wordt in stap (g) teruggezet naar de


39

blanco toestand ⟩.

Laten we de invloed van de individuele stappen op de entropie van het gesloten

systeem, namelijk die van het gas in de cilinder, onderzoeken om te begrijpen welk

thermodynamisch effect de beschreven cyclus heeft. Door het plaatsen van een schot in

stap (b) wordt de ruimte waarin het deeltje bewegen kan gehalveerd, wat een

entropieafname van het gas veroorzaakt van ln . Het doen van een

meting in stap (c) kost geen energie en brengt geen verandering teweeg in de entropie

van het systeem. Ook het induwen van de zuiger in stap (d) kost geen energie, aangezien

de zuiger in een vacuüm wordt geduwd. Tijdens stap (e) zal het deeltje door verwijdering

van het schot tegen de zuiger duwen tot de zuiger weer de oorspronkelijke, uitgeschoven

toestand bereikt. De beweegruimte is nu weer gelijk aan de oorspronkelijke

beweegruimte, wat resulteert in een entropietoename gelijk aan de afname in stap (b):

. Warmte uit de omgeving van de cilinder wordt gebruikt als energiebron voor

𝐵⟩ 𝐵⟩

𝐿⟩ 𝑅⟩

𝐿⟩ 𝑅⟩

𝐿⟩ 𝑅⟩

𝐵⟩

Figuur 7 – Het mechanisme van Maxwell’s duivel en het

ééndeeltjesapparaat zoals voorgesteld door Bennett (1987).

(a)

(b)

(c)

(d)

(e)

(f)

𝐿⟩ 𝑅⟩

(g)

𝐵⟩


40

het deeltje om de zuiger uit te schuiven: ln . Dit resulteert in een

entropieafname van het gas van

.

Aangekomen bij stap (f) heeft er een netto entropieafname plaatsgevonden van

ln , terwijl het gas in de cilinder in stap (f) terug is bij haar begintoestand, met

hetzelfde volume en dezelfde temperatuur als in stap (a). De entropie van het gas lijkt

afgenomen terwijl er arbeid is verricht – een onmogelijkheid volgens de tweede hoofdwet

die stelt dat de entropie nooit zal afnemen!

3.3.3 LANDAUER’S PRINCIPE

Het was Bennett die met behulp van Landauer’s principe de tweede hoofdwet redde. De

laatste stap van Szilard’s cyclus blijkt cruciaal voor begrip over hoe ook een wezen als

Ma well’s duivel geen uitzondering op de tweede hoofdwet van de thermodynamica kan

veroorzaken. Met de cilinder in stap (f) in haar oorspronkelijke toestand is de cyclus nog

niet voltooid: Ma well’s duivel verkeert in stap f nog altijd in de veronderstelling dat het

deeltje zich in één van de twee compartimenten van stap (c) bevindt. Wat gebeurt er als

de duivel zijn kennis over de positie van het deeltje vergeet?

Rolf Landauer, werkzaam bij IBM, onderzocht de thermodynamica van

dataverwerking, zo schreef Bennett (1987). Hij vond dat het doen van metingen geen

energie hoeft te kosten en derhalve geen bijdrage hoeft te leveren aan de entropie, terwijl

het vergeten ofwel uitwissen van kennis wel degelijk een thermodynamisch effect heeft.

Sleutel tot Landauer’s ontdekking was zijn conceptie van kennis: informatie

beschouwde hij als een puur fysieke toestand, voor te stellen als opnieuw een deeltje in

een cilinder bestaande uit twee compartimenten. De cilinder werkt als een bit: het deeltje

zit ofwel links, ofwel rechts, zoals hoe een bit zich in de toestanden ⟩ of ⟩ kan bevinden.

Het wissen van informatie stelde Landauer zich voor zoals te zien in Figuur 8.

In de eerste stap van het wisproces zit het deeltje in het linker- of

rechtercompartiment van de cilinder, maar onbekend is in welke van de twee. Zodra het

schot wordt verwijderd kan het deeltje door de gehele cilinder bewegen. Vervolgens

wordt de zuiger van rechts naar het midden geduwd, het schot teruggeplaatst en de zuiger


41

uitgeschoven naar de oorspronkelijke toestand. Het deeltje zal in het linker compartiment

van de cilinder eindigen, onafhankelijk van waar ze begon. Tevens kan niet meer

achterhaald worden waar in de cilinder het deeltje begon, want de positie van het deeltje

was aan het begin onbekend, zodat die informatie verloren is gegaan: de informatie is

vergeten.

Met dit mechanisme in handen kan worden onderzocht wat het

thermodynamische effect is van het wissen van informatie (Plenio & Vitelli, 2001).

1. Aan het begin van het proces kan het deeltje zich in beide compartimenten

bevinden, aangezien niet gemeten is in welke van de twee het deeltje

daadwerkelijk zit.

2. Na verwijdering van het schot is de ruimte verdubbeld, wat een vergroting van de

entropie van het gas veroorzaakt van ln .

3. Bij het naar inschuiven van de zuiger wordt de ruimte gehalveerd, wat een

verkleining van de entropie van het gas veroorzaakt van ln . Tevens is

voor de compressie een minimale hoeveelheid arbeid ln nodig, welke de

entropie van het gas vergroot met ln .

Figuur 8 – Het wissen van informatie volgens Landauer’s principe.

𝐵⟩

𝐵⟩

𝐵⟩

𝐵⟩ → 𝐿⟩ 𝐿⟩ 𝐿⟩


42

Netto heeft aan het eind van het proces een vergroting van entropie van ln

plaatsgevonden. Het thermodynamische effect van het wissen van een bit aan informatie

blijkt een vergroting van entropie van ln .

3.3.4 REDDING VAN DE TWEEDE HOOFDWET VAN DE THERMODYNAMICA

Terug naar Szilard’s cyclus en het geheugen van Ma well’s duivel. We zagen dat

aangekomen in stap (f) van Figuur 7 een netto entropieafname van het gas in de cilinder

van ln heeft plaatsgevonden. In het licht van Landauer’s principe is dit echter

slechts een deel van het verhaal: niet alleen het gas maakt een verandering in entropie

door, maar ook de entropie van het geheugen van Ma well’s duivel dient te worden

meegerekend voor een complete beschrijving van Szilard’s cyclus. Het te beschouwen,

gesloten systeem in Szilard’s cyclus blijkt daarom zowel het gas als de informatie die

Ma well’s duivel over de cilinder heeft te omvatten.

De netto entropieverandering in het gas bleek een afname van minimaal

ln te zijn. De netto entropieverandering van het geheugen van Ma well’s duivel is

gelijk aan de entropietoename bij het wissen van één bit aan informatie: ln . Deze

twee waarden leveren het inzicht dat het doorlopen van Szilard’s cyclus, het gesloten

systeem van gas en geheugen, geen entropieafname teweeg kan brengen. Er vindt ofwel

geen verandering, ofwel een vergroting van entropie plaats.

Hiermee is het probleem van Ma well’s duivel opgelost en de tweede hoofdwet

van de thermodynamica gered: de netto entropieafname in stap f van Szilard’s cyclus

wordt gecompenseerd door een entropietoename veroorzaakt door het vergeten van

eerder opgeslagen informatie.

3.4 SAMENGEVAT


43

Samenvattend kan worden gesteld dat informatie en entropie onlosmakelijk met elkaar

verbonden blijken te zijn. Rolf Landauer zag dit in door informatie te beschouwen als

puur fysisch concept, zoals een deeltje in een cilinder met twee kamers: het vergeten van

informatie brengt een vergroting van entropie teweeg. Deze ontdekking maakt de

gevonden gelijkenis van Shannon’s maat voor onzekerheid en Boltzmann’s en Gibbs’

uitdrukkingen voor entropie inzichtelijk. Hoe groter de onzekerheid in een

voorspellingsmodel, des te groter de keuzevrijheid en aan het systeem inherente

informatie, des te waarschijnlijker de juistheid van het voorspellingsmodel. Plaatsen we

dit in het licht van Landauer’s principe, dan zal het betreffende voorspellingsmodel met zo

min mogelijk aannamen de grootste hoeveelheid informatie en entropie bevatten.


44

4 HET MAXIMUM ENTROPIEBEGINSEL

Met ma imalisatie van Shannon’s entropie wordt het optimale voorspellingsmodel

gevonden. Dit is het model dat een zo uniform mogelijke kansverdeling geeft die beschrijft

wat de mogelijke uitkomsten of toekomstscenario’s zijn. Hierbij houdt uniformiteit in dat

alleen bekende data worden gebruikt en geen aannamen worden gedaan over

ontbrekende informatie met betrekking tot de uitkomst. De bekende data worden

vertaald in voorwaarden waar de optimale kansverdeling aan dient te voldoen.

Statistische fysica blijkt een voorbeeld van de toepassing van

entropiemaximalisatie. Edwin Thompson Jaynes (1922–1998) liet in 1957 zien hoe

maximalisatie van entropie, gebruik makend van de juiste voorwaarden, leidt tot de

partitiefunctie. Daarmee keerde Jaynes de uitwerking van statistische fysica

binnenstebuiten: in plaats van te beginnen met de bekende postulaten zoals de

partitiefunctie, leidend tot de functie voor entropie, wordt nu entropie als beginpunt

gebruikt, van waaruit de gehele statistische fysica – waar het evenwichtsverdelingen

betreft – kan worden afgeleid. Het toont aan dat statistische mechanica slechts één van de

vele toepassingen is van het maximum entropiebeginsel. Entropie heeft zo niet een puur

fysische betekenis, zoals deze in eerste instantie werd afgeleid in de thermodynamica,

maar blijkt toepasbaar in alle optimalisatieproblemen die afhangen van

verdelingsfuncties.

4.1 HET EQUIPARTITIEPRINCIPE

Zoals gezegd wordt de gezochte evenwichtssituatie gekenmerkt door een maximale

hoeveelheid entropie. Het vinden van de evenwichtsverdeling is daarom slechts het

vinden van de kansverdeling behorend bij de gemaximaliseerde entropie-uitdrukking van

Shannon, onderhevig aan de bekende constraints ofwel beperkende voorwaarden van

betreffende macroscopische situatie.


45

Is van een macroscopisch systeem alleen de normalisatievoorwaarde ∑

bekend, dan dient de functie , , afhankelijk van Shannon’s entropie, de

normalisatievoorwaarde en Lagrange multiplicator , te worden gemaximaliseerd:

, ∑ ln

(∑

).

De extrema, dat wil zeggen de minima en maxima van de functie worden verkregen door

de partiële afgeleiden van , gelijk te stellen aan . In de gevallen die wij

beschouwen blijkt dit inderdaad een maximum te zijn omdat de functie voor entropie een

convexe kromme beschrijft, waarbij enkel een maximum bestaat.

ln

(∑

) .

Dit geeft dat en het levert opnieuw de normalisatievoorwaarde ∑ .

Is dus een constante die niet afhangt van , zodat geldt dat

∑ ∑

.

De unieke oplossing voor wordt daarom gegeven door

,


46

met voor het totale aantal toestanden. Dit resultaat klopt met de stelling dat

entropiemaximalisatie het meest uniforme model levert. Geldt alleen de

normalisatievoorwaarde, dan volgt de uniforme kansverdeling zoals gegeven door het

equipartitieprincipe.

4.2 HET KANONIEK ENSEMBLE

Wordt naast de normalisatievoorwaarde de voorwaarde gesteld dat de gemiddelde

energie van het systeem gelijk is aan de interne energie, dan resulteert dat in de

Boltzmann distributie, geldig in het kanoniek ensemble.

Gemiddelde energie wordt met de volgende voorwaarde uitgedrukt:

∑ ,

Met de energie in toestand , en de kans op voorkomen van toestand . De functie

, , hangt ditmaal af van twee constraints:

, , ∑ ln

(∑

) (∑

).

Opnieuw worden de partiële afgeleiden van , , gelijkgesteld aan :

ln


47

(∑

)

(∑

) .

Uit de eerste van de afgeleiden volgt dat . Invullen in de

normalisatievoorwaarde geeft ∑ , zodat

∑

.

De gevonden uitdrukking ingevuld in Shannon’s uitdrukking voor entropie (met

), gebruik makend van de tweede constraint, levert

∑ ln( )

(∑

) ln ,

met de constante die ln geeft.

Door gebruik te maken van de thermodynamische definitie van ,

, blijkt

evenwel dat

.

Zo vinden we dat de inverse van de partitiefunctie is,

∑

,

en tot slot de uitdrukking voor de kansverdeling onder de twee gegeven voorwaarden,


48

.

Zoals verwacht is de gevonden kansverdeling gelijk aan de Boltzmann distributie.

Uitwerking van overige begrippen uit de statistische fysica zoals vrije energie is mogelijk

aan de hand van de gevonden distributie. Zo is aangetoond dat het maximalisatiebeginsel

van entropie, onder de bekende beperkende voorwaarden zoals de waarde van de

gemiddelde totale energie, voldoende is om de statistische mechanica voor

evenwichtssituaties uit te werken.

Wat we aan de hier gegeven afleiding zien is dat de Boltzmann verdeling een

voorbeeld is van een heel algemene klasse van gevallen. Statistische mechanica is slechts

één van de vele toepassingen van entropiemaximalisatie. Entropiemaximalisatie blijkt een

beginsel dat toepasbaar is op talloze verdelingsproblemen waar een beperkende

voorwaarde wordt gelegd met betrekking tot de gemiddelde waarde die een bepaalde

grootheid aanneemt. In de volgende sectie zal een introductie worden gegeven tot een

aantal andere toepassingen van het maximum entropie principe. Een toepassing in de

taalwetenschap zal ten slotte in hoofdstuk 6 worden toegelicht en uitgewerkt, waaruit

duidelijk wordt dat gebruikmaking van het maximum entropie principe met een geheel

ander doel dan die van de statistische mechanica toch eenzelfde wiskundige uitwerking

heeft.


49

5 ANDERE TOEPASSINGEN VAN HET

MAXIMUM ENTROPIEBEGINSEL

Op de webpagina Edge beschreef psycholoog Stephen M. Kosslyn (2012) constraint

satisfaction als de wijze waarop men keuzes maakt. Bij het oplossen van een probleem of

het maken van een keuze dient te worden voldaan aan een aantal vooraf opgestelde

voorwaarden. Kosslyn illustreert dit in een aardig voorbeeld over het besluitproces bij de

inrichting van zijn huis: de grootte en vorm van het meubilair legt voorwaarden op de

wijze waarop de meubels geplaatst kunnen worden, welke op hun beurt de plaatsing van

overige meubels bepalen. Zonder deze voorwaarden zou het huis op een oneindig aantal

manieren kunnen worden ingericht. De beperkingen die de voorwaarden oplegden

zorgden er echter voor dat slechts een aantal inrichtingsmogelijkheden overbleef.

Constraint satisfaction is het proces waarin de uitkomsten worden geselecteerd die zo

veel mogelijk voldoen aan de gestelde voorwaarden.

Worden de uitkomsten die na constraint satisfaction overblijven beschreven in

termen van kansverdelingen, dan is het mogelijk de hoeveelheid entropie van die

uitkomsten te berekenen. De optimale keuze uit de verschillende overgebleven

mogelijkheden is die met maximum entropie.

Zo beschouwd en zoals gezien in voorgaande secties heeft het principe van

maximum entropie een breed scala aan toepassingen. Elk denkbaar

optimaliseringsprobleem beperkt door voorwaarden en uitgedrukt in termen van

kansverdelingen kan een optimale uitkomst vinden aan de hand van het maximum

entropiebeginsel. Een aantal uiteenlopende optimaliseringsproblemen waarin het

beginsel kan worden toegepast zal kort worden uitgelicht.

5.1 ANT COLONY OPTIMIZATION


50

Ant colony optimization (ACO) is een optimaliseringstechniek geïnspireerd op gedrag van

sommige mierensoorten. Deze mieren laten een feromoon achter op het pad dat ze

bewandelen, als aanwijzing voor andere mieren wat de beste weg naar voedsel is. Met

andere woorden: feromonensporen geven een kansverdeling voor de verschillende

mogelijke paden naar voedsel, waarmee de mieren in staat zijn het optimale pad te vinden.

De door de mieren gebruikte optimalisatiemethode wordt in ACO nagebootst met

kunstmatige mieren, onderdeel van een algoritme voor oplossing van

optimaliseringsproblemen. Laten we allereerst de inspiratiebron van het algoritme nader

bekijken: hoe vinden mieren het optimale pad?

Stel dat een mier uit twee wegen kan kiezen, beide leidend tot voedsel. Dit was de

opzet van het double bridge experiment, zoals uitgevoerd door Deneubourg et al. (1990).

In Figuur 9 is de schematische opstelling van een variant van het experiment afgebeeld,

waarbij één van de twee wegen de optimale want de kortste weg naar het voedsel is.

In eerste instantie weten de mieren niet welk pad te kiezen, omdat nog geen van

de wegen eerder werd bewandeld. De insecten kiezen willekeurig één van de twee

mogelijkheden en laten daarbij eerste lagen feromoon achter. Omdat beide wegen

willekeurig worden gekozen zullen beide paden even vaak worden gekozen, zodat op

beide paden een feromonenspoor achterblijft. Bij het lange pad duurt het gemiddeld

langer voordat een mier die via deze weg het voedsel vond terugloopt naar het nest. Deze

extra tijd doet het feromoon op het lange pad meer verdampen dan op het korte pad. De

netto grotere hoeveelheid feromoon op het korte pad levert zo een voorkeur voor het

Figuur 9 – Het double bridge experiment met vertakkingen van verschillende lengte. (Uit: Dorigo,

Birattari, & Stützle (2006)).


51

korte, optimale pad. Het zal ertoe leiden dat steeds meer mieren kiezen voor het optimale

pad, zodat alleen dit pad overblijft met een grote hoeveelheid feromoon.

In ACO worden kunstmatige mieren gebruikt om optimaliseringsproblemen op te

lossen op dezelfde wijze als echte mieren dat doen. Allereerst voeren de mieren

constraint satisfaction uit: de mogelijke oplossingen voor het probleem, kloppend met

opgelegde voorwaarden, worden gevonden. In het geval van het double bridge

experiment zijn er twee mogelijke oplossingen voor het probleem, namelijk twee wegen

om bij het voedsel te komen. Een voorwaarde waaraan moet worden voldaan is dat de

mieren vooruit moeten lopen, naar een plek waar ze nog niet eerder waren. Om de

optimale oplossing te vinden wordt informatie uitgewisseld over de kwaliteit van de

oplossingen, zoals de mieren dat doen via feromonensporen. De hoeveelheid feromonen

op de sporen wordt in het algoritme van ACO uitgedrukt als een kansverdeling voor het

kiezen tussen de mogelijke oplossingen.

In ACO kunnen we de ingrediënten herkennen die nodig zijn voor toepassing van

het maximum entropie principe: (1) voorwaarden waar mogelijke oplossingen aan dienen

te voldoen en (2) kansdistributies voor de mogelijke oplossingen. Worden uitdrukkingen

gevonden voor deze voorwaarden en voor de kansdistributies, dan kan het model met

maximum entropie worden gevonden.

ACO is een iteratief algoritme, wat betekent dat deze meerdere malen na elkaar

wordt uitgevoerd: bij elke iteratie wordt een nieuwe groep kunstmatige mieren gebruikt

welke afgaat op het feromonenspoor dat de mieren voor hen achterlieten en welke op hun

beurt een nieuw feromonenspoor achterlaat. Zo wordt in elke iteratie gewerkt aan een

oplossing van het

optimaliseringsprobleem: hoe meer

iteraties, des te dichter wordt het

optimum genaderd.

We kunnen ons de weg van de

kunstmatige mieren voorstellen als een

hoeveelheid kruispunten die met elkaar

verbonden zijn door paden. De mier in

Figuur 10 bevindt zich op kruispunt en

zal voor het volgende kruispunt kiezen

aan de hand van een stochastisch

mechanisme. Als nog niet eerder

Figuur 10 – Een mier in kruispunt 𝑖 kiest naar welk

kruispunt, 𝑔, 𝑗 of ℎ, het zal lopen. (Uit: Dorigo, Birattari, &

Stützle (2006)).


52

bezocht is voldoet het aan de eerder gestelde voorwaarde en vormt de weg tussen en

een oplossing. De kans dat voor de weg tussen beide knooppunten , wordt gekozen is

evenredig met de hoeveelheid feromoon op dit pad.

Dorigo, Birattari en Stützle (2006) lichtten het model van ACO toe door het te

presenteren als variant op het combinatoriële optimalisatieprobleem. Dit is het type

optimalisatieprobleem waarvan de optimale oplossing een discrete variabele is,

onderdeel van een eindige set mogelijke oplossingen. Om ACO als variant van het

combinatoriële optimalisatieprobleem aan te geven is een model S, , van dat

optimalisatieprobleem nodig. Hierbij hoort:

- Een ruimte S waarin wordt gezocht naar oplossingen, gedefinieerd over een

eindige set van discrete beslissingsvariabelen , waarbij , ;

- Een set van voorwaarden onder de variabelen;

- Een te minimaliseren objectieve functie : S → . Een maximalisatieprobleem

kan immers worden omgevormd tot een minimalisatieprobleem door .

Een mogelijke oplossing van het optimalisatieprobleem is S, waarbij de

beslissingsvariabelen voldoen aan alle voorwaarden . Voor de optimale oplossing , dus

de oplossing met maximum entropie, geldt S.

Het model wordt in ACO geïnterpreteerd als model voor de hoeveelheid feromonen.

Bij elke oplossing hoort een feromoonwaarde, waarbij de oplossing is met de hoogste

feromoonwaarde: de optimale oplossing.

5.2 BEELDRECONSTRUCTIE

In onder andere astronomie, hoge-energie fysica, biologie en de medische wetenschappen

wordt het maximum entropiebeginsel gebruikt voor image reconstruction, ofwel

beeldreconstructie: ruis wordt uit te onderzoeken beelden gefilterd, zodat een beeld kan

worden geconstrueerd dat zo veel mogelijk klopt met het originele object. Het principe

van maximum entropie dient dit doel uitstekend vanwege de eigenschap dat het model


53

met maximum entropie de unieke oplossing is die zo veel mogelijk klopt met en niets

anders aanneemt dan de gegeven data. Het betekent dat elk beetje aan informatie in het

resulterende gereconstrueerde beeld terug te vinden moet zijn in de originele data. De

techniek wordt toegepast bij beelden die het gehele elektromagnetische spectrum beslaan,

waaronder beelden uit de astronomie die de eclips van accretieschijven in kaart brengen

en beelden van tomografie uit de medische fysica.

Skilling en Bryan (1984) geven een overzicht van het gebruik van het maximum

entropie principe bij beeldreconstructie. Een beeld wordt uitgedrukt in een set nader te

bepalen positieve getallen , , , . Een kansdistributie voor het voorkomen van deze

getallen is ∑ . Zo kan de entropie van het beeld – voor nu nog zonder extra

termen die voorwaarden uitdrukken – worden gevonden aan de hand van de Shannon

entropie:

∑ log

.

Ook in deze kan de Shannon entropie worden begrepen in termen van informatie.

In dat geval geeft het intensiteitspatroon van het gereconstrueerde beeld aan,

afhankelijk van de positie van elk afzonderlijk uitgestraalde foton. De kans is de kans

op uitgestraalde fotonen op positie , zodat de entropie in dit geval een maat is voor het

aantal bits aan informatie dat nodig is voor het bepalen van de positie van een

uitgestraald foton. De kansverdeling behorend bij het model met maximum entropie, is

de optimale verdeling die voorspelt waar een volgend foton uit het beeld vandaan zal

komen. Met deze informatie kan ruis uit het beeldmateriaal worden gefilterd en een

reconstructie worden gemaakt.

Voorwaarden voor de reconstructie worden opgesteld met behulp van data ,

gegeven voor elke informatie-eenheid . is op bekende wijze gerelateerd aan het te

reconstrueren beeld. Deze data bevatten optelbare ruis, wat betekent dat het een

optelling is van de ruisloze data en de bijgekomen ruis :

,


54

waarbij de standaard fout in is en een willekeurige variabele met een gemiddelde

van en een variantie .

De voorwaarde waar reconstructies aan dienen te voldoen luidt dat de

daadwerkelijk gevonden data binnen de foutmarge kloppen met de gesimuleerde data

zonder ruis, . Deze gesimuleerde data geven aan hoe de gevonden data eruit

zouden hebben gezien zonder ruis in het geval de data worden weergegeven met de

reconstructies . Vallen de reconstructies binnen de gestelde voorwaarde, dan kloppen

de gesimuleerde data met de gevonden data binnen de grenzen van de foutmarge.

Met deze methode wordt opnieuw duidelijk dat geen aannamen worden gedaan, anders

dan de daadwerkelijk gemeten datapunten.

Van de gevonden reconstructies die voldoen aan de gestelde voorwaarde

is de reconstructie met maximum entropie de optimale oplossing voor

reconstructie van het beeld. Hierbij dient de entropiefunctie, nu met de gestelde

voorwaarde maal een Lagrange multiplicator inbegrepen, te worden gemaximaliseerd:

, ∑ log

.

5.3 GEOGRAFISCHE DISTRIBUTIE VAN DIERSOORTEN

Een derde toepassing van het maximum entropie principe vinden we in de modellering

van de geografische distributies van diersoorten. Deze modellen voorspellen in hoeverre

een gebied geschikt is voor een bepaalde diersoort, als functie van gegeven

omgevingsvariabelen. Deze variabelen zijn bijvoorbeeld de aanwezigheid van

voedselbronnen, veiligheid met betrekking tot predatie door andere diersoorten en het

klimaat van het onderzochte gebied. De modellen spelen een belangrijke rol in de


55

analytische biologie, waarbij ze worden ingezet bij bijvoorbeeld de bescherming van

diersoorten, ecologie, evolutieleer en epidemiologie.

Geografische distributies van diersoorten kunnen worden opgesteld door middel

van algemene statistische methoden wanneer alle benodigde informatie over zowel de

hoeveelheid aanwezige als de aantallen afwezige dieren in het onderzochte leefgebied

bekend is. Data over de afwezigheid van soorten in met name tropische gebieden is echter

zeldzaam of betwijfelbaar, wat betekent dat een deel van de gewenste informatie mist.

Tegelijkertijd is juist in deze gebieden de modellering van geografische distributies

gewenst vanwege de toepassing in de conservatie van de daar levende diersoorten. Een

methode die de distributie van diersoorten voorspelt aan de hand van alleen de

informatie over de aanwezigheid van soorten is daarom waardevol. Phillips, Anderson en

Schapire (2006) laten zien hoe het principe van maximum entropie deze methode levert.

Het maximum entropiebeginsel dient het doel de kansdistributie te vinden

die zo goed mogelijk klopt met de daadwerkelijke kansdistributie , de exacte

verdeling behorend bij de betreffende situatie. Dit betekent dat dient te kloppen met

bekende informatie (over de aanwezigheid van een diersoort en de onderzochte

omgeving) maar niets aanneemt over onbekende gegevens (de afwezigheid van een

diersoort en onbekende omgevingsvariabelen). Hierbij geldt dat , , , waarbij

de verzameling is van bekende data over het voorkomen van de diersoort in het

onderzochte gebied.

Gemiddelde waarden van bekende data over omgevingsvariabelen als het klimaat,

grond- of vegetatietype worden vertaald in een set reële variabelen die “features”

of “kenmerken” worden genoemd. Nu kunnen de voorwaarden voor worden

gedefinieerd: de verwachtingswaarden van de kenmerken zoals gegeven door horen

gelijk te zijn aan de verwachtingswaarden (gemiddelden) van de empirisch gevonden

waarden die kloppen met de eigenlijke distributie . Deze laatste

verwachtingswaarden van de kenmerken onder worden gedefinieerd als

[ ] ∑

,


56

waarbij een benadering van wordt gegeven door de relatieve frequentie van het

voor komen van volgens de empirisch vergaarde data:

het aantal keer dat voorkomt.

Met het maximum entropie principe wordt kortom gezocht naar de kansverdeling

met maximum entropie, welke voldoet aan de voorwaarde dat elk kenmerk

dezelfde verwachtingswaarde [ ] onder heeft als onder de empirisch

geobserveerde distributie :

[ ] [ ].

Natuurlijk wordt ook in dit geval de distributie met maximum entropie gevonden

door maximalisatie van de Shannon entropie, waaraan met Lagrange multiplicatoren de

voorwaarden worden toegevoegd:

, ∑ ln

∑ [ ] [ ]

.

Zo blijkt het maximum entropie principe opnieuw een methode om het optimale

voorspellingsmodel te vinden, kloppend onder uit de bekende data gevonden

voorwaarden.


57

6 MAXIMUM ENTROPIE IN DE TAALWETENSCHAP

Zoals we in de afgelopen hoofdstukken hebben laten zien blijkt het entropiebegrip,

hoewel oorspronkelijk afkomstig uit de statistische thermodynamica, een veel algemenere

relevantie en breder toepassingsgebied te hebben. Het maximale entropie principe is

bruikbaar om de evenwichtssituatie van een statistische verdeling te bepalen, onder

zekere beperkende voorwaarden bijvoorbeeld leidend tot statistische mechanica. In het

vorige hoofdstuk is een aantal voorbeelden gegeven van andere vakgebieden waarbij dit

principe wordt gebruikt als een wiskundig instrument om optimaliseringsproblemen mee

aan te pakken. In dit hoofdstuk zal tenslotte een laatste toepassing worden uitgelicht en in

meer detail besproken. Het gaat hierbij om een toepassing in de taalwetenschap.

Taalwetenschappers als Berger, Della Pietra en Della Pietra (1996) en Hayes en

Wilson (2008) gebruikten het maximale entropie principe in navolging van Shannon en

Jaynes. Het bracht ze tot een beste model voor respectievelijk een Engels-Frans

vertaalsysteem en voor het aanleren van grammatica zoals dat gedaan wordt door native

speakers.

Aan de hand van het werk van genoemde wetenschappers volgt een algemene

wiskundige uitleg over het vinden van de voorwaarden en bijbehorende optimale

verdelingen met behulp van het maximale entropiebeginsel. Voorbeelden worden

gegeven in het gebied van taalkunde, waarbij een model dient te worden gecreëerd dat

klopt met gegeven trainingsdata. De onderliggende vraag is: Hoe kan een computer

herkennen uit welke taal een woord afkomstig is?

6.1 TAALHERKENNINGSPROGRAMMA’S

Computerprogramma’s zijn in staat om de taal te herkennen waar een gegeven woord in

geschreven staat. Een bekend voorbeeld is Google’s vertaalsite, welke de instructie kan

worden gegeven de taal van te vertalen woorden te herkennen.


58

Taalherkenningsprogrammatuur als deze is, net als die voor het maken van

vertalingen, gebaseerd op eerder ingevoerde ‘trainingsdata’. Deze woorden zijn door een

op dit gebied bekwame persoon verbonden met bijbehorende taal. Het programma

bestaat in de creatie van modellen die de gegeven trainingsdata zo goed mogelijk

beschrijven – voor elke taal één model. Een nieuw woord waarvan de taal moet worden

herkend wordt door het programma vergeleken met de verschillende ontwikkelde

modellen. Het programma zal de taal van het best passende model aanwijzen als de taal

van het gegeven woord.

Het principe van maximale entropie is het instrument waarmee het model dat het

best past bij de trainingsdata kan worden aangewezen. Het is namelijk het meest

uniforme model met inachtneming van de beperkende voorwaarden, anders gezegd, het

onder de gegeven of gevonden voorwaarden minst bevooroordeelde model dat daardoor

ook de beste pasvorm aan de trainingsdata heeft. Nog weer anders verwoord: van een

oneindige hoeveelheid modellen, die kloppen met uit de trainingsdata gedestilleerde

voorwaarden, is het beste model dat met grootste entropie.

6.2 KENMERKEN EN VOORWAARDEN

Net als in het geval van statistische mechanica is het zaak allereerst de voorwaarden te

vinden waar het model van een taal aan dient te voldoen. Wordt in de trainingsdata een

veelvoorkomend patroon gevonden, zoals de wijze waarop klinkers en medeklinkers of

bepaalde letters elkaar opvolgen, dan kan dit patroon tot een ‘feature’ of ‘kenmerk’

worden benoemd (Berger, Della Pietra en Della Pietra, 1996). De stelling dat het te

construeren model kloppen moet met het gedrag van dit kenmerk in de trainingsdata is

een ‘voorwaarde’. Zo wordt het belang van het kenmerk meegenomen in het volgens de

trainingsdata te construeren model.

Neem een kenmerk dat aangeeft dat in een Spaans woord de letter volgt op de

letter . Dit kenmerk kan als volgt worden weergegeven, in lijn met de wiskunde uit

Berger, Della Pietra en Della Pietra (1996):


59

, { als en volgt op in overige gevallen.

Hierbij geeft de taal en een eigenschap van het betreffende woord aan, tezamen een

kenmerk , vormend. De kans op een woord met het gedefinieerde kenmerk

wordt gevonden in de trainingsdata:

∑ , ,

.

.

Hierbij is de kansverdeling , de relatieve frequentie van het tegelijkertijd

voorkomen van en in de trainingsdata, gedefinieerd als

,

het aantal keer dat , voorkomt in de trainingsdata,

met voor de totale hoeveelheid bekeken trainingsdata. In dit geval is de in de

trainingsdata totale hoeveelheid letters volgend op de letter .

We willen een model vinden dat dezelfde uitkomsten geeft wat betreft het

gevonden kenmerk . Het “model” is dan de conditionele waarschijnlijkheid die de

waarschijnlijkheid van het voorkomen van voorspelt, gegeven dat het geval is. Dit

geeft voor de verwachte waarde van kenmerk volgens het model

∑ ,

,

.

Hierbij is de kans dat voorkomt volgens de trainingsdata.


60

Aan de met het model bepaalde wordt de voorwaarde gesteld te kloppen met

de verwachtingswaarde zoals gevonden in de trainingsdata :

,

ofwel

∑ ,

,

∑ , ,

.

.

Zo worden aan de hand van een set kenmerken de voorwaarden gevonden waar een

model aan dient te voldoen. Hiermee kan een volgende stap worden gezet: maximalisatie

van entropie met de methode van Lagrange-multiplicatoren.

6.3 DEFINITIE EN MAXIMALISATIE VAN DE ENTROPIE

De informatie-inhoud of de entropie van het model wordt beschreven door

Shannon’s formule. Hierbij moeten we wel al vermenigvuldigen met een factor ,

aangezien we een maat willen voor onzekerheid op het (volgens het model) voorkomen

van in het geval van . Dit geeft

∑ log

,

.


61

Maximalisatie van entropie wordt verkregen door opstelling van een te maximaliseren

Lagrangiaan. We moeten dan de termen met de Lagrange-multiplicatoren ,

vermenigvuldigd met de in de voorgaande sectie verkregen voorwaarden, toevoegen.

, ∑ ( )

∑ log

,

∑

(∑ ,

,

∑ , ,

,

) .

Maximalisatie van , gebeurt door op te leggen dat alle partiële afgeleiden gelijk aan

zijn. Allereerst kijken we naar de partiële afgeleide naar , om daarmee een uitdrukking

te vinden voor , de waarvoor , haar maximum bereikt:

∑

,

log ∑

,

∑

(∑ ,

,

)

Uitwerking van deze conditie geeft,

log ∑ ,

,

ofwel

log ∑ ,

Deze vergelijking heeft als algemene oplossing de exponentiële uitdrukking


62

e p(∑ ,

).

Hierin is een constante, vergelijkbaar met de uit de statistische mechanica bekende

partitiesom, welke gevonden kan worden met de normalisatievoorwaarde dat alle kansen

bij elkaar opgeteld leveren:

∑

∑

e p (∑ ,

)

,

zodat,

∑e p(∑ ,

)

.

Hiermee is de algemene uitdrukking verkregen voor het optimale model, passend bij

desbetreffende taal, . Volgende stap is het vinden van de optimale waarden van de

Lagrange-multiplicatoren .

6.4 DE OPTIMALE GEWICHTEN VAN DE VOORWAARDEN

De Lagrange multiplicatoren kun je interpreteren als het belang of gewicht van

bijbehorende voorwaarden . Inderdaad, als heel groot gekozen wordt zal


63

deze term, wanneer niet aan deze voorwaarde is voldaan, een grote negatieve bijdrage

aan de energie leveren. De maximalisatieperiode zal er dan voor zorgen dat aan die

conditie zo goed mogelijk wordt voldaan. Berekening van de gewichten van voorwaarden,

is een volgende stap in het maximalisatieprobleem. Eerst vullen we de verkregen

algemene oplossing van in in de formule voor , , leidend tot een functie van

multipliers die Berger, Della Pietra en Della Pietra (1996) noemen. Hierbij wordt

gebruik gemaakt van de eerder gevonden uitdrukking voor .

∑ ( )

∑

,

e p(∑ ,

) log(

e p(∑ ,

))

∑ ∑

e p(∑ ,

)

,

,

∑

∑ , ,

,

.

De eerste term in de som kan worden herschreven, gebruikmakend van log

log

log en de definitie voor :

∑

log ∑

,

e p(∑ ,

) log

∑ ∑

e p(∑ ,

)

,

,

∑

.

Herschikken levert


64

∑

log ∑

(∑log

,

∑

∑ ,

,

)∑

e p(∑ ,

)

,

.

Omdat ∑ log ∑ ∑ , , , geldt vervolgens

∑

log ∑

( ∑∑ ,

,

)∑

e p (∑ ,

)

,

,

zodat we in de laatste stap met opnieuw de definities voor en de gewenste

uitdrukking vinden:

∑

log ∑

∑

∑

log( ) ∑

.

Het is nu zaak de optimale set waarden te vinden, door te maximaliseren.

Een analytische oplossing door bijvoorbeeld af te leiden en gelijk te stellen aan lijkt

in dit geval niet mogelijk. Gelukkig is er een rijk scala aan numerieke methoden

beschikbaar om zulke problemen op te lossen, dat wil zeggen de extrema te bepalen van

een functie van meerdere variabelen. Berger, Della Pietra, Della Pietra (1996) noemen

bijvoorbeeld coordinate-wise ascent, iterative scaling en (steepest) gradient ascent. Deze

laatste methode, ook wel de “methode van de steilste helling” genoemd, wordt toegelicht

door Hayes en Wilson (2008). Ik zal hem kort bespreken.

De methode van de steilste helling is een iteratieve methode waarbij je in een

aantal stappen naar de maximale waarde van de functie toe klimt. Als nulde iteratie zetten


65

we alle gelijk aan . Verandering van de gewichten levert ofwel een vergroting, ofwel

een verkleining van de waarschijnlijkheid van de trainingsdata volgens het model .

Wordt in elk punt de optie gekozen die maximaal vergroot, dan wordt een

stijgend pad bewandeld dat leidt tot de maximaal haalbare waarde . Zo verkrijgen

we bij zeer goede benadering de optimale waarden van de gewichten , en dus ook van

de waarschijnlijkheid en de maximale entropie of . Bijbehorend model is de

oplossing die de trainingsdata optimaal genereert. Het model met maximale entropie is

uniek. Dit is te zien aan de convexe vorm van , met slechts één maximum, zonder

lokale maxima waar de beschreven maximalisatiemethode vast zou kunnen lopen.

Bij deze methode is het niet nodig steeds opnieuw de waarde van te

berekenen. Het is voldoende de lokale gradiënt te berekenen, welke aangeeft wat de

steilste weg omhoog is. Deze gradiënt is de vector van partiële afgeleiden van naar

alle afzondelijke . Hoe groter

, des te steiler het bijbehorende pad langs het

oppervlak van , des te sneller het optimale model wordt bereikt.

De betekenis en tevens berekening van dit proces van opklimmen kan

inzichtelijker worden gemaakt: door langs het oppervlak van het model te klimmen

wordt steeds beter de werkelijke, te modelleren taal benaderd. De partiële afgeleiden

geven aan hoe steil het pad naar het optimale punt is, wat tevens een maat is voor de

afstand tot dat punt, aangezien de convexe kromming van minder steil wordt

naarmate het optimum dichter wordt genaderd. Daarom kan de gradiënt worden

beschouwd als indicatie voor de mate waarin het model afwijkt van de trainingsdata: het

verschil tussen het voorkomen van de onderzochte kenmerken in de trainingsdata en de

verwachtingswaarde van dezelfde kenmerken volgens het model,

∑∑ , ,

,

∑∑ ,

,

,

waarbij voor het optimale model geldt

∑∑ , ,

,

∑∑ ,

,


66

, .

In plaats van berekening van de gradiënt kan worden berekend, in alle

richtingen vanuit het betreffende punt. De richting met de kleinste waarde voor

is de richting die dient te worden uitgegaan, om uit te komen bij het model

met optimale gewichten .

Met behulp van het principe van maximale entropie is het model bepaald

dat de trainingsdata het best benadert:

e p(∑

,

),

waarbij voldaan wordt aan de voorwaarde dat

, .

We hebben in dit hoofdstuk een interessante toepassing behandeld van het maximale

entropiebeginsel in de taalwetenschap om te illustreren hoe algemeen dit beginsel in feite

is. Het is dan ook niet verbazingwekkend dat dit beginsel in veel vakgebieden waar het

gaat om het construeren van optimale modellen voor problemen waarin beperkende

voorwaarden een belangrijke rol spelen.


67

7. CONCLUSIE

We hebben in deze tekst onderzocht wat de actuele conceptie van entropie is en hoe deze

tot stand is gekomen. Resultaten en bevindingen in deze scriptie zijn verkregen uit een

literatuuronderzoek, met behulp van de literatuur waarnaar is verwezen in de tekst. Een

eigen onderzoek is derhalve niet uitgevoerd, resultaten van bijvoorbeeld het optimale

model voor de vertaling en herkenning van teksten zijn niet geverifieerd aan de hand van

computersimulatie. Wel zijn dergelijke uitgevoerde simulaties – en bijbehorende discussie

– te vinden in de geciteerde werken.

Al uit een eenvoudig voorbeeld waarbij de configuratie van een aantal bits een

systeemtoestand voorstellen bleek een verband tussen entropie, waarschijnlijkheid en

informatie te bestaan. Een chronologisch overzicht van de wijze waarop entropie

begrepen en geformuleerd werd leidde tot een groter inzicht in de betekenis en de

mogelijke toepassingen van deze grootheid. Met een korte samenvatting gaan we nog

eenmaal langs de hoofdpunten in de ontwikkeling van ons begrip over en gebruik van

entropie.

De eerste definitie van entropie is te vinden in de tweede hoofdwet van de

thermodynamica: de verandering van entropie is de ratio van de verandering in warmte

ten opzichte van de temperatuur en entropie neemt in de praktijk niet af in een gesloten

systeem,

,

.

Entropie is in deze conceptie een toestandsgrootheid, net zoals druk, volume of

temperatuur. De gevolgen van entropie voor de thermodynamica zijn groot: warmte kan

niet volledig in arbeid worden omgezet en processen die gepaard gaan met een toename

van entropie zijn irreversibel. Deze irreversibiliteit bracht Ludwig Boltzmann op het

spoor van statistische mechanica en een nieuwe conceptie van entropie

De statistische mechanica maakte het mogelijk entropie te begrijpen in termen

van het gedrag van individuele deeltjes. Boltzmann stelde dat entropie een maat is voor


68

het aantal mogelijke toestanden van een deeltjessysteem en definieerde entropie voor het

microkanoniek ensemble:

log .

Omdat elke toestand in een microkanoniek ensemble even waarschijnlijk is zal een

macrotoestand waarmee meer microtoestanden corresponderen waarschijnlijker zijn. Dit

bracht Boltzmann tot een nieuw begrip van entropie: entropie is een maat voor de

waarschijnljkheid van een toestand. De tweede hoofdwet van de thermodynamica vertaalt

dan in de stelling dat een systeem gemiddeld altijd van een minder naar een meer

waarschijnlijke toestand zal bewegen – een tegengestelde beweging is niet onmogelijk

maar zo onwaarschijnlijk dat we haar in de natuur niet tegenkomen.

Gibbs stelde vervolgens met behulp van de Boltzmann distributie en Helmholtz

vrije energie een derde, algemenere uitdrukking van entropie op, afhangend van de

kansverdeling die hoort bij de beschreven toestand:

∑ ln

.

Het was precies deze uitdrukking die Shannon vond bij de uitwerking van een

maat voor zowel informatie als onzekerheid, met het verschil dat de constante van

Boltzmann nu een willekeurige constante is. Zo werd het verband tussen entropie,

informatie en onzekerheid gelegd. Hoe groter de entropie in een bericht, des te groter de

hoeveelheid informatie in en de onzekerheid over dat bericht. Shannon generaliseerde

entropie van een thermodynamisch naar een informatietheoretisch concept, inzicht

gevend in de hoeveelheid informatie in elke denkbare kansverdeling.

In het modelleren van de mogelijke uitkomsten van een proces blijkt entropie in

de betekenis van Shannon zeer bruikbaar. Gegeven een aantal mogelijke

voorspellingsmodellen wordt het unieke, meest onbevooroordeelde en daarom optimale

model gekenmerkt door de grootste onzekerheid, ofwel de grootste entropie. Het

optimale model dient alleen bekende informatie aan te nemen, terwijl verder een zo groot


69

mogelijke onzekerheid over de uitkomst wordt gelaten. Dit principe van het zoeken naar

het optimale model aan de hand van de maximalisatie van entropie heet het maximum

entropiebeginsel.

De algemene betekenis en bruikbaarheid die door Shannon aan entropie is

toegekend lichtte Jaynes verder toe, door te laten zien hoe statistische mechanica – waar

entropie eerder uit werd afgeleid – één van de vele mogelijke toepassingen van het

maximum entropie principe is. Entropiemaximalisatie blijkt een beginsel dat toepasbaar

is in talloze verdelingsproblemen waar een beperkende voorwaarde wordt gelegd met

betrekking tot de gemiddelde waarde die een bepaalde grootheid aanneemt. In het geval

van statistische mechanica is deze beperkende voorwaarde de stelling dat de interne

energie gelijk is aan het gemiddelde energie van het systeem.

Elke evenwichtssituatie wordt gekenmerkt door een maximale hoeveelheid

entropie. Het vinden van de optimale evenwichtsverdeling ofwel het optimale model is

daarom gereduceerd tot (1) het uitvoeren van constraint satisfaction, waarbij voldaan

wordt aan de beperkende voorwaarden om zo tot een aantal mogelijke modellen te

komen, (2) het vinden van het model met de grootste hoeveelheid entropie. We hebben

gezien hoe niet alleen de statistische mechanica, maar ook ant colony optimization,

beeldreconstructie, de geografische distributie van diersoorten en taalherkenning

optimaal gemodelleerd kunnen worden aan de hand van het maximum entropiebeginsel.

Als afsluitende conclusie kan worden gezegd dat entropie door de jaren heen een

veel algemenere betekenis heeft gekregen dan de betekenis die aanvankelijk werd

gegeven door de thermodynamica. Entropie blijkt als maat voor waarschijnlijkheid,

onzekerheid en informatie toepasbaar in talloze disciplines waarin optimalisatie van

kansverdelingen voor de modellering van nog onbekende uitkomsten of resultaten een rol

speelt.


70

DANKWOORD

Veel dank aan mijn begeleider bij de uitvoering van dit bachelorproject, Prof.dr.ir. F.A.

Bais. Dank voor de interessante suggesties die leidden tot dit onderzoek, dank voor alle

inzichten, het geduld en steeds weer uitgebreide commentaar op tussentijdse versies van

de tekst, wat maakte dat het verslag de vorm heeft gekregen die het nu heeft.


71

GERAADPLEEGDE LITERATUUR

Bais, F. A., & Farmer, J. D. (2008). The physics of information. In D. M. Gabbay, P. Thagard,

& J. Woods, Handbook of the philosophy of science. Volume 8: Philosophy of

information (pp. 617-691). Elsevier.

Bennett, C. H. (1987). Demons, Engines and the Second Law. Scientific American, 108-116.

Berger, A. L., Della Pietra, S. A., & Della Pietra, V. J. (1996). A maximum entropy approach

to natural language processing. Association for computational linguistics, 1-36.

Boltzmann, L. (1877). Über die Beziehung zwischen dem zweiten Hauptsatze der

mechanischen Wärmetheorie und der Warscheinlichkeitsrechnung respektive den

Sätzen über das Wärmegleichgewicht. Wiener Berichte(76), 373-435.

Cercignani, C. (1998). Ludwig Boltzmann: the man who trusted atoms. Oxford: Oxford

University Press.

Deneubourg, J. -L., Aron, S., Goss, S., & Pasteels, J. M. (1990). The self-organizing

exploratory pattern of the Argentine ant. Journal of Insect Behavior, 159-168.

Dorigo, M., Birattari, M., & Stützle, T. (2006). Ant colony optimization: artificial ants as a

computational intelligence technique. IEEE Computational Intelligence Magazine,

28-39.

Hayes, B., & Wilson, C. (2008). A maximum entropy model of phonotactics and

phonotactic learning. Linguistic Inquiry, 379-440.

Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical review, 620-

630.

Kosslyn, S. M. (2012, April 29). Constraint Satisfation. Opgeroepen op April 29, 2012, van

Edge: http://www.edge.org/print/res-detail.php?rid=924

Phillips, S. J., Anderson, R. P., & Schapire, R. E. (2006). Maxmimum entropy modeling of

species geographic distributions. Ecological Modelling, 231-259.

Plenio, M. B., & Vitelli, V. (2001). The physics of forgetting: Landauer's erasure principle

and information theory. Contemporary Physics, 25-60.

Schroeder, D. V. (2000). An introduction to thermal physics. United States: Addison

Wesley Longman.

Shannon, C. E. (1948). A Mathematical Theory of Communication. Mobile Computing and

Communications Review, 3-55.

Skilling, J., & Bryan, R. K. (1984). Maximum entropy image reconstruction: general

algorithm. Monthly Notices of the Royal Astronomical Society, 111-124.

ENTROPIE, INFORMATIE EN HET MAXIMUM ENTROPIE PRINCIPE · MAXIMUM ENTROPIE PRINCIPE Een introductie...

Documents

Transcript of ENTROPIE, INFORMATIE EN HET MAXIMUM ENTROPIE PRINCIPE · MAXIMUM ENTROPIE PRINCIPE Een introductie...