Vergelijking van datamining bij hedonische waardebepaling van...
Transcript of Vergelijking van datamining bij hedonische waardebepaling van...
Vergelijking van datamining bij hedonische waardebepaling van eigendommen met gekende technieken Gauthier Seynhaeve
Promotor: prof. Patrick Ampe Begeleiding: Mevr. Hilde Witters
Masterproef ingediend tot het behalen van de academische graad van Master of Science in de industriële wetenschappen: bouwkunde
Vakgroep Industriële Technologie en Constructie Voorzitter: prof. Marc Vanhaelst Faculteit Ingenieurswetenschappen en Architectuur Academiejaar 2014-2015
Vergelijking van datamining bij hedonische waardebepaling van eigendommen met gekende technieken Gauthier Seynhaeve
Promotor: prof. Patrick Ampe Begeleiding: Mevr. Hilde Witters
Masterproef ingediend tot het behalen van de academische graad van Master of Science in de industriële wetenschappen: bouwkunde
Vakgroep Industriële Technologie en Constructie Voorzitter: prof. Marc Vanhaelst Faculteit Ingenieurswetenschappen en Architectuur Academiejaar 2014-2015
IV
Woord vooraf
Deze masterproef werd geschreven door Gauthier Seynhaeve, afkomstig uit Wevelgem. Net zoals vele Vlamingen
heb ook ik een baksteen in de maag. Het verwerven van een eigen huis later staat hoog in het verlanglijstje. Het
waarderen van vastgoed is niet altijd even eenvoudig en eenduidig. Als potentiële koper wil je graag een correcte
prijs betalen. Het beschikbare onderwerp dat op een modelmatige manier tot een finale vastgoedprijs komt kon
mij onmiddellijk bekoren. Het gemaakte eindwerk betekent voor mij niet louter een afgewerkt schoolwerk maar
ook een meerwaarde tijdens prijsvergelijkingen bij de zoektocht naar een eigen huis in de toekomst.
Bij deze wil ik een woord van dank richten aan professor Patrick Ampe voor zijn ondersteuning tijdens het
academiejaar. Tevens wil ik Hilde Witters bedanken voor de wekelijkse opvolging en feedback. Zonder haar
nauwgezette begeleiding kon dit werk onmogelijk tot een goed einde worden gebracht. Sarah Vluymans,
doctoraatstudente aan de universiteit Gent, zou ik graag eveneens bedanken. Bij haar kon ik terecht met al mijn
vragen betreffende de fuzzy set theorie. Ook een bedanking voor de hulp van professor Arnout Van Messem en
Sanu Edacheri. Tot slot een dankwoord aan het adres van mijn familie en vrienden die gedurende de universitaire
studies een steun en toeverlaat waren, in goede en in minder goede dagen. Ik wens u een boeiende lectuur toe!
Te Gent op 01/06/15
Gauthier Seynhaeve
V
Samenvatting
In deze masterproef wordt het gebruik van neuro – fuzzy, als model om de hedonische waarde van een
appartement te bepalen, vergeleken met de prijsbepaling via regressie uit een voorgaande masterproef. Ten
eerste wordt met oog op stratificatie de structurele appartementskarakteristiek bepaald die het meeste invloed
uitoefent op de appartementsprijs. Vervolgens wordt stratificatie toegepast op basis van het belangrijkste
structurele appartementskenmerk. Tot slot worden de resultaten uit dit onderzoek vergeleken met het beste
regressiemodel bekomen uit een voorgaande masterproef.
VI
Abstract
In this master thesis is the use of neuro - fuzzy , as a model to determine the hedonic value of an apartment,
compared to the pricing by regression from a previous master’s thesis. First, the structural characteristic with
the most influence on the apartment price is determined. Stratification is then applied on the basis of the main
structural characteristic. Finally, the results from this study are compared to the best regression model from a
previous master's thesis.
VII
Keywords
Adaptive neuro fuzzy inference system
Fuzzy set theorie
Hedonische waardebepaling
Neurale netwerken
Stratificatie
Structurele karakteristieken
Train-, check- en testdata
Verkoopprijs appartement
VIII
Inhoudsopgave
Woord vooraf ......................................................................................................................................................... IV
Samenvatting .......................................................................................................................................................... V
Abstract .................................................................................................................................................................. VI
Keywords ............................................................................................................................................................... VII
Inhoudsopgave ..................................................................................................................................................... VIII
Inhoud cd - rom ....................................................................................................................................................... XI
Lijst van de tabellen ............................................................................................................................................... XII
Lijst van de figuren ................................................................................................................................................ XIII
Lijst van de grafieken .......................................................................................................................................... XVII
Lijst van de commando’s .................................................................................................................................... XVIII
Lijst met afkortingen ............................................................................................................................................ XIX
Probleemstelling ................................................................................................................................................... XX
Onderzoeksaanpak ............................................................................................................................................. XXII
Doelstelling ........................................................................................................................................................ XXIII
Literatuurstudie ....................................................................................................................................................... 1
1. Methoden bij de waardebepaling van vastgoed ............................................................................................ 2
1.1 Methode van de intrinsieke waarde ......................................................................................................... 2
1.2 Methode op basis van de vloeroppervlakte .............................................................................................. 2
1.3 Inkomstenmethode ................................................................................................................................... 3
1.4 Methode op basis van het kadastraal inkomen ........................................................................................ 3
1.5 Vergelijkingsmethode ............................................................................................................................... 3
1.6 Hedonische waarderingsmethode ............................................................................................................ 3
1.6.1 Structurele karakteristieken.............................................................................................................. 4
1.6.2 Type vastgoed ................................................................................................................................... 5
1.6.3 Typologie ........................................................................................................................................... 5
1.6.4 Economische karakteristieken .......................................................................................................... 6
1.6.5 Fiscale karakteristieken ..................................................................................................................... 6
1.6.6 Buurtkarakteristieken ....................................................................................................................... 7
1.6.7 Omgevingskarakteristieken .............................................................................................................. 8
1.6.8 Leefmilieu ....................................................................................................................................... 10
1.6.9 Toegankelijkheid ............................................................................................................................. 10
IX
2. Modellen bij een hedonische waardebepaling ............................................................................................ 12
2.1 Regressie ................................................................................................................................................. 12
2.2 Datamining .............................................................................................................................................. 12
2.2.1 Neurale netwerken ......................................................................................................................... 13
2.2.2 Beslissingsbomen ............................................................................................................................ 13
2.2.3 Fuzzy logica ..................................................................................................................................... 13
2.2.4 Neuro - fuzzy ................................................................................................................................... 14
3. Resultaten van de verschillende modellen .................................................................................................. 15
3.1 Neurale netwerken versus regressie ....................................................................................................... 15
3.2 Neuro – fuzzy versus regressie ................................................................................................................ 17
4. Adaptive neuro – fuzzy inference system .................................................................................................... 20
4.1 Algemeen ................................................................................................................................................ 20
4.2 Situering .................................................................................................................................................. 20
4.3 Ruimte voor verder onderzoek ............................................................................................................... 21
Onderzoek .............................................................................................................................................................. 22
1. Dataset voorbereiden ................................................................................................................................... 23
1.1 Database .................................................................................................................................................. 23
1.2 Rijen met lege velden verwijderen .......................................................................................................... 25
1.3 Rijen met extreme waarden verwijderen ............................................................................................... 26
1.4 Indexeren verkoopprijs ........................................................................................................................... 27
1.5 Bestanden koppelen ................................................................................................................................ 29
2. Dataset inlezen .............................................................................................................................................. 30
3. ANFIS ............................................................................................................................................................. 33
3.1 FIS – werking ........................................................................................................................................... 33
3.2 Structuur ................................................................................................................................................. 34
3.3 Lidfunctie ................................................................................................................................................. 36
4. Bepalen relatieve belangrijkheid structurele karakteristieken ................................................................... 37
4.1 Vooraf ...................................................................................................................................................... 37
4.2 Traindata inladen .................................................................................................................................... 40
4.3 FIS ............................................................................................................................................................ 42
X
4.3.1 Genereren ....................................................................................................................................... 42
4.3.2 Opmaak ........................................................................................................................................... 46
4.4 FIS trainen ............................................................................................................................................... 61
4.5 ANFIS valideren ....................................................................................................................................... 65
4.6 ANFIS testen ............................................................................................................................................ 70
4.7 Lijst relatieve belangrijkheid structurele karakteristieken ...................................................................... 76
5. Stratificatie .................................................................................................................................................... 79
5.1 Op basis van kadastraal inkomen ............................................................................................................ 79
6. Vergelijking ANFIS - regressie ....................................................................................................................... 83
6.1 Resultaten regressiemodellen ................................................................................................................. 83
6.1.1 Relatieve belangrijkheid karakteristieken ....................................................................................... 83
6.1.2 Nauwkeurigheid (SEE) en betrouwbaarheid (R²) ............................................................................ 83
6.2 Resultaten ANFIS – modellen .................................................................................................................. 84
6.2.1 Relatieve belangrijkheid karakteristieken ....................................................................................... 84
6.2.2 Nauwkeurigheid (SEE) en betrouwbaarheid (R²) ............................................................................ 84
6.3 Vergelijking .............................................................................................................................................. 85
6.3.1 Naar relatieve belangrijkheid karakteristieken ............................................................................... 85
6.3.2 Naar nauwkeurigheid (SEE) ............................................................................................................. 85
6.3.3 Naar betrouwbaarheid (R²) ............................................................................................................. 86
7. Verder onderzoek .......................................................................................................................................... 87
Besluit .................................................................................................................................................................... 88
Referenties ............................................................................................................................................................. 89
Bijlage ..................................................................................................................................................................... 89
Bijlage 1 – Voorwaardelijke parameters van de lidfuncties van de inputvariabelen na
trainen en checken van model 1 tot model 7.4 .......................................................................... 93
Bijlage 2 – Formule berekenen SEE ............................................................................................................. 116
Bijlage 3 – Formule berekenen R² ............................................................................................................... 117
Bijlage 4 – Spreiding prijsgegevens model 7.1 tot 7.4 ................................................................................. 118
Bijlage 5 – Spreiding prijsfout model 2 tot model 7.4 ................................................................................. 122
XI
Inhoud cd - rom
- Afspraken (begeleidingsverslagen)
- Literatuurstudie (artikels)
- Masterproeftekst
- Onderzoek (bestanden)
XII
Lijst van de tabellen
Tabel 1: Gegevens in het bestand Origineel.xls (Excel) .......................................................................................... 23
Tabel 2: Gegevens in het bestand Buurt- en omgevingskenmerken.xls (Excel) ..................................................... 24
Tabel 3: Overgebleven variabelen (Excel) .............................................................................................................. 24
Tabel 4: Verwijderen extreme waarden (Excel) ..................................................................................................... 26
Tabel 5: ABEX – index 2002 – 2014 (http://www.ABEX.be) ................................................................................... 28
Tabel 6: ABEX – index volgens aktedatum (Excel) .................................................................................................. 28
Tabel 7: Traindata SEE en checkdata SEE in functie van het aantal iteraties (Excel) ............................................. 68
Tabel 8: Standaarddeviatie (SEE) en betrouwbaarheid (R²) van model 1 (Excel) .................................................. 73
Tabel 9: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 1 tot 6 (Excel) ............................................. 77
Tabel 10: Tabel 10: Verschil in nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 2 tot 6
ten opzichte van model 1 (Excel) ........................................................................................................................... 77
Tabel 11: Relatieve belangrijkheid van de structurele appartementskarakteristieken (Excel) .............................. 77
Tabel 12: De grenzen van de quartielen volgens de waarde van kadastraal inkomen en de record (Excel) ......... 80
Tabel 13: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 7.1 tot 7.4 (Excel) ..................................... 81
Tabel 14: Relatieve belangrijkheid karakteristieken (Marieke Dewulf en Tinne Provoost, 2012) ......................... 83
Tabel 15: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) beste regressiemodel (Marieke Dewulf
en Tinne Provoost, 2012) ....................................................................................................................... 83
Tabel 16: Relatieve belangrijkheid structurele appartementskarakteristieken (Excel) ......................................... 84
Tabel 17: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) model 1 tot model 7.2 (Excel) ................................... 84
Tabel 18: Vergelijking relatieve belangrijkheid structurele appartementskarakteristieken (Excel) ...................... 85
Tabel 19: Vergelijking nauwkeurigheid (SEE) (Excel) ............................................................................................. 85
Tabel 20: Vergelijking betrouwbaarheid (R²) (Excel).............................................................................................. 86
XIII
Lijst van de figuren
Figuur 1: Selectie lege velden (Excel) ..................................................................................................................... 25
Figuur 2: Rijen verwijderen met lege velden (Excel) .............................................................................................. 26
Figuur 3: Werkwijze verwijderen extreme waarden (Excel) .................................................................................. 27
Figuur 4: Inlezen gegevens (Matlab) ...................................................................................................................... 30
Figuur 5: Variabelen als kolommatrixen in workspace (Matlab) ........................................................................... 30
Figuur 6: Kolommatrixen voor het onderzoek (Matlab) ........................................................................................ 31
Figuur 7: Aanmaak matrix ‘allevariabelen’ (Matlab) .............................................................................................. 31
Figuur 8: Matrix allevariabelen willekeurig geordend (Matlab)............................................................................. 32
Figuur 9: FIS – werking (Kusan, H., et al.,2010) ...................................................................................................... 33
Figuur 10: ANFIS – structuur (Guan, J., et al., 2014) .............................................................................................. 35
Figuur 11: Scherpe verzamelingen van een groot appartement (Matlab) ............................................................. 36
Figuur 12: Vage verzamelingen van een groot appartement (Matlab) .................................................................. 36
Figuur 13: Train-, check- en testdata in de workspace (Matlab)............................................................................ 38
Figuur 14: Aanroepen van de neuro – fuzzy designer (Matlab) ............................................................................. 38
Figuur 15: Dialoogvenster neuro – fuzzy designer (Matlab) .................................................................................. 39
Figuur 16: Overzicht neuro – fuzzy designer (Matlab) ........................................................................................... 40
Figuur 17: Traindata inladen (Matlab) ................................................................................................................... 40
Figuur 18: Variabelnaam ingeven (Matlab) ............................................................................................................ 41
Figuur 19: Ingeladen traindata (Matlab) ................................................................................................................ 41
Figuur 20: Overzicht neuro – fuzzy designer (Matlab) ........................................................................................... 42
Figuur 21: FIS genereren (Matlab) ......................................................................................................................... 43
Figuur 22: Default waarden aantal lidfuncties per inputvariabele, de vorm van de lidfuncties en het type
outputlidfunctie (Matlab) ..................................................................................................................... 43
Figuur 23: Ingeven aantal lidfuncties per inputvariabele, de vorm van de lidfuncties en het type
outputlidfunctie (Matlab) ..................................................................................................................... 44
Figuur 24: Gegenereerd fuzzy gevolgtrekking systeem (FIS) (Matlab)................................................................... 45
Figuur 25: ANFIS - info (Matlab) ............................................................................................................................. 45
Figuur 26: Openen FIS - properties (Matlab) ......................................................................................................... 46
Figuur 27: Default namen inputvariabelen en outputvariabele (Matlab) .............................................................. 47
Figuur 28: Ingeven inputvariabelnamen en outputvariabelnaam (Matlab)........................................................... 48
Figuur 29: Inputvariabelnamen en outputvariabelnaam benoemd (Matlab) ........................................................ 49
Figuur 30: Openen membership functions (Matlab).............................................................................................. 50
Figuur 31: Dialoogvenster membership function editor (Matlab) ......................................................................... 51
Figuur 32: Default lidfuncties jong en oud van de inputvariabele leeftijd (Matlab) .............................................. 52
Figuur 33: Default lidfuncties klein en groot van de inputvariabele nuttige oppervlakte (Matlab) ...................... 53
XIV
Figuur 34: Default lidfuncties laag en hoog van de inputvariabele kadastraal inkomen (Matlab) ........................ 53
Figuur 35: Default lidfuncties weinig en veel van de inputvariabele woonplaatsen (Matlab) .............................. 54
Figuur 36: Defaut lidfuncties weinig en veel van de inputvariabele badkamers (Matlab) .................................... 54
Figuur 37: 32 mogelijke outputs volgend uit alle mogelijke lidfunctiecombinaties (Matlab) ................................ 55
Figuur 38: Openen regels (Matlab) ........................................................................................................................ 56
Figuur 39: Dialoogvenster regel editor (Matlab) .................................................................................................... 57
Figuur 40: Taalkundige expressie van de 32 regels (Matlab) ................................................................................. 58
Figuur 41: Structuur van het bekomen ANFIS – model openen (Matlab) .............................................................. 59
Figuur 42: Structuur bekomen ANFIS - model (Matlab) ......................................................................................... 60
Figuur 43: Overzicht neuro – fuzzy designer (Matlab) ........................................................................................... 61
Figuur 44: SEE traindata na 500 iteraties (Matlab) ................................................................................................ 62
Figuur 45: Getraind ANFIS – model opslaan (Matlab)............................................................................................ 63
Figuur 46: Ingeven naam getraind ANFIS - model (Matlab) ................................................................................... 63
Figuur 47: Getraindmodel in de workspace (Matlab) ............................................................................................ 64
Figuur 48: Eigenschappen getraind ANFIS - model (Matlab) ................................................................................. 64
Figuur 49: Overzicht neuro – fuzzy designer (Matlab) ........................................................................................... 65
Figuur 50: Checkdata inladen (Matlab) .................................................................................................................. 66
Figuur 51: Ingeladen checkdata (Matlab) .............................................................................................................. 66
Figuur 52: Valideren ANFIS - model (Matlab) ........................................................................................................ 67
Figuur 53: SEE train – en checkdata na 1812 en 1813 iteraties (Matlab) .............................................................. 68
Figuur 54: ANFIS – info (Matlab) ............................................................................................................................ 68
Figuur 55: Traindata SEE en checkdata SEE voor 2000 iteraties (Matlab) ............................................................. 69
Figuur 56: SEE train – en checkdata na 2499 en 2500 iteraties (Matlab) .............................................................. 69
Figuur 57: Overzicht neuro – fuzzy designer (Matlab) ........................................................................................... 70
Figuur 58: Testdata inladen (Matlab) ..................................................................................................................... 70
Figuur 59: Ingeladen testdata (Matlab) ................................................................................................................. 71
Figuur 60: ‘Plot against testing data’ selecteren (Matlab) ..................................................................................... 71
Figuur 61: Modeloutput geplot ten opzichte van de testdata (Matlab) ................................................................ 72
Figuur 62: Modeloutput (Matlab) .......................................................................................................................... 73
Figuur 63: Records van de matrix ‘vijfinputs’ geordend van klein naar groot volgens het KI en de
gegenereerde willekeurig geordende stratificatiematrixen in de workspace (Matlab) ....................... 80
Figuur 64: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 1 (Matlab) ........... 93
Figuur 65: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie
van het model 1 (Matlab) ..................................................................................................................... 93
Figuur 66: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie
van het model 1 (Matlab) ..................................................................................................................... 94
Figuur 67: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie
van het model 1 (Matlab) ..................................................................................................................... 94
XV
Figuur 68: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie
van het model 1 (Matlab) ..................................................................................................................... 95
Figuur 69: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie
van het model 2 (Matlab) ..................................................................................................................... 95
Figuur 70: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie
van het model 2 (Matlab) ..................................................................................................................... 96
Figuur 71: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie
van het model 2 (Matlab) ..................................................................................................................... 96
Figuur 72: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie
van het model 2 (Matlab) ..................................................................................................................... 97
Figuur 73: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 3 (Matlab) ........... 97
Figuur 74: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie
van het model 3 (Matlab) ..................................................................................................................... 98
Figuur 75: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie
van het model 3 (Matlab) ..................................................................................................................... 98
Figuur 76: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie
van het model 3 (Matlab) ..................................................................................................................... 99
Figuur 77: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 4 (Matlab) ........... 99
Figuur 78: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie
van het model 4 (Matlab) ................................................................................................................... 100
Figuur 79: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie
van het model 1 (Matlab) ................................................................................................................... 100
Figuur 80: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie
van het model 1 (Matlab) ................................................................................................................... 101
Figuur 81: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 5 (Matlab) ......... 101
Figuur 82: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie
van het model 5 (Matlab) ................................................................................................................... 102
Figuur 83: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie
van het model 5 (Matlab) ..................................................................................................................... 10
Figuur 84: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie
van het model 5 (Matlab) ................................................................................................................... 103
Figuur 85: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 6 (Matlab) ......... 103
Figuur 86: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie
van het model 6 (Matlab) ................................................................................................................... 104
Figuur 87: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie
van het model 6 (Matlab) ................................................................................................................... 104
Figuur 88: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie
van het model 6 (Matlab) ................................................................................................................... 105
XVI
Figuur 89: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.1 (Matlab) ...... 105
Figuur 90: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie
van het model 7.1 (Matlab) ................................................................................................................ 106
Figuur 91: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie
van het model 7.1 (Matlab) ................................................................................................................ 106
Figuur 92: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie
van het model 7.1 (Matlab) ................................................................................................................ 107
Figuur 93: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie
van het model 7.1 (Matlab) ................................................................................................................ 107
Figuur 94: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.2 (Matlab) ...... 108
Figuur 95: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie
van het model 7.2 (Matlab) ................................................................................................................ 108
Figuur 96: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie
van het model 7.2 (Matlab) ................................................................................................................ 109
Figuur 97: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie
van het model 7.2 (Matlab) ................................................................................................................ 109
Figuur 98: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie
van het model 7.2 (Matlab) ................................................................................................................ 110
Figuur 99: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.3 (Matlab) ...... 110
Figuur 100: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie
van het model 7.3 (Matlab) ................................................................................................................ 111
Figuur 101: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie
van het model 7.3 (Matlab) ................................................................................................................ 111
Figuur 102: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie
van het model 7.3 (Matlab) ................................................................................................................ 112
Figuur 103: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie
van het model 7.3 (Matlab) ................................................................................................................ 112
Figuur 104: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.4 (Matlab) .... 113
Figuur 105: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie
van het model 7.4 (Matlab) ................................................................................................................ 113
Figuur 106: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie
van het model 7.4 (Matlab) ................................................................................................................ 114
Figuur 107: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie
van het model 7.4 (Matlab) ................................................................................................................ 114
Figuur 108: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie
van het model 7.4 (Matlab) ................................................................................................................ 115
XVII
Lijst van de grafieken
Grafiek 1: Spreiding prijsgegevens model 1 (Matlab) ............................................................................................ 74
Grafiek 2: Spreiding prijsfout model 1 (Matlab) .................................................................................................... 75
Grafiek 3: Spreiding gegevens kadastraal inkomen (Matlab) ................................................................................ 79
Grafiek 4: Spreiding prijsgegevens model 7.1 (Matlab) ....................................................................................... 118
Grafiek 5: Spreiding prijsgegevens model 7.2 (Matlab) ....................................................................................... 119
Grafiek 6: Spreiding prijsgegevens model 7.3 (Matlab) ....................................................................................... 120
Grafiek 7: Spreiding prijsgegevens model 7.4 (Matlab) ....................................................................................... 121
Grafiek 8: Spreiding prijsfout model 2 (Matlab) .................................................................................................. 122
Grafiek 9: Spreiding prijsfout model 3 (Matlab) .................................................................................................. 123
Grafiek 10: Spreiding prijsfout model 4 (Matlab) ................................................................................................ 124
Grafiek 11: Spreiding prijsfout model 5 (Matlab) ................................................................................................ 125
Grafiek 12: Spreiding prijsfout model 6 (Matlab) ................................................................................................ 126
Grafiek 13: Spreiding prijsfout model 7.1 (Matlab) ............................................................................................. 127
Grafiek 14: Spreiding prijsfout model 7.2 (Matlab) ............................................................................................. 128
Grafiek 15: Spreiding prijsfout model 7.3 (Matlab) ............................................................................................. 129
Grafiek 16: Spreiding prijsfout model 7.4 (Matlab) ............................................................................................. 130
XVIII
Lijst van de commando’s
Commando 1: Genereren van de rijmatrix ‘random’ met willekeurig geordende getallen (Matlab) .................... 32
Commando 2: Genereren van de matrixen ‘train’, ‘check’ en ‘test’ uit de matrix vijfinputs (Matlab) .................. 38
Commando 3: Aanroepen van de neuro – fuzzy designer (Matlab) ...................................................................... 38
Commando 4: Genereren van de matrix ‘modeloutput’ (Matlab) ......................................................................... 72
Commando 5: Genereren van de matrix 'stratificatie1' tot en met 'stratificatie4' (Matlab) ................................. 80
Commando 6: Genereren train-, check- en testdatasets voor elke subdataset (Matlab) ..................................... 81
XIX
Lijst met afkortingen
ABEX = Associatie van Belgische EXperten
ANFIS = Adaptive Neuro Fuzzy Inference System
ANN = Artificial Neural Networks
AKRED = Administratie van het Kadaster, de Registratie En Domeinen
C & R = Classification and Regression
CHAID = CHi-squared Automatic Interaction Detector
FE = Forecasting Error
FIS = Fuzzy Inference System
KDD = Knowledge Discovery in Database
KI = Kadastraal Inkomen
MAE = Mean Absolute Error
MRA = Multiple Regression Analysis
MSE = Mean Squared Error
SEE = Standard Error of the Estimate
STDEV = STandaardDEViatie
XX
Probleemstelling
De waarde van een appartement wordt bepaald door verscheidene kenmerken. Deze kenmerken kunnen
worden onderverdeeld in verschillende categorieën. Zo wordt er een onderscheid gemaakt tussen structurele
kenmerken, buurt- en omgevingskenmerken, financiële kenmerken, enz. Elke karakteristiek heeft zijn specifieke
invloed op de totaalprijs van een onroerend goed. Verschillende schatters komen tot verschillende
prijsschattingen voor eenzelfde vastgoed. Proefondervindelijk kan worden bepaald welke schatting het dichtst
bij de werkelijke verkoopprijs ligt. Schatters doen geregeld beroep op de methode der vergelijkingspunten, de
inkomstenmethode en de methode der intrinsieke waardebepaling. De methode der vergelijkingspunten gaat
uit van de verkoopprijs van eenzelfde type vastgoed dat op een vergelijkbare locatie gelegen is en vergelijkbaar
is qua kenmerken. Kwalitatieve meer- en minderwaarden worden binnen deze methode door correctiefactoren
kwantitatief in rekening gebracht. De methode, die zich op de inkomsten baseert, kent als inputvariabelen
enerzijds een vooropgesteld rendement en anderzijds de kapitalisatie van de huurinkomsten. De
nieuwbouwwaarde, de vetusteit en een venaliteitspercentage zijn de gegevens die gebruikt worden bij een
intrinsieke waardebepaling. Verschillende waarderingsmethodes met een verschillende input leiden tot een
verschillende output. Dit toont de nood voor het uitwerken van een geperfectioneerd model aan. Het ideale
model neemt zoveel mogelijk invloedrijke variabelen op om een eenduidige prijs van een woning te bepalen.
De hedonische of modelmatige waarderingsmethode waardeert, in tegenstelling tot de andere methodes, zoveel
mogelijk parameters afzonderlijk. Waar de drie voorgaande waarderingsmethodes allen rechtstreeks
(vergelijkingsmethode door vergelijkbare kenmerken) of onrechtstreeks (intrinsieke waardemethode door
nieuwbouwwaarde en methode op basis van de inkomsten door huurinkomsten) een waardebepaling uitvoeren
in functie van de structurele karakteristieken, beschouwt een hedonische waardebepaling ook buurt- en
omgevingskarakteristieken, het kadastraal inkomen, enz. Wat de hedonische waarderingsmethode betreft zijn
verschillende modellen voorhanden. Enerzijds worden klassieke regressiemodellen gebruikt, anderzijds
recentere dataminingtechnieken. Onderzoeken, gebaseerd op meervoudige regressiemodellen en
dataminingtechnieken zoals neurale netwerken en beslissingsbomen, komen veelvuldig voor in de literatuur.
Onder de noemer datamining behoren eveneens de fuzzy logica en neuro-fuzzy modellen. Hoewel de
voornoemde technieken in andere domeinen al gedurende langere tijd worden toegepast, bestaat er slechts
weinig onderzoek op de toepassing ervan in het domein van de vastgoedwereld. Dit werk gaat dieper in op de
techniek gebaseerd op neuro – fuzzy. Het is een techniek die neurale netwerken combineert met de fuzzy logica.
Er volgen enkele mogelijke onderzoeksrichtingen.
Een eerste mogelijke interessante en relatief genegeerde onderzoeksrichting is stratificatie. Bij stratificatie wordt
de dataset onderverdeeld in subdatasets op basis van een gedetailleerde en systematische analyse van typische
karakteristieken. Het doel voor ogen is het bekomen van een mogelijk nauwkeuriger en betrouwbaarder ANFIS
– model.
XXI
Gerek I. H. L. vergelijkt ANFIS – modellen met subclustering ten opzichte van ANFIS – modellen met gridpartitie
voor de waardebepaling van appartementen in hoogbouw in een Turkse regio. Het beste model is bekomen met
gridpartitie. In dit onderzoek worden slechts de gegevens van 91 appartementen gebruikt. Verder onderzoek kan
nagaan als bij het gebruik van een grotere dataset eveneens een ANFIS – model met gridpartie als beste naar
voor komt.
De onderzoeker vraagt zich eveneens af in zijn vergelijkende studie als voor een andere regio gelijkaardige
factoren als belangrijk worden beschouwd. Onderzoek voeren naar de belangrijkheid van alle karakteristieken,
zowel structurele – als buurt – en omgevingskarakteristieken, voor appartementen gelegen in het Brussels
Hoofdstedelijk Gewest is een derde mogelijke weg om in te slaan. Nadien kan worden afgeleid als de relatieve
belangrijkheid van karakteristieken geografisch afhankelijk is.
Deze masterproef behandelt de eerste mogelijke onderzoeksrichting: het effect van stratificatie, voor de
prijsbepaling van appartementen, op het neuro – fuzzy model. De resultaten worden afgetoetst ten opzichte
van voorgaande regressiemodellen bekomen met dezelfde dataset.
XXII
Onderzoeksaanpak
In eerste instantie wordt de dataset, ter beschikking gesteld door de promotor, klaargemaakt. Records van
appartementen met lege velden worden verwijderd, records van appartementen met extreme waarden worden
buiten beschouwing gelaten en de verkoopprijzen worden geïndexeerd. Ten tweede wordt het inladen van de
data in Matlab besproken. Een derde stap gaat diepgaander in op de opbouw en de werking van een ANFIS –
model. Een belangrijk onderdeel in de structuur, de lidfunctie, wordt apart besproken. Vooraleer stratificatie toe
te passen wordt in een vierde punt de relatieve belangrijkheid van de structurele karakteristieken bepaald. Dit
gebeurt door afwisselend elk kenmerk niet als input in het model op te nemen. Uit de wijzigingen van de
modelfout (SEE) en de betrouwbaarheid (R²) van de op deze manier verkregen modellen wordt een lijst opgesteld
volgens de relatieve belangrijkheid van de structurele karakteristieken. Een vijfde deel van het onderzoek is de
eigenlijke stratificatie op basis van de belangrijkste structurele karakteristiek in het model. De oorspronkelijke
dataset wordt onderverdeeld in vier subdatasets. Uit elke subdataset wordt een ANFIS – model opgebouwd. De
vier opgebouwde modellen worden opnieuw geëvalueerd door middel van de criteria SEE en R². Een voorlaatste
item vergelijkt de bekomen resultaten van alle ANFIS - modellen ten opzichte van het beste regressiemodel uit
een voorgaande masterproef, bekomen met dezelfde dataset. Tot slot worden de beperkingen van dit
onderzoek, alsook de ANFIS – instellingen die niet zijn onderzocht nader toegelicht.
XXIII
Doelstelling
Een eerste doelstelling van het werk bestaat erin de relatieve belangrijkheid van de structurele
appartementskarakteristieken te bepalen met oog op stratificatie. Het effect van stratificatie op de
nauwkeurigheid en de betrouwbaarheid van het ANFIS – model nagaan is een tweede gesteld doel. Tot slot wil
de thesis de nauwkeurigheid en betrouwbaarheid van het beste regressiemodel uit een voorgaande masterproef
ten opzichte van de dataminingmodellen, meerbepaald neuro – fuzzy modellen, bekomen in dit werk, nagaan.
1
Literatuurstudie
Het economisch beginsel van “vraag en aanbod” is de centrale prijsbepalende factor binnen de vastgoedwereld.
Door een logisch oorzaak-gevolg verband doet overaanbod aan woongelegenheden op de markt de
verkoopprijzen dalen. Andersom impliceert deze wet dat het alsmaar stijgende bevolkingsaantal in de wereld de
vastgoedprijzen nog meer de hoogte in zal jagen.
In een eerste deel van de literatuurstudie komen de verschillende methoden om de waarde van vastgoed te
bepalen kort aan bod. De methode van de hedonische waardebepaling wordt in dit deel verder uitgewerkt. Een
volgend punt behandelt de bestaande modellen bij een hedonische waardebepaling. Een derde onderdeel
vergelijkt de resultaten van de verschillende modellen in gevoerd onderzoek. De dataminingmodellen neurale
netwerken en neuro - fuzzy worden er vergeleken ten opzichte van klassieke regressie. Tot slot wordt in de
literatuurstudie het neuro fuzzy gevolgtrekking systeem (ANFIS) nader toegelicht. Het ANFIS – model wordt eerst
algemeen besproken, vervolgens gesitueerd en afsluitend wordt ruimte voor verder onderzoek meegegeven.
2
1. Methoden bij de waardebepaling van vastgoed
De waarde van vastgoed bepalen is een complex gegeven. Verkopers van een woning ontvangen immers graag
de minimale waarde, kopers zijn daarentegen bereid maximaal de waarde van het vastgoed te betalen. We
kunnens ons echter de vraag stellen wat deze waarde juist inhoudt en hoe deze correct bepaald wordt. Immers,
verschillende schatters komen tot verschillende schattingen van eenzelfde vastgoed. Opnieuw kunnen we ons
afvragen welke schatting het meest accuraat is. De methode van de intrinsieke waarde, de methode op basis
van de vloeroppervlakte, de inkomstenmethode, de methode op basis van het kadastraal inkomen, de
vergelijkingsmethode (Ampe, Schatting en expertise) en de hedonische waardebepaling zijn zes mogelijke
invalshoeken voor het waarderingsprobleem. We bespreken deze methoden afzonderlijk in de volgende
paragrafen.
1.1 Methode van de intrinsieke waarde
De methode van de intrinsieke waarde, ook wel de analytische methode of nieuwbouwwaardemethode
genoemd, vertrekt vanuit de actuele nieuwbouwwaarde van de woning. De intrinsieke waarde wordt verkregen
door de actuele nieuwbouwwaarde te verminderen met een aftrek voor de vetusteit. De vetusteit brengt de
slijtage van een onroerend goed in rekening. Het spreekt voor zich dat de verkoopwaarde lager ligt dan de
intrinsieke waarde. Immers, mocht dit niet het geval zijn dan kan de koper even goed een gelijkaardige
bouwgrond aanschaffen en naar eigen smaak een woning met eenzelfde waarde laten optrekken. De
verkoopcoëfficiënt geeft de verhouding van de verkoopwaarde tot de intrinsieke waarde weer. Een richtwaarde
voor de verkoopcoëfficiënt van woningen is 75%. Anders geformuleerd is de verkoopwaarde gelijk aan de
intrinsieke waarde vermenigvuldigd met een venaliteitspercentage. De venaliteit is een maat voor de
verkoopbaarheid van een onroerend goed. Hoe makkelijker een onroerend goed verkoopt, hoe groter het
venaliteitspercentage of de verkoopcoëfficiënt is. De verkregen verkoopwaarde van de woning, opgeteld bij de
verkoopwaarde van de grond, geeft de uiteindelijke verkoopwaarde van de eigendom.
1.2 Methode op basis van de vloeroppervlakte
Waarderen op basis van de vloeroppervlakte is zeer bruikbaar bij appartementen. Deze methode kan eventueel
aangevuld worden met een meerwaarde per vierkante meter terras. Een basiseenheidsprijs per vierkante meter
vloeroppervlakte of bewoonbare oppervlakte wordt ingesteld. In deze eenheidsprijs zit eveneens de waarde van
de grond vervat met een aantal correcties ten gevolge van de ligging, de vetusteit, het comfort, de staat van
onderhoud, enz. De gecorrigeerde basiseenheidsprijs, vermenigvuldigd met de totale vloeroppervlakte, geeft de
verkoopwaarde van het appartement weer. Deze methode kan uitgebreid worden naar woonhuizen. In dit geval
wordt een equivalente vloeroppervlakte berekend. Het gelijkvloers krijgt de coëfficiënt 1. Een kelder, een garage,
een zolder, enz worden gewaardeerd ten opzichte van het gelijkvloers met een bijhorende coëfficiënt. De
3
equivalente vloeroppervlakte wordt berekend aan de hand van de sommatie van de oppervlakten van alle
vertrekken vermenigvuldigd met hun coëfficiënt. Op analoge wijze aan de waardebepaling van appartementen
kan de verkoopwaarde van een woning worden bepaald.
1.3 Inkomstenmethode
De waarde van het vastgoed wordt bij deze methode bepaald op basis van de kapitalisatie van de huurinkomsten
en een vooropgesteld rendement. De methode leent zich uitstekend voor situaties waarin het onroerend goed
reeds verhuurd is. Afhankelijk van de kenmerken van de investeerder en de rendementen op de alternatieve
markten wenst de koper jaarlijks een bepaald rendement te behalen. De huurinkomsten op jaarbasis, gedeeld
door het gewenste jaarrendement, bepalen de uiteindelijke verkoopwaarde.
1.4 Methode op basis van het kadastraal inkomen
De netto-opbrengsten, die een eigenaar van een onroerend goed kan verkrijgen door de huur gedurende een
jaar, rekening houdende met de huurmarkt op het referentietijdstip, 1 januari 1975, bepalen het kadastraal
inkomen. Bij woningen wordt 40% aan onderhoudskosten in rekening gebracht. Hierdoor is het uiteindelijke
kadastraal inkomen gelijk aan 60% van de huurwaarde. Door het gemiddelde te nemen van verschillende
verkoopprijzen van woningen met eenzelfde kadastraal inkomen, en door dit gemiddelde te vermenigvuldigen
met het kadastraal inkomen van het te waarderen pand, komt men tot een schatting van de verkoopwaarde. De
methode is echter niet vrij van gebreken. Zo wordt bijvoorbeeld in mindere mate rekening gehouden met de
perceelgrootte.
1.5 Vergelijkingsmethode
De vergelijkingsmethode of comparatieve methode zoekt de verkoopwaarden van vergelijkbaar vastgoed op.
Vergelijkbaar vastgoed omvat vastgoed van hetzelfde type op een vergelijkbare locatie en met vergelijkbare
kenmerken (Dugernier, M., De Nocker, L., Broeckx, S. en Bosmans, D., 2014). De vergelijkende vastgoedprijzen
worden vervolgens geïndexeerd naar het huidige jaar en de kenmerken van het te waarderen vastgoed worden
geanalyseerd ten opzichte van de vergelijkingspunten. Kwalitatieve meer- en minderwaarden worden door
correctiefactoren kwantitatief in rekening gebracht.
1.6 Hedonische waarderingsmethode
De hedonische of modelmatige waarderingsmethode beschouwt een woning als een verzameling van meerdere
specifieke kenmerken. Om de waarde van een woning te bepalen moet in theorie elk kenmerk afzonderlijk
gewaardeerd worden. De hedonische waardebepaling biedt hiervoor een oplossing. Er wordt immers niet enkel
4
gekeken naar de structurele kenmerken van het pand, maar ook onder meer de buurt speelt een rol (Raymond
Y. C. Tse, 2002). De uiteindelijke prijs van het vastgoed is de som van de waarden van alle invloedfactoren.
Aan het gebruik van de hedonische waarbepaling worden twee voorwaarden gekoppeld. Ten eerste dient de
woningmarkt in evenwicht te zijn om de betrouwbaarheid van het onderzoek niet in gevaar te brengen. Ten
tweede moet het te onderzoeken gebied als een geheel worden beschouwd. De verkoopprijs van
appartementsblokken kan niet vergeleken worden met die van rijwoningen.
De resultaten van de hedonische waardebepaling worden over het algemeen sterk aanvaard. Een groot pluspunt
van de methode is dat de uitgevoerde bewerkingen controleerbaar zijn, wat een herhaling van het gevoerde
onderzoek mogelijk maakt. Een nadeel is echter dat een grote opslagcapaciteit voor handen moet zijn. In
onderstaande alinea’s volgt een overzicht van de voornaamste invloedfactoren die de waarde bepalen binnen
de hedonische methode. Dit overzicht is zeker geen limitatieve lijst.
1.6.1 Structurele karakteristieken
Een eerste element, dat de waarde van een vastgoed binnen de hedonische methode bepaalt, omvat de
structurele kenmerken van een vastgoed. De structurele kenmerken, waarmee binnen een hedonische
waardebepaling rekening mee wordt gehouden, omvatten de indeling en de opbouw van de woning. Deze
karakteristieken zijn onder meer de totale beschikbare woonoppervlakte, het aantal kamers, de aanwezigheid
van een tuin en/of garage, de ouderdom van de woning, enz.
Eerder gevoerd onderzoek (Visser & van Dam, 2006) concludeerde reeds een aantal zaken met betrekking tot de
structurele karakteristieken binnen de hedonische methode van waardebepaling. Zo bleek dat de variabele
‘woonoppervlakte’ de meest positieve invloed op de verkoopprijs van een woning heeft. Immers, hoe groter het
aantal vierkante meter aan woonoppervlak, hoe meer de koper wil betalen. Daarnaast zijn er nog een aantal
andere parameters die een invloed hebben op de verkoopprijs. Het aantal kamers van de woning houdt nauw
verband met de woonoppervlakte. Echter heeft het aantal kamers niet altijd een gunstige invloed op de totale
verkoopprijs. Men stelt immers dat een ruimer ogende woning hoger gewaardeerd wordt dan wanneer diezelfde
woning, met dezelfde woonoppervlakte, wordt ingedeeld met meer kamers met een kleinere oppervlakte. In dat
geval is er sprake van een incompetente ruimte-indeling, wat een negatieve invloed op de verkoopprijs met zich
meebrengt.
De aanwezigheid van een extra slaapkamer is functioneel en verhoogt daarom de verkoopprijs. Een extra
sanitaire ruimte daarentegen is minder functioneel en betekent dan ook geen noemenswaardige meerwaarde
voor de verkoopwaarde van de woning (Day, Bateman, & Lake, 2003). De aanwezigheid van een garage en/of
tuin heeft wel een positieve invloed op de waarde van een onroerend goed. Daarnaast speelt ook de ligging van
het perceel een belangrijke rol. In verstedelijkte gebieden heeft een garage en/of tuin immers een bijkomende
5
meerwaarde ten opzichte van dezelfde garage en/of tuin in landelijke gebieden. Vooral voor appartementen met
een garage en/of tuin wordt een serieuze meerprijs betaald.
Daarenboven is het bouwjaar van een onroerend goed van invloed. Hoe recenter de woning gebouwd werd, hoe
meer de koper wil betalen. Toch wordt in vorig onderzoek vastgesteld dat de ouderdom van het vastgoed en de
verkoopprijs geen lineair verband kennen. Bovendien is de staat van onderhoud een belangrijk gegeven. Het
spreekt voor zich dat een volledig gerenoveerde woning waardevoller is dan een verwaarloosd pand.
Sinds 2008 moet er bij elke verkoop een EPC-certificaat afgeleverd worden. Het certificaat geeft meer informatie
over de energieprestatie van het gebouw. In tijden waar energie en milieu belangrijk zijn, hebben kopers de
intentie meer te betalen voor woningen met een goede EPC-score. Vanaf 1 januari 2014 moet bovendien in elke
nieuwbouwwoning een systeem geïntegreerd zijn waarmee autonoom hernieuwbare energie opgewekt kan
worden. Het kan bijvoorbeeld gaan om zonnepanelen, een zonneboiler of een warmtepomp. De maatregel is
een gevolg van de Europese richtlijn die voorschrijft dat alle nieuwbouw tegen 2021 bijna energieneutraal moet
zijn.
1.6.2 Type vastgoed
Naast de structurele kenmerken heeft ook het type vastgoed een invloed op de waarde van een vastgoed. Er
bestaan verschillende types vastgoed. Het type vastgoed wordt bepaald door de bestemming van het onroerend
goed. De bestemming van het gebouw heeft vervolgens zijn invloed op indeling van de ruimtes. Zo hebben
bijvoorbeeld een winkel en een woning een totaal verschillende indeling.
1.6.3 Typologie
De term ‘typologie’ duidt op de onderverdeling van een type vastgoed met dezelfde kenmerken in een bepaalde
groep. Laat ons de woningmarkt bekijken qua vastgoedtype. Op basis van gelijke karakteristieken kan de
woningmarkt worden opgedeeld in verschillende groepen of submarkten (Day, Bateman, & Lake, 2003). Deze
diversifiëring maakt het mogelijk voor kopers om hun zoektocht te verfijnen. Mensen die op zoek zijn naar een
eenvoudig en betaalbaar rijhuis zijn immers weinig geholpen indien er ook dure villa’s in de lijst met
zoekresultaten verschijnen. Opmerkelijk is dat huizen met vergelijkbare karakteristieken vaak in eenzelfde buurt
gelegen zijn (Gress, 2004). Dit komt door de stedenbouwkundige voorschriften die in een gemeente of stad van
kracht zijn (Ampe, Omgevingswerken & infrastructuur).
6
1.6.4 Economische karakteristieken
Ten vierde spelen ook de economische karakteristieken een rol bij de hedonische waardebepaling. De wet van
vraag en aanbod blijft immers een voortdurend geldend gegeven binnen de vastgoedmarkt. De economische
toestand van een land, namelijk recessie of economische groei, heeft een invloed op de verkoopprijzen van het
vastgoed. De financiële crisis van 2007 en 2008 zorgde in Spanje en Portugal voor stevig dalende vastgoedprijzen,
massaal veel leegstand en onafgewerkte bouwprojecten. De verklaring is een rechtstreeks verband tussen
enerzijds de vastgoedsector en anderzijds de bouw- en beleggingsmarkt. Beiden zijn immers onderhevig aan een
continue evolutie waardoor prijzen en aanbod in de vastgoedwereld tijdsgebonden zijn.
De wijze van verkoop heeft eveneens een invloed op de verkoopprijs. Een onroerend goed kan op verschillende
manieren worden verkocht. We onderscheiden in hoofdzaak de vrijwillige en de gedwongen verkoop. Een
gedwongen verkoop, bij bijvoorbeeld een faillissement, brengt altijd een prijsverlaging met zich mee.
De econoom Chinloy stelde in 1996 dat een economische productiviteitstoename de potentiële kopers een hoger
gemiddeld inkomen bezorgt. Op deze manier zorgt een economische cyclus ervoor dat de prijs van vastgoed
eveneens een cyclus doorloopt (Chinloy, 1996). Wetende dat mensen bereid zijn om meer geld te betalen voor
hun droomhuis, zullen bijgevolg de prijzen stijgen. Gunstige economische omstandigheden zullen meerdere
gezinnen er ook toe aanzetten om een lening aan te gaan. De lage hypothecaire rentevoeten zorgen op dat
moment voor een stimulans. Op deze manier ontstaat er voor de koper een financieel gunstige situatie aangezien
de vraag naar woningen zal toenemen. Hierdoor zijn meer mensen bereid meer te betalen, wat de verkoopprijzen
de hoogte injaagt.
Naast de leeftijd van de woning, zoals reeds besproken bij de structurele karakteristieken, is ook de leeftijd van
de potentiële koper(s) van belang. Uit onderzoek is gebleken dat de jongere generatie bereid is om meer te
betalen voor een onroerend goed dan voorgaande generaties. De mensen willen en kunnen nu luxueuzer wonen
dan vroeger het geval was. Dit effect wordt versterkt in tijden van economische hoogconjunctuur (Saunders,
2005).
1.6.5 Fiscale karakteristieken
Daarnaast zijn ook fiscale kenmerken belangrijk voor de waardebepaling van onroerend goed. Bezitters van een
onroerend goed betalen een belasting onder de vorm van onroerende voorheffing. Deze belasting is jaarlijks te
betalen zolang men eigenaar van een vastgoed is. Meteen bij de aankoop van de woning, wordt de inning door
de gewesten geheven. De taks wordt berekend door middel van een percentage van het geïndexeerde kadastraal
inkomen (KI). Het percentage verschilt van gebied tot gebied en is afhankelijk van de ligging van het perceel. Het
geïndexeerde kadastraal inkomen is een forfaitair bedrag dat door de Administratie van het Kadaster, de
Registratie En Domeinen (AKRED) wordt bepaald.
7
Het innen van de onroerende voorheffing gebeurt op drie niveaus:
- de basis van de belasting is bestemd voor de Vlaamse Overheid;
- er worden opcentiemen op deze basisbelasting geheven afhankelijk van de provincie;
- tot slot worden er ook nog opcentiemen geheven naargelang de gemeente waarin het onroerend goed
gesitueerd is.
Het basisbedrag is in sterke mate afhankelijk van de gezinssituatie. Hoe meer kinderen men ten laste heeft, hoe
minder men wordt belast. In uitzonderlijke gevallen kan er zelfs een vrijstelling worden verkregen. Bewoners van
sociale woningen betalen eveneens minder voorheffing.
1.6.6 Buurtkarakteristieken
Ook buurtkarakteristieken zijn van invloed op de waarde van een vastgoed. In hoofdzaak worden de
buurtkarakteristieken onderverdeeld in drie groepen: sociale, economische en demografische buurtgerelateerde
karakteristieken (Gernaert & Trocmé, 2008). Het is niet eenvoudig om de invloed van een buurt op de
verkoopprijs van een onroerend goed te definiëren. Enerzijds is immers de invloed op het moment van de
verkoop van belang, anderzijds moet er ook een schatting gemaakt worden van de impact van de buurt op
langere termijn.
De sociale buurtkarakteristieken kunnen opgesplitst worden in sociaaleconomische en sociaal-culturele
buurtkarakteristieken. Deze eigenschappen houden verband met de samenstelling van de bevolking en de
bijhorende sociale status van de omgeving. Wanneer een buurt niet langer een onbevlekt imago heeft, valt deze
stempel nog maar moeilijk van zich af te schudden, zelfs al is het imago tot stand gekomen op subjectieve basis.
Een onroerend goed verkopen in een buurt met een slecht imago zal altijd een mindere verkoopprijs met zich
meebrengen dan een gelijkaardige woning in een buurt met een betrouwbaar imago, ongeacht de staat van de
woning.
De economische buurtkarakteristieken houden het welzijn van de buurt in. Een hoge welzijnsfactor impliceert
een hogere verkoopprijs van het onroerend goed (Day, 2003). De welzijnsfactor wordt zowel positief als negatief
door verschillende kenmerken beïnvloed. Hoe meer positieve economische factoren er aanwezig zijn, hoe hoger
de welzijnsfactor van de buurt.
Kenmerken die een eerder negatieve invloed hebben op de welzijnsfactor zijn:
het ontbreken van centrale verwarming;
het niet beschikken over een auto;
werkloosheid;
gezinnen die geen eigenaar zijn van het huis waarin ze wonen.
8
Kenmerken die een positieve invloed hebben op de welzijnsfactor zijn:
gezinnen met twee of meer auto’s;
gezinnen met kinderen;
gezinnen met meer kinderen;
het aantal woonplaatsen in de woning.
Demografische buurtgerelateerde karakteristieken betreffen de samenstelling van de bevolking in de buurt.
Wanneer er veel immigranten of appartementsblokken in een buurt aanwezig zijn, dan zal de aanwezigheid
hiervan de prijs fors doen dalen. Mensen geven er immers de voorkeur aan om in de directe omgeving van
gelijkgestelden te wonen. Een buurt met een lage sociale status brengt een lagere prijs per vierkante meter met
zich mee dan de prijs per vierkante meter van hetzelfde onroerend goed in een buurt met een hogere sociale
status. Doorgaans wonen in buurten met een lage sociale status mensen met een lager opleidingsniveau. Deze
mensen beschikken vervolgens over een inkomen dat lager ligt dan het gemiddelde. Bovendien is de factor
werkloosheid in dergelijke buurt vaak sterk aanwezig (Day, 2003). Een Zweeds onderzoek voegt hier aan toe dat
de vastgoedprijzen dalen indien er in een buurt een sterke criminaliteit heerst (Ceccato & Wilhemsson, 2011).
Een ander onderzoek kwam eveneens tot de bevinding dat de perceptie van criminaliteit in de buurt de
huisprijzen consistent negatief beïnvloedt. Criminaliteit zoals vandalisme, graffiti en brandstichting hebben een
significante negatieve impact op de woningprijzen, terwijl er geen meetbaar effect werd vastgesteld door de
aanwezigheid van inbraken. Een veiligheidsgevoel in de buurt werd geassocieerd met een hogere huiswaarde
(Paolo Buonanno, Daniel Montolio, Josep Maria Raya & Vilchez, 2012).
1.6.7 Omgevingskarakteristieken
Een onroerend goed wordt ook gekenmerkt door de nabije omgeving. Deze omgevingskarakteristieken hebben
een invloed op de waarde van een vastgoed. Factoren van natuurlijke, historische of maatschappelijke aard
kunnen een invloed uitoefenen op de verkoopprijs.
Met natuurlijke factoren wordt gedoeld op de aanwezigheid van groen in de omgeving zoals een rivier of een
kustlijn. Het reliëf van een gebied behoort eveneens tot deze groep. Onderzoek heeft uitgewezen dat de
aanwezigheid van groen en/of water in een gebied de verkoopprijzen licht doet stijgen (Thériault, Des Rosiers,
Villeneuve, & Kestens, 2004). Wanneer een groene zone of een waterzone in een straal van 500m rond het
vastgoed gelegen is, dan stijgt de waarde van het onroerend goed met minimaal 5% (Wagteveld, 2007). Echter,
naast dit positieve effect kan een groenzone ook hinder veroorzaken. Wie vlak naast een park woont, kan immers
last hebben van geluidsoverlast. Wagteveld stelt wel dat dit effect pas waarneembaar is indien de afstand tot de
groenzone kleiner is dan 50m. Visser & Van Dam stelden in 2006 geen lineair verband tussen de afstand van de
woning tot de groen- of waterzone en de verkoopprijs van het onroerend goed vast (Visser & Van Dam, 2006).
Wel zal een groene zone in een stedelijk gebied voor een iets grotere prijsstijging zorgen dan een groene zone in
9
een landelijk gebied. Wagteveld voegt daar aan toe dat de nabijheid van groen een grotere impact heeft op de
prijs dan de nabijheid van water. Toke Emil Panduro & Kathrine Lausted Veie merken op dat groene zones
heterogene entiteiten zijn en dat geen twee groene zones identiek zijn. Een classificatie van alle verschillende
zones dringt zich dus op indien men niet tot verkeerde conclusies omtrent de relatie tussen een groene zone en
de vastgoedprijs wil komen (Toke Emil Panduro & Kathrine Lausted, 2013).
Een ander onderzoek toont aan dat er een verband bestaat tussen verschillende karakteristieken onderling.
Austin Troy en J. Morgan Grove onderzochten de relatie tussen de aanwezigheid van parken, een
omgevingskarakteristiek, en de criminaliteit, een buurtkarakteristiek. Hieruit blijkt dat de aanwezigheid van
parken zowel een positieve als negatieve impact op de prijs heeft naargelang de criminaliteitsgraad. Wanneer de
criminaliteit in een bepaalde buurt relatief laag is, hebben parken een positieve invloed op de waarde van huizen.
Wanneer de criminaliteit echter tot boven een bepaalde drempel stijgt, dan hebben parken een negatieve
invloed op de verkoopprijs (Austin Troy & J. Morgan Grove, 2008).
Eigendommen met een historische context hebben een beduidende meerwaarde. Dit vastgoed is opgenomen in
een lijst van beschermde gebouwen, zoals onder meer oude herenhuizen. Indien een woning beschermd is, ligt
de prijs ongeveer 27,9 % hoger dan de prijs van een gelijkaardige woning die niet beschermd is. Bovendien
verhoogt de prijs van huizen met 0.28 % per beschermd gebouw dat zich in een straal van 50 meter rond het te
schatten vastgoed bevindt (Faroek Lazrak, Peter Nijkamp, Piet Rietveld & Jan Rouwendal, 2013).
Onderzoek wijst bovendien uit dat er een direct verband bestaat tussen de huisprijs en de nabijheid van
transportinfrastructuur. De aanwezigheid van metro, tram en bus beïnvloeden de prijs positief. Anderzijds heeft
de aanwezigheid van treinen, luchthavens en havens een negatieve invloed op de prijs van een vastgoed
(Efthymiou, D. and C. Antoniou, 2013).
Industriële sites hebben een negatieve impact op woningprijzen. Huisprijzen stijgen dan ook indien de afstand
tot de dichtstbijzijnde industriële site toeneemt. Vanaf een bepaald punt, in de studie op 1093 meter, neemt het
negatieve effect af tot het volledig uitdooft bij een steeds toenemende afstand (Friso De Vor & Henri L. F. De
Groot, 2011). Industriële sites zijn bovendien nefast voor het leefmilieu, een karakteristiek die in de volgende
paragraaf aan bod komt.
Een laatste besproken omgevingselement, dat een invloed kan hebben op de prijs van een woning, is de nabijheid
van een gevangenis. Indien een gevangenis zich in de directe omgeving bevindt, worden mensen weerhouden
om zich in deze woning te vestigen. Aangezien de vraag afneemt, zal ook de prijs als gevolg dalen (Jae Su Lee &
Ming-Han Li, 2009).
10
1.6.8 Leefmilieu
Een woning wordt daarenboven gekarakteriseerd door het leefmilieu. De grootste invloedfactoren van het
leefmilieu op de prijs van een woning zijn de parameters geluidsoverlast en luchtverontreiniging.
Wat het effect van luchtvervuiling betreft bestaat er discussie. In voorgaande onderzoeken werd immers
vastgesteld dat het effect van luchtvervuiling te verwaarlozen is (Smith en Deyak, 1975). Later gevoerde
onderzoeken voegden daar nog aan toe dat het niet eenvoudig is om het onaangename effect van
luchtverontreiniging te bepalen (Graves en Murdoch, 1988). Echter, een recent onderzoek in Chinese steden
beweert het tegendeel. In dit onderzoek wordt immers gesteld dat mensen bereid zijn om een hogere prijs te
betalen voor huizen in steden waar de luchtkwaliteit beter is. Indien de vervuiling in een stad ongeveer 10% lager
is dan in naburige steden, dan leidt dit tot een verhoging van 0.76% van de lokale huisprijzen (Zheng, S. Q., et
al.,2014).
Een tweede element waar potentiële kopers belang aan hechten is geluidsoverlast. Zo zal een gezin, dat op zoek
is naar een rustige woonomgeving, zich storen aan de nabijheid van een drukke snelweg. Het voorbeeld bij uitstek
is een woning die vlak naast een drukke autosnelweg gelegen is. In dit geval is er niet alleen geluidsoverlast, maar
kan er ook potentiële reukoverlast zijn door de geur van uitlaatgassen. Anderzijds brengt een autosnelweg het
voordeel van toegankelijkheid met zich mee. Ook huizen in de nabijheid van een luchthaven kampen met
geluidsoverlast, wat dalende vastgoedprijzen met zich meebrengt. Resultaten tonen aan dat, indien het
verkeersgeluid de 65 dB overschrijdt, er een negatieve invloed van ongeveer 12% op de woningprijzen vast te
stellen is (Marcel A. J. Theebe, 2004).
Wat het leefmilieu betreft, kunnen we het afsluitend eveneens hebben over klimaatverandering. De
klimaatverandering is een steeds actueler thema vandaag de dag. Resultaten uit onderzoek van Katrin Rehdanz
tonen aan dat Britse huishoudens bereid zijn om meer te betalen voor een droomwoning indien de gemiddelde
temperatuur in de wintermaanden toeneemt. Anderzijds leidt een verhoogde temperatuur in de zomermaanden
niet tot een welwillendheid om meer te betalen voor een woning. Tevens merkt de onderzoekster op dat
klimaatveranderingen ook andere indirecte effecten met zich meebrengt, zoals een stijgend zeeniveau en
toenemend extreem weer. Met deze elementen werd in het onderzoek geen rekening gehouden (Katrin
Rehdanz, 2006).
1.6.9 Toegankelijkheid
In de voorbije decennia is de toegankelijkheid van een woning geëvolueerd van luxe naar een noodzaak. Steeds
meer kopers schenken dan ook aandacht aan dit laatste woningkenmerk. Toegankelijkheid beperkt zich niet
louter tot de verkeersinfrastructuur voor automobilisten. Er wordt onder meer gelet op alternatieve
vervoersmogelijkheden zoals de nabijheid van een bushalte of een station. Het uitgangspunt is doorgaans de
11
reistijd tot het stadscentrum. Naast de aanwezigheid van openbaar vervoer, is vooral de frequentie van dit
openbaar vervoer van belang. Hoe meer treinverbindingen er mogelijk zijn, hoe hoger de vastgoedprijs zal zijn.
Daarnaast is ook een goede bereikbaarheid van scholen, winkels… cruciaal. Meerdere voorzieningen met
dezelfde behoefte versterken het positief effect op de vastgoedprijs, bijvoorbeeld de toegankelijkheid tot
meerdere winkels vanuit de woongelegenheid (Day, Bateman, & Lake, 2003).
Het effect van een nabije toegankelijkheid is dubbel. Een autosnelweg dicht bij een stad leidt tot lagere
woningprijzen, in landelijk gebied leidt dit daarentegen tot hogere woningprijzen. Op het platteland betekent
een grotere afstand tot de snelweg immers een verminderde bereikbaarheid. In steden wordt de nabijheid van
een autosnelweg geassocieerd met overlast in de vorm van geluid en stank (Visser en van Dam, 2006). Het
dubbele effect wordt eveneens duidelijk door het feit dat een nabije toegankelijkheid tot een autosnelweg
positief is, maar dat net naast een autosnelweg wonen als negatief ervaren wordt.
Een niet onbelangrijk gegeven met betrekking tot toegankelijkheid is het aanbod qua werkgelegenheid in de
directe omgeving. Hoe meer vacatures in de directe omgeving te vinden zijn, hoe meer mensen in deze buurt
willen wonen (Visser en Van Dam, 2008). Mensen willen immers steeds vaker zo dicht mogelijk bij hun werk
gehuisvest zijn. Er wordt dus gekeken naar de reis- of pendeltijd van en naar het werk. Hierdoor zijn de
vastgoedprijzen in het hart van een stad merkbaar hoger dan in delen van de voorstad, waar men veel vaker met
fileleed te maken krijgt. Merk op dat werkgelegenheid in de omgeving dan weer een omgevingskenmerk is.
12
2. Modellen bij een hedonische waardebepaling
Binnen de hedonische waardebepaling worden alle voorgaande karakteristieken gewaardeerd om tot een finale
vastgoedwaarde te komen. Dit maakt dat het model vaak complex is. Om de waardering uit te voeren kan beroep
worden gedaan op verschillende modellen. Enerzijds zijn er klassieke regressiemodellen voorhanden, anderzijds
kan gebruik worden gemaakt van recentere dataminingmodellen. We bespreken beide modellen, om tot een
waardering te komen, achtereenvolgens.
2.1 Regressie
Regressieanalyse is een statistische techniek waarbij gegevens, met mogelijks een specifieke samenhang,
geanalyseerd worden. De specifieke samenhang wordt geduid met de term regressie. Het model houdt zowel
rekening met afhankelijke als onafhankelijke variabelen. De doelstelling van de techniek is om de onafhankelijke
variabele(n) te kunnen voorspellen op basis van de gekende verbanden tussen één of meerdere afhankelijke
variabelen. Indien met één afhankelijke variabele gewerkt wordt, spreekt men van enkelvoudige regressie. Bij
meerdere afhankelijke variabelen spreekt men van meervoudige regressie.
2.2 Datamining
Met behulp van datamining kan in een grote verzameling van gegevens gezocht worden naar verbanden en
patronen. Meer specifiek wordt er gebruik gemaakt van algoritmen om patronen en mogelijke verbanden op te
sporen uit de set gegevens. De kwaliteit van de data is cruciaal in de analyse. In een ruimer kader wordt
datamining als onderdeel beschouwd van Knowledge Discovery in Database (KDD) (Fayyad, Piatetsky & Smyth,
1996).
KDD wordt gehanteerd volgens een vast schema. In eerste instantie worden het probleem en het doel
vooropgesteld. Nadien volgt de oriëntatie van de gegevens. De omvangrijke dataset wordt hierbij klaargestoomd
voor de datamining zelf. Dit kan onder meer gerealiseerd worden door de overbodige gegevens uit te set te
verwijderen. Datamining kan twee verschillende doeleinden hebben, namelijk verificatie of ontdekking. Bij
verificatie wordt er gezocht naar bevestiging van reeds eerder gevonden verbanden tussen de gegevens
onderling. Bij ontdekking wordt er onderscheid gemaakt tussen voorspelling en beschrijving. Tot slot volgt de
evaluatiefase waarin men nagaat of het vooropgestelde doel bereikt is. De volgende subparagrafen beschrijven
vier technieken die onder de noemer datamining thuishoren. Het zijn neurale netwerken, beslissingsbomen, de
fuzzy logica en neuro – fuzzy.
13
2.2.1 Neurale netwerken
Artificial Neural Networks (ANN) of kortweg neurale netwerken is een systeem waarbij de werking van onze
hersenen gesimuleerd wordt door het gebruik van neuronen. In het menselijk brein verwerken honderden
biljoenen neuronen, onderling met elkaar verbonden, parallel informatie. Een neuraal netwerk is opgebouwd uit
een inputlaag van neuronen, één, twee en soms zelfs drie verborgen neuronenlayers en een finale output
neuronenlaag. De neuronen van de verschillende layers zijn onderling met elkaar verbonden, elk met een eigen
gewicht (Wang, S.-C. , 2003).
2.2.2 Beslissingsbomen
Daarnaast wordt veel gebruik gemaakt van de techniek van beslissingsbomen. Bij deze techniek wordt de data
verdeeld over de meest invloedhebbende variabele. Vergeleken met de traditionele regressiemodellen vertoont
een model, gebaseerd op een beslissingsboom, verschillende voordelen. Ten eerste kan een boombenadering
zowel overweg met classificatie- als regressieproblemen. Ten tweede laat een beslissingsboom een eenvoudige
interpretatie aan de eindgebruiker toe. Het geeft de eindgebruiker immers de mogelijkheid de resultaten te
evalueren en de belangrijkste kenmerken te identificeren. Tot slot zijn beslissingsbomen krachtige instrumenten
om de lineaire of niet-lineaire relatie tussen de afhankelijke en de onafhankelijke variabelen in kaart te brengen.
Daarenboven kan de techniek toegepast worden om de meest significante afhankelijke variabele in het
voorspellen van de doelvariabele te bepalen (Fan, G.-Z., et al.,2006). Er wordt een boomstructuur verkregen die
duidelijk, representatief en begrijpelijk is.
2.2.3 Fuzzy logica
Fuzzy logica of vage logica is een stroming binnen de logica met als grondlegger Zadeh. In tegenstelling tot de
Arestoteliaanse logica, met uitsluitend de mogelijkheden waar of onwaar, voegt de vage logica de mogelijkheden
gedeeltelijk waar of gedeeltelijk onwaar toe. Met behulp van waarheidswaarden tussen 0 (onwaar) en 1 (waar)
wordt het discrete karakter van de traditionele logica losgelaten. Ter illustratie, de karakteristiek geluidsoverlast
wordt volgens de vage logica bijvoorbeeld beantwoord met 80% waar en 20% onwaar. Het fuzzy gevolgtrekking
systeem maakt gebruik van de fuzzy logica. Bij een fuzzy gevolgtrekking systeem (FIS) wordt een input
getransformeerd tot een output door gebruik te maken van fuzzy regels (Kusan, H., et al., 2010). Het hoofdproces
van een algemeen fuzzy gevolgtrekking systeem bestaat uit vier activiteiten: de fuzzificatie, de fuzzy regelbasis
opstellen, de fuzzy gevolgtrekking machine en de defuzzificatie (Huang & Chiu, 2009).
14
2.2.4 Neuro-fuzzy
De combinatie van de neurale netwerken met de fuzzy logica leidt tot het neuro-fuzzy model. De algemene
structuur van een neuro-fuzzy gevolgtrekking systeem aangepast door neurale netwerken (ANFIS) bestaat uit vijf
layers, die een aantal knopen bevatten die onderling met elkaar verbonden zijn door rechtstreekse links. Elke
knoop is gedefinieerd door een knoopfunctie met vaste of aanpasbare parameters. Het systeem streeft twee
hoofddoelstellingen na. De eerste doelstelling wil de menselijke kennis of ervaring transformeren in de
basisregels en de database van een fuzzy gevolgtrekking systeem . De tweede doelstelling bestaat erin om de
lidfuncties zo nauwkeurig mogelijk af te stellen om zo de outputfout te minimaliseren of, anders gezegd, de
prestatie te maximaliseren (Gerek, I. H. L., 2014).
15
3. Resultaten van de verschillende modellen
In voorgaand onderdeel van de literatuurstudie kwam de techniek van regressie en de dataminingtechnieken
neurale netwerken, belissingsbomen, fuzzy logica en neuro – fuzzy aan bod. In een eerste deel van dit hoofdstuk
worden de resultaten uit onderzoeken van modellen gebaseerd op neurale netwerken ten opzichte van
regressiemodellen, voor de waardebepaling van woningen, besproken. Een volgend punt vergelijkt de prestatie
van neuro – fuzzy modellen ten opzichte van regressiemodellen.
3.1 Neurale netwerken versus regressie
Sommige studies tonen de superioriteit van artificiële neurale netwerken ten opzichte van meervoudige
regressieanalyse aan (Do & Grudnitski, 1992; Tay, D. P. & D. K. Ho, 1992; Hasan Selim, 2009). Andere onderzoeken
tonen daarentegen niet noodzakelijk aan dat artificiële neurale netwerken superieur zijn (Worzala, E., et al.,
1995; Marieke Dewulf & Tine Provoost, 2012). Daarom focussen Nguyen en Cripps in hun onderzoek op de vraag
waarom bepaalde studies concluderen dat meervoudige regressieanalyse beter is en andere studies tot het
besluit komen dat neurale netwerken een beter alternatief zijn om de verkoopwaarde van verkocht vastgoed te
voorspellen (Nghiep, N. and C. Al, 2001). In de paragrafen die volgen komen de bevindingen van de zes
voornoemde onderzoeken naar voor.
Do en Grudnitski gebruiken acht parameters bij de waardebepaling van een woning. Deze variabelen zijn de
leeftijd in jaren, het aantal slaapkamers, het aantal badkamers, de oppervlakte van de leefruimte, het aantal
garages, het aantal verwarmde ruimtes, het aantal verdiepingen en de perceelgrootte. Het meervoudig
regressiemodel is een functie van de acht huiskarakteristieken in functie van de verkoopsprijs. Het neuraal
netwerk is opgebouwd uit een inputlayer van acht neuronen, overeenkomstig de acht variabelen, een verborgen
layer van drie neuronen en als outputlayer de geschatte waarde van de eigendom. De resultaten tonen aan dat
het neuraal netwerk bijna twee keer zo accuraat is dan het model gebaseerd op meervoudige regressie. Een
gemiddelde absolute fout (MAE) van 6.9 % ten opzichte van 11.26 % bevestigen dit (Do & Grudnitski, 1992).
Een onderzoek van Tay en Ho betreffende de prijsvoorspelling van residentiële appartementen in Singapore
komt tot dezelfde bevindingen. Beide modellen zijn daarenboven accurater dan de voorgaande modellen. De
neurale netwerken vertonen een gemiddelde absolute fout van 3.9%, de meervoudige regressie tekent een MAE
op van 7.5 % (Tay, D. P. & D. K. Ho, 1992).
Hasan Selim evalueerde de predictie van de huisprijzen in Turkije op basis van de volgende prestatiecriteria: de
gemiddelde absolute fout (MAE), de gemiddelde kwadratensom fout (MSE) en de vierkantswortel uit de
gemiddelde kwadratensom fout (RMSE). Op basis van de drie evaluatiecriteria presteren neurale netwerken ook
hier beduidend beter (Hasan Selim, 2009).
16
Een studie, uitgevoerd door Worzala, E. et al., besluit niet dat neurale netwerken te verkiezen zijn boven een
meervoudige regressieanalyse (Worzala, E., et al., 1995). Het vergelijkend onderzoek van prijsmodellen voor de
waardebepaling van appartementen aan de hand van datamining en regressieanalyse door Marieke Dewulf en
Tine Provoost komt tot hetzelfde besluit, een logaritmische lineaire regressie zonder constante met de actuele
prijs als lineair gegeven geeft in het onderzoek het meest nauwkeurige resultaat. De onder de loep genomen
dataminingmodellen zijn gebaseerd op de techniek van neurale netwerken, CHAID en C&R-tree. Bij de regressie
komen lineaire en loglineaire modellen aan bod, al dan niet met een constante. In eerste instantie wordt de
dataset voorbereid door uitschieters te elimineren en de verkoopprijs te indexeren. Dataset 0 heeft uitsluitend
structurele kenmerken als inputvariabelen zijnde de nuttige oppervlakte, het kadastraal inkomen, het aantal
woonplaatsen, de garage, het aantal badkamers, de centrale verwarming en de ouderdom. Dataset 1 tot en met
10 wordt bekomen door telkens een buurt- en omgevingskarakteristiek toe te voegen. De buurt- en
omgevingskarakteristieken zijn achtereenvolgens de kantoordichtheid, de bezettingsgraad van de
parkeermogelijkheden, het aantal vreemdelingen, het aandeel geklasseerde gebouwen, het aantal lokale
handelszaken, het aandeel woningen bewoond door de eigenaar, het aantal vertrekken per woning, de
gemiddelde grootte van de huishoudens, de gemiddelde oppervlakte per woning en de werkloosheidsgraad.
Dataset 1 is een uitbreiding van dataset 0, dataset 2 is een uitbreiding van dataset 1 enz. De evaluatie van de
modellen gebeurt op basis van de standaardafwijking (SEE) en de determinatiecoëfficiënt (R²). Het model met
de kleinste standaardafwijking, in combinatie met de grootste determinatiecoëfficiënt, is superieur. Wanneer
we de dataminingtechnieken onderling vergelijken, stellen we vast dat de neurale netwerken voor alle datasets
beter presteren ten opzichte van C&R-tree en CHAID. De variabele, die de meeste invloed uitoefent op de
verkoopprijs van woningen, blijkt de nuttige oppervlakte te zijn. Op twee staat het kadastraal inkomen en de
derde meest invloedrijke parameter is de omgeving- en buurtkarakteristiek die het aandeel vreemdelingen
weergeeft (Marieke Dewulf & Tine Provoost, 2012). Jolande Van Puyvelde komt eveneens tot de vaststelling dat
het toevoegen van buurt- en omgevingskarakteristieken een nauwkeuriger model oplevert maar dat het effect
van deze variabelen op de verkoopprijs minder relevant is. Haar onderzoek bracht, in tegenstelling tot dat van
Dewulf & Provoost, neurale netwerken naar voor als beste model, terwijl CHAID, R&C-tree en regressie ongeveer
dezelfde nauwkeurigheid vertoonden (Jolande Van Puyvelde, 2011).
Nghiep, N. and C. Al maken verschillende vergelijkingen tussen de twee modellen door de modelspecificaties, de
grootte van de trainingsdata en de evaluatiecriteria te wijzigen. De data in het onderzoek bestaat uit 3906
observaties van verkochte residentiële woongelegenheden. De gebruikte woningkenmerken zijn de oppervlakte
aan leefruimte, het aantal slaapkamers, het aantal badkamers, de leeftijd van het vastgoed, de periode van
verkoop en het al dan niet bezitten van een garage/carport. De 3906 observaties worden random opgedeeld in
trainingsets van T1 tot T18. Trainingsdataset T2 is een extensie van trainingsdataset T1, trainingsdataset T3 is
een extensie van trainingsdataset T2, enz. De trainingsdatasets bevatten respectievelijk 306, 506, 706, 906, 1106,
1306, 1506, 1706, 1906, 2106, 2306, 2506, 2706, 2906, 3106, 3306, 3506 en 3706 records. Het compliment van
iedere trainingsdataset met de 3906 observaties vormt respectievelijk de validatiesets V1 tot V18. De gebruikte
training- en validatiesets bij de vergelijking van de meervoudige regressieanalyse met de neurale netwerken zijn
17
identiek. Bij de meervoudige regressieanalyse wordt beroep gedaan op zes verschillende modellen gebaseerd op
voorgaande studies. De specificaties zijn lineair, semi-logaritmisch of logaritmisch-logaritmisch. Voor de neurale
netwerken worden eveneens zes modellen opgesteld met inputvariabelen die corresponderen met de zes MRA-
modellen, een verborgen layer en een output die de verkoopsprijs bepaalt. De ANN-software vereist dat alle
inputvariabelen worden getransformeerd zodat ze in het interval (-1,1) komen te liggen en de outputvariabele
in het interval (0,1). De trainingsdata wordt gebruikt om de modellen op punt te stellen en om dus, met andere
woorden, de onbekende modelcoëfficiënten te verkrijgen. De validatiesets worden aangewend om de modellen
te testen. Nadien worden de resultaten geëvalueerd. Het interpreteren van de resultaten gebeurt op basis van
de gemiddelde absolute fout (MAE), die wordt berekend uit alle data, en de MAE in combinatie met de absolute
fout (FE) per observatie. De absolute fouten worden opgedeeld in drie categorieën: het percentage aan metingen
dat binnen 5% marge ligt ten opzichte van de verkoopsprijs, het percentage dat tussen 5 en 15% ligt en het
percentage dat groter is dan 15%. Het datamodel met de kleinste gemiddelde absolute fout (MAE),
gecombineerd met het hoogste percentage aan meest accurate voorspellingen (FE is kleiner of gelijk aan 5%),
wordt als superieur beschouwd. Van alle meervoudige regressiemodellen scoort het semi-logaritmisch model
het beste. Het logaritmisch-logaritmisch model scoort het slechtste wanneer met de MAE als de 5% FE rekening
gehouden wordt. In het algemeen tonen de resultaten aan dat de prestatie van de MRA verbetert wanneer de
functionele modelspecificaties verbeteren. Bij neurale netwerken wordt het model daarentegen beter wanneer
de grootte van de trainingsdata toeneemt. Rekening houdend met beide evaluatiecriteria presteren de ANN
beter ten opzichte van de MRA wanneer een middelmatige tot grote testset wordt gebruikt. Nemen we enkel de
MAE in beschouwing, dan is de MRA superieur bij kleine testsets. Bovendien wordt vastgesteld dat wanneer de
functiespecificaties van de ANN meer complex worden, de grootte van de testset moet worden vergroot om
beter te kunnen presteren dan het overeenkomstig MRA-model. De fluctuatie in de prestatie van de neurale
netwerkmodellen kan verklaard worden door het grote aantal mogelijke parameterinstellingen en de
afwezigheid van een methodische benadering bij het kiezen van deze instellingen. Het falen van deze instellingen
kan leiden tot een slecht ANN-model. Tevens is het gebruik van eenzelfde woningkarakteristieken als modelinput
een beperking van de studie aangezien het gebruik van andere inputvariabelen mogelijks een andere output kan
genereren. De resultaten van dit onderzoek geven wel een aannemelijke verklaring voor de verschillende
resultaten van studies waarbij MRA- en ANN-modellen ten opzichte van elkaar werden vergeleken met
betrekking tot het voorspellen van de waarde van woningen. We kunnen concluderen dat de predictieprestatie
afhangt van de gebruikte evaluatiecriteria in combinatie met de grootte van de trainingsdata en de
modelspecificaties (Nghiep, N. and C. Al, 2001).
3.2 Neuro- fuzzy versus regressie
Onderzoek van Jian Guan et al. past voor het eerst een neuro-fuzzy gevolgtrekking systeem aangepast door
neurale netwerken (ANFIS) toe bij de bepaling van vastgoedwaarde (Jian Guan et al, 2008). Het onderzoek
beschrijft een aanzet in het ontwerp en de implementatie van een ANFIS-model om de prijzen van residentiële
woningen te voorspellen. Dergelijk ANFIS-systeem bezit de mogelijkheden van een neuraal netwerk zoals leer-
18
en optimalisatiemogelijkheden. Anderzijds bezit het model ook de mogelijkheden van een fuzzy gevolgtrekking
systeem (FIS) zoals het gebruik van de menselijke redenering in als-dan-regels. De resultaten van het ANFIS-
model worden in het onderzoek vergeleken met de resultaten die verkregen worden uit een traditioneel
meervoudig regressiemodel door gebruik te maken van drie evaluatiecriteria. Bij beide modellen worden de
vierkantswortel uit de gemiddelde kwadratensomfout (RMSE), de maximale absolute fout (MAE) en de
gemiddelde absolute percentage fout (MAPE) ten opzichte van elkaar afgetoetst. Uit het onderzoek blijkt dat de
resultaten van het ANFIS-model vergelijkbaar zijn met de resultaten van een traditionele regressieanalyse. Wel
zijn er enkele beperkingen in de studie die verder onderzoek in de toekomst mogelijk maken. Hoewel de
resultaten van een ANFIS-model in het onderzoek gelijkaardig zijn aan de resultaten van de meervoudige
regressie, is het toch mogelijk het ANFIS-model te verbeteren indien meer gegevens voor de training beschikbaar
zijn. Toekomstig onderzoek moet dan ook nagaan of een grotere dataset daadwerkelijk zorgt voor een betere
ANFIS-benadering. Een tweede beperking ligt in het gebruikte variabeltype. In de studie worden immers
uitsluitend kwantitatieve variabelen gebruikt, hoewel het fuzzy gevolgtrekking systeem ook vatbaar is voor niet-
kwantitatieve variabelen zoals bijvoorbeeld de reputatie van de omgeving. Verder onderzoek kan uitwijzen of
het toevoegen van niet-kwantitatieve variabelen het model al dan niet beter maakt.
In 2014 werd door Guan et al. een tweede publicatie gepubliceerd die het gebruik van een neuro-fuzzymodel in
het domein van de vastgoedwereld behandelt. De resultaten van dit onderzoek tonen de superioriteit van een
ANFIS-model in alle scenario’s aan ten opzichte van de meervoudige regressieanalyse (MRA). De data wordt
willekeurig opgedeeld in een trainingset (40%), een validatieset (30%) en een testset (30%). Er worden drie
scenario’s onderzocht. Een eerste scenario vergelijkt de resultaten van het model bekomen door gebruik te
maken van 14 huiskarakteristieken als input ten opzichte van een model met een input van 16 variabelen,
namelijk 14 huiskarakteristieken en 2 coördinaten. De resultaten worden geëvalueerd op basis van MAPE, RMSE
en MAE. Wanneer de modellen onderling vergeleken worden, kan vastgesteld worden dat ANFIS beter presteert
dan MRA. Het toevoegen van de locatie van het pand aan de hand van de lengte- en breedtecoördinaten maakt
de modellen nog nauwkeuriger. In het tweede scenario past de onderzoeker stratificatie toe: de dataset wordt
onderverdeeld in vier subdatasets op basis van de leeftijd van de woning. De resultaten tonen aan dat voor
jongere woningen, met een leeftijd kleiner dan of gelijk aan tien jaar, meer nauwkeurige resultaten verkregen
worden dan voor de drie oudere leeftijdsklassen. In dit scenario presteert ANFIS eveneens beter dan MRA. Het
derde en laatste scenario voegt een extra variabele toe aan de dataset. Deze variabele omvat de gemiddelde
prijs van vergelijkbare eigendommen onder de naam ‘buurt’. De variabele buurt wordt benaderd op drie
verschillende manieren: als het gemiddelde van de verkoopprijzen van alle eigendommen binnen een zekere
straal, als het gemiddelde van de tien dichtstbijzijnde gelegen verkochte woningen en als het gemiddelde van de
tien dichtstbijzijnde gelegen verkochte woningen rekening houdend met alle woningkenmerken. Het beste
model is een ANFIS-model met als extra variabele voor de buurt de gemiddelde prijs van de tien dichtstbijzijnde
gelegen verkochte woningen.
19
Er kan worden geconcludeerd dat het onderzoek duidelijk de betere prestatie van de ANFIS-modellen aantoont.
De studie toont bovendien superieure resultaten bij stratificatie. Het model opgebouwd met de data van huizen
jonger dan tien jaar scoort het beste. Voor oudere huizen zijn andere variabelen nodig om deze te differentiëren.
Interessant voor toekomstig onderzoek is het verder werken met stratificatie: het opdelen van de dataset in
subsets. Het artikel van Guan et al. illustreerde stratificatie aan de hand van de variabele leeftijd. Echter stelt de
auteur dat een gedetailleerde en systematische analyse van typische karakteristieken om vervolgens
stratificatiebeslissingen toe te passen kan leiden tot nog betere resultaten (Guan, J., et al.,2014).
20
4. Adaptive neuro-fuzzy inference system (ANFIS)
In het vierde en tevens laatste onderdeel van de literatuurstudie wordt er dieper ingegaan op een neuro – fuzzy
gevolgtrekking systeem dat is aangepast door middel van neurale netwerken (ANFIS). Er vindt eerst een
algemene bespreking plaats waarin de voor – en nadelen van fuzzy systemen en neurale netwerken op zich aan
bod komen. Het ontstaan van neuro – fuzzy systemen wordt eveneens besproken. Vervolgens wordt ANFIS
gesitueerd. Ten slotte wordt ruimte voor verder onderzoek aangehaald.
4.1 Algemeen
Neurale netwerken en fuzzy systemen kennen elk voor- en nadelen. De voordelen van een fuzzy systeem
omvatten de capaciteit om samengaande onzekerheden van de menselijke kennis met linguïstische variabelen
te vertegenwoordigen, de eenvoudige interactie van de expert in het domein met de ingenieur-ontwerper van
het systeem, de makkelijke interpretatie van de regels door de natuurlijke regelvertegenwoordiging, de
eenvoudige uitbreiding van de kennisbasis door het toevoegen van nieuwe regels en de robuustheid ten opzichte
van de mogelijke storingen in het systeem. Een fuzzy systeem heeft de volgende nadelen: de onmogelijkheid om
te generaliseren, niet robuust ten opzichte van topologische veranderingen in het systeem en het feit dat het
systeem het bestaan van een expert nodig heeft om de logische gevolgtrekkingsregels te bepalen. De
leercapaciteit, de capaciteit om te generaliseren en de robuustheid ten opzichte van storingen zijn drie voordelen
bij het gebruik van een neuraal netwerk. De nadelen zijn: de onmogelijkheid om de functionaliteit te
interpreteren en de moeilijkheid om het aantal layers en neuronen te bepalen (Vieira, J., et al., 2004).
Het vinden van de lidfuncties en de gepaste regels in een fuzzy systeem is een moeilijke opdracht. Vaak gaat dit
gepaard met ‘trial and error’. Het gebruik van neurale netwerken in een fuzzy systeem zorgt, met behulp van
leeralgoritmes, voor het automatiseren en het ondersteunen van de verfijning van fuzzy systemen. De nadelen
in een fuzzy systeem worden op deze manier weggewerkt door de capaciteiten van de neurale netwerken, zijnde
de leercapaciteit en de capaciteit om te generaliseren. Beide technieken zijn op deze manier complementair en
leiden tot het ontstaan van een neuro-fuzzy systeem.
4.2 Situering
Op basis van de verschillende interacties tussen een neuraal netwerk en een fuzzy systeem kunnen
neuro-fuzzy systemen ingedeeld worden in drie klassen: coöperatieve neuro-fuzzy systemen, concurrent neuro-
fuzzy systemen en hybride neuro-fuzzy systemen. In een coöperatief neuro-fuzzy systeem worden de neurale
netwerken enkel in de beginfase gebruikt. De neurale netwerken bepalen met behulp van trainingsdata sub-
blokken van het fuzzy systeem, nadien worden ze verwijderd en wordt enkel het fuzzy systeem verder gebruikt.
De structuur is niet volledig te interpreteren wat een nadeel is. Bij een concurrent of gelijktijdig neuro-fuzzy
21
systeem wordt de input verwerkt door een fuzzy systeem. De output wordt gegenereerd door een neuraal
netwerk, of het proces kan omgekeerd verlopen. Ook hier is de structuur niet volledig te interpreteren wat als
een nadeel beschouwd kan worden. Wanneer in de literatuur wordt verwezen naar een neuro-fuzzy systeem
wordt in de meeste gevallen het hybrid neuro-fuzzy systeem bedoeld. Nauck definieert een hybrid neuro-fuzzy
systeem als ‘een fuzzy systeem dat een leeralgoritme gebruikt gebaseerd op gradiënten of geïnspireerd op de
neurale netwerken theorie om zijn parameters te bepalen door patronen te verwerken’ (Nauck, D., et al. ,1997).
Verschillende onderzoekers definiërden in de klasse van hybride neuro – fuzzy systemen een eigen model
waardoor er verscheidene neuro-fuzzy architecturen ontstaan. De vijf belangrijkste architecturen zijn: ‘Fuzzy
Adaptive Learning Control Network’ (FALCON), ‘Adaptive Network based Fuzzy Inference System’ (ANFIS),
‘Generalized Approximate Reasoning based Intelligence Control’ (GARIC), ‘Neural Fuzzy Controler’ (NEFCON) en
‘Evolving Neural Fuzzy Network’ (EFuNN) (Vieira, J., et al., 2004).
4.3 Ruimte voor verder onderzoek
Een eerste applicatie in het gebruik van een ANFIS-model in het domein van de vastgoedwereld dateert uit 2008
(Guan, J., et al., 2008). Het ANFIS-model presteert in dit onderzoek gelijkaardig ten opzichte van een model met
meervoudige regressie. Guan et al. publiceren in 2014 opnieuw een artikel dat stelt dat het ANFIS-model betere
resultaten oplevert dan een model met meervoudige regressie. Stratificatie op basis van de belangrijkste
karakteristiek ‘leeftijd’ maakt het ANFIS-model nog nauwkeuriger om de waarde van recente woningen te
bepalen. De schrijvers stellen dat een meer gedetailleerde en systematische analyse van de typische
karakteristieken in de dataset en het toepassen van stratificatie, gebaseerd op deze analyse, mogelijks nog
betere resultaten oplevert (Guan, J., et al.,2014).
Gerek I. H. L. vergelijkt een ANFIS-model met subclustering met een ANFIS-model met gridpartitie voor de
waardebepaling van appartementen in hoogbouw in een Turkse regio. Het ANFIS – model met gridpartitie is
superieur. In dit onderzoek worden de gegevens van slechts 91 appartementen gebruikt. Het loont de moeite
om te onderzoeken als bij het gebruik van een grotere dataset om het ANFIS – model op te bouwen eenzelfde
vaststelling wordt bekomen. De onderzoeker vraagt zich bovendien af of voor een andere regio gelijkaardige
factoren als belangrijk worden beschouwd.
We stellen vast dat het gebruik van een kleine data sample veel voorkomt in de gevoerde studies. Weinig studies
hebben een noemenswaardige grote dataset gebruikt (Gonzalez en Formoso, 2006). De vaak kleine datasets
worden bovendien verder opgesplitst in een training-, validatie- en testdataset wat mogelijk een verlies aan
informatie met zich meebrengt. Het gebruik van een grotere dataset kan dan ook mogelijks de modellen,
gebaseerd op een ANFIS-benadering, verbeteren.
22
Onderzoek
Ten eerste wordt de dataset voorbereid. Als volgt wordt het inladen van de voorbereide dataset in Matlab
besproken. Ten derde wordt de structuur van het ANFIS – model nader toegelicht. Er wordt eveneens
diepgaander ingegaan op een belangrijk onderdeel van de ANFIS – structuur: de lidfunctie. Het bepalen van de
relatieve belangrijkheid van de structurele appartementskarakteristieken met oog op stratificatie is een vierde
aspect in het onderzoek. De eigenlijke stratificatie is het vijfde onderdeel dat wordt behandeld. Vervolgens
gebeurt een vergelijking qua belangrijkheid van de karakteristieken en qua nauwkeurigheid en betrouwbaarheid
van de ANFIS – modellen ten opzichte van regressiemodellen. Tot slot worden de punten die ruimte bieden voor
verder onderzoek besproken.
23
1. Dataset voorbereiden
Vooraleer de eigenlijke voorbereiding van de dataset te starten wordt de database besproken. Een eerste stap
in de voorbereiding van de dataset is het verwijderen van rijen met lege velden. Vervolgens worden rijen met
extreme waarden verwijderd. Nadien gebeurt een indexering van de verkoopprijzen van de appartementen. Ten
slotte worden de bestanden gekoppeld.
1.1 Database
De dataset ‘Origineel.xls’ en ‘Buurt- en omgevingskenmerken.xls’ werden door de promotoren ter beschikking
gesteld voor dit onderzoek. De database ‘Origineel.xls’ bevat de gegevens van 44207 appartementen in het
Brussels Hoofdstedelijke Gewest. Deze appartementen werden verkocht tussen 2003 en 2008. Het bestand
‘Buurt- en omgevingskarakteristieken’ bevat 31920 records. Een overzicht van alle gegevens/variabelen per
bestand wordt gegeven.
Variabele Verklaring dakte Datum van verkoop van het appartement kavg Kadastrale afdeling van de gemeente
sec Kadastrale sectie
grond Perceelgrondnummer
bis Perceelnummer - bisnummer
aard Aard volgens karakter
aakte Aard volgens de akte
nsr Straatnummer
straat Straatnaam
nr Huisnummer
ind Appartementsgebouw met of zonder lift.
bjr Jaar waarin de bouw van het appartement beëindigd is
wijzig Jaar waarin de laatste renovatie/wijziging in het appartement heeft plaatsgevonden
nml Kwaliteit van het appartement
gar Aantal garages behorende bij de eigendomsakte van het appartement
cv Aanwezigheid Centrale Verwarming
bk Aantal badkamers
wgl Aantal zelfstandige woongelegenheden
wpl Aantal woonplaatsen
nopp Nuttige vloeroppervlakte
opp Oppervlakte van het kadastraal perceel oppa Oppervlakte volgens de akte
soort Soort Verkoop
prijs Verkoopprijs van het appartement
mw Meerwaarde
schatting Geschatte waarde van het appartement
w11 Waarde van het appartement
lasten Lasten
voordelen Voordelen
tarief Tarief in %
mprijs Prijs m / a
24
mmw Meerwaarde m / a
mschatting Schatting m / a
mw11 Waarde van het appartement m / a
mlasten Lasten m / a
mvoordelen Voordelen m / a
gprijs Prijs van de grond
gmw Meerwaarde van de grond
gschatting Geschatte waarde van de grond
gw11 Waarde van de grond
glasten Lasten van de grond
gvoordelen Voordelen van de grond
cprijs Prijs van de constructie
cmw Meerwaarde van de constructie
cschatting Geschatte waarde van de constructie
cw11 Waarde van de constructie
clasten Lasten van de constructie
cvoordelen Voordelen van de constructie
teller Aantal betrokken percelen
ki Kadastraal Inkomen behorende bij het appartement Tabel 1: Gegevens in het bestand Origineel.xls (Excel)
Variabele Verklaring
wijknaam wijknaam
wijknummer wijknummer
straatnaam straatnaam
kantoordichtheid kantoordichtheid (m²/km²)
parkeermogelijkheden bezettingsgraad van de parkeermogelijkheden langs de weg (van 10u30 tot 24u in %)
av aandeel vreemdelingen (%)
kinderopvangplaatsen aantal kinderopvangplaatsen per kind (plaats per kind)
agg aandeel geklasseerde gebouwen (per 1000 in %)
alh aantal lokale handelszaken per inwoner (per 1000)
awe aandeel woningen bewoond door eigenaar (%)
avw aantal vertrekken per woning
ggh gemiddelde grootte van de huishoudens (personen)
gow gemiddelde oppervlakte per woning (m²)
werkloosheidsgraad werkloosheidsgraad (%) Tabel 2: Gegevens in het bestand Buurt- en omgevingskenmerken.xls (Excel)
Kolommen van variabelen die niet relevant zijn voor het verdere onderzoek zoals bijvoorbeeld huisnummers of
waarvoor geen/te weinig gegevens beschikbaar zijn worden in beide files gewist. De bestanden worden
opgeslaan onder de naam ‘Origineel_bewerkt1.xls’ en ‘Buurt- en omgevingskenmerken_bewerkt1.xls’. Een
overzicht van de overgebleven variabelen per bestand wordt gegeven.
25
Variabelen bestand ‘Origineel’
Variabelen bestand ‘Buurt- en
omgevingskenmerken’
dakte straatnaam
straat kantoordichtheid
ind parkeermogelijkheden
bjr av
gar kinderopvangplaatsen
cv agg
bk alh
wpl awe
nopp avw
prijs ggh
ki gow
werkloosheidsgraad Tabel 3: Overgebleven variabelen (Excel)
1.2 Rijen met lege velden verwijderen
De rijen waarin zich minstens een leeg veld bevindt worden verwijderd omdat Matlab geen bewerkingen kan
uitvoeren op lege velden. Dit gebeurt door alle gegevens te selecteren (CTRL + A) en te drukken op F5. Vervolgens
wordt er in het verschenen dialoogvenster op ‘Speciaal…’ geklikt. Het dialoogvenster ‘Selecteren speciaal’ opent
zich. Klik ‘Lege waarden’ aan en druk op ‘OK’.
Figuur 1: Selectie lege velden (Excel)
26
Nu zijn alle lege velden in het bestand geselecteerd. Om de rijen te verwijderen met lege velden wordt op het
tabblad ‘Verwijderen’ en vervolgens ‘Bladrijen verwijderen’ geklikt. De studie uitgevoerd door Guan et al.
verwijderde eveneens alle records met ontbrekende waarden (Guan, J., et al, 2014).
Figuur 2: Rijen verwijderen met lege velden (Excel)
Het bestand ‘Origineel_bewerkt1.xls’ gaat zo van 44.207 naar 43.164 records. Het bestand ‘Buurt- en
omgevingskenmerken_bewerkt1.xls’ bevat geen lege velden. Het aangepast bestand ‘Origineel_bewerkt1.xls’
wordt opgeslaan onder ‘Origineel_bewerkt2.xls’.
1.3 Rijen met extreme waarden verwijderen
Extreme waarden buiten beschouwing laten zorgt voor het bekomen van betere modellen omdat de
parameterschattingen meer stabiel zijn (McGreal, 1998). De voorwaardelijke grenzen worden analoog genomen
als in het gevoerd onderzoek door M. Dewulf en T. Provoost waarin dezelfde dataset werd gebruikt (Dewulf M.
en Provoost T., 2012). Rijen met extreme waarden worden in het bestand ‘Origineel_bewerkt2.xls’ verwijderd
op basis van de volgende gestelde voorwaarden:
Voorwaarde Aantal records voor Aantal records na Procentuele verwijdering
bouwjaar < 1900 43164 36989 14,3
aantal garages > 3 36989 36696 0,8
aantal badkamers > 3 36696 36496 0,5
aantal badkamers = 0 36496 35893 1,7
aantal woonplaatsen > 6 35893 34207 4,7
nuttige oppervlakte < 10 34207 34160 0,1
nuttige oppervlakte > 213 34160 33931 0,7
prijs < 25000 33931 32317 4,8
prijs > 600000 32317 32237 0,2
kadastraal inkomen > 4055 32237 32136 0,3
kadastraal inkomen < 300 32136 32094 0,1 Tabel 4: Verwijderen extreme waarden (Excel)
27
Dit gebeurt door per voorwaarde de overeenkomstige variabelkolom te ordenen en nadien de rijen volgens de
gestelde voorwaarde te verwijderen. Selecteer alle gegevens (Ctrl + A). Klik linkermuisknop, ‘Sorteren’ en
‘Aangepast sorteren…’. Het volgend dialoogvenster opent zich:
Figuur 3: Werkwijze verwijderen extreme waarden (Excel)
Na alle voorwaarden te hebben beschouwd is de dataset met 25,6 % kleiner geworden tot 32094 records.
Opslaan gebeurt onder de naam ‘Origineel_bewerkt3.xls’.
1.4 Indexeren verkoopprijs
De verkoopprijzen van de appartementen moeten geïndexeerd worden naar het jaar 2015 voor een correcte
verwerking van de prijsgegevens. De actualisering van de prijzen gebeurt met een ABEX-index, uitkomend per
jaar in mei en november. ABEX of Associatie van Belgische EXperten is een multidisciplinaire beroepsvereniging
van deskundigen en consultants. De verkoopprijzen in de dataset zijn vastgesteld op aktedatums tussen januari
2003 en juli 2008. Om alle prijsdata te kunnen indexeren zijn de ABEX-indexen nodig vanaf november 2002 tot
de laatst verschenen index in november 2014.
28
Jaar Index in mei Index in november
2002 540 547
2003 552 560
2004 579 590
2005 596 612
2006 621 648
2007 654 665
2008 692 695
2009 684 670
2010 673 690
2011 694 705
2012 711 729
2013 730 739
2014 744 745 Tabel 5: ABEX-index 2002-2014 (http://www.ABEX.be)
De kolom met variabele ‘dakte’ wordt gebruikt om de gepaste ABEX-indexen aan de verkoopprijs te linken.
Vervolgens wordt de kolom ‘actuele verkoopprijs’ berekenend volgen de formule:
Actuele verkoopprijs = ( verkoopprijs
ABEX−index op de aktedatum ) * actuele ABEX - index
Aktedatum ABEX-index
van januari 2003 tot mei 2003 547
van mei 2003 tot november 2003 552
van november 2003 tot mei 2004 560
van mei 2004 tot november 2004 579
van november 2004 tot mei 2005 590
van mei 2005 tot november 2005 596
van november 2005 tot mei 2006 612
van mei 2006 tot november 2006 621
van november 2006 tot mei 2007 648
van mei 2007 tot november 2007 654
van november 2007 tot mei 2008 665
van mei 2008 tot november 2008 692 Tabel 6: ABEX-index volgens aktedatum (Excel)
De variabele leeftijd wordt ten slotte ook berekend volgens de volgende formule:
Leef = 2015 - bjr
29
Het bestand wordt opgeslaan onder de naam ‘Origineel_bewerkt4.xls’.
1.5 Bestanden koppelen
De bestanden ‘Origineel_bewerkt4.xls’ en ‘Buurt- en omgevingskenmerken_bewerkt1.xls’ worden
samengevoegd door de keyvariabele ‘straat’ en ‘straatnaam’. Omdat er straatnamen voorkomen in de dataset
‘Origineel_bewerkt4.xls’ die niet voorkomen in het bestand ‘Buurt- en omgevingskenmerken_bewerkt1.xls’ gaat
de uiteindelijke inputfile voor Matlab van 32094 naar 31920 records. De voorbereide dataset wordt opgeslaan
onder de naam ‘InputMatlab.xls’.
30
2. Dataset inlezen
Via ‘Import Data’ wordt het bestand ‘InputMatlab.xls’ geselecteerd. Alle variabelen worden ingelezen in Matlab
als kolommatrixen. Ze zijn terug te vinden onder ‘Workspace’.
Figuur 4: Inlezen gegevens (Matlab)
Figuur 5: Variabelen als kolommatrixen in workspace (Matlab)
31
De kolommatrixen van de hulpvariabelen ‘ABEX’, ‘bjr’, ‘straatnaam’ en ‘prijs’, gebruikt ter voorbereiding van de
dataset, worden gewist. Uiteindelijk blijven er negentien 31920x1 – matrixen over. Negen variabelen zijn
afkomstig uit het bestand ‘Origineel.xls’ en tien uit de file ‘Buurt- en omgevingskenmerken.xls’.
Figuur 6: Kolommatrixen voor het onderzoek (Matlab)
De matrix ‘allevariabelen’ wordt aangemaakt. Het is een 31920x19 - matrix die de gegevens voot 31920
appartementen bevat. Het zijn achtereenvolgens de variabelen: leef, nopp, ki, wpl, bk, gar, cv, ind,
kantoordichtheid, parkeermogelijkheden, av, agg, alh, awe, avw, ggh, gow, werkloosheidsgraad en
actueleverkoopprijs.
Figuur 7: Aanmaak matrix 'allevariabelen' (Matlab)
32
Het is deze matrix die het vertrekpunt is voor toekomstige bewerkingen. De matrix ‘allevariabelen’ staat wel
nog alfabetisch gerangschikt naar de straatnaam, een rangschikking die nodig was om de twee excell-files aan
elkaar te linken. Een randomgeneratie wordt bekomen door een extra matrix ‘random’ in te voegen met het
commando:
Commando 1: Genereren van de rijmatrix random met willekeurig geordende getallen, evenveel als de lengte van de matrix allevariabelen (Matlab)
De bekomen matrix random is een rijmatrix met een aantal getallen, evenveel zoals de lengte van de matrix
allevariabelen, willekeurig geordend. De bewerking ‘Transpose’ maakt van de rijmatrix een kolommatrix. De
kolommatrix wordt ingevoegd vooraan de matrix ‘allevariabelen’. De rijen worden geordend volgens de kolom
random met de bewerking ‘Sort’. Vervolgens wordt de kolom random verwijderd uit de matrix allevariabelen.
Het resultaat is een matrix die 19 variabelen voor 31920 willekeurig geordende records bevat. De file waarmee
het onderzoek aanvat wordt opgeslaan onder ‘start.mat’.
Figuur 8: Matrix 'allevariabelen' willekeurig geordend (Matlab)
33
3. ANFIS
Het ‘Adaptive Neuro Fuzzy Inference System’ ofwel ANFIS werd reeds in de literatuurstudie algemeen behandeld
en gesitueerd. In dit onderdeel wordt dieper ingegaan op de structuur van een ANFIS – model. Ten eerste wordt
de werking van een fuzzy inference system (FIS) of fuzzy gevolgtrekking systeem besproken. Nadien komt de
opbouw van een ANFIS – model aan bod. Tot slot wordt een lidfunctie, een belangrijk onderdeel van de ANFIS -
structuur, nader toegelicht.
3.1 FIS - werking
Bij een fuzzy gevolgtrekkend systeem (FIS) ondergaan de inputvariabelen eerst een fuzzificatie. Onder fuzzificatie
wordt het toekennen van lidfuncties of membershipfuncties aan alle inputvariabelen verstaan. Vanuit de
lidfuncties worden de regels opgesteld. Als aan bepaalde voorwaarden/regels wordt voldaan dan komt een
bepaalde output (if … then …). De gevolgtrekkende machine heeft als input de regelbasis. De bekomen output
ondergaat ten slotte defuzzificatie. Defuzzificatie is het proces waarbij een lidfunctie terug wordt omgezet
(Kusan, H., et al., 2010).
Figuur 9: FIS – werking (Kusan, H., et al., 2010)
De ‘Adaptive Neuro’ in het ANFIS – model staat voor aangepast of geadapteerd door middel van neurale
netwerken. De voorwaardelijke parameters van de lidfuncties worden bepaald door het gebruik van neurale
netwerken.
34
3.2 Structuur
Het anfis – model is opgebouwd uit vijf layers. De gebruikte formules en notaties die volgen komen uit de paper
van Guan J. et al (Guan, J., et al., 2014). De eerste layer bevat N – aantal knopen met N = m x n, het product van
het aantal inputvariabelen (m) en het aantal lidfuncties per inputvariabele (n). De output van elke knoop is
gedefinieerd als:
met i = 1, m, j = 1, n en waar µij de jde lidfunctie is van de inputvariabele Xi gegeven als volgt:
met de voorwaardelijke parameters a, b en c.
De tweede layer stelt R ‘If – then’ - regels op met R = nm. De output van de tweede layer geeft de sterkte weer
van elke regel. Het is het product van al de inputs als volgt:
voor k = 1,R met R als aantal regels.
Layer drie normaliseert de gewichtsfactor van elke inputknoop k als volgt:
met k = 1, R.
Layer vier vertegenwoordigt een gewogen waarde als volgt:
35
waar fk de output is van de kde fuzzy regel als volgt:
waar {pi,k , rk} de gevolgtrekkende parameters zijn.
De vijfde layer is uiteindelijk opgebouwd uit één knoop die een output F creëert als som van alle gewogen outputs
van de voorgaande layer als volgt:
Figuur 10: ANFIS – structuur (Guan, J., et al., 2014)
De techniek combineert het voordeel van een fuzzy gevolgtrekking systeem, namelijk de taalkundige expressie,
met het voordeel van een neuraal netwerk dat getraind kan worden en op die manier zelflerend en
zelfverbeterend is. De techniek werd voorgesteld door Jang in 1993 (Jang, J. S. R., 1993).
36
3.3 Lidfunctie
De fuzzy of vage logica is een uitbreiding van de Boleaanse logica. De Boleaanse logica heeft een discreet
karakter, iets is waar of onwaar. Een appartement is bijvoorbeeld groot of niet groot. De fuzzy logica daarintegen
heeft nog waarheidswaarden daartussenin, een appartement kan bijvoorbeeld met een waarheid van 1/3 groot
zijn. Groot is hier de taalkundige expressie die de grootte omschrijft van de fuzzy variabele oppervlakte.
Lidfuncties of membershipfuncties geven voor elke variabelwaarde weer in welke graad het element lid is van
de verzameling, ze worden meestal aangeduid door µ(x). Een lidfunctie die aan alle variabelwaarden waarden
tussen 0 en 1 toekent vormen fuzzy sets. Één bepaalde variabele kan meerdere lidfuncties hebben. Een mogelijke
definitie voor een groot appartement zijn alle appartementen met een oppervlakte groter dan 100 m².
Onderstaande grafieken geven de verzamelingen/sets weer beschreven door de lidfunctie ‘groot’ gedefinieerd
volgens de Boleaanse – en de vage logica. De Boleaanse logica vertoont scherpe grenzen bij de overgang van
klein naar groot terwijl bij de vage logica een vaag overgangsgebied ontstaat.
Figuur 11: Scherpe verzamelingen van een groot appartement (Matlab)
Figuur 12: Vage verzamelingen van een groot appartement (Matlab)
37
4. Bepalen relatieve belangrijkheid structurele karakteristieken
Vooraleer de neuro - fuzzy designer aan te roepen in Matlab wordt in een eerste punt ‘Vooraf’ de data
klaargemaakt. Ten tweede wordt het inladen van de traindata in de neuro – fuzzy designer besproken.
Vervolgens komt de werkwijze voor het genereren en het opmaken van het fuzzy gevolgtrekking systeem aan
bod. Het trainen van het model is een vierde item dat wordt behandeld. Nadien wordt beschreven hoe het model
wordt gevalideerd. Het testen van het model is een voorlaatste onderdeel in dit hoofdstuk. Ten slotte wordt uit
het model de relatieve belangrijkheid van de structurele karakteristieken bepaald.
Vanaf punt 2 (inladen traindata) tot en met punt 6 (testen model) start ieder punt met een printscreen van de
neuro – fuzzy designer. Dit om de lezer de verschillende stappen overzichtelijk weer te geven bij het doorlopen
van de neuro – fuzzy designer.
4.1 Vooraf
Dit onderzoeksgedeelte heeft als doel de relatieve belangrijkheid van de structurele
appartementskarakteristieken te bepalen met oog op stratificatie. Stratificatie is het opdelen van de dataset in
subsets op basis van een bepaalde inputvariabele. In de 31920x19 – matrix ‘allevariabelen’ bevinden de
structurele karakteristieken zich in de eerste acht kolommen. Het zijn achtereenvolgens leef, nopp, ki, wpl, bk,
gar, cv en ind. De karakteristieken gar (garage), cv (centrale verwarming) en ind (lift) lenen zich er minder toe om
in de fuzzy set theorie te gebruiken. Een appartement heeft wel of geen garage, wel of geen centrale verwarming
en is voorzien van wel of geen lift. Fuzzificatie toepassen op die variabelen zou zorgen voor onlogische
uitdrukkingen in de regels hoewel het modelmatig perfect kan. Een appartement zou dan bijvoorbeeld met een
waarheid van 0,8 centrale verwarming kunnen hebben. Om de regels op een logische manier te kunnen
interpreteren wordt ervoor gekozen deze variabelen buiten beschouwing te laten in dit onderzoek. De vijf inputs
voor het ANFIS – model zijn de leeftijd, de nuttige oppervlakte, het kadastraal inkomen, het aantal woonplaatsen
en het aantal badkamers van een appartement. De matrix ‘vijfinputs’ is een 31920x6 – matrix. Het is een matrix
die voor 31920 appartementen de gegevens van vijf structurele karakteristieken en de actuele verkoopprijs
bevat, bekomen uit de matrix ‘allevariabelen’.
De data voor het ANFIS – model worden ingegeven als matrixen waarin de eerste kolommen de verschillende
inputvariabelen zijn en de laatste kolom als output dient. Het model vraagt train-, check- en testdata. De
traindata wordt gebruikt om het model te trainen. De checkdata is belangrijk om het bekomen model te
valideren. Op die manier worden mogelijke overfitting van het model of een slecht model duidelijk. De testdata
evalueert het model. De matrix ‘vijfinputs’ bestaande uit de gegevens van 31920 appartementen worden
onderverdeeld in een train-, check- en testmatrix met als grootte respectievelijk 40%, 30% en 30% van de 31920
38
records. De keuze voor een 40-30-30 onderverdeling gebeurt naar analogie van een gevoerd onderzoek door
Guan et al (Guan et al., 2014).
40%, 30% en 30% van de 31920 records in de matrix ‘vijfinputs’ is respectievelijk van record 1 tot 12768, van
record 12769 tot record 22344 en van record 22345 tot 31920. De matrix ‘train’ wordt bekomen door een
deelmatrix uit de matrix ‘vijfinputs’ te nemen met als eerste argument het rijdeel en als tweede argument het
kolomdeel. In het geval voor de matrix ‘train’ is dit van rij 1 tot rij 12768 en van kolom 1 tot 6. De matrixen ‘check’
en ‘test’ worden op analoge wijze bekomen.
Commando 2: Genereren van de matrixen ‘train’, ‘check’ en ‘test’ uit de matrix vijfinputs (Matlab)
Figuur 13: Train-, check- en testdata in de workspace (Matlab)
De file wordt opgeslaan onder de naam ‘vijfinputs.mat’.
Via het volgend commando wordt de neuro – fuzzy designer aangeroepen:
Commando 3: Aanroepen van de neuro – fuzzy designer (Matlab)
Een tweede mogelijke manier om de neuro – fuzzy designer te openen is door ‘Neuro – Fuzzy Designer’ onder
‘Control System Design and Analysis’ via ‘App’ in de taakbalk aan te klikken.
Figuur 14: Aanroepen van de neuro - fuzzy designer (Matlab)
39
Het volgend dialoogvenster opent zich:
Figuur 15: Dialoogvenster neuro - fuzzy designer (Matlab)
40
4.2 Traindata inladen
Figuur 16: Overzicht neuro – fuzzy designer (Matlab)
In een eerste stap wordt de traindata vanuit de workspace het model ingeladen. Onder ‘Load data’ wordt bij
‘Type’ ‘Training’ aangeklikt. Vervolgens wordt onder ‘From’ ‘Worksp.’ aangeduid. Gegevens inladen vanuit een
file zijn eveneens mogelijk. Klik op ‘Load Data…’
Figuur 17: Traindata inladen (Matlab)
41
Typ de naam van de gepaste matrix uit de workspace, hier ‘train’. Klik ‘OK’.
Figuur 18: Variabelnaam ingeven (Matlab)
De actuele verkoopprijzen voor de 12768 appartementen uit de matrix ‘train’ worden grafisch weergegeven door
middel van blauwe cirkels. Op de horizontale as ‘data set index’ staat het aantal records. De verticale as ‘Output’
geeft voor iedere record de overeenkomstige actuele verkoopprijs weer.
Figuur 19: Ingeladen traindata (Matlab)
42
4.3 FIS
Figuur 20: Overzicht neuro - fuzzy designer (Matlab)
4.3.1 Genereren
Een tweede stap is het genereren van het fuzzy gevolgtrekking systeem (FIS). Dit kan door gridpartitie of
subclustering. Gridpartitie en subclustering zijn twee clusteringtechnieken. Gridpartitie deelt de inputruimte op
in rechthoekige subruimtes. Bij subclustering wordt elk datapunt beschouwd als een potentiele clustercenter
(Gerek, I. H. L., 2014). In dit onderzoek wordt voor gridpartitie gekozen. Dit omdat een gevoerd onderzoek door
Gerek I. H. L., waarin de huisprijs wordt beoordeeld op basis van deze twee verschillende adaptieve neuro – fuzzy
technieken, de techniek gebaseerd op gridpartitie de beste resultaten oplevert (Gerek, I. H. L., 2014). Om
gridpartitie te gebruiken moet het aantal inputvariabelen klein zijn met een maximum van zes (Gerek, I. H. L.,
2014). Er kan eveneens een reeds gegeneerd model worden ingeladen vanuit een file of de workspace. Klik op
‘Generate FIS …’.
43
Figuur 21: FIS genereren (Matlab)
Het volgend dialoogvenster wordt geopend:
Figuur 22: Default waarden aantal lidfuncties per inputvariabele, de vorm van de lidfuncties en het type outputlidfunctie (Matlab)
Hier is het de bedoeling voor elke inputvariabele het aantal lidfuncties (‘Number of MF s’) en het type lidfunctie
(‘MF Type’) in te geven. Voor de outputvariabele wordt het type van de lidfunctie (‘MF Type’) aangeduid. De
default waarden onder ‘INPUT’ staan op 3 lidfuncties voor het aantal lidfuncties voor elke inputvariabele met als
type voor de lidfunctie ‘trimf’ (‘triangular membership function’). Met type wordt de vorm bedoeld. Een driehoek
en een trapezium zijn voorbeelden van twee mogelijke vormen. Er worden 2 lidfuncties per
appartemenskarakteristiek voorzien. Ze worden ingegeven gescheiden door een backspace. Het aantal
44
lidfuncties per inputvariabele hoeft niet noodzakelijk aan elkaar gelijk te zijn. Voor het lidfunctietype wordt
Gaussiaans genomen. Onder ‘OUTPUT’ wordt voor het type lidfunctie de default waarde ‘constant’ gebruikt.
Er worden 2 lidfuncties per inputvariabele gekozen analoog aan gevoerd onderzoek door Guan et al. en Gerek I.
H. L. (Guan, J., et al., 2008; Guan, J., et al., 2014; Gerek, I. H. L., 2014). ‘gbellmf’ en ‘gaussmf’ kunnen als de meest
toegepaste type lidfuncties die worden gegeneraliseerd worden gezien (Gerek, I. H. L., 2014). Net zoals in het
gevoerd onderzoek van Gerek I. H. L. wordt in dit onderzoek als lidfunctietype Gaussiaans gekozen. In zijn
onderzoek gebruikte hij ook bij één model voor alle inputvariabelen het lidfunctietype ‘trimf’ (‘triangular
membership function’) maar dit model presteerde slechter ten opzichte van het Gaussiaanse (Gerek, I. H. L.,
2014).
Figuur 23: Ingeven aantal lidfuncties per inputvariabele, de vorm van de lidfuncties en het type outputlidfunctie (Matlab)
Klik ‘OK’. Het fuzzy gevolgtrekking systeem wordt nu gegenereerd.
45
Figuur 24: Gegenereerd fuzzy gevolgtrekking systeem (FIS) (Matlab)
Onder ‘ANFIS Info.’ staan het aantal inputvariabelen (5), het aantal outputvariabelen (1) en het aantal lidfuncties
per inputvariabele (2 2 2 2 2) weergeven.
Figuur 25: ANFIS - info (Matlab)
46
4.3.2 Opmaak
Onder opmaak wordt het benoemen van de inputvariabelen, de outputvariabele en de lidfuncties verstaan.
Verder komen in dit onderdeel de daaruit voortvloeiende regels aan bod. Tot slot wordt de structuur van het
bekomen ANFIS – model getoond.
De namen van de inputvariabelen en de outputvariabele worden in het FIS – systeem ingegeven. Klik op ‘FIS
Properties…’ onder ‘Edit’.
Figuur 26: Openen FIS – properties (Matlab)
47
Het volgend dialoogvenster opent zich:
Figuur 27: Default namen inputvariabelen en outputvariabele (Matlab)
48
Klik achtereenvolgens alle inputvariabelen en de outputvariabele aan. Wijzig de naam onder ‘Name’.
Figuur 28: Ingeven inputvariabelnamen en outputvariabelnaam (Matlab)
49
Figuur 29: Inputvariabelnamen en outputvariabelnaam benoemd (Matlab)
Afhankelijk van het type van gevolgtrekking kunnen de fuzzy gevolgtrekking systemen ingedeeld worden in drie
soorten: Mamdani’s systeem, Sugeno’s systeem en Tsukamoto’s systeem (Gerek, I. H. L., 2014). De neuro – fuzzy
designer maakt gebruik van het type Sugeno. Klik op ‘Close’ nadat alle variabelnamen zijn ingesteld.
50
Vooraleer het fuzzy gevolgtrekking systeem te trainen worden de lidfuncties opgemaakt. Klik onder ‘Edit’ op
‘Membership Functions…’.
Figuur 30: Openen membership functions (Matlab)
51
Het volgend dialoogvenster opent zich:
Figuur 21: Dialoogvenster membership function editor (Matlab)
Alle lidfuncties worden per inputvariabele benoemd onder ‘Name’. Onder ‘Range’ wordt de minimale en
maximale waarde weergeven van de variabele. De ‘Display Range’ is het interval voor de x-as waarop de
lidfuncties worden afgebeeld. Dit is logischerwijze gelijk aan de ‘Range’. Onder ‘Params’ staan de
beginparameters ingesteld van de lidfuncties. Er volgt een overzicht van alle lidfuncties en de output.
52
Figuur 32:Default lidfuncties jong en oud van de inputvariabele leeftijd (Matlab)
Bij de inputvariabele leeftijd zien we de lidfuncties ‘jong’ en ‘oud’. Ze zijn van het Gaussiaans type. De leeftijd
variërt vanaf 8 jaar tot en met 84 jaar. De beginparameters voor de lidfunctie ‘jong’ staan ingesteld op [32.27 8].
Een analoge behandeling kan gemaakt worden voor de andere inputvariabelen.
53
Figuur 33: Default lidfuncties klein en groot van de inputvariabele nuttige oppervlakte (Matlab)
Figuur 34: Default lidfuncties laag en hoog van de inputvariabele kadastraal inkomen (Matlab)
54
Figuur 35: Default lidfuncties weinig en veel van de inputvariabele woonplaatsen (Matlab)
Figuur 36: Default lidfuncties weinig en veel van de inputvariabele badkamers (Matlab)
55
Bij de outputvariabele ‘actuele verkoopprijs’ staan de outputs voor alle mogelijke combinaties van de lidfuncties.
Het zijn er 32 (2^5). De outputs volgen uit de 32 mogelijke regels. Ze worden aangeduid met de benaming mf1
tot en met mf32.
Figuur 37: 32 mogelijke outputs volgend uit alle mogelijke lidfunctiecombinaties (Matlab)
De taalkundige uitdrukking van de 32 regels wordt bekomen door onder ‘Edit’ op ‘Rules…’ te klikken.
56
Figuur 38: Openen regels (Matlab)
57
Het volgend dialoogvenster opent zich:
Figuur 39: Dialoogvenster regel editor (Matlab)
Er is de mogelijkheid tussen de operatoren ‘or’ en ‘and’ in de regels. In dit onderzoek worden voor alle operatoren
‘and’ gebruikt. Een appartement bezit logischerwijze sowieso een lidfunctie van alle vijf de structurele
karakteristieken zodat er geen ‘or’ wordt gebruikt. De default waarde voor het gewicht van elke regel staat op 1.
Er volgt een overzicht van de taalkundige expressie van de 32 mogelijke regels. De bekomen output ‘mf1’ in regel
1 wordt bekomen als volgt:
als de leeftijd jong is en de nuttige oppervlakte is klein en het kadastraal inkomen is laag en het aantal
woonplaatsen is weinig en het aantal badkamers is weinig dan heeft de actuele verkoopprijs ‘mf1’
Merk op aangezien jong, klein, laag, weinig en weinig lidfuncties betreffen wordt dit telkens als ‘een graad van
waarheid jong’, ‘een graad van waarheid klein’, ‘een graad van waarheid laag’, ‘een graad van waarheid weinig’
en ‘een graad van waarheid weinig’ geïnterpreteerd.
58
Figuur 40: Taalkundige expressie van de 32 regels (Matlab)
59
Door op ‘Structure’ te klikken onder ‘ANFIS Info.’ opent zich een dialoogvenster waarin de structuur van het
ANFIS – model wordt weergeven.
Figuur 41: Structuur van het bekomen ANFIS - model openen (Matlab)
60
De input bestaat uit vijf knopen. Het zijn de inputvariabelen leeftijd, nuttige oppervlakte, kadastraal inkomen,
aantal woonplaatsen en aantal badkamers. Elk van deze variabelen heeft twee lidfuncties waardoor er tien
lidfunctieknopen ontstaan. Het koppelen van lidfuncties aan inputvariabelen heet de fuzzificatie. Vanuit die 10
knopen kunnen 32 mogelijke regels worden gevormd. Vanuit die 32 mogelijke regels worden 32 mogelijke
outputlidfuncties gegenereerd. Sommatie van al de outputlidfuncties en defuzzificatie creëert de finale output
bestaande uit één knoop. Defuzzificatie is het proces waarbij een lidfunctie terug wordt omgezet naar
outputwaarden, wat hier actuele verkoopprijzen zijn.
Figuur 42: Structuur bekomen ANFIS - model (Matlab)
61
4.4 FIS trainen
Figuur 43: Overzicht neuro - fuzzy designer (Matlab)
Vooraleer het trainen van de lidfuncties in het fuzzy gevolgtrekking systeem, met behulp van neurale netwerken,
kan starten worden drie instellingen gevraagd. Het is de optimalisatiemethode (‘Optim. Method’), de
fouttolerantie (‘Error Tolerance’) en het aantal iteraties (‘Epochs’). Bij de optimalisatiemethode is er de keuze
tussen ‘hybrid’ of ‘backpropagation’. Hybrid en backpropagation zijn twee mogelijke manieren om de neurale
netwerken te laten itereren. De optimalisatiemethode wordt ingesteld op hybrid. Het trainen van het FIS –
systeem blijft duren totdat ofwel het aantal iteraties of epochs wordt bereikt ofwel de fouttolerantie wordt
bekomen. Door voor de fouttolerantie 0 te kiezen en het aantal iteraties op 500 in te stellen, kiezen we om het
model 500 herhalingen te trainen. Klik op ‘Train Now’.
62
Figuur 44: SEE traindata na 500 iteraties (Matlab)
In de neuro – fuzzy designer zien we de trainingsfout in functie van het aantal iteraties. De maat voor de fout is
de Standard Error of the Estimate (SEE).De SEE wordt herhaling na herhaling kleiner. Na 500 iteraties bedraagt
de SEE € 49155,1454.
63
Het getraind model na 500 iteraties wordt in de workspace opgeslaan. Volg het pad ‘Export’ en ‘To Workspace…’
onder ‘File’ in de werkbalk van de neuro – fuzzy designer. Het getraind model kan eveneens opgeslaan worden
in een file. Het dialoogvenster weergeven in figuur 46 opent zich. Als naam voor het getraind ANFIS - model
wordt ‘getraindmodel’ gekozen. Klik op ‘OK’.
Figuur 45: Getraind ANFIS - model opslaan (Matlab)
Figuur 46: Ingeven naam getraind ANFIS – model (Matlab)
64
Nadat het model is opgeslaan is het beschikbaar in de workspace. De eigenschappen van het ANFIS – model
worden bekomen door in de workspace te dubbelklikken op ‘getraindmodel’. De eigenschappen zijn terug te
vinden onder figuur 48.
Figuur 47: Getraindmodel in de workspace (Matlab)
Figuur 48: Eigenschappen getraind ANFIS - model (Matlab)
65
4.5 ANFIS valideren
Figuur 49: Overzicht neuro - fuzzy designer (Matlab)
De checkdata wordt gebruikt om het ANFIS – model te valideren. Bij de validatie van het model wordt duidelijk
na hoeveel iteraties overfitting van het model gebeurt. Een slecht model wordt eveneens aangetoond door
validatie.
Overfitting is het punt waarop de fout (SEE) van de checkdata niet meer afneemt maar begint toe te nemen bij
een nog steeds kleiner wordende fout (SEE) van de traindata. Vanaf dit punt zorgen bijkomende iteraties of
epochs dat de voorwaardelijke parameters van de lidfuncties teveel getraind worden door de neurale netwerken.
Er vindt overfitting van het model plaats. De neuro – fuzzy designer kiest automatisch de modelparameters na
het aantal iteraties waarbij de checkfout minimaal is (Matlab, 2015).
Een slecht opgebouwd model wordt duidelijk indien de fout van de checkdata ten opzichte van de fout van de
traindata relatief gezien veel groter is en/of indien de kleinste fout van de checkdata zich al voordoet na iteratie
1. In het eerste geval betekent dit dat er meer traindata nodig is. In het tweede scenario is er een aanpassing
66
vereist van de lidfunctiekeuzes, zowel qua aantal als qua vorm (Matlab, 2015). Voorgaand toont het belang van
het gebruik van checkdata aan.
De checkdata wordt op een analoge wijze als de traindata de neuro – fuzzy designer ingeladen:
Figuur 50: Checkdata inladen (Matlab)
Figuur 51: Ingeladen checkdata (Matlab)
67
De checkdata wordt weergeven in kruisvorm. Merk op dat de titel van het dialoogvenster niet meer ‘Neuro –
Fuzzy Designer: Untiteld’ maar ‘Neuro - Fuzzy Designer : getraindmodel’ is.
Nadat de checkdata ingeladen is wordt het aantal iteraties gekozen. We kiezen voor 2000 iteraties. Het aantal
iteraties is vrij te kiezen. Tijdens het checken van het model wordt duidelijk als 2000 iteraties genoeg zijn om het
model te valideren of als er nog meer iteraties nodig zijn. Belangrijk om weten is dat bij de start van het checken
van het model verder wordt getraind op het reeds bekomen model (getraindmodel). Met andere woorden:
iteratie 1 is hier eigenlijk iteratie 501, iteratie 1000 is eigenlijk iteratie 1001, enz. De neuro – fuzzy designer toont
nu zowel de fout (SEE) van de train- als de checkdata in functie van het aantal iteraties. Mocht de fout (SEE) van
de checkdata na iteratie 1 (eigenlijk iteratie 501) onmiddellijk groter worden, wat hier niet zo is, impliceert dit
niet noodzakelijk dat we hebben te maken met een slecht model. De minimale checkfout kon zich reeds
voorgedaan hebben tijdens iteratie 1 tot 500. Dit moet dan nader worden onderzocht door vanaf het trainen van
het model eveneens al de checkdata in te laden, zodat dan al zowel de fout (SEE) van de train- als checkdata
wordt weergeven in functie van het aantal iteraties. (Figuur 44) Indien de kleinste fout (SEE) van de checkdata
zich inderdaad voordoet na iteratie 1 hebben we te maken met een slecht opgebouwd model. Hoe dit kan
worden verholpen is reeds besproken hierboven. Geef 2000 iteraties in onder ‘Epochs’ en klik op ‘Train Now’.
Figuur 52: Valideren ANFIS - model (Matlab)
68
Het punt waarop de fout (SEE) van de checkdata terug groter wordt is na 1313 iteraties (eigenlijk 1813 iteraties).
Na 1312 iteraties (eigenlijk 1812 iteraties) bedraagt de SEE van de traindata € 48812,5 en van de checkdata €
51403,5. Na 1313 iteraties (eigenlijk 1813 iteraties) bedraagt de SEE van de traindata € 48812,2 en van de
checkdata € 51403,6. In Matlab worden tijdens het checken/trainen telkens de fouten van twee iteraties
weergegeven. Onder ‘1’ staan de fouten van de voorgaande iteratie, onder ‘2’ staan de fouten van de huidige
iteratie. De eerste kolom en tweede kolom zijn respectievelijk de SEE’s van de train- en checkdata. De fouten
staan weergeven in figuur 53.
Figuur 53: SEE train- en checkdata na 1812 en 1813 iteraties (Matlab)
Er wordt een overzicht getoond van de fouten (SEE’s) van de train- en checkdata in functie van het aantal
iteraties. Voor de nummering van de iteraties wordt 1 genomen bij de start van de training van het model. De
start van het checken (verder trainen) van het model is iteratie 501.
iteratie traindata SEE checkdata SEE
1 49229,5 51607,7
500 49155,1 51538,1
501 49155 51537,8
1802 48815,5 51403,5
1812 48812,5 51403,5
1813 48812,2 51403,6
2500 48720 51444,2 Tabel 7: Traindata SEE en checkdata SEE in functie van het aantal iteraties (Excel)
Figuur 54: ANFIS - info (Matlab)
69
Figuur 55: Traindata SEE en checkdata SEE voor 2000 iteraties (Matlab)
Figuur 56: SEE train- en checkdata na 2499 en 2500 iteraties (Matlab)
Het gecheckt model wordt opgeslaan onder ‘gechecktmodel’ op analoge wijze zoals het ‘getraindmodel’ werd
opgeslaan. Na de validatie van het model zijn alle voorwaardelijke parameters van de lidfuncties bepaald. De
voorwaardelijke parameters alsook een figuur van de lidfuncties zijn voor de vijf inputvariabelen leeftijd, nuttige
oppervlakte, kadastraal inkomen, woonplaatsen en badkamers terug te vinden in bijlage 1.
70
4.6 ANFIS testen
Figuur 57: Overzicht neuro - fuzzy designer (Matlab)
Op analoge wijze als de train- en checkdata wordt de testdata de neuro – fuzzy designer ingeladen.
Figuur 58: Testdata inladen (Matlab)
71
Figuur 59: Ingeladen testdata (Matlab)
De testdata, zijnde de 9576 actuele verkoopprijzen van appartementen in het Brussels Hoofdstedelijk Gewest,
worden weergeven als punten in de neuro – fuzzy designer. Vervolgens wordt de modeloutput geplot ten
opzichte van de test data. Klik onder ‘Plot against:’ op ‘Testing data’. Klik ‘Test Now’.
Figuur 60: Plot against testing data selecteren (Matlab)
72
Figuur 61: Modeloutput geplot ten opzichte van de test data (Matlab)
De modeloutput wordt weergeven door rode sterren. We zien op het eerste zicht zelf 1 negatieve waarde als
modeloutput voor de actuele verkoopprijs. De Standard Error of the Estimate (SEE) bedraagt € 50270. Het is de
SEE die de nauwkeurigheid van het model toont. Naast de nauwkeurigheid willen we eveneens de
betrouwbaarheid van het model kennen. Om de SEE en de betrouwbaarheid, uitgedrukt door de
determinatiecoëfficient R², te (her)berekenen zijn de 9576 actuele verkoopprijzen bekomen door het ANFIS –
model nodig. De matrix ‘modeloutput’ wordt bekomen met behulp van het commando ‘evalfis’. Het eerste
argument is de matrix ‘testinput’, het tweede argument is het ANFIS - model ‘geckecktmodel’. De matrix
‘testinput’ is dezelfde matrix als de matrix ‘test’ maar zonder de laatste kolom, de kolom van de actuele
verkoopprijs. De bekomen matrix ‘modeloutput’ is een 9576x1 – matrix die 9576 actuele verkoopprijzen bevat
gegenereerd door het ANFIS – model ‘gechecktmodel’. De file wordt opgeslaan onder de naam
‘getestmodel.mat’.
Commando 4: Genereren van de matrix ‘modeloutput’ genereren (Matlab)
73
Figuur 62:: Matrix modeloutput (Matlab)
De matrix ‘modeloutput’ wordt gekopieerd naar excel, samen met de laatste kolom uit de matrix ‘test’. Vanuit
enerzijds de kolom met de bekomen actuele prijswaarden uit het model en anderzijds de kolom van gegeven
actuele prijswaarden wordt de SEE en R² berekend. Hoe kleiner de modelfout (SEE) en hoe groter de
betrouwbaarheid (R²), hoe beter het opgebouwde model. Na berekening wordt voor de SEE € 50270 bekomen
en voor de betrouwbaarheid (R²) wordt 0,65 bekomen. De berekeningen zijn terug te vinden in de file ‘SEE en
R².xls’. De formules om SEE en R² te berekenen zijn opgenomen in bijlage. Om een idee te geven over de grootte
van de modelfout (SEE) toont grafiek 1 de spreiding van de prijsgegevens. Grafiek 2 toont een grafiek van de
spreiding van de prijsfout (Error). De prijsfout is het verschil tussen de gegeven verkoopprijs en de bekomen
verkoopprijs door het model. Verder staan de minimale – (min) en maximale (max) prijsfout vermeld, de
mediaanwaarde (med) van de prijsfouten, het gemiddelde (gem) van de prijsfouten en de standaardafwijking
(stdev) van de prijsfouten.
SEE (€) R²
model 1 50270 0,65 Tabel 8: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 1 (Excel)
74
Grafiek 1: Spreiding prijsgegevens model 1 (Matlab)
75
Grafiek 2: Spreiding prijsfout model 1 (Matlab)
76
4.7 Lijst relatieve belangrijkheid structurele karakteristieken
Het model 1 heeft een standaardafwijking van € 36084 en een betrouwbaarheid van 0,65. De inputvariabelen
van model 1 waren de leeftijd, de nuttige oppervlakte, het kadastraal inkomen, het aantal woonplaatsen en het
aantal badkamers van een appartement. Om de relatieve belangrijkheid van elke appartementskarakteristiek te
bepalen worden in model 1 achtereenvolgens de karakteristiek leeftijd, nuttige oppervlakte, kadastraal inkomen,
aantal woonplaatsen en aantal badkamers om de beurt weggelaten. Bijgevolg heeft model 2 als inputvariabelen
nuttige oppervlakte, kadastraal inkomen, aantal woonplaatsen en aantal badkamers. Het model 3 heeft als
inputvariabelen leeftijd, kadastraal inkomen, aantal woonplaatsen en aantal badkamers. Het model 4 heeft als
inputvariabelen leeftijd, nuttige oppervlakte, aantal woonplaatsen en aantal badkamers. Model 5 heeft als
inputvariabelen leeftijd, nuttige oppervlakte, kadastraal inkomen en aantal badkamers. Model 6, tot slot, heeft
als inputvariabelen de karakteristieken leeftijd, nuttige oppervlakte, kadastraal inkomen en aantal
woonplaatsen. De modellen 2 tot en met 6 hebben elk een nauwkeurigheid (SEE) en een betrouwbaarheid (R²).
Door de nauwkeurigheid en betrouwbaarheid van elk model te gaan vergelijken ten opzichte van model 1 wordt
de relatieve belangrijkheid van de karakteristieken bepaald.
De werkwijze voor het bekomen van model 2 tot en met model 6 alsook het verkrijgen van de nauwkeurigheid
(SEE) en betrouwbaarheid (R²) per model is analoog zoals bij model 1. Het enige verschil zit hem in het feit dat
het geen vijf maar vier inputvariabelen betreft. Er wordt telkens vertrokken vanaf het bestand ‘getestmodel.mat’.
Ten eerste worden de structures ‘getraindmodel’ en ‘gechecktmodel’ verwijderd in de workspace. Vervolgens
worden de matrixen ‘modeloutput’ en ‘prijsfout’ gewist in de workspace. In de matrixen ‘train’, ‘check’, ‘test’ en
‘testinput’ worden de kolommen verwijderd van de gegevens van de karakteristiek waarvoor de relatieve
belangrijkheid wordt gezocht. De neuro – fuzzy designer wordt aangeroepen. De train- en checkdata worden
ingeladen. Alle instellingen in de neuro – fuzzy designer verlopen analoog zoals bij model 1. Het enige verschil is
dat nu zowel het trainen en checken vanaf iteratie 1 gebeurt, terwijl bij model 1 het checken pas begon vanaf
iteratie 501. Er wordt op ‘Train Now’ geklikt. We blijven het model trainen tot op het punt dat de RMSE van de
checkdata groter wordt. Met trainen wordt het aanpassen van de voorwaardelijke parameters van de lidfuncties,
iteratie na iteratie, bedoeld, zoals eerder reeds aangehaald. Testen van de modellen gebeurt analoog zoals bij
model 1 alsook het bekomen van de nauwkeurigheid (SEE) en betrouwbaarheid (R²) van elk model. Het getrainde
en gecheckte model wordt telkens opgeslaan in de workspace onder ‘gechecktmodel’. Elk getest model wordt
opgeslaan met respectievelijk de volgende bestandsnamen: ‘getestmodelzonderleeftijd.mat’,
‘getestmodelzondernuttigeoppervlakte.mat’, ‘getestmodelzonderkadastraalinkomen.mat’,
‘getestmodelzonderwoonplaatsen.mat’ en ‘getestmodelzonderbadkamers.mat’. De berekeningen voor SEE en
R² voor elk model zijn terug te vinden in het bestand ‘SEE en R².xls’. De informatie omtrent de spreiding van de
prijsfout voor elk model alsook de bekomen lidfuncties voor elk model zijn terug te vinden in bijlage. In tabel 9
staat de nauwkeurigheid (SEE) en de betrouwbaarheid (R²) voor model 1 tot 6. Tabel 10 geeft het verschil in
77
nauwkeurigheid (SEE) en betrouwbaarheid (R²) weer ten opzichte van model 1 voor de modellen 2 tot en met 6.
Tabel 11 lijst de appartementskarakteristieken op volgens hun relatieve belangrijkheid, afgeleid uit tabel 10.
SEE (€) R²
model 1 50270 0,65
model 2 51154 0,63
model 3 51327 0,63
model 4 55496 0,57
model 5 50340 0,65
model 6 50474 0,64 Tabel 9: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 1 tot 6 (Excel)
SEE (€) R²
model 2 884 -0,01
model 3 1058 -0,02
model 4 5226 -0,08
model 5 70 0,00
model 6 204 0,00 Tabel 10: Verschil in nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 2 tot 6 ten opzichte van model 1 (Excel)
1 kadastraal inkomen
2 nuttige oppervlakte
3 leeftijd
4 badkamers
5 woonplaatsen Tabel 11: Relatieve belangrijkheid van de structurele appartementskarakteristieken (Excel)
Vooraleerst tabel 10 te interpreteren om van daaruit tabel 11 af te leiden herhalen we dat hoe kleiner de
standaardafwijking (SEE) en hoe groter de betrouwbaarheid (R²) is, hoe beter het model presteert. Daaruit volgt
dat hoe meer de standard error of the estimate (SEE) toeneemt en hoe minder de betrouwbaarheid (R²) wordt,
wanneer een bepaalde karakteristiek niet in beschouwing wordt genomen in het model, hoe meer invloed die
bepaalde karakteristiek op het model heeft. In model 4 is de karakteristiek ‘kadastraal inkomen’ niet opgenomen.
Dit zorgt ervoor dat het model € 5226 minder nauwkeurig en 8% minder betrouwbaar wordt ten opzichte van
model 1. Het is de belangrijkste karakteristiek van de vijf. Het model 3, waarin het kenmerk ‘nuttige oppervlakte’
buiten beschouwing is gelaten, heeft een SEE die € 1058 groter is dan model 1 in combinatie met de
betrouwbaarheid die 2% minder wordt. Het is het tweede belangrijkste kenmerk. Model 2 is opgebouwd zonder
de karakteristiek ‘leeftijd’, model 6 zonder de karakteristiek ‘badkamers’ en model 5 zonder de karakteristiek
‘woonplaatsen’. Een analoge redenering kan bij die modellen worden gemaakt in verband met de
78
nauwkeurigheid (SEE) en de betrouwbaarheid (R²) om ze verder te rangschikken naar hun belangrijkheid in het
model.
79
5. Stratificatie
Er wordt stratificatie toegepast op basis van het belangrijkste appartementskenmerk in model 1, het kadastraal
inkomen. De oorspronkelijke dataset wordt onderverdeeld in vier subdatasets van gelijke groottes. Er wordt
geopteerd voor een onderverdeling in vier subdatasets analoog zoals bij gevoerd onderzoek door Guan (Guan
J., et al., 2014). De datasets worden even groot genomen zodat een verschil in nauwkeurigheid (SEE) en
betrouwbaarheid (R²), van de vier verschillende modellen ten opzichte van elkaar, niet te wijten is aan een
verschil in grootte van gebruikte datasets maar enkel en alleen ten gevolge van de stratificatie.
5.1 Op basis van het kadastraal inkomen (KI)
Er wordt vertrokken vanuit het bestand ‘getestmodel.mat’. De volgende matrixen worden verwijderd:
‘getraindmodel’, ‘gechecktmodel’, ‘prijsfout’, ‘prijsgegevens’, ‘testinput’, ‘test’, ‘train’ en ‘check’. De matrix
‘kadastraal inkomen’ wordt aangemaakt. De spreiding van de kadastrale inkomens is weergeven in grafiek 4.
De matrixen ‘stratificatie1’ tot en met ‘stratificatie4’ worden aangemaakt. Ze delen de oorspronkelijke dataset
van 31920 records op in vier subdatasets met een grootte van elk 7980 records. De klassen worden als volgt
bepaald: [min,Q1], [Q1,med],[med,Q3] en [Q3,max]. Q1 en Q3 staat voor respectievelijk quartiel 1 en quartiel 3.
In tabel 12 staan overeenkomstig de waarden van het kadastraal inkomen en de record voor de grenzen van elk
Grafiek 3: Spreiding gegevens kadastraal inkomen (Matlab)
80
quartiel. Ze worden in Excel bepaald door de kadastrale inkomens te ordenen van klein naar groot. Het bestand
‘Kadastraal Inkomen.xls’ bevat de gegevens.
min Q1 med Q3 max
kadastraal inkomen 302 900 1147 1479 4048
record 1 7980 15960 23940 31920 Tabel 12: De grenzen van de quartielen volgens de waarde van kadastraal inkomen en de record (Excel)
De gegevens van de matrix ‘vijfinput’ worden eerst gerangschikt van klein naar groot volgens de kolom
‘kadastraal inkomen’. De commando’s om matrixen te genereren uit een andere matrix zijn analoog zoals in het
begin van het onderzoek reeds werd meegegeven. Vervolgens worden de records random in de vier
stratificatiematrixen verdeeld. De werkwijze om records te rangschikken volgens een kolom en random te
verdelen gebeurt analoog zoals reeds besproken.
Commando 5: Genereren van de matrix 'stratificatie1' tot en met 'stratificatie4' (Matlab)
Figuur 63: Records van de matrix ‘vijfinputs’ geordend van klein naar groot volgens het KI en de gegenereerde willekeurig geordende stratificatiematrixen in de workspace (Matlab)
81
Uit de vier willekeurig geordende stratificatiematrixen wordt een train-, check- en testdataset gehaald opnieuw
volgens een 40-30-30 verdeling. 40% en 30% van 7980 records zijn respectievelijk 3192 en 2394 records. Het
genereren van een train-, check- en testdataset voor elke subdataset gebeurt door de volgende commando’s:
Commando 6: Genereren train-, check- en testdatasets voor elke subdataset (Matlab)
De werkwijze voor het doorlopen van alle stappen in de neuro – fuzzy designer om het model op te bouwen
gebeuren op een analoge manier zoals reeds uitgebreid werd beschreven in punt vier van het onderzoek. Alle
instellingen blijven eveneens dezelfde: 2 Gaussiaanse lidfuncties per inputvariabele, voor het FIS wordt
gridpartitie gebruikt en het FIS wordt hybrid getraind. Het getraind en gecheckt ANFIS – model wordt telkens in
de workspace opgeslaan onder de naam ‘gechecktmodelstratificatienummer’. De nummers gaan van 1 tot 4,
respectievelijk voor het opgebouwd model 1 tot en met 4, uit de train-, check- en testmatrixen 1 tot en met 4.
Voor elke subdataset worden de volgende matrixen gegenereerd: ‘modeloutputnummer’,
‘prijsgegevensnummer’, ‘testinputnummer’ en ‘prijsfoutnummer’. Dit gebeurt op een analoge wijze zoals
beschreven in punt vier van het onderzoek. Het bestand wordt opgeslaan onder de naam ‘stratificatie.mat’. De
spreiding van de prijsgegevens, de spreiding van de prijsfouten (modelfouten) en de grafieken van de lidfuncties
van alle inputvariabelen na trainen en checken voor de vier modellen zijn terug te vinden in bijlage. De modellen
zijn genummerd van 7.1 tot en met 7.4. De berekeningen van de SEE en R² voor elk model staat in het bestand
‘SEE en R².xls’.
SEE (€) R²
model 7.1 35816 0,39
model 7.2 41792 0,17
model 7.3 47139 0,18
model 7.4 71708 0,44 Tabel 13: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 7.1 tot 7.4 (Excel)
82
Het trainen en checken van elk model gebeurt vanaf iteratie 1. De SEE van de checkdata bij de ANFIS – modellen
‘gechecktmodelstratificatie3’ en ‘gechecktmodelstratificatie4’ vertonen bij iteratie 1 reeds hun minimale
waarde. Dit impliceert dat het slechte modellen betreft. Het aantal lidfuncties van de inputvariabelen en/of hun
vorm dient te worden aangepast. De resultaten van de modellen 7.3 en 7.4 worden meegegeven in tabel 13,
maar ze worden in punt zes van het onderzoek ‘Vergelijking’ niet beschouwd aangezien het slecht opgebouwde
modellen betreft.
83
6. Vergelijking ANFIS - regressie
De bekomen resultaten in dit onderzoek worden vergeleken ten opzichte van de resultaten uit de masterproef
van Marieke Dewulf en Tine Provoost waar de techniek van regressie werd toegepast (Marieke Dewulf en Tine
Provoost, 2012). De overgenomen onderzoeksresultaten uit voorgaande masterproef zijn onder voorbehoud,
alsook de vergelijking. Ten eerste worden de bekomen resultaten uit de masterproef van Marieke Dewulf en Tine
Provoost weergeven. Vervolgens komen de resultaten uit dit onderzoek aan bod. Ten slotte volgt een vergelijking
van de resultaten van de beide technieken.
6.1 Resultaten regressiemodellen
Ten eerste komen de relatieve belangrijkheid van de karakteristieken aan bod. Vervolgens wordt de
nauwkeurigheid (SEE) en betrouwbaarheid (R²) van het beste regressiemodel meegegeven.
6.1.1 Relatieve belangrijkheid karakteristieken
1 nuttige oppervlakte
2 kadastraal inkomen
3 aandeel vreemdelingen
4 gemiddelde oppervlakte woning
5 aantal vertrekken per woning
6 aantal woonplaatsen
7 kantoordichtheid
8 garage
9 aandeel geklasseerde gebouwen
10 aantal badkamers
11 centrale verwarming
12 gemiddelde grootte huishoudens
13 werkloosheidsgraad
14 aandeel woningen bewoond door de eigenaar
15 bezettingsgraad parkeermogelijkheden
16 ouderdom appartement Tabel 14: Relatieve belangrijkheid karakteristieken (Marieke Dewulf en Tinne Provoost, 2012)
6.1.2 Nauwkeurigheid (SEE) en betrouwbaarheid (R²)
SEE (€) R²
beste model 33554 0,94 Tabel 15: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) beste regressiemodel (Marieke Dewulf en Tinne Provoost, 2012)
84
6.2 Resultaten ANFIS – modellen
Ten eerste komen de relatieve belangrijkheid van de structerele appartementskarakteristieken aan bod.
Vervolgens worden de nauwkeurigheid (SEE) en betrouwbaarheid (R²) van alle opgebouwde ANFIS – modellen
in dit onderzoek in tabelvorm weergeven.
6.2.1 Relatieve belangrijkheid karakteristieken
1 kadastraal inkomen
2 nuttige oppervlakte
3 leeftijd
4 badkamers
5 woonplaatsen Tabel 16: Relatieve belangrijkheid structurele appartementskarakteristieken (Excel)
6.2.2 Nauwkeurigheid (SEE) en betrouwbaarheid (R²)
SEE (€) R²
model 1 50270 0,65
model 2 51154 0,63
model 3 51327 0,63
model 4 55496 0,57
model 5 50340 0,65
model 6 50474 0,64
model 7.1 35816 0,39
model 7.2 41792 0,17 Tabel 17: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) model 1 tot model 7.2 (Excel)
Het toepassen van stratificatie leidt niet tot de verhoopte resultaten. De nauwkeurigheid (SEE) vergroot: € 35816
bij model 7.1 en € 41792 bij model 7.2 ten opzichte van € 50270 bij model 1. Echter vermindert de
betrouwbaarheid (R²) van de beide modellen bekomen door stratificatie sterk: model 7.1 heeft een
betrouwbaarheid van 0,39, voor model 7.2 is dit nog slechts 0.17 ten opzichte van een betrouwbaarheid van 0,65
voor model 1. Verder onderzoek specifiek gericht op de aard van de inputvariabelen om hierop gebaseerde
keuzes te maken voor het aantal lidfuncties en hun vorm voor elke inputvariabele, kan zorgen voor mogelijk een
betere prestatie van de ANFIS – modellen bekomen door stratificatie. Dat het aanpassen van het aantal
lidfuncties en hun vorm voor de inputvariabelen wenselijk is werd rechtstreeks aangetoond door het voorkomen
van de minimale SEE van de checkdata bij iteratie 1 voor de modellen 7.3 en 7.4. Het voorkomen van de minimale
SEE van de checkdata bij iteratie 1 impliceert twee slecht opgebouwde modellen. Ze worden in de vergelijking
daarom niet opgenomen.
85
6.3 Vergelijking
Er gebeurt eerst een vergelijking naar relatieve belangrijkheid van de structurele karakteristieken, vervolgens
naar nauwkeurigheid (SEE) en tot slot naar betrouwbaarheid (R²) toe, van de beide technieken.
6.3.1 Naar relatieve belangrijkheid structurele karakteristieken
ANFIS regressie
1 kadastraal inkomen nuttige oppervlakte
2 nuttige oppervlakte kadastraal inkomen
3 leeftijd woonplaatsen
4 badkamers badkamers
5 woonplaatsen leeftijd Tabel 18: Vergelijking relatieve belangrijkheid structurele appartementskarakteristieken (Excel)
Bij zowel de techniek gebaseerd op ANFIS, als de techniek gebaseerd op regressie, komen de structurele
karakteristieken ‘kadastraal inkomen’ en ‘nuttige oppervlakte’ als meest belangrijk naar voor. De technieken zijn
het wel niet eens over welke karakteristiek het belangrijkst is. ANFIS toont aan dat het kadastraal inkomen het
meeste invloed heeft op de appartementsprijs, bij regressie is dit de nuttige oppervlakte.
6.3.2 Naar nauwkeurigheid (SEE)
ANFIS SEE (€) regressie SEE (€)
model 1 50270 beste model 33554
model 7.1 35816
model 7.2 41792
Tabel 19: Vergelijking nauwkeurigheid (SEE) (Excel)
Hoewel stratificatie de nauwkeurigheid (SEE) van het ANFIS – model vergroot, € 35816 en € 41792 voor
respectievelijk model 7.1 en 7.2 ten opzichte van € 50270 voor model 1, is noch model 7.1, noch model 7.2 in
staat nauwkeuriger te zijn dan het best bekomen model met regressie. Het model 7.1 met [302,900] als interval
voor het kadastraal inkomen van de data komt het meest in de buurt. Verder onderzoek specifiek gericht op de
aard van de inputvariabelen om hierop gebaseerde keuzes te maken voor het aantal lidfuncties en hun vorm
voor elke inputvariabele, kan zorgen voor mogelijk een betere nauwkeurigheid van de ANFIS – modellen
bekomen door stratificatie.
86
6.3.3 Naar betrouwbaarheid (R²)
ANFIS R² regressie R²
model 1 0,65 beste model 0,94
model 7.1 0,39
model 7.2 0,17
Tabel 20: Vergelijking betrouwbaarheid (R²) (Excel)
Geen enkel ANFIS – model is betrouwbaarder dan het beste regressiemodel. Bij de ANFIS – modellen onderling
zorgt stratificatie voor een nog verminderde betrouwbaarheid. Verder onderzoek specifiek gericht op de aard
van de inputvariabelen om hierop gebaseerde keuzes te maken voor het aantal lidfuncties en hun vorm voor elke
inputvariabele, kan zorgen voor mogelijk een betere betrouwbaarheid van de ANFIS – modellen bekomen door
stratificatie.
87
7. Verder onderzoek
We willen erop wijzen dat in dit onderzoek beperkingen zijn, alsook ANFIS – instellingen die niet zijn onderzocht.
Dit biedt ruimte voor verder onderzoek. Het kan het ANFIS – model mogelijk verbeteren. We bespreken eerst de
beperkingen, daarna worden de instellingen in het model behandeld.
Het gebruik van een 40 – 30 – 30 verdeling in dit onderzoek voor respectievelijk de train-, check- en testdatasets
is een eerste beperking. Bij neurale netwerken toont gevoerd onderzoek aan dat wanneer de traindataset wordt
vergroot het model beter gaat presteren (Nghiep, N. en C. Al, 2001). Het loont de moeite te onderzoeken als dit
eveneens voor de combinatie van de neurale netwerken met de fuzzy logica (ANFIS – model) het geval is. Ten
tweede werden de structurele appartementskarakteristieken garage, lift en centrale verwarming niet in
beschouwing genomen. Het in rekening brengen van deze inputvariabelen kan mogelijk tot een beter model
leiden. Vervolgens kan de inbreng van omgevings- en buurtkenmerken potentieel tot betere resultaten leiden.
In dit onderzoek werd tot slot, voor de beperkingen, de train-, check- en testdata slechts één keer verdeeld. Het
ANFIS – model werd op basis van deze datasets getrained, gechecked en getest. Voorgaand onderzoek gevoerd
door Guan et al. verdeelde de dataset 50 keer random in een train-, check- en testdataset. Als fout werd het
gemiddelde genomen van de 50 runs (Guan J., et al., 2008; Guan, J., et al.,2014). Verder onderzoek kan de dataset
meerdere keren random indelen in een train-, check- en testdataset en het effect van meerdere keren testen op
de prestatie van het ANFIS – model nagaan.
Het ANFIS – model vraagt veel instellingen. Al deze verschillende instellingen gaan onderzoeken in één werk was
een onmogelijke opdracht. Ten eerste werd bij het genereren van het fuzzy gevolgtrekking systeem (FIS) gebruik
gemaakt van de techniek gridpartitie. Subclustering is een tweede mogelijke techniek. Voorgaand onderzoek die
beide technieken vergeleek kwam tot de vaststelling dat het model gebaseerd op gridpartitie betere resultaten
levert ten opzichte van het model gebruik makend van subclustering (Gerek, I. H. L., 2014). Het zou interessant
zijn te onderzoeken als bij het gebruik van deze dataset eveneens tot dezelfde vaststelling wordt gekomen. Ten
tweede werden bij het definiëren van de lidfuncties als aantal lidfuncties per inputvariabele twee, met als vorm
Gaussiaans, ingesteld. Onderzoek specifiek gericht op de aard van de inputvariabelen en hierop gebaseerde
keuzes voor het aantal lidfuncties en de vorm, kan zorgen voor mogelijk een betere prestatie van het ANFIS –
model. Ten derde werd als type voor de outputlidfunctie in dit onderzoek constant genomen. Het instellen van
lineair als type kan mogelijk tot betere resultaten leiden. Ten slotte werd bij het trainen van het fuzzy
gevolgtrekking systeem (FIS) beroep gedaan op de hybride optimalisatiemethode. Verder onderzoek kan het
effect van backpropagatie als optimalisatiemethode bekijken.
88
Besluit
In deze thesis werd neuro – fuzzy, als model om de hedonische waarde van een appartement te bepalen,
gebruikt. De waarde van een appartement is afhankelijk van veel verschillende variabelen. Een hedonische
waardebepaling stelt dat elke karakteristiek een zekere invloed uitoefent op de totaalprijs van een appartement.
Ten eerste werd met oog op stratificatie de structurele appartementskarakteristiek bepaald die het meeste
invloed uitoefent op de appartementsprijs. Vervolgens werd stratificatie toegepast op basis van het belangrijkste
structurele appartementskenmerk. Tot slot werden de resultaten uit dit onderzoek vergeleken met het beste
regressiemodel bekomen uit een voorgaande masterproef.
De vijf structurele appartementskarakteristieken die gebruikt werden als inputvariabelen voor het ANFIS – model
waren de leeftijd, de nuttige oppervlakte, het kadastraal inkomen, het aantal woonplaatsen en het aantal
badkamers van een appartement. De karakteristiek die de meeste invloed uitoefende op de verkoopprijs van
een appartement was het kadastraal inkomen. Vervolgens werd de oorspronkelijke dataset onderverdeeld in
vier subdatasets op basis van het kadastraal inkomen, stratificatie genoemd. Stratificatie zorgde niet voor een
verbetering van het ANFIS – model. Twee van de vier bekomen ANFIS – modellen ten gevolge van de stratificatie
konden niet in beschouwing worden genomen. Tot slot was geen enkel ANFIS – model in staat beter te presteren,
qua nauwkeurigheid en betrouwbaarheid, ten opzichte van het beste regressiemodel uit een voorgaande
masterproef.
89
Referenties
Ampe P. (2015). Omgevingswerken & infrastructuur.
Ampe P. (2015). Schatting en expertise.
Aurélio Stumpf González, M. and C. Torres Formoso (2006). Mass appraisal with genetic fuzzy rule-based systems.
Property Management 24(1): 20-30.
Buonanno, P., et al. (2012). Housing prices and crime perception. Empirical Economics 45(1): 305-
321.
Ceccato, V. and M. Wilhelmsson (2011). The impact of crime on apartment prices: Evidence from Stockholm,
Sweden. Geografiska Annaler: Series B, Human Geography 93(1): 81-103.
Chinloy, P. (1996). Real estate cycles: theory and empirical evidence. Journal of Housing Research 7: 173-190.
Day, B. (2003). Submarket identification in property markets: a hedonic housing price model for Glasgow, CSERGE
Working Paper EDM.
Day, B., et al. (2003). What price peace? A comprehensive approach to the specification and estimation of
hedonic housing price models, CSERGE Working Paper EDM.
De Vor, F. and H. L. F. de Groot (2011). The Impact of Industrial Sites on Residential Property Values: A Hedonic
Pricing Analysis from the Netherlands. Regional Studies 45(5): 609-623.
Dewulf M. en Provoost T. (2012). Vergelijkend onderzoek van prijsmodellen voor de waardebepaling van
appartementen aan de hand van datamining en regressieanalyse. Masterproef UGent.
Do, Q. and G. Grudnitski, (1992). A Neural Network Approach to Residential Property Appraisal. The Real Estate
Appraiser 58, 38-45.
Dugernier, M., De Nocker, L., Broeckx, S., Bosmans, D. (2014). Analyse van de financiële gevolgen van ruimtelijke
beslissingen: kader en beschrijving van enkele situaties. Ruimte Vlaanderen, departement van de Vlaamse
Overheid.
Efthymiou, D. and C. Antoniou (2013). How do transport infrastructure and policies affect house prices and rents?
Evidence from Athens, Greece." Transportation Research Part a-Policy and Practice 52: 1-22.
90
Fan, G.-Z., et al. (2006). Determinants of house price: A decision tree approach. Urban Studies 43(12): 2301-2315.
Fayyad, U. and R. Uthurusamy (1996). Data mining and knowledge discovery in databases. Communications of
the Acm 39(11): 24-26.
Gerek, I. H. L. (2014). House selling price assessment using two different adaptive neuro-fuzzy techniques.
Automation in Construction 41: 33-39.
Graves, P., et al. (1988). THE ROBUSTNESS OF HEDONIC PRICE ESTIMATION - URBAN AIR-QUALITY. Land
Economics 64(3): 220-233.
Gress, B. (2004). Using semi-parametric spatial autocorrelation models to improve hedonic housing price
prediction, Citeseer.
Guan, J., et al. (2008). An Adaptive Neuro-Fuzzy Inference System Based Approach to Real Estate Property
Assessment. Journal of Real Estate Research 30(4): 395-421.
Guan, J., et al. (2014). Analyzing Massive Data Sets: An Adaptive Fuzzy Neural Approach for Prediction, with a
Real Estate Illustration. Journal of Organizational Computing and Electronic Commerce 24(1): 94-112.
Huang, S. J., & Chiu, N. H. (2009). Applying fuzzy neural network to estimate software development effort.
Applied Intelligence 30(2), 73-83.
Jang, J. S. R. (1993). ANFIS - ADAPTIVE-NETWORK-BASED FUZZY INFERENCE SYSTEM. Transactions on Systems
Man and Cybernetics 23(3): 665-685.
Kestens, Y., et al. (2004). The impact of surrounding land use and vegetation on single-family house prices.
Environment and Planning B-Planning & Design 31(4): 539-567.
Kusan, H., et al. (2010). The use of fuzzy logic in predicting house selling price. Expert Systems with Applications
37(3): 1808-1813.
Lazrak, F., et al. (2013). The market value of cultural heritage in urban areas: an application of spatial hedonic
pricing. Journal of Geographical Systems 16(1): 89-114.
Lee, J. S. and M.-H. Li (2009). The impact of detention basin design on residential property value: Case studies
using GIS in the hedonic price modeling. Landscape and Urban Planning 89(1-2): 7-16.
91
McGreal, S., et al. (1998). Neural networks: the prediction of residential values. Journal of Property Valuation
and Investment 16(1): 57-70.
Nauck, D., et al. (1997). Foundations of neuro-fuzzy systems, John Wiley & Sons, Inc.
Nghiep, N. and C. Al (2001). Predicting housing value: A comparison of multiple regression analysis and artificial
neural networks. Journal of Real Estate Research 22(3): 313-336.
Panduro, T. E. and K. L. Veie (2013). Classification and valuation of urban green spaces—A hedonic house price
valuation. Landscape and Urban Planning 120: 119-128.
Rehdanz, K. (2006). Hedonic Pricing of Climate Change Impacts to Households in Great Britain. Climatic Change
74(4): 413-434.
Saunders, P. (2005). After the House Price Boom. Policy 21(1).
Selim, H. (2009). Determinants of house prices in Turkey: Hedonic regression versus artificial neural network.
Expert Systems with Applications 36(2): 2843-2852.
Smith, V. K. and T. A. Deyak (1975). MEASURING IMPACT OF AIR-POLLUTION ON PROPERTY VALUES. Journal of
Regional Science 15(3): 277-288.
Tay, D. P. H. and D. K. K. Ho. (1992). Artificial Intelligence and the Mass Appraisal of Residential Apartments.
Journal of Property Valuation & Investment 10, 525-540.
Theebe, M. A. J. (2004). Planes, trains, and automobiles: The impact of traffic noise on house prices. Journal of
Real Estate Finance and Economics 28(2-3): 209-234.
Troy, A. and J. M. Grove (2008). Property values, parks, and crime: A hedonic analysis in Baltimore, MD.
Landscape and Urban Planning 87(3): 233-245.
Tse, R. Y. C. (2002). Estimating neighbourhood effects in house prices: Towards a new hedonic model approach.
Urban Studies 39(7): 1165-1180.
Van Puyvelde J. (2011). Het gebruik van datamining bij hedonische waardebepaling van eigendommen.
Masterproef UGent.
92
Vieira, J., et al. (2004). Neuro-fuzzy systems: A survey. 5th WSEAS NNA International Conference on Neural
Networks and Applications, Udine, Italia.
Visser, P., et al. (2006). De prijs van de plek: Woonomgeving en woningprijs, NAi Uitgevers.
Visser, P., et al. (2008). Residential environment and spatial variation in house prices in the netherlands.
Tijdschrift Voor Economische En Sociale Geografie 99(3): 348-360.
Wagteveld, T. (2007). De waarde van groen en water bij woningbouw. Een onderzoek naar de financiële aspecten
van groen en water bij de ontwikkeling van nieuwe woonmilieu’s.
Wang, S.-C. (2003). Artificial neural network. Interdisciplinary Computing in Java Programming, Springer: 81-100.
Worzala, E., et al. (1995). An exploration of neural networks and its application to real estate valuation. Journal
of Real Estate Research 10(2): 185-201.
Zheng, S. Q., et al. (2014). Real Estate Valuation and Cross-Boundary Air Pollution Externalities: Evidence from
Chinese Cities. Journal of Real Estate Finance and Economics 48(3): 398-414.
93
Bijlage
Bijlage 1 – Voorwaardelijke parameters van de lidfuncties van de inputvariabelen na trainen en
checken van model 1 tot model 7.4
Figuur 64: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 1 (Matlab)
Figuur 65: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 1 (Matlab)
94
Figuur 66: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 1 (Matlab)
Figuur 67: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 1 (Matlab)
95
Figuur 68: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 1 (Matlab)
Figuur 69: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 2 (Matlab)
96
Figuur 70: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 2 (Matlab)
Figuur 71: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 2 (Matlab)
97
Figuur 72: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 2 (Matlab)
Figuur 73: Lidfuncties jong en veel van de inputvariabele leeftijd na validatie van het model 3 (Matlab)
98
Figuur 74: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 3 (Matlab)
Figuur 75: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 3 (Matlab)
99
Figuur 76: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 3 (Matlab)
Figuur 77: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 4 (Matlab)
100
Figuur 78: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 4 (Matlab)
Figuur79: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 4 (Matlab)
101
Figuur 80: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 4 (Matlab)
Figuur 81: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 5 (Matlab)
102
Figuur 82: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 5 (Matlab)
Figuur 83: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 5 (Matlab)
103
Figuur 84: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 5 (Matlab)
Figuur 85: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 6 (Matlab)
104
Figuur 86: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 6 (Matlab)
Figuur 87: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 6 (Matlab)
105
Figuur 88: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 6 (Matlab)
Figuur 89: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.1 (Matlab)
106
Figuur 90: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 7.1 (Matlab)
Figuur 91: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 7.1 (Matlab)
107
Figuur 92: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 7.1 (Matlab)
Figuur 93: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 7.1 (Matlab)
108
Figuur 94: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.2 (Matlab)
Figuur 95: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 7.2 (Matlab)
109
Figuur 96: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 7.2 (Matlab)
Figuur 97: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 7.2 (Matlab)
110
Figuur 98: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 7.2 (Matlab)
Figuur 99: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.3 (Matlab)
111
Figuur 100: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 7.3 (Matlab)
Figuur 101: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 7.3 (Matlab)
112
Figuur 102: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 7.3 (Matlab)
Figuur 103: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 7.3 (Matlab)
113
Figuur 104: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.4 (Matlab)
Figuur 105: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 7.4 (Matlab)
114
Figuur 106: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 7.4 (Matlab)
Figuur 107: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 7.4 (Matlab)
115
Figuur 108: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 7.4 (Matlab)
116
Bijlage 2 – Formule berekenen SEE
met de gegeven actuele verkoopprijzen y1 tot yn
met de gemodelleerde actuele verkoopprijzen f1 tot fn
117
Bijlage 3 – Formule berekenen R²
met de gegeven actuele verkoopprijzen y1 tot yn
met de gemodelleerde actuele verkoopprijzen f1 tot fn
met y als het gemiddelde van de gegeven n actuele verkoopprijzen
118
Bijlage 4 – Spreiding prijsgegevens model 7.1 tot model 7.4
Grafiek 4: Spreiding prijsgegevens model 7.1 (Matlab)
119
Grafiek 5: Spreiding prijsgegevens model 7.2 (Matlab)
120
Grafiek 6: Spreiding prijsgegevens model 7.3 (Matlab)
121
Grafiek 7: Spreiding prijsgegevens model 7.4 (Matlab)
122
Bijlage 5 – Spreiding prijsfout model 2 tot model 7.4
Grafiek 8: Spreiding prijsfout model 2 (Matlab)
123
Grafiek 9: Spreiding prijsfout model 3 (Matlab)
124
Grafiek 10: Spreiding prijsfout model 4 (Matlab)
125
Grafiek 11: Spreiding prijsfout model 5 (Matlab)
126
Grafiek 12: Spreiding prijsfout model 6 (Matlab)
127
Grafiek 13: Spreiding prijsfout model 7.1 (Matlab)
128
Grafiek 14: Spreiding prijsfout model 7.2 (Matlab)
129
Grafiek 15: Spreiding prijsfout model 7.3 (Matlab)
130
Grafiek 16: Spreiding prijsfout model 7.4 (Matlab)