Vergelijking van datamining bij hedonische waardebepaling van...

Vergelijking van datamining bij hedonische waardebepaling van eigendommen met gekende technieken Gauthier Seynhaeve

Promotor: prof. Patrick Ampe Begeleiding: Mevr. Hilde Witters

Masterproef ingediend tot het behalen van de academische graad van Master of Science in de industriële wetenschappen: bouwkunde

Vakgroep Industriële Technologie en Constructie Voorzitter: prof. Marc Vanhaelst Faculteit Ingenieurswetenschappen en Architectuur Academiejaar 2014-2015

IV

Woord vooraf

Deze masterproef werd geschreven door Gauthier Seynhaeve, afkomstig uit Wevelgem. Net zoals vele Vlamingen

heb ook ik een baksteen in de maag. Het verwerven van een eigen huis later staat hoog in het verlanglijstje. Het

waarderen van vastgoed is niet altijd even eenvoudig en eenduidig. Als potentiële koper wil je graag een correcte

prijs betalen. Het beschikbare onderwerp dat op een modelmatige manier tot een finale vastgoedprijs komt kon

mij onmiddellijk bekoren. Het gemaakte eindwerk betekent voor mij niet louter een afgewerkt schoolwerk maar

ook een meerwaarde tijdens prijsvergelijkingen bij de zoektocht naar een eigen huis in de toekomst.

Bij deze wil ik een woord van dank richten aan professor Patrick Ampe voor zijn ondersteuning tijdens het

academiejaar. Tevens wil ik Hilde Witters bedanken voor de wekelijkse opvolging en feedback. Zonder haar

nauwgezette begeleiding kon dit werk onmogelijk tot een goed einde worden gebracht. Sarah Vluymans,

doctoraatstudente aan de universiteit Gent, zou ik graag eveneens bedanken. Bij haar kon ik terecht met al mijn

vragen betreffende de fuzzy set theorie. Ook een bedanking voor de hulp van professor Arnout Van Messem en

Sanu Edacheri. Tot slot een dankwoord aan het adres van mijn familie en vrienden die gedurende de universitaire

studies een steun en toeverlaat waren, in goede en in minder goede dagen. Ik wens u een boeiende lectuur toe!

Te Gent op 01/06/15

Gauthier Seynhaeve

V

Samenvatting

In deze masterproef wordt het gebruik van neuro – fuzzy, als model om de hedonische waarde van een

appartement te bepalen, vergeleken met de prijsbepaling via regressie uit een voorgaande masterproef. Ten

eerste wordt met oog op stratificatie de structurele appartementskarakteristiek bepaald die het meeste invloed

uitoefent op de appartementsprijs. Vervolgens wordt stratificatie toegepast op basis van het belangrijkste

structurele appartementskenmerk. Tot slot worden de resultaten uit dit onderzoek vergeleken met het beste

regressiemodel bekomen uit een voorgaande masterproef.

VI

Abstract

In this master thesis is the use of neuro - fuzzy , as a model to determine the hedonic value of an apartment,

compared to the pricing by regression from a previous master’s thesis. First, the structural characteristic with

the most influence on the apartment price is determined. Stratification is then applied on the basis of the main

structural characteristic. Finally, the results from this study are compared to the best regression model from a

previous master's thesis.

VII

Keywords

Adaptive neuro fuzzy inference system

Fuzzy set theorie

Hedonische waardebepaling

Neurale netwerken

Stratificatie

Structurele karakteristieken

Train-, checken testdata

Verkoopprijs appartement

VIII

Inhoudsopgave

Woord vooraf ......................................................................................................................................................... IV

Samenvatting .......................................................................................................................................................... V

Abstract .................................................................................................................................................................. VI

Keywords ............................................................................................................................................................... VII

Inhoudsopgave ..................................................................................................................................................... VIII

Inhoud cd - rom ....................................................................................................................................................... XI

Lijst van de tabellen ............................................................................................................................................... XII

Lijst van de figuren ................................................................................................................................................ XIII

Lijst van de grafieken .......................................................................................................................................... XVII

Lijst van de commando’s .................................................................................................................................... XVIII

Lijst met afkortingen ............................................................................................................................................ XIX

Probleemstelling ................................................................................................................................................... XX

Onderzoeksaanpak ............................................................................................................................................. XXII

Doelstelling ........................................................................................................................................................ XXIII

Literatuurstudie ....................................................................................................................................................... 1

1. Methoden bij de waardebepaling van vastgoed ............................................................................................ 2

1.1 Methode van de intrinsieke waarde ......................................................................................................... 2

1.2 Methode op basis van de vloeroppervlakte .............................................................................................. 2

1.3 Inkomstenmethode ................................................................................................................................... 3

1.4 Methode op basis van het kadastraal inkomen ........................................................................................ 3

1.5 Vergelijkingsmethode ............................................................................................................................... 3

1.6 Hedonische waarderingsmethode ............................................................................................................ 3

1.6.1 Structurele karakteristieken.............................................................................................................. 4

1.6.2 Type vastgoed ................................................................................................................................... 5

1.6.3 Typologie ........................................................................................................................................... 5

1.6.4 Economische karakteristieken .......................................................................................................... 6

1.6.5 Fiscale karakteristieken ..................................................................................................................... 6

1.6.6 Buurtkarakteristieken ....................................................................................................................... 7

1.6.7 Omgevingskarakteristieken .............................................................................................................. 8

1.6.8 Leefmilieu ....................................................................................................................................... 10

1.6.9 Toegankelijkheid ............................................................................................................................. 10

IX

2. Modellen bij een hedonische waardebepaling ............................................................................................ 12

2.1 Regressie ................................................................................................................................................. 12

2.2 Datamining .............................................................................................................................................. 12

2.2.1 Neurale netwerken ......................................................................................................................... 13

2.2.2 Beslissingsbomen ............................................................................................................................ 13

2.2.3 Fuzzy logica ..................................................................................................................................... 13

2.2.4 Neuro - fuzzy ................................................................................................................................... 14

3. Resultaten van de verschillende modellen .................................................................................................. 15

3.1 Neurale netwerken versus regressie ....................................................................................................... 15

3.2 Neuro – fuzzy versus regressie ................................................................................................................ 17

4. Adaptive neuro – fuzzy inference system .................................................................................................... 20

4.1 Algemeen ................................................................................................................................................ 20

4.2 Situering .................................................................................................................................................. 20

4.3 Ruimte voor verder onderzoek ............................................................................................................... 21

Onderzoek .............................................................................................................................................................. 22

1. Dataset voorbereiden ................................................................................................................................... 23

1.1 Database .................................................................................................................................................. 23

1.2 Rijen met lege velden verwijderen .......................................................................................................... 25

1.3 Rijen met extreme waarden verwijderen ............................................................................................... 26

1.4 Indexeren verkoopprijs ........................................................................................................................... 27

1.5 Bestanden koppelen ................................................................................................................................ 29

2. Dataset inlezen .............................................................................................................................................. 30

3. ANFIS ............................................................................................................................................................. 33

3.1 FIS – werking ........................................................................................................................................... 33

3.2 Structuur ................................................................................................................................................. 34

3.3 Lidfunctie ................................................................................................................................................. 36

4. Bepalen relatieve belangrijkheid structurele karakteristieken ................................................................... 37

4.1 Vooraf ...................................................................................................................................................... 37

4.2 Traindata inladen .................................................................................................................................... 40

4.3 FIS ............................................................................................................................................................ 42

X

4.3.1 Genereren ....................................................................................................................................... 42

4.3.2 Opmaak ........................................................................................................................................... 46

4.4 FIS trainen ............................................................................................................................................... 61

4.5 ANFIS valideren ....................................................................................................................................... 65

4.6 ANFIS testen ............................................................................................................................................ 70

4.7 Lijst relatieve belangrijkheid structurele karakteristieken ...................................................................... 76

5. Stratificatie .................................................................................................................................................... 79

5.1 Op basis van kadastraal inkomen ............................................................................................................ 79

6. Vergelijking ANFIS - regressie ....................................................................................................................... 83

6.1 Resultaten regressiemodellen ................................................................................................................. 83

6.1.1 Relatieve belangrijkheid karakteristieken ....................................................................................... 83

6.1.2 Nauwkeurigheid (SEE) en betrouwbaarheid (R²) ............................................................................ 83

6.2 Resultaten ANFIS – modellen .................................................................................................................. 84

6.2.1 Relatieve belangrijkheid karakteristieken ....................................................................................... 84

6.2.2 Nauwkeurigheid (SEE) en betrouwbaarheid (R²) ............................................................................ 84

6.3 Vergelijking .............................................................................................................................................. 85

6.3.1 Naar relatieve belangrijkheid karakteristieken ............................................................................... 85

6.3.2 Naar nauwkeurigheid (SEE) ............................................................................................................. 85

6.3.3 Naar betrouwbaarheid (R²) ............................................................................................................. 86

7. Verder onderzoek .......................................................................................................................................... 87

Besluit .................................................................................................................................................................... 88

Referenties ............................................................................................................................................................. 89

Bijlage ..................................................................................................................................................................... 89

Bijlage 1 – Voorwaardelijke parameters van de lidfuncties van de inputvariabelen na

trainen en checken van model 1 tot model 7.4 .......................................................................... 93

Bijlage 2 – Formule berekenen SEE ............................................................................................................. 116

Bijlage 3 – Formule berekenen R² ............................................................................................................... 117

Bijlage 4 – Spreiding prijsgegevens model 7.1 tot 7.4 ................................................................................. 118

Bijlage 5 – Spreiding prijsfout model 2 tot model 7.4 ................................................................................. 122

XI

Inhoud cd - rom

- Afspraken (begeleidingsverslagen)

- Literatuurstudie (artikels)

- Masterproeftekst

- Onderzoek (bestanden)

XII

Lijst van de tabellen

Tabel 1: Gegevens in het bestand Origineel.xls (Excel) .......................................................................................... 23

Tabel 2: Gegevens in het bestand Buurt- en omgevingskenmerken.xls (Excel) ..................................................... 24

Tabel 3: Overgebleven variabelen (Excel) .............................................................................................................. 24

Tabel 4: Verwijderen extreme waarden (Excel) ..................................................................................................... 26

Tabel 5: ABEX – index 2002 – 2014 (http://www.ABEX.be) ................................................................................... 28

Tabel 6: ABEX – index volgens aktedatum (Excel) .................................................................................................. 28

Tabel 7: Traindata SEE en checkdata SEE in functie van het aantal iteraties (Excel) ............................................. 68

Tabel 8: Standaarddeviatie (SEE) en betrouwbaarheid (R²) van model 1 (Excel) .................................................. 73

Tabel 9: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 1 tot 6 (Excel) ............................................. 77

Tabel 10: Tabel 10: Verschil in nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 2 tot 6

ten opzichte van model 1 (Excel) ........................................................................................................................... 77

Tabel 11: Relatieve belangrijkheid van de structurele appartementskarakteristieken (Excel) .............................. 77

Tabel 12: De grenzen van de quartielen volgens de waarde van kadastraal inkomen en de record (Excel) ......... 80

Tabel 13: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 7.1 tot 7.4 (Excel) ..................................... 81

Tabel 14: Relatieve belangrijkheid karakteristieken (Marieke Dewulf en Tinne Provoost, 2012) ......................... 83

Tabel 15: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) beste regressiemodel (Marieke Dewulf

en Tinne Provoost, 2012) ....................................................................................................................... 83

Tabel 16: Relatieve belangrijkheid structurele appartementskarakteristieken (Excel) ......................................... 84

Tabel 17: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) model 1 tot model 7.2 (Excel) ................................... 84

Tabel 18: Vergelijking relatieve belangrijkheid structurele appartementskarakteristieken (Excel) ...................... 85

Tabel 19: Vergelijking nauwkeurigheid (SEE) (Excel) ............................................................................................. 85

Tabel 20: Vergelijking betrouwbaarheid (R²) (Excel).............................................................................................. 86

XIII

Lijst van de figuren

Figuur 1: Selectie lege velden (Excel) ..................................................................................................................... 25

Figuur 2: Rijen verwijderen met lege velden (Excel) .............................................................................................. 26

Figuur 3: Werkwijze verwijderen extreme waarden (Excel) .................................................................................. 27

Figuur 4: Inlezen gegevens (Matlab) ...................................................................................................................... 30

Figuur 5: Variabelen als kolommatrixen in workspace (Matlab) ........................................................................... 30

Figuur 6: Kolommatrixen voor het onderzoek (Matlab) ........................................................................................ 31

Figuur 7: Aanmaak matrix ‘allevariabelen’ (Matlab) .............................................................................................. 31

Figuur 8: Matrix allevariabelen willekeurig geordend (Matlab)............................................................................. 32

Figuur 9: FIS – werking (Kusan, H., et al.,2010) ...................................................................................................... 33

Figuur 10: ANFIS – structuur (Guan, J., et al., 2014) .............................................................................................. 35

Figuur 11: Scherpe verzamelingen van een groot appartement (Matlab) ............................................................. 36

Figuur 12: Vage verzamelingen van een groot appartement (Matlab) .................................................................. 36

Figuur 13: Train-, checken testdata in de workspace (Matlab)............................................................................ 38

Figuur 14: Aanroepen van de neuro – fuzzy designer (Matlab) ............................................................................. 38

Figuur 15: Dialoogvenster neuro – fuzzy designer (Matlab) .................................................................................. 39

Figuur 16: Overzicht neuro – fuzzy designer (Matlab) ........................................................................................... 40

Figuur 17: Traindata inladen (Matlab) ................................................................................................................... 40

Figuur 18: Variabelnaam ingeven (Matlab) ............................................................................................................ 41

Figuur 19: Ingeladen traindata (Matlab) ................................................................................................................ 41


Figuur 21: FIS genereren (Matlab) ......................................................................................................................... 43

Figuur 22: Default waarden aantal lidfuncties per inputvariabele, de vorm van de lidfuncties en het type

outputlidfunctie (Matlab) ..................................................................................................................... 43

Figuur 23: Ingeven aantal lidfuncties per inputvariabele, de vorm van de lidfuncties en het type

outputlidfunctie (Matlab) ..................................................................................................................... 44

Figuur 24: Gegenereerd fuzzy gevolgtrekking systeem (FIS) (Matlab)................................................................... 45

Figuur 25: ANFIS - info (Matlab) ............................................................................................................................. 45

Figuur 26: Openen FIS - properties (Matlab) ......................................................................................................... 46

Figuur 27: Default namen inputvariabelen en outputvariabele (Matlab) .............................................................. 47

Figuur 28: Ingeven inputvariabelnamen en outputvariabelnaam (Matlab)........................................................... 48

Figuur 29: Inputvariabelnamen en outputvariabelnaam benoemd (Matlab) ........................................................ 49

Figuur 30: Openen membership functions (Matlab).............................................................................................. 50

Figuur 31: Dialoogvenster membership function editor (Matlab) ......................................................................... 51

Figuur 32: Default lidfuncties jong en oud van de inputvariabele leeftijd (Matlab) .............................................. 52

Figuur 33: Default lidfuncties klein en groot van de inputvariabele nuttige oppervlakte (Matlab) ...................... 53

XIV

Figuur 34: Default lidfuncties laag en hoog van de inputvariabele kadastraal inkomen (Matlab) ........................ 53

Figuur 35: Default lidfuncties weinig en veel van de inputvariabele woonplaatsen (Matlab) .............................. 54

Figuur 36: Defaut lidfuncties weinig en veel van de inputvariabele badkamers (Matlab) .................................... 54

Figuur 37: 32 mogelijke outputs volgend uit alle mogelijke lidfunctiecombinaties (Matlab) ................................ 55

Figuur 38: Openen regels (Matlab) ........................................................................................................................ 56

Figuur 39: Dialoogvenster regel editor (Matlab) .................................................................................................... 57

Figuur 40: Taalkundige expressie van de 32 regels (Matlab) ................................................................................. 58

Figuur 41: Structuur van het bekomen ANFIS – model openen (Matlab) .............................................................. 59

Figuur 42: Structuur bekomen ANFIS - model (Matlab) ......................................................................................... 60


Figuur 44: SEE traindata na 500 iteraties (Matlab) ................................................................................................ 62

Figuur 45: Getraind ANFIS – model opslaan (Matlab)............................................................................................ 63

Figuur 46: Ingeven naam getraind ANFIS - model (Matlab) ................................................................................... 63

Figuur 47: Getraindmodel in de workspace (Matlab) ............................................................................................ 64

Figuur 48: Eigenschappen getraind ANFIS - model (Matlab) ................................................................................. 64


Figuur 50: Checkdata inladen (Matlab) .................................................................................................................. 66

Figuur 51: Ingeladen checkdata (Matlab) .............................................................................................................. 66

Figuur 52: Valideren ANFIS - model (Matlab) ........................................................................................................ 67

Figuur 53: SEE train – en checkdata na 1812 en 1813 iteraties (Matlab) .............................................................. 68

Figuur 54: ANFIS – info (Matlab) ............................................................................................................................ 68

Figuur 55: Traindata SEE en checkdata SEE voor 2000 iteraties (Matlab) ............................................................. 69

Figuur 56: SEE train – en checkdata na 2499 en 2500 iteraties (Matlab) .............................................................. 69


Figuur 58: Testdata inladen (Matlab) ..................................................................................................................... 70

Figuur 59: Ingeladen testdata (Matlab) ................................................................................................................. 71

Figuur 60: ‘Plot against testing data’ selecteren (Matlab) ..................................................................................... 71

Figuur 61: Modeloutput geplot ten opzichte van de testdata (Matlab) ................................................................ 72

Figuur 62: Modeloutput (Matlab) .......................................................................................................................... 73

Figuur 63: Records van de matrix ‘vijfinputs’ geordend van klein naar groot volgens het KI en de

gegenereerde willekeurig geordende stratificatiematrixen in de workspace (Matlab) ....................... 80

Figuur 64: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 1 (Matlab) ........... 93

Figuur 65: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie

van het model 1 (Matlab) ..................................................................................................................... 93

Figuur 66: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie


Figuur 67: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie


XV

Figuur 68: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie



















van het model 4 (Matlab) ................................................................................................................... 100





Figuur 81: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 5 (Matlab) ......... 101







Figuur 85: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 6 (Matlab) ......... 103







XVI

Figuur 89: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.1 (Matlab) ...... 105


van het model 7.1 (Matlab) ................................................................................................................ 106

























Figuur 104: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.4 (Matlab) .... 113









XVII

Lijst van de grafieken

Grafiek 1: Spreiding prijsgegevens model 1 (Matlab) ............................................................................................ 74

Grafiek 2: Spreiding prijsfout model 1 (Matlab) .................................................................................................... 75

Grafiek 3: Spreiding gegevens kadastraal inkomen (Matlab) ................................................................................ 79

Grafiek 4: Spreiding prijsgegevens model 7.1 (Matlab) ....................................................................................... 118




Grafiek 8: Spreiding prijsfout model 2 (Matlab) .................................................................................................. 122

Grafiek 9: Spreiding prijsfout model 3 (Matlab) .................................................................................................. 123

Grafiek 10: Spreiding prijsfout model 4 (Matlab) ................................................................................................ 124



Grafiek 13: Spreiding prijsfout model 7.1 (Matlab) ............................................................................................. 127




XVIII

Lijst van de commando’s

Commando 1: Genereren van de rijmatrix ‘random’ met willekeurig geordende getallen (Matlab) .................... 32

Commando 2: Genereren van de matrixen ‘train’, ‘check’ en ‘test’ uit de matrix vijfinputs (Matlab) .................. 38

Commando 3: Aanroepen van de neuro – fuzzy designer (Matlab) ...................................................................... 38

Commando 4: Genereren van de matrix ‘modeloutput’ (Matlab) ......................................................................... 72

Commando 5: Genereren van de matrix 'stratificatie1' tot en met 'stratificatie4' (Matlab) ................................. 80

Commando 6: Genereren train-, checken testdatasets voor elke subdataset (Matlab) ..................................... 81

XIX

Lijst met afkortingen

ABEX = Associatie van Belgische EXperten

ANFIS = Adaptive Neuro Fuzzy Inference System

ANN = Artificial Neural Networks

AKRED = Administratie van het Kadaster, de Registratie En Domeinen

C & R = Classification and Regression

CHAID = CHi-squared Automatic Interaction Detector

FE = Forecasting Error

FIS = Fuzzy Inference System

KDD = Knowledge Discovery in Database

KI = Kadastraal Inkomen

MAE = Mean Absolute Error

MRA = Multiple Regression Analysis

MSE = Mean Squared Error

SEE = Standard Error of the Estimate

STDEV = STandaardDEViatie

XX

Probleemstelling

De waarde van een appartement wordt bepaald door verscheidene kenmerken. Deze kenmerken kunnen

worden onderverdeeld in verschillende categorieën. Zo wordt er een onderscheid gemaakt tussen structurele

kenmerken, buurten omgevingskenmerken, financiële kenmerken, enz. Elke karakteristiek heeft zijn specifieke

invloed op de totaalprijs van een onroerend goed. Verschillende schatters komen tot verschillende

prijsschattingen voor eenzelfde vastgoed. Proefondervindelijk kan worden bepaald welke schatting het dichtst

bij de werkelijke verkoopprijs ligt. Schatters doen geregeld beroep op de methode der vergelijkingspunten, de

inkomstenmethode en de methode der intrinsieke waardebepaling. De methode der vergelijkingspunten gaat

uit van de verkoopprijs van eenzelfde type vastgoed dat op een vergelijkbare locatie gelegen is en vergelijkbaar

is qua kenmerken. Kwalitatieve meer- en minderwaarden worden binnen deze methode door correctiefactoren

kwantitatief in rekening gebracht. De methode, die zich op de inkomsten baseert, kent als inputvariabelen

enerzijds een vooropgesteld rendement en anderzijds de kapitalisatie van de huurinkomsten. De

nieuwbouwwaarde, de vetusteit en een venaliteitspercentage zijn de gegevens die gebruikt worden bij een

intrinsieke waardebepaling. Verschillende waarderingsmethodes met een verschillende input leiden tot een

verschillende output. Dit toont de nood voor het uitwerken van een geperfectioneerd model aan. Het ideale

model neemt zoveel mogelijk invloedrijke variabelen op om een eenduidige prijs van een woning te bepalen.

De hedonische of modelmatige waarderingsmethode waardeert, in tegenstelling tot de andere methodes, zoveel

mogelijk parameters afzonderlijk. Waar de drie voorgaande waarderingsmethodes allen rechtstreeks

(vergelijkingsmethode door vergelijkbare kenmerken) of onrechtstreeks (intrinsieke waardemethode door

nieuwbouwwaarde en methode op basis van de inkomsten door huurinkomsten) een waardebepaling uitvoeren

in functie van de structurele karakteristieken, beschouwt een hedonische waardebepaling ook buurten

omgevingskarakteristieken, het kadastraal inkomen, enz. Wat de hedonische waarderingsmethode betreft zijn

verschillende modellen voorhanden. Enerzijds worden klassieke regressiemodellen gebruikt, anderzijds

recentere dataminingtechnieken. Onderzoeken, gebaseerd op meervoudige regressiemodellen en

dataminingtechnieken zoals neurale netwerken en beslissingsbomen, komen veelvuldig voor in de literatuur.

Onder de noemer datamining behoren eveneens de fuzzy logica en neuro-fuzzy modellen. Hoewel de

voornoemde technieken in andere domeinen al gedurende langere tijd worden toegepast, bestaat er slechts

weinig onderzoek op de toepassing ervan in het domein van de vastgoedwereld. Dit werk gaat dieper in op de

techniek gebaseerd op neuro – fuzzy. Het is een techniek die neurale netwerken combineert met de fuzzy logica.

Er volgen enkele mogelijke onderzoeksrichtingen.

Een eerste mogelijke interessante en relatief genegeerde onderzoeksrichting is stratificatie. Bij stratificatie wordt

de dataset onderverdeeld in subdatasets op basis van een gedetailleerde en systematische analyse van typische

karakteristieken. Het doel voor ogen is het bekomen van een mogelijk nauwkeuriger en betrouwbaarder ANFIS

– model.

XXI

Gerek I. H. L. vergelijkt ANFIS – modellen met subclustering ten opzichte van ANFIS – modellen met gridpartitie

voor de waardebepaling van appartementen in hoogbouw in een Turkse regio. Het beste model is bekomen met

gridpartitie. In dit onderzoek worden slechts de gegevens van 91 appartementen gebruikt. Verder onderzoek kan

nagaan als bij het gebruik van een grotere dataset eveneens een ANFIS – model met gridpartie als beste naar

voor komt.

De onderzoeker vraagt zich eveneens af in zijn vergelijkende studie als voor een andere regio gelijkaardige

factoren als belangrijk worden beschouwd. Onderzoek voeren naar de belangrijkheid van alle karakteristieken,

zowel structurele – als buurt – en omgevingskarakteristieken, voor appartementen gelegen in het Brussels

Hoofdstedelijk Gewest is een derde mogelijke weg om in te slaan. Nadien kan worden afgeleid als de relatieve

belangrijkheid van karakteristieken geografisch afhankelijk is.

Deze masterproef behandelt de eerste mogelijke onderzoeksrichting: het effect van stratificatie, voor de

prijsbepaling van appartementen, op het neuro – fuzzy model. De resultaten worden afgetoetst ten opzichte

van voorgaande regressiemodellen bekomen met dezelfde dataset.

XXII

Onderzoeksaanpak

In eerste instantie wordt de dataset, ter beschikking gesteld door de promotor, klaargemaakt. Records van

appartementen met lege velden worden verwijderd, records van appartementen met extreme waarden worden

buiten beschouwing gelaten en de verkoopprijzen worden geïndexeerd. Ten tweede wordt het inladen van de

data in Matlab besproken. Een derde stap gaat diepgaander in op de opbouw en de werking van een ANFIS –

model. Een belangrijk onderdeel in de structuur, de lidfunctie, wordt apart besproken. Vooraleer stratificatie toe

te passen wordt in een vierde punt de relatieve belangrijkheid van de structurele karakteristieken bepaald. Dit

gebeurt door afwisselend elk kenmerk niet als input in het model op te nemen. Uit de wijzigingen van de

modelfout (SEE) en de betrouwbaarheid (R²) van de op deze manier verkregen modellen wordt een lijst opgesteld

volgens de relatieve belangrijkheid van de structurele karakteristieken. Een vijfde deel van het onderzoek is de

eigenlijke stratificatie op basis van de belangrijkste structurele karakteristiek in het model. De oorspronkelijke

dataset wordt onderverdeeld in vier subdatasets. Uit elke subdataset wordt een ANFIS – model opgebouwd. De

vier opgebouwde modellen worden opnieuw geëvalueerd door middel van de criteria SEE en R². Een voorlaatste

item vergelijkt de bekomen resultaten van alle ANFIS - modellen ten opzichte van het beste regressiemodel uit

een voorgaande masterproef, bekomen met dezelfde dataset. Tot slot worden de beperkingen van dit

onderzoek, alsook de ANFIS – instellingen die niet zijn onderzocht nader toegelicht.

XXIII

Doelstelling

Een eerste doelstelling van het werk bestaat erin de relatieve belangrijkheid van de structurele

appartementskarakteristieken te bepalen met oog op stratificatie. Het effect van stratificatie op de

nauwkeurigheid en de betrouwbaarheid van het ANFIS – model nagaan is een tweede gesteld doel. Tot slot wil

de thesis de nauwkeurigheid en betrouwbaarheid van het beste regressiemodel uit een voorgaande masterproef

ten opzichte van de dataminingmodellen, meerbepaald neuro – fuzzy modellen, bekomen in dit werk, nagaan.

1

Literatuurstudie

Het economisch beginsel van “vraag en aanbod” is de centrale prijsbepalende factor binnen de vastgoedwereld.

Door een logisch oorzaak-gevolg verband doet overaanbod aan woongelegenheden op de markt de

verkoopprijzen dalen. Andersom impliceert deze wet dat het alsmaar stijgende bevolkingsaantal in de wereld de

vastgoedprijzen nog meer de hoogte in zal jagen.

In een eerste deel van de literatuurstudie komen de verschillende methoden om de waarde van vastgoed te

bepalen kort aan bod. De methode van de hedonische waardebepaling wordt in dit deel verder uitgewerkt. Een

volgend punt behandelt de bestaande modellen bij een hedonische waardebepaling. Een derde onderdeel

vergelijkt de resultaten van de verschillende modellen in gevoerd onderzoek. De dataminingmodellen neurale

netwerken en neuro - fuzzy worden er vergeleken ten opzichte van klassieke regressie. Tot slot wordt in de

literatuurstudie het neuro fuzzy gevolgtrekking systeem (ANFIS) nader toegelicht. Het ANFIS – model wordt eerst

algemeen besproken, vervolgens gesitueerd en afsluitend wordt ruimte voor verder onderzoek meegegeven.

2

1. Methoden bij de waardebepaling van vastgoed

De waarde van vastgoed bepalen is een complex gegeven. Verkopers van een woning ontvangen immers graag

de minimale waarde, kopers zijn daarentegen bereid maximaal de waarde van het vastgoed te betalen. We

kunnens ons echter de vraag stellen wat deze waarde juist inhoudt en hoe deze correct bepaald wordt. Immers,

verschillende schatters komen tot verschillende schattingen van eenzelfde vastgoed. Opnieuw kunnen we ons

afvragen welke schatting het meest accuraat is. De methode van de intrinsieke waarde, de methode op basis

van de vloeroppervlakte, de inkomstenmethode, de methode op basis van het kadastraal inkomen, de

vergelijkingsmethode (Ampe, Schatting en expertise) en de hedonische waardebepaling zijn zes mogelijke

invalshoeken voor het waarderingsprobleem. We bespreken deze methoden afzonderlijk in de volgende

paragrafen.

1.1 Methode van de intrinsieke waarde

De methode van de intrinsieke waarde, ook wel de analytische methode of nieuwbouwwaardemethode

genoemd, vertrekt vanuit de actuele nieuwbouwwaarde van de woning. De intrinsieke waarde wordt verkregen

door de actuele nieuwbouwwaarde te verminderen met een aftrek voor de vetusteit. De vetusteit brengt de

slijtage van een onroerend goed in rekening. Het spreekt voor zich dat de verkoopwaarde lager ligt dan de

intrinsieke waarde. Immers, mocht dit niet het geval zijn dan kan de koper even goed een gelijkaardige

bouwgrond aanschaffen en naar eigen smaak een woning met eenzelfde waarde laten optrekken. De

verkoopcoëfficiënt geeft de verhouding van de verkoopwaarde tot de intrinsieke waarde weer. Een richtwaarde

voor de verkoopcoëfficiënt van woningen is 75%. Anders geformuleerd is de verkoopwaarde gelijk aan de

intrinsieke waarde vermenigvuldigd met een venaliteitspercentage. De venaliteit is een maat voor de

verkoopbaarheid van een onroerend goed. Hoe makkelijker een onroerend goed verkoopt, hoe groter het

venaliteitspercentage of de verkoopcoëfficiënt is. De verkregen verkoopwaarde van de woning, opgeteld bij de

verkoopwaarde van de grond, geeft de uiteindelijke verkoopwaarde van de eigendom.

1.2 Methode op basis van de vloeroppervlakte

Waarderen op basis van de vloeroppervlakte is zeer bruikbaar bij appartementen. Deze methode kan eventueel

aangevuld worden met een meerwaarde per vierkante meter terras. Een basiseenheidsprijs per vierkante meter

vloeroppervlakte of bewoonbare oppervlakte wordt ingesteld. In deze eenheidsprijs zit eveneens de waarde van

de grond vervat met een aantal correcties ten gevolge van de ligging, de vetusteit, het comfort, de staat van

onderhoud, enz. De gecorrigeerde basiseenheidsprijs, vermenigvuldigd met de totale vloeroppervlakte, geeft de

verkoopwaarde van het appartement weer. Deze methode kan uitgebreid worden naar woonhuizen. In dit geval

wordt een equivalente vloeroppervlakte berekend. Het gelijkvloers krijgt de coëfficiënt 1. Een kelder, een garage,

een zolder, enz worden gewaardeerd ten opzichte van het gelijkvloers met een bijhorende coëfficiënt. De

3

equivalente vloeroppervlakte wordt berekend aan de hand van de sommatie van de oppervlakten van alle

vertrekken vermenigvuldigd met hun coëfficiënt. Op analoge wijze aan de waardebepaling van appartementen

kan de verkoopwaarde van een woning worden bepaald.

1.3 Inkomstenmethode

De waarde van het vastgoed wordt bij deze methode bepaald op basis van de kapitalisatie van de huurinkomsten

en een vooropgesteld rendement. De methode leent zich uitstekend voor situaties waarin het onroerend goed

reeds verhuurd is. Afhankelijk van de kenmerken van de investeerder en de rendementen op de alternatieve

markten wenst de koper jaarlijks een bepaald rendement te behalen. De huurinkomsten op jaarbasis, gedeeld

door het gewenste jaarrendement, bepalen de uiteindelijke verkoopwaarde.

1.4 Methode op basis van het kadastraal inkomen

De netto-opbrengsten, die een eigenaar van een onroerend goed kan verkrijgen door de huur gedurende een

jaar, rekening houdende met de huurmarkt op het referentietijdstip, 1 januari 1975, bepalen het kadastraal

inkomen. Bij woningen wordt 40% aan onderhoudskosten in rekening gebracht. Hierdoor is het uiteindelijke

kadastraal inkomen gelijk aan 60% van de huurwaarde. Door het gemiddelde te nemen van verschillende

verkoopprijzen van woningen met eenzelfde kadastraal inkomen, en door dit gemiddelde te vermenigvuldigen

met het kadastraal inkomen van het te waarderen pand, komt men tot een schatting van de verkoopwaarde. De

methode is echter niet vrij van gebreken. Zo wordt bijvoorbeeld in mindere mate rekening gehouden met de

perceelgrootte.

1.5 Vergelijkingsmethode

De vergelijkingsmethode of comparatieve methode zoekt de verkoopwaarden van vergelijkbaar vastgoed op.

Vergelijkbaar vastgoed omvat vastgoed van hetzelfde type op een vergelijkbare locatie en met vergelijkbare

kenmerken (Dugernier, M., De Nocker, L., Broeckx, S. en Bosmans, D., 2014). De vergelijkende vastgoedprijzen

worden vervolgens geïndexeerd naar het huidige jaar en de kenmerken van het te waarderen vastgoed worden

geanalyseerd ten opzichte van de vergelijkingspunten. Kwalitatieve meer- en minderwaarden worden door

correctiefactoren kwantitatief in rekening gebracht.

1.6 Hedonische waarderingsmethode

De hedonische of modelmatige waarderingsmethode beschouwt een woning als een verzameling van meerdere

specifieke kenmerken. Om de waarde van een woning te bepalen moet in theorie elk kenmerk afzonderlijk

gewaardeerd worden. De hedonische waardebepaling biedt hiervoor een oplossing. Er wordt immers niet enkel

4

gekeken naar de structurele kenmerken van het pand, maar ook onder meer de buurt speelt een rol (Raymond

Y. C. Tse, 2002). De uiteindelijke prijs van het vastgoed is de som van de waarden van alle invloedfactoren.

Aan het gebruik van de hedonische waarbepaling worden twee voorwaarden gekoppeld. Ten eerste dient de

woningmarkt in evenwicht te zijn om de betrouwbaarheid van het onderzoek niet in gevaar te brengen. Ten

tweede moet het te onderzoeken gebied als een geheel worden beschouwd. De verkoopprijs van

appartementsblokken kan niet vergeleken worden met die van rijwoningen.

De resultaten van de hedonische waardebepaling worden over het algemeen sterk aanvaard. Een groot pluspunt

van de methode is dat de uitgevoerde bewerkingen controleerbaar zijn, wat een herhaling van het gevoerde

onderzoek mogelijk maakt. Een nadeel is echter dat een grote opslagcapaciteit voor handen moet zijn. In

onderstaande alinea’s volgt een overzicht van de voornaamste invloedfactoren die de waarde bepalen binnen

de hedonische methode. Dit overzicht is zeker geen limitatieve lijst.

1.6.1 Structurele karakteristieken

Een eerste element, dat de waarde van een vastgoed binnen de hedonische methode bepaalt, omvat de

structurele kenmerken van een vastgoed. De structurele kenmerken, waarmee binnen een hedonische

waardebepaling rekening mee wordt gehouden, omvatten de indeling en de opbouw van de woning. Deze

karakteristieken zijn onder meer de totale beschikbare woonoppervlakte, het aantal kamers, de aanwezigheid

van een tuin en/of garage, de ouderdom van de woning, enz.

Eerder gevoerd onderzoek (Visser & van Dam, 2006) concludeerde reeds een aantal zaken met betrekking tot de

structurele karakteristieken binnen de hedonische methode van waardebepaling. Zo bleek dat de variabele

‘woonoppervlakte’ de meest positieve invloed op de verkoopprijs van een woning heeft. Immers, hoe groter het

aantal vierkante meter aan woonoppervlak, hoe meer de koper wil betalen. Daarnaast zijn er nog een aantal

andere parameters die een invloed hebben op de verkoopprijs. Het aantal kamers van de woning houdt nauw

verband met de woonoppervlakte. Echter heeft het aantal kamers niet altijd een gunstige invloed op de totale

verkoopprijs. Men stelt immers dat een ruimer ogende woning hoger gewaardeerd wordt dan wanneer diezelfde

woning, met dezelfde woonoppervlakte, wordt ingedeeld met meer kamers met een kleinere oppervlakte. In dat

geval is er sprake van een incompetente ruimte-indeling, wat een negatieve invloed op de verkoopprijs met zich

meebrengt.

De aanwezigheid van een extra slaapkamer is functioneel en verhoogt daarom de verkoopprijs. Een extra

sanitaire ruimte daarentegen is minder functioneel en betekent dan ook geen noemenswaardige meerwaarde

voor de verkoopwaarde van de woning (Day, Bateman, & Lake, 2003). De aanwezigheid van een garage en/of

tuin heeft wel een positieve invloed op de waarde van een onroerend goed. Daarnaast speelt ook de ligging van

het perceel een belangrijke rol. In verstedelijkte gebieden heeft een garage en/of tuin immers een bijkomende

5

meerwaarde ten opzichte van dezelfde garage en/of tuin in landelijke gebieden. Vooral voor appartementen met

een garage en/of tuin wordt een serieuze meerprijs betaald.

Daarenboven is het bouwjaar van een onroerend goed van invloed. Hoe recenter de woning gebouwd werd, hoe

meer de koper wil betalen. Toch wordt in vorig onderzoek vastgesteld dat de ouderdom van het vastgoed en de

verkoopprijs geen lineair verband kennen. Bovendien is de staat van onderhoud een belangrijk gegeven. Het

spreekt voor zich dat een volledig gerenoveerde woning waardevoller is dan een verwaarloosd pand.

Sinds 2008 moet er bij elke verkoop een EPC-certificaat afgeleverd worden. Het certificaat geeft meer informatie

over de energieprestatie van het gebouw. In tijden waar energie en milieu belangrijk zijn, hebben kopers de

intentie meer te betalen voor woningen met een goede EPC-score. Vanaf 1 januari 2014 moet bovendien in elke

nieuwbouwwoning een systeem geïntegreerd zijn waarmee autonoom hernieuwbare energie opgewekt kan

worden. Het kan bijvoorbeeld gaan om zonnepanelen, een zonneboiler of een warmtepomp. De maatregel is

een gevolg van de Europese richtlijn die voorschrijft dat alle nieuwbouw tegen 2021 bijna energieneutraal moet

zijn.

1.6.2 Type vastgoed

Naast de structurele kenmerken heeft ook het type vastgoed een invloed op de waarde van een vastgoed. Er

bestaan verschillende types vastgoed. Het type vastgoed wordt bepaald door de bestemming van het onroerend

goed. De bestemming van het gebouw heeft vervolgens zijn invloed op indeling van de ruimtes. Zo hebben

bijvoorbeeld een winkel en een woning een totaal verschillende indeling.

1.6.3 Typologie

De term ‘typologie’ duidt op de onderverdeling van een type vastgoed met dezelfde kenmerken in een bepaalde

groep. Laat ons de woningmarkt bekijken qua vastgoedtype. Op basis van gelijke karakteristieken kan de

woningmarkt worden opgedeeld in verschillende groepen of submarkten (Day, Bateman, & Lake, 2003). Deze

diversifiëring maakt het mogelijk voor kopers om hun zoektocht te verfijnen. Mensen die op zoek zijn naar een

eenvoudig en betaalbaar rijhuis zijn immers weinig geholpen indien er ook dure villa’s in de lijst met

zoekresultaten verschijnen. Opmerkelijk is dat huizen met vergelijkbare karakteristieken vaak in eenzelfde buurt

gelegen zijn (Gress, 2004). Dit komt door de stedenbouwkundige voorschriften die in een gemeente of stad van

kracht zijn (Ampe, Omgevingswerken & infrastructuur).

6

1.6.4 Economische karakteristieken

Ten vierde spelen ook de economische karakteristieken een rol bij de hedonische waardebepaling. De wet van

vraag en aanbod blijft immers een voortdurend geldend gegeven binnen de vastgoedmarkt. De economische

toestand van een land, namelijk recessie of economische groei, heeft een invloed op de verkoopprijzen van het

vastgoed. De financiële crisis van 2007 en 2008 zorgde in Spanje en Portugal voor stevig dalende vastgoedprijzen,

massaal veel leegstand en onafgewerkte bouwprojecten. De verklaring is een rechtstreeks verband tussen

enerzijds de vastgoedsector en anderzijds de bouwen beleggingsmarkt. Beiden zijn immers onderhevig aan een

continue evolutie waardoor prijzen en aanbod in de vastgoedwereld tijdsgebonden zijn.

De wijze van verkoop heeft eveneens een invloed op de verkoopprijs. Een onroerend goed kan op verschillende

manieren worden verkocht. We onderscheiden in hoofdzaak de vrijwillige en de gedwongen verkoop. Een

gedwongen verkoop, bij bijvoorbeeld een faillissement, brengt altijd een prijsverlaging met zich mee.

De econoom Chinloy stelde in 1996 dat een economische productiviteitstoename de potentiële kopers een hoger

gemiddeld inkomen bezorgt. Op deze manier zorgt een economische cyclus ervoor dat de prijs van vastgoed

eveneens een cyclus doorloopt (Chinloy, 1996). Wetende dat mensen bereid zijn om meer geld te betalen voor

hun droomhuis, zullen bijgevolg de prijzen stijgen. Gunstige economische omstandigheden zullen meerdere

gezinnen er ook toe aanzetten om een lening aan te gaan. De lage hypothecaire rentevoeten zorgen op dat

moment voor een stimulans. Op deze manier ontstaat er voor de koper een financieel gunstige situatie aangezien

de vraag naar woningen zal toenemen. Hierdoor zijn meer mensen bereid meer te betalen, wat de verkoopprijzen

de hoogte injaagt.

Naast de leeftijd van de woning, zoals reeds besproken bij de structurele karakteristieken, is ook de leeftijd van

de potentiële koper(s) van belang. Uit onderzoek is gebleken dat de jongere generatie bereid is om meer te

betalen voor een onroerend goed dan voorgaande generaties. De mensen willen en kunnen nu luxueuzer wonen

dan vroeger het geval was. Dit effect wordt versterkt in tijden van economische hoogconjunctuur (Saunders,

2005).

1.6.5 Fiscale karakteristieken

Daarnaast zijn ook fiscale kenmerken belangrijk voor de waardebepaling van onroerend goed. Bezitters van een

onroerend goed betalen een belasting onder de vorm van onroerende voorheffing. Deze belasting is jaarlijks te

betalen zolang men eigenaar van een vastgoed is. Meteen bij de aankoop van de woning, wordt de inning door

de gewesten geheven. De taks wordt berekend door middel van een percentage van het geïndexeerde kadastraal

inkomen (KI). Het percentage verschilt van gebied tot gebied en is afhankelijk van de ligging van het perceel. Het

geïndexeerde kadastraal inkomen is een forfaitair bedrag dat door de Administratie van het Kadaster, de

Registratie En Domeinen (AKRED) wordt bepaald.

7

Het innen van de onroerende voorheffing gebeurt op drie niveaus:

- de basis van de belasting is bestemd voor de Vlaamse Overheid;

- er worden opcentiemen op deze basisbelasting geheven afhankelijk van de provincie;

- tot slot worden er ook nog opcentiemen geheven naargelang de gemeente waarin het onroerend goed

gesitueerd is.

Het basisbedrag is in sterke mate afhankelijk van de gezinssituatie. Hoe meer kinderen men ten laste heeft, hoe

minder men wordt belast. In uitzonderlijke gevallen kan er zelfs een vrijstelling worden verkregen. Bewoners van

sociale woningen betalen eveneens minder voorheffing.

1.6.6 Buurtkarakteristieken

Ook buurtkarakteristieken zijn van invloed op de waarde van een vastgoed. In hoofdzaak worden de

buurtkarakteristieken onderverdeeld in drie groepen: sociale, economische en demografische buurtgerelateerde

karakteristieken (Gernaert & Trocmé, 2008). Het is niet eenvoudig om de invloed van een buurt op de

verkoopprijs van een onroerend goed te definiëren. Enerzijds is immers de invloed op het moment van de

verkoop van belang, anderzijds moet er ook een schatting gemaakt worden van de impact van de buurt op

langere termijn.

De sociale buurtkarakteristieken kunnen opgesplitst worden in sociaaleconomische en sociaal-culturele

buurtkarakteristieken. Deze eigenschappen houden verband met de samenstelling van de bevolking en de

bijhorende sociale status van de omgeving. Wanneer een buurt niet langer een onbevlekt imago heeft, valt deze

stempel nog maar moeilijk van zich af te schudden, zelfs al is het imago tot stand gekomen op subjectieve basis.

Een onroerend goed verkopen in een buurt met een slecht imago zal altijd een mindere verkoopprijs met zich

meebrengen dan een gelijkaardige woning in een buurt met een betrouwbaar imago, ongeacht de staat van de

woning.

De economische buurtkarakteristieken houden het welzijn van de buurt in. Een hoge welzijnsfactor impliceert

een hogere verkoopprijs van het onroerend goed (Day, 2003). De welzijnsfactor wordt zowel positief als negatief

door verschillende kenmerken beïnvloed. Hoe meer positieve economische factoren er aanwezig zijn, hoe hoger

de welzijnsfactor van de buurt.

Kenmerken die een eerder negatieve invloed hebben op de welzijnsfactor zijn:

het ontbreken van centrale verwarming;

het niet beschikken over een auto;

werkloosheid;

gezinnen die geen eigenaar zijn van het huis waarin ze wonen.

8

Kenmerken die een positieve invloed hebben op de welzijnsfactor zijn:

gezinnen met twee of meer auto’s;

gezinnen met kinderen;

gezinnen met meer kinderen;

het aantal woonplaatsen in de woning.

Demografische buurtgerelateerde karakteristieken betreffen de samenstelling van de bevolking in de buurt.

Wanneer er veel immigranten of appartementsblokken in een buurt aanwezig zijn, dan zal de aanwezigheid

hiervan de prijs fors doen dalen. Mensen geven er immers de voorkeur aan om in de directe omgeving van

gelijkgestelden te wonen. Een buurt met een lage sociale status brengt een lagere prijs per vierkante meter met

zich mee dan de prijs per vierkante meter van hetzelfde onroerend goed in een buurt met een hogere sociale

status. Doorgaans wonen in buurten met een lage sociale status mensen met een lager opleidingsniveau. Deze

mensen beschikken vervolgens over een inkomen dat lager ligt dan het gemiddelde. Bovendien is de factor

werkloosheid in dergelijke buurt vaak sterk aanwezig (Day, 2003). Een Zweeds onderzoek voegt hier aan toe dat

de vastgoedprijzen dalen indien er in een buurt een sterke criminaliteit heerst (Ceccato & Wilhemsson, 2011).

Een ander onderzoek kwam eveneens tot de bevinding dat de perceptie van criminaliteit in de buurt de

huisprijzen consistent negatief beïnvloedt. Criminaliteit zoals vandalisme, graffiti en brandstichting hebben een

significante negatieve impact op de woningprijzen, terwijl er geen meetbaar effect werd vastgesteld door de

aanwezigheid van inbraken. Een veiligheidsgevoel in de buurt werd geassocieerd met een hogere huiswaarde

(Paolo Buonanno, Daniel Montolio, Josep Maria Raya & Vilchez, 2012).

1.6.7 Omgevingskarakteristieken

Een onroerend goed wordt ook gekenmerkt door de nabije omgeving. Deze omgevingskarakteristieken hebben

een invloed op de waarde van een vastgoed. Factoren van natuurlijke, historische of maatschappelijke aard

kunnen een invloed uitoefenen op de verkoopprijs.

Met natuurlijke factoren wordt gedoeld op de aanwezigheid van groen in de omgeving zoals een rivier of een

kustlijn. Het reliëf van een gebied behoort eveneens tot deze groep. Onderzoek heeft uitgewezen dat de

aanwezigheid van groen en/of water in een gebied de verkoopprijzen licht doet stijgen (Thériault, Des Rosiers,

Villeneuve, & Kestens, 2004). Wanneer een groene zone of een waterzone in een straal van 500m rond het

vastgoed gelegen is, dan stijgt de waarde van het onroerend goed met minimaal 5% (Wagteveld, 2007). Echter,

naast dit positieve effect kan een groenzone ook hinder veroorzaken. Wie vlak naast een park woont, kan immers

last hebben van geluidsoverlast. Wagteveld stelt wel dat dit effect pas waarneembaar is indien de afstand tot de

groenzone kleiner is dan 50m. Visser & Van Dam stelden in 2006 geen lineair verband tussen de afstand van de

woning tot de groen- of waterzone en de verkoopprijs van het onroerend goed vast (Visser & Van Dam, 2006).

Wel zal een groene zone in een stedelijk gebied voor een iets grotere prijsstijging zorgen dan een groene zone in

9

een landelijk gebied. Wagteveld voegt daar aan toe dat de nabijheid van groen een grotere impact heeft op de

prijs dan de nabijheid van water. Toke Emil Panduro & Kathrine Lausted Veie merken op dat groene zones

heterogene entiteiten zijn en dat geen twee groene zones identiek zijn. Een classificatie van alle verschillende

zones dringt zich dus op indien men niet tot verkeerde conclusies omtrent de relatie tussen een groene zone en

de vastgoedprijs wil komen (Toke Emil Panduro & Kathrine Lausted, 2013).

Een ander onderzoek toont aan dat er een verband bestaat tussen verschillende karakteristieken onderling.

Austin Troy en J. Morgan Grove onderzochten de relatie tussen de aanwezigheid van parken, een

omgevingskarakteristiek, en de criminaliteit, een buurtkarakteristiek. Hieruit blijkt dat de aanwezigheid van

parken zowel een positieve als negatieve impact op de prijs heeft naargelang de criminaliteitsgraad. Wanneer de

criminaliteit in een bepaalde buurt relatief laag is, hebben parken een positieve invloed op de waarde van huizen.

Wanneer de criminaliteit echter tot boven een bepaalde drempel stijgt, dan hebben parken een negatieve

invloed op de verkoopprijs (Austin Troy & J. Morgan Grove, 2008).

Eigendommen met een historische context hebben een beduidende meerwaarde. Dit vastgoed is opgenomen in

een lijst van beschermde gebouwen, zoals onder meer oude herenhuizen. Indien een woning beschermd is, ligt

de prijs ongeveer 27,9 % hoger dan de prijs van een gelijkaardige woning die niet beschermd is. Bovendien

verhoogt de prijs van huizen met 0.28 % per beschermd gebouw dat zich in een straal van 50 meter rond het te

schatten vastgoed bevindt (Faroek Lazrak, Peter Nijkamp, Piet Rietveld & Jan Rouwendal, 2013).

Onderzoek wijst bovendien uit dat er een direct verband bestaat tussen de huisprijs en de nabijheid van

transportinfrastructuur. De aanwezigheid van metro, tram en bus beïnvloeden de prijs positief. Anderzijds heeft

de aanwezigheid van treinen, luchthavens en havens een negatieve invloed op de prijs van een vastgoed

(Efthymiou, D. and C. Antoniou, 2013).

Industriële sites hebben een negatieve impact op woningprijzen. Huisprijzen stijgen dan ook indien de afstand

tot de dichtstbijzijnde industriële site toeneemt. Vanaf een bepaald punt, in de studie op 1093 meter, neemt het

negatieve effect af tot het volledig uitdooft bij een steeds toenemende afstand (Friso De Vor & Henri L. F. De

Groot, 2011). Industriële sites zijn bovendien nefast voor het leefmilieu, een karakteristiek die in de volgende

paragraaf aan bod komt.

Een laatste besproken omgevingselement, dat een invloed kan hebben op de prijs van een woning, is de nabijheid

van een gevangenis. Indien een gevangenis zich in de directe omgeving bevindt, worden mensen weerhouden

om zich in deze woning te vestigen. Aangezien de vraag afneemt, zal ook de prijs als gevolg dalen (Jae Su Lee &

Ming-Han Li, 2009).

10

1.6.8 Leefmilieu

Een woning wordt daarenboven gekarakteriseerd door het leefmilieu. De grootste invloedfactoren van het

leefmilieu op de prijs van een woning zijn de parameters geluidsoverlast en luchtverontreiniging.

Wat het effect van luchtvervuiling betreft bestaat er discussie. In voorgaande onderzoeken werd immers

vastgesteld dat het effect van luchtvervuiling te verwaarlozen is (Smith en Deyak, 1975). Later gevoerde

onderzoeken voegden daar nog aan toe dat het niet eenvoudig is om het onaangename effect van

luchtverontreiniging te bepalen (Graves en Murdoch, 1988). Echter, een recent onderzoek in Chinese steden

beweert het tegendeel. In dit onderzoek wordt immers gesteld dat mensen bereid zijn om een hogere prijs te

betalen voor huizen in steden waar de luchtkwaliteit beter is. Indien de vervuiling in een stad ongeveer 10% lager

is dan in naburige steden, dan leidt dit tot een verhoging van 0.76% van de lokale huisprijzen (Zheng, S. Q., et

al.,2014).

Een tweede element waar potentiële kopers belang aan hechten is geluidsoverlast. Zo zal een gezin, dat op zoek

is naar een rustige woonomgeving, zich storen aan de nabijheid van een drukke snelweg. Het voorbeeld bij uitstek

is een woning die vlak naast een drukke autosnelweg gelegen is. In dit geval is er niet alleen geluidsoverlast, maar

kan er ook potentiële reukoverlast zijn door de geur van uitlaatgassen. Anderzijds brengt een autosnelweg het

voordeel van toegankelijkheid met zich mee. Ook huizen in de nabijheid van een luchthaven kampen met

geluidsoverlast, wat dalende vastgoedprijzen met zich meebrengt. Resultaten tonen aan dat, indien het

verkeersgeluid de 65 dB overschrijdt, er een negatieve invloed van ongeveer 12% op de woningprijzen vast te

stellen is (Marcel A. J. Theebe, 2004).

Wat het leefmilieu betreft, kunnen we het afsluitend eveneens hebben over klimaatverandering. De

klimaatverandering is een steeds actueler thema vandaag de dag. Resultaten uit onderzoek van Katrin Rehdanz

tonen aan dat Britse huishoudens bereid zijn om meer te betalen voor een droomwoning indien de gemiddelde

temperatuur in de wintermaanden toeneemt. Anderzijds leidt een verhoogde temperatuur in de zomermaanden

niet tot een welwillendheid om meer te betalen voor een woning. Tevens merkt de onderzoekster op dat

klimaatveranderingen ook andere indirecte effecten met zich meebrengt, zoals een stijgend zeeniveau en

toenemend extreem weer. Met deze elementen werd in het onderzoek geen rekening gehouden (Katrin

Rehdanz, 2006).

1.6.9 Toegankelijkheid

In de voorbije decennia is de toegankelijkheid van een woning geëvolueerd van luxe naar een noodzaak. Steeds

meer kopers schenken dan ook aandacht aan dit laatste woningkenmerk. Toegankelijkheid beperkt zich niet

louter tot de verkeersinfrastructuur voor automobilisten. Er wordt onder meer gelet op alternatieve

vervoersmogelijkheden zoals de nabijheid van een bushalte of een station. Het uitgangspunt is doorgaans de

11

reistijd tot het stadscentrum. Naast de aanwezigheid van openbaar vervoer, is vooral de frequentie van dit

openbaar vervoer van belang. Hoe meer treinverbindingen er mogelijk zijn, hoe hoger de vastgoedprijs zal zijn.

Daarnaast is ook een goede bereikbaarheid van scholen, winkels… cruciaal. Meerdere voorzieningen met

dezelfde behoefte versterken het positief effect op de vastgoedprijs, bijvoorbeeld de toegankelijkheid tot

meerdere winkels vanuit de woongelegenheid (Day, Bateman, & Lake, 2003).

Het effect van een nabije toegankelijkheid is dubbel. Een autosnelweg dicht bij een stad leidt tot lagere

woningprijzen, in landelijk gebied leidt dit daarentegen tot hogere woningprijzen. Op het platteland betekent

een grotere afstand tot de snelweg immers een verminderde bereikbaarheid. In steden wordt de nabijheid van

een autosnelweg geassocieerd met overlast in de vorm van geluid en stank (Visser en van Dam, 2006). Het

dubbele effect wordt eveneens duidelijk door het feit dat een nabije toegankelijkheid tot een autosnelweg

positief is, maar dat net naast een autosnelweg wonen als negatief ervaren wordt.

Een niet onbelangrijk gegeven met betrekking tot toegankelijkheid is het aanbod qua werkgelegenheid in de

directe omgeving. Hoe meer vacatures in de directe omgeving te vinden zijn, hoe meer mensen in deze buurt

willen wonen (Visser en Van Dam, 2008). Mensen willen immers steeds vaker zo dicht mogelijk bij hun werk

gehuisvest zijn. Er wordt dus gekeken naar de reis- of pendeltijd van en naar het werk. Hierdoor zijn de

vastgoedprijzen in het hart van een stad merkbaar hoger dan in delen van de voorstad, waar men veel vaker met

fileleed te maken krijgt. Merk op dat werkgelegenheid in de omgeving dan weer een omgevingskenmerk is.

12

2. Modellen bij een hedonische waardebepaling

Binnen de hedonische waardebepaling worden alle voorgaande karakteristieken gewaardeerd om tot een finale

vastgoedwaarde te komen. Dit maakt dat het model vaak complex is. Om de waardering uit te voeren kan beroep

worden gedaan op verschillende modellen. Enerzijds zijn er klassieke regressiemodellen voorhanden, anderzijds

kan gebruik worden gemaakt van recentere dataminingmodellen. We bespreken beide modellen, om tot een

waardering te komen, achtereenvolgens.

2.1 Regressie

Regressieanalyse is een statistische techniek waarbij gegevens, met mogelijks een specifieke samenhang,

geanalyseerd worden. De specifieke samenhang wordt geduid met de term regressie. Het model houdt zowel

rekening met afhankelijke als onafhankelijke variabelen. De doelstelling van de techniek is om de onafhankelijke

variabele(n) te kunnen voorspellen op basis van de gekende verbanden tussen één of meerdere afhankelijke

variabelen. Indien met één afhankelijke variabele gewerkt wordt, spreekt men van enkelvoudige regressie. Bij

meerdere afhankelijke variabelen spreekt men van meervoudige regressie.

2.2 Datamining

Met behulp van datamining kan in een grote verzameling van gegevens gezocht worden naar verbanden en

patronen. Meer specifiek wordt er gebruik gemaakt van algoritmen om patronen en mogelijke verbanden op te

sporen uit de set gegevens. De kwaliteit van de data is cruciaal in de analyse. In een ruimer kader wordt

datamining als onderdeel beschouwd van Knowledge Discovery in Database (KDD) (Fayyad, Piatetsky & Smyth,

1996).

KDD wordt gehanteerd volgens een vast schema. In eerste instantie worden het probleem en het doel

vooropgesteld. Nadien volgt de oriëntatie van de gegevens. De omvangrijke dataset wordt hierbij klaargestoomd

voor de datamining zelf. Dit kan onder meer gerealiseerd worden door de overbodige gegevens uit te set te

verwijderen. Datamining kan twee verschillende doeleinden hebben, namelijk verificatie of ontdekking. Bij

verificatie wordt er gezocht naar bevestiging van reeds eerder gevonden verbanden tussen de gegevens

onderling. Bij ontdekking wordt er onderscheid gemaakt tussen voorspelling en beschrijving. Tot slot volgt de

evaluatiefase waarin men nagaat of het vooropgestelde doel bereikt is. De volgende subparagrafen beschrijven

vier technieken die onder de noemer datamining thuishoren. Het zijn neurale netwerken, beslissingsbomen, de

fuzzy logica en neuro – fuzzy.

http://nl.wikipedia.org/wiki/Statistiek

13

2.2.1 Neurale netwerken

Artificial Neural Networks (ANN) of kortweg neurale netwerken is een systeem waarbij de werking van onze

hersenen gesimuleerd wordt door het gebruik van neuronen. In het menselijk brein verwerken honderden

biljoenen neuronen, onderling met elkaar verbonden, parallel informatie. Een neuraal netwerk is opgebouwd uit

een inputlaag van neuronen, één, twee en soms zelfs drie verborgen neuronenlayers en een finale output

neuronenlaag. De neuronen van de verschillende layers zijn onderling met elkaar verbonden, elk met een eigen

gewicht (Wang, S.-C. , 2003).

2.2.2 Beslissingsbomen

Daarnaast wordt veel gebruik gemaakt van de techniek van beslissingsbomen. Bij deze techniek wordt de data

verdeeld over de meest invloedhebbende variabele. Vergeleken met de traditionele regressiemodellen vertoont

een model, gebaseerd op een beslissingsboom, verschillende voordelen. Ten eerste kan een boombenadering

zowel overweg met classificatie- als regressieproblemen. Ten tweede laat een beslissingsboom een eenvoudige

interpretatie aan de eindgebruiker toe. Het geeft de eindgebruiker immers de mogelijkheid de resultaten te

evalueren en de belangrijkste kenmerken te identificeren. Tot slot zijn beslissingsbomen krachtige instrumenten

om de lineaire of niet-lineaire relatie tussen de afhankelijke en de onafhankelijke variabelen in kaart te brengen.

Daarenboven kan de techniek toegepast worden om de meest significante afhankelijke variabele in het

voorspellen van de doelvariabele te bepalen (Fan, G.-Z., et al.,2006). Er wordt een boomstructuur verkregen die

duidelijk, representatief en begrijpelijk is.

2.2.3 Fuzzy logica

Fuzzy logica of vage logica is een stroming binnen de logica met als grondlegger Zadeh. In tegenstelling tot de

Arestoteliaanse logica, met uitsluitend de mogelijkheden waar of onwaar, voegt de vage logica de mogelijkheden

gedeeltelijk waar of gedeeltelijk onwaar toe. Met behulp van waarheidswaarden tussen 0 (onwaar) en 1 (waar)

wordt het discrete karakter van de traditionele logica losgelaten. Ter illustratie, de karakteristiek geluidsoverlast

wordt volgens de vage logica bijvoorbeeld beantwoord met 80% waar en 20% onwaar. Het fuzzy gevolgtrekking

systeem maakt gebruik van de fuzzy logica. Bij een fuzzy gevolgtrekking systeem (FIS) wordt een input

getransformeerd tot een output door gebruik te maken van fuzzy regels (Kusan, H., et al., 2010). Het hoofdproces

van een algemeen fuzzy gevolgtrekking systeem bestaat uit vier activiteiten: de fuzzificatie, de fuzzy regelbasis

opstellen, de fuzzy gevolgtrekking machine en de defuzzificatie (Huang & Chiu, 2009).

14

2.2.4 Neuro-fuzzy

De combinatie van de neurale netwerken met de fuzzy logica leidt tot het neuro-fuzzy model. De algemene

structuur van een neuro-fuzzy gevolgtrekking systeem aangepast door neurale netwerken (ANFIS) bestaat uit vijf

layers, die een aantal knopen bevatten die onderling met elkaar verbonden zijn door rechtstreekse links. Elke

knoop is gedefinieerd door een knoopfunctie met vaste of aanpasbare parameters. Het systeem streeft twee

hoofddoelstellingen na. De eerste doelstelling wil de menselijke kennis of ervaring transformeren in de

basisregels en de database van een fuzzy gevolgtrekking systeem . De tweede doelstelling bestaat erin om de

lidfuncties zo nauwkeurig mogelijk af te stellen om zo de outputfout te minimaliseren of, anders gezegd, de

prestatie te maximaliseren (Gerek, I. H. L., 2014).

15

3. Resultaten van de verschillende modellen

In voorgaand onderdeel van de literatuurstudie kwam de techniek van regressie en de dataminingtechnieken

neurale netwerken, belissingsbomen, fuzzy logica en neuro – fuzzy aan bod. In een eerste deel van dit hoofdstuk

worden de resultaten uit onderzoeken van modellen gebaseerd op neurale netwerken ten opzichte van

regressiemodellen, voor de waardebepaling van woningen, besproken. Een volgend punt vergelijkt de prestatie

van neuro – fuzzy modellen ten opzichte van regressiemodellen.

3.1 Neurale netwerken versus regressie

Sommige studies tonen de superioriteit van artificiële neurale netwerken ten opzichte van meervoudige

regressieanalyse aan (Do & Grudnitski, 1992; Tay, D. P. & D. K. Ho, 1992; Hasan Selim, 2009). Andere onderzoeken

tonen daarentegen niet noodzakelijk aan dat artificiële neurale netwerken superieur zijn (Worzala, E., et al.,

1995; Marieke Dewulf & Tine Provoost, 2012). Daarom focussen Nguyen en Cripps in hun onderzoek op de vraag

waarom bepaalde studies concluderen dat meervoudige regressieanalyse beter is en andere studies tot het

besluit komen dat neurale netwerken een beter alternatief zijn om de verkoopwaarde van verkocht vastgoed te

voorspellen (Nghiep, N. and C. Al, 2001). In de paragrafen die volgen komen de bevindingen van de zes

voornoemde onderzoeken naar voor.

Do en Grudnitski gebruiken acht parameters bij de waardebepaling van een woning. Deze variabelen zijn de

leeftijd in jaren, het aantal slaapkamers, het aantal badkamers, de oppervlakte van de leefruimte, het aantal

garages, het aantal verwarmde ruimtes, het aantal verdiepingen en de perceelgrootte. Het meervoudig

regressiemodel is een functie van de acht huiskarakteristieken in functie van de verkoopsprijs. Het neuraal

netwerk is opgebouwd uit een inputlayer van acht neuronen, overeenkomstig de acht variabelen, een verborgen

layer van drie neuronen en als outputlayer de geschatte waarde van de eigendom. De resultaten tonen aan dat

het neuraal netwerk bijna twee keer zo accuraat is dan het model gebaseerd op meervoudige regressie. Een

gemiddelde absolute fout (MAE) van 6.9 % ten opzichte van 11.26 % bevestigen dit (Do & Grudnitski, 1992).

Een onderzoek van Tay en Ho betreffende de prijsvoorspelling van residentiële appartementen in Singapore

komt tot dezelfde bevindingen. Beide modellen zijn daarenboven accurater dan de voorgaande modellen. De

neurale netwerken vertonen een gemiddelde absolute fout van 3.9%, de meervoudige regressie tekent een MAE

op van 7.5 % (Tay, D. P. & D. K. Ho, 1992).

Hasan Selim evalueerde de predictie van de huisprijzen in Turkije op basis van de volgende prestatiecriteria: de

gemiddelde absolute fout (MAE), de gemiddelde kwadratensom fout (MSE) en de vierkantswortel uit de

gemiddelde kwadratensom fout (RMSE). Op basis van de drie evaluatiecriteria presteren neurale netwerken ook

hier beduidend beter (Hasan Selim, 2009).

16

Een studie, uitgevoerd door Worzala, E. et al., besluit niet dat neurale netwerken te verkiezen zijn boven een

meervoudige regressieanalyse (Worzala, E., et al., 1995). Het vergelijkend onderzoek van prijsmodellen voor de

waardebepaling van appartementen aan de hand van datamining en regressieanalyse door Marieke Dewulf en

Tine Provoost komt tot hetzelfde besluit, een logaritmische lineaire regressie zonder constante met de actuele

prijs als lineair gegeven geeft in het onderzoek het meest nauwkeurige resultaat. De onder de loep genomen

dataminingmodellen zijn gebaseerd op de techniek van neurale netwerken, CHAID en C&R-tree. Bij de regressie

komen lineaire en loglineaire modellen aan bod, al dan niet met een constante. In eerste instantie wordt de

dataset voorbereid door uitschieters te elimineren en de verkoopprijs te indexeren. Dataset 0 heeft uitsluitend

structurele kenmerken als inputvariabelen zijnde de nuttige oppervlakte, het kadastraal inkomen, het aantal

woonplaatsen, de garage, het aantal badkamers, de centrale verwarming en de ouderdom. Dataset 1 tot en met

10 wordt bekomen door telkens een buurten omgevingskarakteristiek toe te voegen. De buurten

omgevingskarakteristieken zijn achtereenvolgens de kantoordichtheid, de bezettingsgraad van de

parkeermogelijkheden, het aantal vreemdelingen, het aandeel geklasseerde gebouwen, het aantal lokale

handelszaken, het aandeel woningen bewoond door de eigenaar, het aantal vertrekken per woning, de

gemiddelde grootte van de huishoudens, de gemiddelde oppervlakte per woning en de werkloosheidsgraad.

Dataset 1 is een uitbreiding van dataset 0, dataset 2 is een uitbreiding van dataset 1 enz. De evaluatie van de

modellen gebeurt op basis van de standaardafwijking (SEE) en de determinatiecoëfficiënt (R²). Het model met

de kleinste standaardafwijking, in combinatie met de grootste determinatiecoëfficiënt, is superieur. Wanneer

we de dataminingtechnieken onderling vergelijken, stellen we vast dat de neurale netwerken voor alle datasets

beter presteren ten opzichte van C&R-tree en CHAID. De variabele, die de meeste invloed uitoefent op de

verkoopprijs van woningen, blijkt de nuttige oppervlakte te zijn. Op twee staat het kadastraal inkomen en de

derde meest invloedrijke parameter is de omgeving- en buurtkarakteristiek die het aandeel vreemdelingen

weergeeft (Marieke Dewulf & Tine Provoost, 2012). Jolande Van Puyvelde komt eveneens tot de vaststelling dat

het toevoegen van buurten omgevingskarakteristieken een nauwkeuriger model oplevert maar dat het effect

van deze variabelen op de verkoopprijs minder relevant is. Haar onderzoek bracht, in tegenstelling tot dat van

Dewulf & Provoost, neurale netwerken naar voor als beste model, terwijl CHAID, R&C-tree en regressie ongeveer

dezelfde nauwkeurigheid vertoonden (Jolande Van Puyvelde, 2011).

Nghiep, N. and C. Al maken verschillende vergelijkingen tussen de twee modellen door de modelspecificaties, de

grootte van de trainingsdata en de evaluatiecriteria te wijzigen. De data in het onderzoek bestaat uit 3906

observaties van verkochte residentiële woongelegenheden. De gebruikte woningkenmerken zijn de oppervlakte

aan leefruimte, het aantal slaapkamers, het aantal badkamers, de leeftijd van het vastgoed, de periode van

verkoop en het al dan niet bezitten van een garage/carport. De 3906 observaties worden random opgedeeld in

trainingsets van T1 tot T18. Trainingsdataset T2 is een extensie van trainingsdataset T1, trainingsdataset T3 is

een extensie van trainingsdataset T2, enz. De trainingsdatasets bevatten respectievelijk 306, 506, 706, 906, 1106,

1306, 1506, 1706, 1906, 2106, 2306, 2506, 2706, 2906, 3106, 3306, 3506 en 3706 records. Het compliment van

iedere trainingsdataset met de 3906 observaties vormt respectievelijk de validatiesets V1 tot V18. De gebruikte

training- en validatiesets bij de vergelijking van de meervoudige regressieanalyse met de neurale netwerken zijn

17

identiek. Bij de meervoudige regressieanalyse wordt beroep gedaan op zes verschillende modellen gebaseerd op

voorgaande studies. De specificaties zijn lineair, semi-logaritmisch of logaritmisch-logaritmisch. Voor de neurale

netwerken worden eveneens zes modellen opgesteld met inputvariabelen die corresponderen met de zes MRA-

modellen, een verborgen layer en een output die de verkoopsprijs bepaalt. De ANN-software vereist dat alle

inputvariabelen worden getransformeerd zodat ze in het interval (-1,1) komen te liggen en de outputvariabele

in het interval (0,1). De trainingsdata wordt gebruikt om de modellen op punt te stellen en om dus, met andere

woorden, de onbekende modelcoëfficiënten te verkrijgen. De validatiesets worden aangewend om de modellen

te testen. Nadien worden de resultaten geëvalueerd. Het interpreteren van de resultaten gebeurt op basis van

de gemiddelde absolute fout (MAE), die wordt berekend uit alle data, en de MAE in combinatie met de absolute

fout (FE) per observatie. De absolute fouten worden opgedeeld in drie categorieën: het percentage aan metingen

dat binnen 5% marge ligt ten opzichte van de verkoopsprijs, het percentage dat tussen 5 en 15% ligt en het

percentage dat groter is dan 15%. Het datamodel met de kleinste gemiddelde absolute fout (MAE),

gecombineerd met het hoogste percentage aan meest accurate voorspellingen (FE is kleiner of gelijk aan 5%),

wordt als superieur beschouwd. Van alle meervoudige regressiemodellen scoort het semi-logaritmisch model

het beste. Het logaritmisch-logaritmisch model scoort het slechtste wanneer met de MAE als de 5% FE rekening

gehouden wordt. In het algemeen tonen de resultaten aan dat de prestatie van de MRA verbetert wanneer de

functionele modelspecificaties verbeteren. Bij neurale netwerken wordt het model daarentegen beter wanneer

de grootte van de trainingsdata toeneemt. Rekening houdend met beide evaluatiecriteria presteren de ANN

beter ten opzichte van de MRA wanneer een middelmatige tot grote testset wordt gebruikt. Nemen we enkel de

MAE in beschouwing, dan is de MRA superieur bij kleine testsets. Bovendien wordt vastgesteld dat wanneer de

functiespecificaties van de ANN meer complex worden, de grootte van de testset moet worden vergroot om

beter te kunnen presteren dan het overeenkomstig MRA-model. De fluctuatie in de prestatie van de neurale

netwerkmodellen kan verklaard worden door het grote aantal mogelijke parameterinstellingen en de

afwezigheid van een methodische benadering bij het kiezen van deze instellingen. Het falen van deze instellingen

kan leiden tot een slecht ANN-model. Tevens is het gebruik van eenzelfde woningkarakteristieken als modelinput

een beperking van de studie aangezien het gebruik van andere inputvariabelen mogelijks een andere output kan

genereren. De resultaten van dit onderzoek geven wel een aannemelijke verklaring voor de verschillende

resultaten van studies waarbij MRA- en ANN-modellen ten opzichte van elkaar werden vergeleken met

betrekking tot het voorspellen van de waarde van woningen. We kunnen concluderen dat de predictieprestatie

afhangt van de gebruikte evaluatiecriteria in combinatie met de grootte van de trainingsdata en de

modelspecificaties (Nghiep, N. and C. Al, 2001).

3.2 Neuro- fuzzy versus regressie

Onderzoek van Jian Guan et al. past voor het eerst een neuro-fuzzy gevolgtrekking systeem aangepast door

neurale netwerken (ANFIS) toe bij de bepaling van vastgoedwaarde (Jian Guan et al, 2008). Het onderzoek

beschrijft een aanzet in het ontwerp en de implementatie van een ANFIS-model om de prijzen van residentiële

woningen te voorspellen. Dergelijk ANFIS-systeem bezit de mogelijkheden van een neuraal netwerk zoals leer-

18

en optimalisatiemogelijkheden. Anderzijds bezit het model ook de mogelijkheden van een fuzzy gevolgtrekking

systeem (FIS) zoals het gebruik van de menselijke redenering in als-dan-regels. De resultaten van het ANFIS-

model worden in het onderzoek vergeleken met de resultaten die verkregen worden uit een traditioneel

meervoudig regressiemodel door gebruik te maken van drie evaluatiecriteria. Bij beide modellen worden de

vierkantswortel uit de gemiddelde kwadratensomfout (RMSE), de maximale absolute fout (MAE) en de

gemiddelde absolute percentage fout (MAPE) ten opzichte van elkaar afgetoetst. Uit het onderzoek blijkt dat de

resultaten van het ANFIS-model vergelijkbaar zijn met de resultaten van een traditionele regressieanalyse. Wel

zijn er enkele beperkingen in de studie die verder onderzoek in de toekomst mogelijk maken. Hoewel de

resultaten van een ANFIS-model in het onderzoek gelijkaardig zijn aan de resultaten van de meervoudige

regressie, is het toch mogelijk het ANFIS-model te verbeteren indien meer gegevens voor de training beschikbaar

zijn. Toekomstig onderzoek moet dan ook nagaan of een grotere dataset daadwerkelijk zorgt voor een betere

ANFIS-benadering. Een tweede beperking ligt in het gebruikte variabeltype. In de studie worden immers

uitsluitend kwantitatieve variabelen gebruikt, hoewel het fuzzy gevolgtrekking systeem ook vatbaar is voor niet-

kwantitatieve variabelen zoals bijvoorbeeld de reputatie van de omgeving. Verder onderzoek kan uitwijzen of

het toevoegen van niet-kwantitatieve variabelen het model al dan niet beter maakt.

In 2014 werd door Guan et al. een tweede publicatie gepubliceerd die het gebruik van een neuro-fuzzymodel in

het domein van de vastgoedwereld behandelt. De resultaten van dit onderzoek tonen de superioriteit van een

ANFIS-model in alle scenario’s aan ten opzichte van de meervoudige regressieanalyse (MRA). De data wordt

willekeurig opgedeeld in een trainingset (40%), een validatieset (30%) en een testset (30%). Er worden drie

scenario’s onderzocht. Een eerste scenario vergelijkt de resultaten van het model bekomen door gebruik te

maken van 14 huiskarakteristieken als input ten opzichte van een model met een input van 16 variabelen,

namelijk 14 huiskarakteristieken en 2 coördinaten. De resultaten worden geëvalueerd op basis van MAPE, RMSE

en MAE. Wanneer de modellen onderling vergeleken worden, kan vastgesteld worden dat ANFIS beter presteert

dan MRA. Het toevoegen van de locatie van het pand aan de hand van de lengte- en breedtecoördinaten maakt

de modellen nog nauwkeuriger. In het tweede scenario past de onderzoeker stratificatie toe: de dataset wordt

onderverdeeld in vier subdatasets op basis van de leeftijd van de woning. De resultaten tonen aan dat voor

jongere woningen, met een leeftijd kleiner dan of gelijk aan tien jaar, meer nauwkeurige resultaten verkregen

worden dan voor de drie oudere leeftijdsklassen. In dit scenario presteert ANFIS eveneens beter dan MRA. Het

derde en laatste scenario voegt een extra variabele toe aan de dataset. Deze variabele omvat de gemiddelde

prijs van vergelijkbare eigendommen onder de naam ‘buurt’. De variabele buurt wordt benaderd op drie

verschillende manieren: als het gemiddelde van de verkoopprijzen van alle eigendommen binnen een zekere

straal, als het gemiddelde van de tien dichtstbijzijnde gelegen verkochte woningen en als het gemiddelde van de

tien dichtstbijzijnde gelegen verkochte woningen rekening houdend met alle woningkenmerken. Het beste

model is een ANFIS-model met als extra variabele voor de buurt de gemiddelde prijs van de tien dichtstbijzijnde

gelegen verkochte woningen.

19

Er kan worden geconcludeerd dat het onderzoek duidelijk de betere prestatie van de ANFIS-modellen aantoont.

De studie toont bovendien superieure resultaten bij stratificatie. Het model opgebouwd met de data van huizen

jonger dan tien jaar scoort het beste. Voor oudere huizen zijn andere variabelen nodig om deze te differentiëren.

Interessant voor toekomstig onderzoek is het verder werken met stratificatie: het opdelen van de dataset in

subsets. Het artikel van Guan et al. illustreerde stratificatie aan de hand van de variabele leeftijd. Echter stelt de

auteur dat een gedetailleerde en systematische analyse van typische karakteristieken om vervolgens

stratificatiebeslissingen toe te passen kan leiden tot nog betere resultaten (Guan, J., et al.,2014).

20

4. Adaptive neuro-fuzzy inference system (ANFIS)

In het vierde en tevens laatste onderdeel van de literatuurstudie wordt er dieper ingegaan op een neuro – fuzzy

gevolgtrekking systeem dat is aangepast door middel van neurale netwerken (ANFIS). Er vindt eerst een

algemene bespreking plaats waarin de voor – en nadelen van fuzzy systemen en neurale netwerken op zich aan

bod komen. Het ontstaan van neuro – fuzzy systemen wordt eveneens besproken. Vervolgens wordt ANFIS

gesitueerd. Ten slotte wordt ruimte voor verder onderzoek aangehaald.

4.1 Algemeen

Neurale netwerken en fuzzy systemen kennen elk voor- en nadelen. De voordelen van een fuzzy systeem

omvatten de capaciteit om samengaande onzekerheden van de menselijke kennis met linguïstische variabelen

te vertegenwoordigen, de eenvoudige interactie van de expert in het domein met de ingenieur-ontwerper van

het systeem, de makkelijke interpretatie van de regels door de natuurlijke regelvertegenwoordiging, de

eenvoudige uitbreiding van de kennisbasis door het toevoegen van nieuwe regels en de robuustheid ten opzichte

van de mogelijke storingen in het systeem. Een fuzzy systeem heeft de volgende nadelen: de onmogelijkheid om

te generaliseren, niet robuust ten opzichte van topologische veranderingen in het systeem en het feit dat het

systeem het bestaan van een expert nodig heeft om de logische gevolgtrekkingsregels te bepalen. De

leercapaciteit, de capaciteit om te generaliseren en de robuustheid ten opzichte van storingen zijn drie voordelen

bij het gebruik van een neuraal netwerk. De nadelen zijn: de onmogelijkheid om de functionaliteit te

interpreteren en de moeilijkheid om het aantal layers en neuronen te bepalen (Vieira, J., et al., 2004).

Het vinden van de lidfuncties en de gepaste regels in een fuzzy systeem is een moeilijke opdracht. Vaak gaat dit

gepaard met ‘trial and error’. Het gebruik van neurale netwerken in een fuzzy systeem zorgt, met behulp van

leeralgoritmes, voor het automatiseren en het ondersteunen van de verfijning van fuzzy systemen. De nadelen

in een fuzzy systeem worden op deze manier weggewerkt door de capaciteiten van de neurale netwerken, zijnde

de leercapaciteit en de capaciteit om te generaliseren. Beide technieken zijn op deze manier complementair en

leiden tot het ontstaan van een neuro-fuzzy systeem.

4.2 Situering

Op basis van de verschillende interacties tussen een neuraal netwerk en een fuzzy systeem kunnen

neuro-fuzzy systemen ingedeeld worden in drie klassen: coöperatieve neuro-fuzzy systemen, concurrent neuro-

fuzzy systemen en hybride neuro-fuzzy systemen. In een coöperatief neuro-fuzzy systeem worden de neurale

netwerken enkel in de beginfase gebruikt. De neurale netwerken bepalen met behulp van trainingsdata sub-

blokken van het fuzzy systeem, nadien worden ze verwijderd en wordt enkel het fuzzy systeem verder gebruikt.

De structuur is niet volledig te interpreteren wat een nadeel is. Bij een concurrent of gelijktijdig neuro-fuzzy

21

systeem wordt de input verwerkt door een fuzzy systeem. De output wordt gegenereerd door een neuraal

netwerk, of het proces kan omgekeerd verlopen. Ook hier is de structuur niet volledig te interpreteren wat als

een nadeel beschouwd kan worden. Wanneer in de literatuur wordt verwezen naar een neuro-fuzzy systeem

wordt in de meeste gevallen het hybrid neuro-fuzzy systeem bedoeld. Nauck definieert een hybrid neuro-fuzzy

systeem als ‘een fuzzy systeem dat een leeralgoritme gebruikt gebaseerd op gradiënten of geïnspireerd op de

neurale netwerken theorie om zijn parameters te bepalen door patronen te verwerken’ (Nauck, D., et al. ,1997).

Verschillende onderzoekers definiërden in de klasse van hybride neuro – fuzzy systemen een eigen model

waardoor er verscheidene neuro-fuzzy architecturen ontstaan. De vijf belangrijkste architecturen zijn: ‘Fuzzy

Adaptive Learning Control Network’ (FALCON), ‘Adaptive Network based Fuzzy Inference System’ (ANFIS),

‘Generalized Approximate Reasoning based Intelligence Control’ (GARIC), ‘Neural Fuzzy Controler’ (NEFCON) en

‘Evolving Neural Fuzzy Network’ (EFuNN) (Vieira, J., et al., 2004).

4.3 Ruimte voor verder onderzoek

Een eerste applicatie in het gebruik van een ANFIS-model in het domein van de vastgoedwereld dateert uit 2008

(Guan, J., et al., 2008). Het ANFIS-model presteert in dit onderzoek gelijkaardig ten opzichte van een model met

meervoudige regressie. Guan et al. publiceren in 2014 opnieuw een artikel dat stelt dat het ANFIS-model betere

resultaten oplevert dan een model met meervoudige regressie. Stratificatie op basis van de belangrijkste

karakteristiek ‘leeftijd’ maakt het ANFIS-model nog nauwkeuriger om de waarde van recente woningen te

bepalen. De schrijvers stellen dat een meer gedetailleerde en systematische analyse van de typische

karakteristieken in de dataset en het toepassen van stratificatie, gebaseerd op deze analyse, mogelijks nog

betere resultaten oplevert (Guan, J., et al.,2014).

Gerek I. H. L. vergelijkt een ANFIS-model met subclustering met een ANFIS-model met gridpartitie voor de

waardebepaling van appartementen in hoogbouw in een Turkse regio. Het ANFIS – model met gridpartitie is

superieur. In dit onderzoek worden de gegevens van slechts 91 appartementen gebruikt. Het loont de moeite

om te onderzoeken als bij het gebruik van een grotere dataset om het ANFIS – model op te bouwen eenzelfde

vaststelling wordt bekomen. De onderzoeker vraagt zich bovendien af of voor een andere regio gelijkaardige

factoren als belangrijk worden beschouwd.

We stellen vast dat het gebruik van een kleine data sample veel voorkomt in de gevoerde studies. Weinig studies

hebben een noemenswaardige grote dataset gebruikt (Gonzalez en Formoso, 2006). De vaak kleine datasets

worden bovendien verder opgesplitst in een training-, validatie- en testdataset wat mogelijk een verlies aan

informatie met zich meebrengt. Het gebruik van een grotere dataset kan dan ook mogelijks de modellen,

gebaseerd op een ANFIS-benadering, verbeteren.

22

Onderzoek

Ten eerste wordt de dataset voorbereid. Als volgt wordt het inladen van de voorbereide dataset in Matlab

besproken. Ten derde wordt de structuur van het ANFIS – model nader toegelicht. Er wordt eveneens

diepgaander ingegaan op een belangrijk onderdeel van de ANFIS – structuur: de lidfunctie. Het bepalen van de

relatieve belangrijkheid van de structurele appartementskarakteristieken met oog op stratificatie is een vierde

aspect in het onderzoek. De eigenlijke stratificatie is het vijfde onderdeel dat wordt behandeld. Vervolgens

gebeurt een vergelijking qua belangrijkheid van de karakteristieken en qua nauwkeurigheid en betrouwbaarheid

van de ANFIS – modellen ten opzichte van regressiemodellen. Tot slot worden de punten die ruimte bieden voor

verder onderzoek besproken.

23

1. Dataset voorbereiden

Vooraleer de eigenlijke voorbereiding van de dataset te starten wordt de database besproken. Een eerste stap

in de voorbereiding van de dataset is het verwijderen van rijen met lege velden. Vervolgens worden rijen met

extreme waarden verwijderd. Nadien gebeurt een indexering van de verkoopprijzen van de appartementen. Ten

slotte worden de bestanden gekoppeld.

1.1 Database

De dataset ‘Origineel.xls’ en ‘Buurt- en omgevingskenmerken.xls’ werden door de promotoren ter beschikking

gesteld voor dit onderzoek. De database ‘Origineel.xls’ bevat de gegevens van 44207 appartementen in het

Brussels Hoofdstedelijke Gewest. Deze appartementen werden verkocht tussen 2003 en 2008. Het bestand

‘Buurt- en omgevingskarakteristieken’ bevat 31920 records. Een overzicht van alle gegevens/variabelen per

bestand wordt gegeven.

Variabele Verklaring dakte Datum van verkoop van het appartement kavg Kadastrale afdeling van de gemeente

sec Kadastrale sectie

grond Perceelgrondnummer

bis Perceelnummer - bisnummer

aard Aard volgens karakter

aakte Aard volgens de akte

nsr Straatnummer

straat Straatnaam

nr Huisnummer

ind Appartementsgebouw met of zonder lift.

bjr Jaar waarin de bouw van het appartement beëindigd is

wijzig Jaar waarin de laatste renovatie/wijziging in het appartement heeft plaatsgevonden

nml Kwaliteit van het appartement

gar Aantal garages behorende bij de eigendomsakte van het appartement

cv Aanwezigheid Centrale Verwarming

bk Aantal badkamers

wgl Aantal zelfstandige woongelegenheden

wpl Aantal woonplaatsen

nopp Nuttige vloeroppervlakte

opp Oppervlakte van het kadastraal perceel oppa Oppervlakte volgens de akte

soort Soort Verkoop

prijs Verkoopprijs van het appartement

mw Meerwaarde

schatting Geschatte waarde van het appartement

w11 Waarde van het appartement

lasten Lasten

voordelen Voordelen

tarief Tarief in %

mprijs Prijs m / a

24

mmw Meerwaarde m / a

mschatting Schatting m / a

mw11 Waarde van het appartement m / a

mlasten Lasten m / a

mvoordelen Voordelen m / a

gprijs Prijs van de grond

gmw Meerwaarde van de grond

gschatting Geschatte waarde van de grond

gw11 Waarde van de grond

glasten Lasten van de grond

gvoordelen Voordelen van de grond

cprijs Prijs van de constructie

cmw Meerwaarde van de constructie

cschatting Geschatte waarde van de constructie

cw11 Waarde van de constructie

clasten Lasten van de constructie

cvoordelen Voordelen van de constructie

teller Aantal betrokken percelen

ki Kadastraal Inkomen behorende bij het appartement Tabel 1: Gegevens in het bestand Origineel.xls (Excel)

Variabele Verklaring

wijknaam wijknaam

wijknummer wijknummer

straatnaam straatnaam

kantoordichtheid kantoordichtheid (m²/km²)

parkeermogelijkheden bezettingsgraad van de parkeermogelijkheden langs de weg (van 10u30 tot 24u in %)

av aandeel vreemdelingen (%)

kinderopvangplaatsen aantal kinderopvangplaatsen per kind (plaats per kind)

agg aandeel geklasseerde gebouwen (per 1000 in %)

alh aantal lokale handelszaken per inwoner (per 1000)

awe aandeel woningen bewoond door eigenaar (%)

avw aantal vertrekken per woning

ggh gemiddelde grootte van de huishoudens (personen)

gow gemiddelde oppervlakte per woning (m²)

werkloosheidsgraad werkloosheidsgraad (%) Tabel 2: Gegevens in het bestand Buurt- en omgevingskenmerken.xls (Excel)

Kolommen van variabelen die niet relevant zijn voor het verdere onderzoek zoals bijvoorbeeld huisnummers of

waarvoor geen/te weinig gegevens beschikbaar zijn worden in beide files gewist. De bestanden worden

opgeslaan onder de naam ‘Origineel_bewerkt1.xls’ en ‘Buurt- en omgevingskenmerken_bewerkt1.xls’. Een

overzicht van de overgebleven variabelen per bestand wordt gegeven.

25

Variabelen bestand ‘Origineel’

Variabelen bestand ‘Buurt- en

omgevingskenmerken’

dakte straatnaam

straat kantoordichtheid

ind parkeermogelijkheden

bjr av

gar kinderopvangplaatsen

cv agg

bk alh

wpl awe

nopp avw

prijs ggh

ki gow

werkloosheidsgraad Tabel 3: Overgebleven variabelen (Excel)

1.2 Rijen met lege velden verwijderen

De rijen waarin zich minstens een leeg veld bevindt worden verwijderd omdat Matlab geen bewerkingen kan

uitvoeren op lege velden. Dit gebeurt door alle gegevens te selecteren (CTRL + A) en te drukken op F5. Vervolgens

wordt er in het verschenen dialoogvenster op ‘Speciaal…’ geklikt. Het dialoogvenster ‘Selecteren speciaal’ opent

zich. Klik ‘Lege waarden’ aan en druk op ‘OK’.

Figuur 1: Selectie lege velden (Excel)

26

Nu zijn alle lege velden in het bestand geselecteerd. Om de rijen te verwijderen met lege velden wordt op het

tabblad ‘Verwijderen’ en vervolgens ‘Bladrijen verwijderen’ geklikt. De studie uitgevoerd door Guan et al.

verwijderde eveneens alle records met ontbrekende waarden (Guan, J., et al, 2014).

Figuur 2: Rijen verwijderen met lege velden (Excel)

Het bestand ‘Origineel_bewerkt1.xls’ gaat zo van 44.207 naar 43.164 records. Het bestand ‘Buurt- en

omgevingskenmerken_bewerkt1.xls’ bevat geen lege velden. Het aangepast bestand ‘Origineel_bewerkt1.xls’

wordt opgeslaan onder ‘Origineel_bewerkt2.xls’.

1.3 Rijen met extreme waarden verwijderen

Extreme waarden buiten beschouwing laten zorgt voor het bekomen van betere modellen omdat de

parameterschattingen meer stabiel zijn (McGreal, 1998). De voorwaardelijke grenzen worden analoog genomen

als in het gevoerd onderzoek door M. Dewulf en T. Provoost waarin dezelfde dataset werd gebruikt (Dewulf M.

en Provoost T., 2012). Rijen met extreme waarden worden in het bestand ‘Origineel_bewerkt2.xls’ verwijderd

op basis van de volgende gestelde voorwaarden:

Voorwaarde Aantal records voor Aantal records na Procentuele verwijdering

bouwjaar < 1900 43164 36989 14,3

aantal garages > 3 36989 36696 0,8

aantal badkamers > 3 36696 36496 0,5

aantal badkamers = 0 36496 35893 1,7

aantal woonplaatsen > 6 35893 34207 4,7

nuttige oppervlakte < 10 34207 34160 0,1

nuttige oppervlakte > 213 34160 33931 0,7

prijs < 25000 33931 32317 4,8

prijs > 600000 32317 32237 0,2

kadastraal inkomen > 4055 32237 32136 0,3

kadastraal inkomen < 300 32136 32094 0,1 Tabel 4: Verwijderen extreme waarden (Excel)

27

Dit gebeurt door per voorwaarde de overeenkomstige variabelkolom te ordenen en nadien de rijen volgens de

gestelde voorwaarde te verwijderen. Selecteer alle gegevens (Ctrl + A). Klik linkermuisknop, ‘Sorteren’ en

‘Aangepast sorteren…’. Het volgend dialoogvenster opent zich:

Figuur 3: Werkwijze verwijderen extreme waarden (Excel)

Na alle voorwaarden te hebben beschouwd is de dataset met 25,6 % kleiner geworden tot 32094 records.

Opslaan gebeurt onder de naam ‘Origineel_bewerkt3.xls’.

1.4 Indexeren verkoopprijs

De verkoopprijzen van de appartementen moeten geïndexeerd worden naar het jaar 2015 voor een correcte

verwerking van de prijsgegevens. De actualisering van de prijzen gebeurt met een ABEX-index, uitkomend per

jaar in mei en november. ABEX of Associatie van Belgische EXperten is een multidisciplinaire beroepsvereniging

van deskundigen en consultants. De verkoopprijzen in de dataset zijn vastgesteld op aktedatums tussen januari

2003 en juli 2008. Om alle prijsdata te kunnen indexeren zijn de ABEX-indexen nodig vanaf november 2002 tot

de laatst verschenen index in november 2014.

28

Jaar Index in mei Index in november

2002 540 547

2003 552 560

2004 579 590

2005 596 612

2006 621 648

2007 654 665

2008 692 695

2009 684 670

2010 673 690

2011 694 705

2012 711 729

2013 730 739

2014 744 745 Tabel 5: ABEX-index 2002-2014 (http://www.ABEX.be)

De kolom met variabele ‘dakte’ wordt gebruikt om de gepaste ABEX-indexen aan de verkoopprijs te linken.

Vervolgens wordt de kolom ‘actuele verkoopprijs’ berekenend volgen de formule:

Actuele verkoopprijs = ( verkoopprijs

ABEX−index op de aktedatum ) * actuele ABEX - index

Aktedatum ABEX-index

van januari 2003 tot mei 2003 547

van mei 2003 tot november 2003 552

van november 2003 tot mei 2004 560









van mei 2008 tot november 2008 692 Tabel 6: ABEX-index volgens aktedatum (Excel)

De variabele leeftijd wordt ten slotte ook berekend volgens de volgende formule:

Leef = 2015 - bjr

29

Het bestand wordt opgeslaan onder de naam ‘Origineel_bewerkt4.xls’.

1.5 Bestanden koppelen

De bestanden ‘Origineel_bewerkt4.xls’ en ‘Buurt- en omgevingskenmerken_bewerkt1.xls’ worden

samengevoegd door de keyvariabele ‘straat’ en ‘straatnaam’. Omdat er straatnamen voorkomen in de dataset

‘Origineel_bewerkt4.xls’ die niet voorkomen in het bestand ‘Buurt- en omgevingskenmerken_bewerkt1.xls’ gaat

de uiteindelijke inputfile voor Matlab van 32094 naar 31920 records. De voorbereide dataset wordt opgeslaan

onder de naam ‘InputMatlab.xls’.

30

2. Dataset inlezen

Via ‘Import Data’ wordt het bestand ‘InputMatlab.xls’ geselecteerd. Alle variabelen worden ingelezen in Matlab

als kolommatrixen. Ze zijn terug te vinden onder ‘Workspace’.

Figuur 4: Inlezen gegevens (Matlab)

Figuur 5: Variabelen als kolommatrixen in workspace (Matlab)

31

De kolommatrixen van de hulpvariabelen ‘ABEX’, ‘bjr’, ‘straatnaam’ en ‘prijs’, gebruikt ter voorbereiding van de

dataset, worden gewist. Uiteindelijk blijven er negentien 31920x1 – matrixen over. Negen variabelen zijn

afkomstig uit het bestand ‘Origineel.xls’ en tien uit de file ‘Buurt- en omgevingskenmerken.xls’.

Figuur 6: Kolommatrixen voor het onderzoek (Matlab)

De matrix ‘allevariabelen’ wordt aangemaakt. Het is een 31920x19 - matrix die de gegevens voot 31920

appartementen bevat. Het zijn achtereenvolgens de variabelen: leef, nopp, ki, wpl, bk, gar, cv, ind,

kantoordichtheid, parkeermogelijkheden, av, agg, alh, awe, avw, ggh, gow, werkloosheidsgraad en

actueleverkoopprijs.

Figuur 7: Aanmaak matrix 'allevariabelen' (Matlab)

32

Het is deze matrix die het vertrekpunt is voor toekomstige bewerkingen. De matrix ‘allevariabelen’ staat wel

nog alfabetisch gerangschikt naar de straatnaam, een rangschikking die nodig was om de twee excell-files aan

elkaar te linken. Een randomgeneratie wordt bekomen door een extra matrix ‘random’ in te voegen met het

commando:

Commando 1: Genereren van de rijmatrix random met willekeurig geordende getallen, evenveel als de lengte van de matrix allevariabelen (Matlab)

De bekomen matrix random is een rijmatrix met een aantal getallen, evenveel zoals de lengte van de matrix

allevariabelen, willekeurig geordend. De bewerking ‘Transpose’ maakt van de rijmatrix een kolommatrix. De

kolommatrix wordt ingevoegd vooraan de matrix ‘allevariabelen’. De rijen worden geordend volgens de kolom

random met de bewerking ‘Sort’. Vervolgens wordt de kolom random verwijderd uit de matrix allevariabelen.

Het resultaat is een matrix die 19 variabelen voor 31920 willekeurig geordende records bevat. De file waarmee

het onderzoek aanvat wordt opgeslaan onder ‘start.mat’.

Figuur 8: Matrix 'allevariabelen' willekeurig geordend (Matlab)

33

3. ANFIS

Het ‘Adaptive Neuro Fuzzy Inference System’ ofwel ANFIS werd reeds in de literatuurstudie algemeen behandeld

en gesitueerd. In dit onderdeel wordt dieper ingegaan op de structuur van een ANFIS – model. Ten eerste wordt

de werking van een fuzzy inference system (FIS) of fuzzy gevolgtrekking systeem besproken. Nadien komt de

opbouw van een ANFIS – model aan bod. Tot slot wordt een lidfunctie, een belangrijk onderdeel van de ANFIS -

structuur, nader toegelicht.

3.1 FIS - werking

Bij een fuzzy gevolgtrekkend systeem (FIS) ondergaan de inputvariabelen eerst een fuzzificatie. Onder fuzzificatie

wordt het toekennen van lidfuncties of membershipfuncties aan alle inputvariabelen verstaan. Vanuit de

lidfuncties worden de regels opgesteld. Als aan bepaalde voorwaarden/regels wordt voldaan dan komt een

bepaalde output (if … then …). De gevolgtrekkende machine heeft als input de regelbasis. De bekomen output

ondergaat ten slotte defuzzificatie. Defuzzificatie is het proces waarbij een lidfunctie terug wordt omgezet

(Kusan, H., et al., 2010).

Figuur 9: FIS – werking (Kusan, H., et al., 2010)

De ‘Adaptive Neuro’ in het ANFIS – model staat voor aangepast of geadapteerd door middel van neurale

netwerken. De voorwaardelijke parameters van de lidfuncties worden bepaald door het gebruik van neurale

netwerken.

34

3.2 Structuur

Het anfis – model is opgebouwd uit vijf layers. De gebruikte formules en notaties die volgen komen uit de paper

van Guan J. et al (Guan, J., et al., 2014). De eerste layer bevat N – aantal knopen met N = m x n, het product van

het aantal inputvariabelen (m) en het aantal lidfuncties per inputvariabele (n). De output van elke knoop is

gedefinieerd als:

met i = 1, m, j = 1, n en waar µij de jde lidfunctie is van de inputvariabele Xi gegeven als volgt:

met de voorwaardelijke parameters a, b en c.

De tweede layer stelt R ‘If – then’ - regels op met R = nm. De output van de tweede layer geeft de sterkte weer

van elke regel. Het is het product van al de inputs als volgt:

voor k = 1,R met R als aantal regels.

Layer drie normaliseert de gewichtsfactor van elke inputknoop k als volgt:

met k = 1, R.

Layer vier vertegenwoordigt een gewogen waarde als volgt:

35

waar fk de output is van de kde fuzzy regel als volgt:

waar {pi,k , rk} de gevolgtrekkende parameters zijn.

De vijfde layer is uiteindelijk opgebouwd uit één knoop die een output F creëert als som van alle gewogen outputs

van de voorgaande layer als volgt:

Figuur 10: ANFIS – structuur (Guan, J., et al., 2014)

De techniek combineert het voordeel van een fuzzy gevolgtrekking systeem, namelijk de taalkundige expressie,

met het voordeel van een neuraal netwerk dat getraind kan worden en op die manier zelflerend en

zelfverbeterend is. De techniek werd voorgesteld door Jang in 1993 (Jang, J. S. R., 1993).

36

3.3 Lidfunctie

De fuzzy of vage logica is een uitbreiding van de Boleaanse logica. De Boleaanse logica heeft een discreet

karakter, iets is waar of onwaar. Een appartement is bijvoorbeeld groot of niet groot. De fuzzy logica daarintegen

heeft nog waarheidswaarden daartussenin, een appartement kan bijvoorbeeld met een waarheid van 1/3 groot

zijn. Groot is hier de taalkundige expressie die de grootte omschrijft van de fuzzy variabele oppervlakte.

Lidfuncties of membershipfuncties geven voor elke variabelwaarde weer in welke graad het element lid is van

de verzameling, ze worden meestal aangeduid door µ(x). Een lidfunctie die aan alle variabelwaarden waarden

tussen 0 en 1 toekent vormen fuzzy sets. Één bepaalde variabele kan meerdere lidfuncties hebben. Een mogelijke

definitie voor een groot appartement zijn alle appartementen met een oppervlakte groter dan 100 m².

Onderstaande grafieken geven de verzamelingen/sets weer beschreven door de lidfunctie ‘groot’ gedefinieerd

volgens de Boleaanse – en de vage logica. De Boleaanse logica vertoont scherpe grenzen bij de overgang van

klein naar groot terwijl bij de vage logica een vaag overgangsgebied ontstaat.

Figuur 11: Scherpe verzamelingen van een groot appartement (Matlab)

Figuur 12: Vage verzamelingen van een groot appartement (Matlab)

37

4. Bepalen relatieve belangrijkheid structurele karakteristieken

Vooraleer de neuro - fuzzy designer aan te roepen in Matlab wordt in een eerste punt ‘Vooraf’ de data

klaargemaakt. Ten tweede wordt het inladen van de traindata in de neuro – fuzzy designer besproken.

Vervolgens komt de werkwijze voor het genereren en het opmaken van het fuzzy gevolgtrekking systeem aan

bod. Het trainen van het model is een vierde item dat wordt behandeld. Nadien wordt beschreven hoe het model

wordt gevalideerd. Het testen van het model is een voorlaatste onderdeel in dit hoofdstuk. Ten slotte wordt uit

het model de relatieve belangrijkheid van de structurele karakteristieken bepaald.

Vanaf punt 2 (inladen traindata) tot en met punt 6 (testen model) start ieder punt met een printscreen van de

neuro – fuzzy designer. Dit om de lezer de verschillende stappen overzichtelijk weer te geven bij het doorlopen

van de neuro – fuzzy designer.

4.1 Vooraf

Dit onderzoeksgedeelte heeft als doel de relatieve belangrijkheid van de structurele

appartementskarakteristieken te bepalen met oog op stratificatie. Stratificatie is het opdelen van de dataset in

subsets op basis van een bepaalde inputvariabele. In de 31920x19 – matrix ‘allevariabelen’ bevinden de

structurele karakteristieken zich in de eerste acht kolommen. Het zijn achtereenvolgens leef, nopp, ki, wpl, bk,

gar, cv en ind. De karakteristieken gar (garage), cv (centrale verwarming) en ind (lift) lenen zich er minder toe om

in de fuzzy set theorie te gebruiken. Een appartement heeft wel of geen garage, wel of geen centrale verwarming

en is voorzien van wel of geen lift. Fuzzificatie toepassen op die variabelen zou zorgen voor onlogische

uitdrukkingen in de regels hoewel het modelmatig perfect kan. Een appartement zou dan bijvoorbeeld met een

waarheid van 0,8 centrale verwarming kunnen hebben. Om de regels op een logische manier te kunnen

interpreteren wordt ervoor gekozen deze variabelen buiten beschouwing te laten in dit onderzoek. De vijf inputs

voor het ANFIS – model zijn de leeftijd, de nuttige oppervlakte, het kadastraal inkomen, het aantal woonplaatsen

en het aantal badkamers van een appartement. De matrix ‘vijfinputs’ is een 31920x6 – matrix. Het is een matrix

die voor 31920 appartementen de gegevens van vijf structurele karakteristieken en de actuele verkoopprijs

bevat, bekomen uit de matrix ‘allevariabelen’.

De data voor het ANFIS – model worden ingegeven als matrixen waarin de eerste kolommen de verschillende

inputvariabelen zijn en de laatste kolom als output dient. Het model vraagt train-, checken testdata. De

traindata wordt gebruikt om het model te trainen. De checkdata is belangrijk om het bekomen model te

valideren. Op die manier worden mogelijke overfitting van het model of een slecht model duidelijk. De testdata

evalueert het model. De matrix ‘vijfinputs’ bestaande uit de gegevens van 31920 appartementen worden

onderverdeeld in een train-, checken testmatrix met als grootte respectievelijk 40%, 30% en 30% van de 31920

38

records. De keuze voor een 40-30-30 onderverdeling gebeurt naar analogie van een gevoerd onderzoek door

Guan et al (Guan et al., 2014).

40%, 30% en 30% van de 31920 records in de matrix ‘vijfinputs’ is respectievelijk van record 1 tot 12768, van

record 12769 tot record 22344 en van record 22345 tot 31920. De matrix ‘train’ wordt bekomen door een

deelmatrix uit de matrix ‘vijfinputs’ te nemen met als eerste argument het rijdeel en als tweede argument het

kolomdeel. In het geval voor de matrix ‘train’ is dit van rij 1 tot rij 12768 en van kolom 1 tot 6. De matrixen ‘check’

en ‘test’ worden op analoge wijze bekomen.

Commando 2: Genereren van de matrixen ‘train’, ‘check’ en ‘test’ uit de matrix vijfinputs (Matlab)

Figuur 13: Train-, checken testdata in de workspace (Matlab)

De file wordt opgeslaan onder de naam ‘vijfinputs.mat’.

Via het volgend commando wordt de neuro – fuzzy designer aangeroepen:

Commando 3: Aanroepen van de neuro – fuzzy designer (Matlab)

Een tweede mogelijke manier om de neuro – fuzzy designer te openen is door ‘Neuro – Fuzzy Designer’ onder

‘Control System Design and Analysis’ via ‘App’ in de taakbalk aan te klikken.

Figuur 14: Aanroepen van de neuro - fuzzy designer (Matlab)

39

Het volgend dialoogvenster opent zich:

Figuur 15: Dialoogvenster neuro - fuzzy designer (Matlab)

40

4.2 Traindata inladen

Figuur 16: Overzicht neuro – fuzzy designer (Matlab)

In een eerste stap wordt de traindata vanuit de workspace het model ingeladen. Onder ‘Load data’ wordt bij

‘Type’ ‘Training’ aangeklikt. Vervolgens wordt onder ‘From’ ‘Worksp.’ aangeduid. Gegevens inladen vanuit een

file zijn eveneens mogelijk. Klik op ‘Load Data…’

Figuur 17: Traindata inladen (Matlab)

41

Typ de naam van de gepaste matrix uit de workspace, hier ‘train’. Klik ‘OK’.

Figuur 18: Variabelnaam ingeven (Matlab)

De actuele verkoopprijzen voor de 12768 appartementen uit de matrix ‘train’ worden grafisch weergegeven door

middel van blauwe cirkels. Op de horizontale as ‘data set index’ staat het aantal records. De verticale as ‘Output’

geeft voor iedere record de overeenkomstige actuele verkoopprijs weer.

Figuur 19: Ingeladen traindata (Matlab)

42

4.3 FIS

Figuur 20: Overzicht neuro - fuzzy designer (Matlab)

4.3.1 Genereren

Een tweede stap is het genereren van het fuzzy gevolgtrekking systeem (FIS). Dit kan door gridpartitie of

subclustering. Gridpartitie en subclustering zijn twee clusteringtechnieken. Gridpartitie deelt de inputruimte op

in rechthoekige subruimtes. Bij subclustering wordt elk datapunt beschouwd als een potentiele clustercenter

(Gerek, I. H. L., 2014). In dit onderzoek wordt voor gridpartitie gekozen. Dit omdat een gevoerd onderzoek door

Gerek I. H. L., waarin de huisprijs wordt beoordeeld op basis van deze twee verschillende adaptieve neuro – fuzzy

technieken, de techniek gebaseerd op gridpartitie de beste resultaten oplevert (Gerek, I. H. L., 2014). Om

gridpartitie te gebruiken moet het aantal inputvariabelen klein zijn met een maximum van zes (Gerek, I. H. L.,

2014). Er kan eveneens een reeds gegeneerd model worden ingeladen vanuit een file of de workspace. Klik op

‘Generate FIS …’.

43

Figuur 21: FIS genereren (Matlab)

Het volgend dialoogvenster wordt geopend:

Figuur 22: Default waarden aantal lidfuncties per inputvariabele, de vorm van de lidfuncties en het type outputlidfunctie (Matlab)

Hier is het de bedoeling voor elke inputvariabele het aantal lidfuncties (‘Number of MF s’) en het type lidfunctie

(‘MF Type’) in te geven. Voor de outputvariabele wordt het type van de lidfunctie (‘MF Type’) aangeduid. De

default waarden onder ‘INPUT’ staan op 3 lidfuncties voor het aantal lidfuncties voor elke inputvariabele met als

type voor de lidfunctie ‘trimf’ (‘triangular membership function’). Met type wordt de vorm bedoeld. Een driehoek

en een trapezium zijn voorbeelden van twee mogelijke vormen. Er worden 2 lidfuncties per

appartemenskarakteristiek voorzien. Ze worden ingegeven gescheiden door een backspace. Het aantal

44

lidfuncties per inputvariabele hoeft niet noodzakelijk aan elkaar gelijk te zijn. Voor het lidfunctietype wordt

Gaussiaans genomen. Onder ‘OUTPUT’ wordt voor het type lidfunctie de default waarde ‘constant’ gebruikt.

Er worden 2 lidfuncties per inputvariabele gekozen analoog aan gevoerd onderzoek door Guan et al. en Gerek I.

H. L. (Guan, J., et al., 2008; Guan, J., et al., 2014; Gerek, I. H. L., 2014). ‘gbellmf’ en ‘gaussmf’ kunnen als de meest

toegepaste type lidfuncties die worden gegeneraliseerd worden gezien (Gerek, I. H. L., 2014). Net zoals in het

gevoerd onderzoek van Gerek I. H. L. wordt in dit onderzoek als lidfunctietype Gaussiaans gekozen. In zijn

onderzoek gebruikte hij ook bij één model voor alle inputvariabelen het lidfunctietype ‘trimf’ (‘triangular

membership function’) maar dit model presteerde slechter ten opzichte van het Gaussiaanse (Gerek, I. H. L.,

2014).

Figuur 23: Ingeven aantal lidfuncties per inputvariabele, de vorm van de lidfuncties en het type outputlidfunctie (Matlab)

Klik ‘OK’. Het fuzzy gevolgtrekking systeem wordt nu gegenereerd.

45

Figuur 24: Gegenereerd fuzzy gevolgtrekking systeem (FIS) (Matlab)

Onder ‘ANFIS Info.’ staan het aantal inputvariabelen (5), het aantal outputvariabelen (1) en het aantal lidfuncties

per inputvariabele (2 2 2 2 2) weergeven.

Figuur 25: ANFIS - info (Matlab)

46

4.3.2 Opmaak

Onder opmaak wordt het benoemen van de inputvariabelen, de outputvariabele en de lidfuncties verstaan.

Verder komen in dit onderdeel de daaruit voortvloeiende regels aan bod. Tot slot wordt de structuur van het

bekomen ANFIS – model getoond.

De namen van de inputvariabelen en de outputvariabele worden in het FIS – systeem ingegeven. Klik op ‘FIS

Properties…’ onder ‘Edit’.

Figuur 26: Openen FIS – properties (Matlab)

47


Figuur 27: Default namen inputvariabelen en outputvariabele (Matlab)

48

Klik achtereenvolgens alle inputvariabelen en de outputvariabele aan. Wijzig de naam onder ‘Name’.

Figuur 28: Ingeven inputvariabelnamen en outputvariabelnaam (Matlab)

49

Figuur 29: Inputvariabelnamen en outputvariabelnaam benoemd (Matlab)

Afhankelijk van het type van gevolgtrekking kunnen de fuzzy gevolgtrekking systemen ingedeeld worden in drie

soorten: Mamdani’s systeem, Sugeno’s systeem en Tsukamoto’s systeem (Gerek, I. H. L., 2014). De neuro – fuzzy

designer maakt gebruik van het type Sugeno. Klik op ‘Close’ nadat alle variabelnamen zijn ingesteld.

50

Vooraleer het fuzzy gevolgtrekking systeem te trainen worden de lidfuncties opgemaakt. Klik onder ‘Edit’ op

‘Membership Functions…’.

Figuur 30: Openen membership functions (Matlab)

51


Figuur 21: Dialoogvenster membership function editor (Matlab)

Alle lidfuncties worden per inputvariabele benoemd onder ‘Name’. Onder ‘Range’ wordt de minimale en

maximale waarde weergeven van de variabele. De ‘Display Range’ is het interval voor de x-as waarop de

lidfuncties worden afgebeeld. Dit is logischerwijze gelijk aan de ‘Range’. Onder ‘Params’ staan de

beginparameters ingesteld van de lidfuncties. Er volgt een overzicht van alle lidfuncties en de output.

52

Figuur 32:Default lidfuncties jong en oud van de inputvariabele leeftijd (Matlab)

Bij de inputvariabele leeftijd zien we de lidfuncties ‘jong’ en ‘oud’. Ze zijn van het Gaussiaans type. De leeftijd

variërt vanaf 8 jaar tot en met 84 jaar. De beginparameters voor de lidfunctie ‘jong’ staan ingesteld op [32.27 8].

Een analoge behandeling kan gemaakt worden voor de andere inputvariabelen.

53

Figuur 33: Default lidfuncties klein en groot van de inputvariabele nuttige oppervlakte (Matlab)

Figuur 34: Default lidfuncties laag en hoog van de inputvariabele kadastraal inkomen (Matlab)

54

Figuur 35: Default lidfuncties weinig en veel van de inputvariabele woonplaatsen (Matlab)

Figuur 36: Default lidfuncties weinig en veel van de inputvariabele badkamers (Matlab)

55

Bij de outputvariabele ‘actuele verkoopprijs’ staan de outputs voor alle mogelijke combinaties van de lidfuncties.

Het zijn er 32 (2^5). De outputs volgen uit de 32 mogelijke regels. Ze worden aangeduid met de benaming mf1

tot en met mf32.

Figuur 37: 32 mogelijke outputs volgend uit alle mogelijke lidfunctiecombinaties (Matlab)

De taalkundige uitdrukking van de 32 regels wordt bekomen door onder ‘Edit’ op ‘Rules…’ te klikken.

56

Figuur 38: Openen regels (Matlab)

57


Figuur 39: Dialoogvenster regel editor (Matlab)

Er is de mogelijkheid tussen de operatoren ‘or’ en ‘and’ in de regels. In dit onderzoek worden voor alle operatoren

‘and’ gebruikt. Een appartement bezit logischerwijze sowieso een lidfunctie van alle vijf de structurele

karakteristieken zodat er geen ‘or’ wordt gebruikt. De default waarde voor het gewicht van elke regel staat op 1.

Er volgt een overzicht van de taalkundige expressie van de 32 mogelijke regels. De bekomen output ‘mf1’ in regel

1 wordt bekomen als volgt:

als de leeftijd jong is en de nuttige oppervlakte is klein en het kadastraal inkomen is laag en het aantal

woonplaatsen is weinig en het aantal badkamers is weinig dan heeft de actuele verkoopprijs ‘mf1’

Merk op aangezien jong, klein, laag, weinig en weinig lidfuncties betreffen wordt dit telkens als ‘een graad van

waarheid jong’, ‘een graad van waarheid klein’, ‘een graad van waarheid laag’, ‘een graad van waarheid weinig’

en ‘een graad van waarheid weinig’ geïnterpreteerd.

58

Figuur 40: Taalkundige expressie van de 32 regels (Matlab)

59

Door op ‘Structure’ te klikken onder ‘ANFIS Info.’ opent zich een dialoogvenster waarin de structuur van het

ANFIS – model wordt weergeven.

Figuur 41: Structuur van het bekomen ANFIS - model openen (Matlab)

60

De input bestaat uit vijf knopen. Het zijn de inputvariabelen leeftijd, nuttige oppervlakte, kadastraal inkomen,

aantal woonplaatsen en aantal badkamers. Elk van deze variabelen heeft twee lidfuncties waardoor er tien

lidfunctieknopen ontstaan. Het koppelen van lidfuncties aan inputvariabelen heet de fuzzificatie. Vanuit die 10

knopen kunnen 32 mogelijke regels worden gevormd. Vanuit die 32 mogelijke regels worden 32 mogelijke

outputlidfuncties gegenereerd. Sommatie van al de outputlidfuncties en defuzzificatie creëert de finale output

bestaande uit één knoop. Defuzzificatie is het proces waarbij een lidfunctie terug wordt omgezet naar

outputwaarden, wat hier actuele verkoopprijzen zijn.

Figuur 42: Structuur bekomen ANFIS - model (Matlab)

61

4.4 FIS trainen


Vooraleer het trainen van de lidfuncties in het fuzzy gevolgtrekking systeem, met behulp van neurale netwerken,

kan starten worden drie instellingen gevraagd. Het is de optimalisatiemethode (‘Optim. Method’), de

fouttolerantie (‘Error Tolerance’) en het aantal iteraties (‘Epochs’). Bij de optimalisatiemethode is er de keuze

tussen ‘hybrid’ of ‘backpropagation’. Hybrid en backpropagation zijn twee mogelijke manieren om de neurale

netwerken te laten itereren. De optimalisatiemethode wordt ingesteld op hybrid. Het trainen van het FIS –

systeem blijft duren totdat ofwel het aantal iteraties of epochs wordt bereikt ofwel de fouttolerantie wordt

bekomen. Door voor de fouttolerantie 0 te kiezen en het aantal iteraties op 500 in te stellen, kiezen we om het

model 500 herhalingen te trainen. Klik op ‘Train Now’.

62

Figuur 44: SEE traindata na 500 iteraties (Matlab)

In de neuro – fuzzy designer zien we de trainingsfout in functie van het aantal iteraties. De maat voor de fout is

de Standard Error of the Estimate (SEE).De SEE wordt herhaling na herhaling kleiner. Na 500 iteraties bedraagt

de SEE € 49155,1454.

63

Het getraind model na 500 iteraties wordt in de workspace opgeslaan. Volg het pad ‘Export’ en ‘To Workspace…’

onder ‘File’ in de werkbalk van de neuro – fuzzy designer. Het getraind model kan eveneens opgeslaan worden

in een file. Het dialoogvenster weergeven in figuur 46 opent zich. Als naam voor het getraind ANFIS - model

wordt ‘getraindmodel’ gekozen. Klik op ‘OK’.

Figuur 45: Getraind ANFIS - model opslaan (Matlab)

Figuur 46: Ingeven naam getraind ANFIS – model (Matlab)

64

Nadat het model is opgeslaan is het beschikbaar in de workspace. De eigenschappen van het ANFIS – model

worden bekomen door in de workspace te dubbelklikken op ‘getraindmodel’. De eigenschappen zijn terug te

vinden onder figuur 48.

Figuur 47: Getraindmodel in de workspace (Matlab)

Figuur 48: Eigenschappen getraind ANFIS - model (Matlab)

65

4.5 ANFIS valideren


De checkdata wordt gebruikt om het ANFIS – model te valideren. Bij de validatie van het model wordt duidelijk

na hoeveel iteraties overfitting van het model gebeurt. Een slecht model wordt eveneens aangetoond door

validatie.

Overfitting is het punt waarop de fout (SEE) van de checkdata niet meer afneemt maar begint toe te nemen bij

een nog steeds kleiner wordende fout (SEE) van de traindata. Vanaf dit punt zorgen bijkomende iteraties of

epochs dat de voorwaardelijke parameters van de lidfuncties teveel getraind worden door de neurale netwerken.

Er vindt overfitting van het model plaats. De neuro – fuzzy designer kiest automatisch de modelparameters na

het aantal iteraties waarbij de checkfout minimaal is (Matlab, 2015).

Een slecht opgebouwd model wordt duidelijk indien de fout van de checkdata ten opzichte van de fout van de

traindata relatief gezien veel groter is en/of indien de kleinste fout van de checkdata zich al voordoet na iteratie

1. In het eerste geval betekent dit dat er meer traindata nodig is. In het tweede scenario is er een aanpassing

66

vereist van de lidfunctiekeuzes, zowel qua aantal als qua vorm (Matlab, 2015). Voorgaand toont het belang van

het gebruik van checkdata aan.

De checkdata wordt op een analoge wijze als de traindata de neuro – fuzzy designer ingeladen:

Figuur 50: Checkdata inladen (Matlab)

Figuur 51: Ingeladen checkdata (Matlab)

67

De checkdata wordt weergeven in kruisvorm. Merk op dat de titel van het dialoogvenster niet meer ‘Neuro –

Fuzzy Designer: Untiteld’ maar ‘Neuro - Fuzzy Designer : getraindmodel’ is.

Nadat de checkdata ingeladen is wordt het aantal iteraties gekozen. We kiezen voor 2000 iteraties. Het aantal

iteraties is vrij te kiezen. Tijdens het checken van het model wordt duidelijk als 2000 iteraties genoeg zijn om het

model te valideren of als er nog meer iteraties nodig zijn. Belangrijk om weten is dat bij de start van het checken

van het model verder wordt getraind op het reeds bekomen model (getraindmodel). Met andere woorden:

iteratie 1 is hier eigenlijk iteratie 501, iteratie 1000 is eigenlijk iteratie 1001, enz. De neuro – fuzzy designer toont

nu zowel de fout (SEE) van de train- als de checkdata in functie van het aantal iteraties. Mocht de fout (SEE) van

de checkdata na iteratie 1 (eigenlijk iteratie 501) onmiddellijk groter worden, wat hier niet zo is, impliceert dit

niet noodzakelijk dat we hebben te maken met een slecht model. De minimale checkfout kon zich reeds

voorgedaan hebben tijdens iteratie 1 tot 500. Dit moet dan nader worden onderzocht door vanaf het trainen van

het model eveneens al de checkdata in te laden, zodat dan al zowel de fout (SEE) van de train- als checkdata

wordt weergeven in functie van het aantal iteraties. (Figuur 44) Indien de kleinste fout (SEE) van de checkdata

zich inderdaad voordoet na iteratie 1 hebben we te maken met een slecht opgebouwd model. Hoe dit kan

worden verholpen is reeds besproken hierboven. Geef 2000 iteraties in onder ‘Epochs’ en klik op ‘Train Now’.

Figuur 52: Valideren ANFIS - model (Matlab)

68

Het punt waarop de fout (SEE) van de checkdata terug groter wordt is na 1313 iteraties (eigenlijk 1813 iteraties).

Na 1312 iteraties (eigenlijk 1812 iteraties) bedraagt de SEE van de traindata € 48812,5 en van de checkdata €

51403,5. Na 1313 iteraties (eigenlijk 1813 iteraties) bedraagt de SEE van de traindata € 48812,2 en van de

checkdata € 51403,6. In Matlab worden tijdens het checken/trainen telkens de fouten van twee iteraties

weergegeven. Onder ‘1’ staan de fouten van de voorgaande iteratie, onder ‘2’ staan de fouten van de huidige

iteratie. De eerste kolom en tweede kolom zijn respectievelijk de SEE’s van de trainen checkdata. De fouten

staan weergeven in figuur 53.

Figuur 53: SEE trainen checkdata na 1812 en 1813 iteraties (Matlab)

Er wordt een overzicht getoond van de fouten (SEE’s) van de trainen checkdata in functie van het aantal

iteraties. Voor de nummering van de iteraties wordt 1 genomen bij de start van de training van het model. De

start van het checken (verder trainen) van het model is iteratie 501.

iteratie traindata SEE checkdata SEE

1 49229,5 51607,7

500 49155,1 51538,1

501 49155 51537,8

1802 48815,5 51403,5

1812 48812,5 51403,5

1813 48812,2 51403,6

2500 48720 51444,2 Tabel 7: Traindata SEE en checkdata SEE in functie van het aantal iteraties (Excel)

Figuur 54: ANFIS - info (Matlab)

69

Figuur 55: Traindata SEE en checkdata SEE voor 2000 iteraties (Matlab)

Figuur 56: SEE trainen checkdata na 2499 en 2500 iteraties (Matlab)

Het gecheckt model wordt opgeslaan onder ‘gechecktmodel’ op analoge wijze zoals het ‘getraindmodel’ werd

opgeslaan. Na de validatie van het model zijn alle voorwaardelijke parameters van de lidfuncties bepaald. De

voorwaardelijke parameters alsook een figuur van de lidfuncties zijn voor de vijf inputvariabelen leeftijd, nuttige

oppervlakte, kadastraal inkomen, woonplaatsen en badkamers terug te vinden in bijlage 1.

70

4.6 ANFIS testen


Op analoge wijze als de trainen checkdata wordt de testdata de neuro – fuzzy designer ingeladen.

Figuur 58: Testdata inladen (Matlab)

71

Figuur 59: Ingeladen testdata (Matlab)

De testdata, zijnde de 9576 actuele verkoopprijzen van appartementen in het Brussels Hoofdstedelijk Gewest,

worden weergeven als punten in de neuro – fuzzy designer. Vervolgens wordt de modeloutput geplot ten

opzichte van de test data. Klik onder ‘Plot against:’ op ‘Testing data’. Klik ‘Test Now’.

Figuur 60: Plot against testing data selecteren (Matlab)

72

Figuur 61: Modeloutput geplot ten opzichte van de test data (Matlab)

De modeloutput wordt weergeven door rode sterren. We zien op het eerste zicht zelf 1 negatieve waarde als

modeloutput voor de actuele verkoopprijs. De Standard Error of the Estimate (SEE) bedraagt € 50270. Het is de

SEE die de nauwkeurigheid van het model toont. Naast de nauwkeurigheid willen we eveneens de

betrouwbaarheid van het model kennen. Om de SEE en de betrouwbaarheid, uitgedrukt door de

determinatiecoëfficient R², te (her)berekenen zijn de 9576 actuele verkoopprijzen bekomen door het ANFIS –

model nodig. De matrix ‘modeloutput’ wordt bekomen met behulp van het commando ‘evalfis’. Het eerste

argument is de matrix ‘testinput’, het tweede argument is het ANFIS - model ‘geckecktmodel’. De matrix

‘testinput’ is dezelfde matrix als de matrix ‘test’ maar zonder de laatste kolom, de kolom van de actuele

verkoopprijs. De bekomen matrix ‘modeloutput’ is een 9576x1 – matrix die 9576 actuele verkoopprijzen bevat

gegenereerd door het ANFIS – model ‘gechecktmodel’. De file wordt opgeslaan onder de naam

‘getestmodel.mat’.

Commando 4: Genereren van de matrix ‘modeloutput’ genereren (Matlab)

73

Figuur 62:: Matrix modeloutput (Matlab)

De matrix ‘modeloutput’ wordt gekopieerd naar excel, samen met de laatste kolom uit de matrix ‘test’. Vanuit

enerzijds de kolom met de bekomen actuele prijswaarden uit het model en anderzijds de kolom van gegeven

actuele prijswaarden wordt de SEE en R² berekend. Hoe kleiner de modelfout (SEE) en hoe groter de

betrouwbaarheid (R²), hoe beter het opgebouwde model. Na berekening wordt voor de SEE € 50270 bekomen

en voor de betrouwbaarheid (R²) wordt 0,65 bekomen. De berekeningen zijn terug te vinden in de file ‘SEE en

R².xls’. De formules om SEE en R² te berekenen zijn opgenomen in bijlage. Om een idee te geven over de grootte

van de modelfout (SEE) toont grafiek 1 de spreiding van de prijsgegevens. Grafiek 2 toont een grafiek van de

spreiding van de prijsfout (Error). De prijsfout is het verschil tussen de gegeven verkoopprijs en de bekomen

verkoopprijs door het model. Verder staan de minimale – (min) en maximale (max) prijsfout vermeld, de

mediaanwaarde (med) van de prijsfouten, het gemiddelde (gem) van de prijsfouten en de standaardafwijking

(stdev) van de prijsfouten.

SEE (€) R²

model 1 50270 0,65 Tabel 8: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 1 (Excel)

74

Grafiek 1: Spreiding prijsgegevens model 1 (Matlab)

75

Grafiek 2: Spreiding prijsfout model 1 (Matlab)

76

4.7 Lijst relatieve belangrijkheid structurele karakteristieken

Het model 1 heeft een standaardafwijking van € 36084 en een betrouwbaarheid van 0,65. De inputvariabelen

van model 1 waren de leeftijd, de nuttige oppervlakte, het kadastraal inkomen, het aantal woonplaatsen en het

aantal badkamers van een appartement. Om de relatieve belangrijkheid van elke appartementskarakteristiek te

bepalen worden in model 1 achtereenvolgens de karakteristiek leeftijd, nuttige oppervlakte, kadastraal inkomen,

aantal woonplaatsen en aantal badkamers om de beurt weggelaten. Bijgevolg heeft model 2 als inputvariabelen

nuttige oppervlakte, kadastraal inkomen, aantal woonplaatsen en aantal badkamers. Het model 3 heeft als

inputvariabelen leeftijd, kadastraal inkomen, aantal woonplaatsen en aantal badkamers. Het model 4 heeft als

inputvariabelen leeftijd, nuttige oppervlakte, aantal woonplaatsen en aantal badkamers. Model 5 heeft als

inputvariabelen leeftijd, nuttige oppervlakte, kadastraal inkomen en aantal badkamers. Model 6, tot slot, heeft

als inputvariabelen de karakteristieken leeftijd, nuttige oppervlakte, kadastraal inkomen en aantal

woonplaatsen. De modellen 2 tot en met 6 hebben elk een nauwkeurigheid (SEE) en een betrouwbaarheid (R²).

Door de nauwkeurigheid en betrouwbaarheid van elk model te gaan vergelijken ten opzichte van model 1 wordt

de relatieve belangrijkheid van de karakteristieken bepaald.

De werkwijze voor het bekomen van model 2 tot en met model 6 alsook het verkrijgen van de nauwkeurigheid

(SEE) en betrouwbaarheid (R²) per model is analoog zoals bij model 1. Het enige verschil zit hem in het feit dat

het geen vijf maar vier inputvariabelen betreft. Er wordt telkens vertrokken vanaf het bestand ‘getestmodel.mat’.

Ten eerste worden de structures ‘getraindmodel’ en ‘gechecktmodel’ verwijderd in de workspace. Vervolgens

worden de matrixen ‘modeloutput’ en ‘prijsfout’ gewist in de workspace. In de matrixen ‘train’, ‘check’, ‘test’ en

‘testinput’ worden de kolommen verwijderd van de gegevens van de karakteristiek waarvoor de relatieve

belangrijkheid wordt gezocht. De neuro – fuzzy designer wordt aangeroepen. De trainen checkdata worden

ingeladen. Alle instellingen in de neuro – fuzzy designer verlopen analoog zoals bij model 1. Het enige verschil is

dat nu zowel het trainen en checken vanaf iteratie 1 gebeurt, terwijl bij model 1 het checken pas begon vanaf

iteratie 501. Er wordt op ‘Train Now’ geklikt. We blijven het model trainen tot op het punt dat de RMSE van de

checkdata groter wordt. Met trainen wordt het aanpassen van de voorwaardelijke parameters van de lidfuncties,

iteratie na iteratie, bedoeld, zoals eerder reeds aangehaald. Testen van de modellen gebeurt analoog zoals bij

model 1 alsook het bekomen van de nauwkeurigheid (SEE) en betrouwbaarheid (R²) van elk model. Het getrainde

en gecheckte model wordt telkens opgeslaan in de workspace onder ‘gechecktmodel’. Elk getest model wordt

opgeslaan met respectievelijk de volgende bestandsnamen: ‘getestmodelzonderleeftijd.mat’,

‘getestmodelzondernuttigeoppervlakte.mat’, ‘getestmodelzonderkadastraalinkomen.mat’,

‘getestmodelzonderwoonplaatsen.mat’ en ‘getestmodelzonderbadkamers.mat’. De berekeningen voor SEE en

R² voor elk model zijn terug te vinden in het bestand ‘SEE en R².xls’. De informatie omtrent de spreiding van de

prijsfout voor elk model alsook de bekomen lidfuncties voor elk model zijn terug te vinden in bijlage. In tabel 9

staat de nauwkeurigheid (SEE) en de betrouwbaarheid (R²) voor model 1 tot 6. Tabel 10 geeft het verschil in

77

nauwkeurigheid (SEE) en betrouwbaarheid (R²) weer ten opzichte van model 1 voor de modellen 2 tot en met 6.

Tabel 11 lijst de appartementskarakteristieken op volgens hun relatieve belangrijkheid, afgeleid uit tabel 10.

SEE (€) R²

model 1 50270 0,65

model 2 51154 0,63

model 3 51327 0,63

model 4 55496 0,57

model 5 50340 0,65

model 6 50474 0,64 Tabel 9: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 1 tot 6 (Excel)

SEE (€) R²

model 2 884 -0,01

model 3 1058 -0,02

model 4 5226 -0,08

model 5 70 0,00

model 6 204 0,00 Tabel 10: Verschil in nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 2 tot 6 ten opzichte van model 1 (Excel)

1 kadastraal inkomen

2 nuttige oppervlakte

3 leeftijd

4 badkamers

5 woonplaatsen Tabel 11: Relatieve belangrijkheid van de structurele appartementskarakteristieken (Excel)

Vooraleerst tabel 10 te interpreteren om van daaruit tabel 11 af te leiden herhalen we dat hoe kleiner de

standaardafwijking (SEE) en hoe groter de betrouwbaarheid (R²) is, hoe beter het model presteert. Daaruit volgt

dat hoe meer de standard error of the estimate (SEE) toeneemt en hoe minder de betrouwbaarheid (R²) wordt,

wanneer een bepaalde karakteristiek niet in beschouwing wordt genomen in het model, hoe meer invloed die

bepaalde karakteristiek op het model heeft. In model 4 is de karakteristiek ‘kadastraal inkomen’ niet opgenomen.

Dit zorgt ervoor dat het model € 5226 minder nauwkeurig en 8% minder betrouwbaar wordt ten opzichte van

model 1. Het is de belangrijkste karakteristiek van de vijf. Het model 3, waarin het kenmerk ‘nuttige oppervlakte’

buiten beschouwing is gelaten, heeft een SEE die € 1058 groter is dan model 1 in combinatie met de

betrouwbaarheid die 2% minder wordt. Het is het tweede belangrijkste kenmerk. Model 2 is opgebouwd zonder

de karakteristiek ‘leeftijd’, model 6 zonder de karakteristiek ‘badkamers’ en model 5 zonder de karakteristiek

‘woonplaatsen’. Een analoge redenering kan bij die modellen worden gemaakt in verband met de

78

nauwkeurigheid (SEE) en de betrouwbaarheid (R²) om ze verder te rangschikken naar hun belangrijkheid in het

model.

79

5. Stratificatie

Er wordt stratificatie toegepast op basis van het belangrijkste appartementskenmerk in model 1, het kadastraal

inkomen. De oorspronkelijke dataset wordt onderverdeeld in vier subdatasets van gelijke groottes. Er wordt

geopteerd voor een onderverdeling in vier subdatasets analoog zoals bij gevoerd onderzoek door Guan (Guan

J., et al., 2014). De datasets worden even groot genomen zodat een verschil in nauwkeurigheid (SEE) en

betrouwbaarheid (R²), van de vier verschillende modellen ten opzichte van elkaar, niet te wijten is aan een

verschil in grootte van gebruikte datasets maar enkel en alleen ten gevolge van de stratificatie.

5.1 Op basis van het kadastraal inkomen (KI)

Er wordt vertrokken vanuit het bestand ‘getestmodel.mat’. De volgende matrixen worden verwijderd:

‘getraindmodel’, ‘gechecktmodel’, ‘prijsfout’, ‘prijsgegevens’, ‘testinput’, ‘test’, ‘train’ en ‘check’. De matrix

‘kadastraal inkomen’ wordt aangemaakt. De spreiding van de kadastrale inkomens is weergeven in grafiek 4.

De matrixen ‘stratificatie1’ tot en met ‘stratificatie4’ worden aangemaakt. Ze delen de oorspronkelijke dataset

van 31920 records op in vier subdatasets met een grootte van elk 7980 records. De klassen worden als volgt

bepaald: [min,Q1], [Q1,med],[med,Q3] en [Q3,max]. Q1 en Q3 staat voor respectievelijk quartiel 1 en quartiel 3.

In tabel 12 staan overeenkomstig de waarden van het kadastraal inkomen en de record voor de grenzen van elk

Grafiek 3: Spreiding gegevens kadastraal inkomen (Matlab)

80

quartiel. Ze worden in Excel bepaald door de kadastrale inkomens te ordenen van klein naar groot. Het bestand

‘Kadastraal Inkomen.xls’ bevat de gegevens.

min Q1 med Q3 max

kadastraal inkomen 302 900 1147 1479 4048

record 1 7980 15960 23940 31920 Tabel 12: De grenzen van de quartielen volgens de waarde van kadastraal inkomen en de record (Excel)

De gegevens van de matrix ‘vijfinput’ worden eerst gerangschikt van klein naar groot volgens de kolom

‘kadastraal inkomen’. De commando’s om matrixen te genereren uit een andere matrix zijn analoog zoals in het

begin van het onderzoek reeds werd meegegeven. Vervolgens worden de records random in de vier

stratificatiematrixen verdeeld. De werkwijze om records te rangschikken volgens een kolom en random te

verdelen gebeurt analoog zoals reeds besproken.

Commando 5: Genereren van de matrix 'stratificatie1' tot en met 'stratificatie4' (Matlab)

Figuur 63: Records van de matrix ‘vijfinputs’ geordend van klein naar groot volgens het KI en de gegenereerde willekeurig geordende stratificatiematrixen in de workspace (Matlab)

81

Uit de vier willekeurig geordende stratificatiematrixen wordt een train-, checken testdataset gehaald opnieuw

volgens een 40-30-30 verdeling. 40% en 30% van 7980 records zijn respectievelijk 3192 en 2394 records. Het

genereren van een train-, checken testdataset voor elke subdataset gebeurt door de volgende commando’s:

Commando 6: Genereren train-, checken testdatasets voor elke subdataset (Matlab)

De werkwijze voor het doorlopen van alle stappen in de neuro – fuzzy designer om het model op te bouwen

gebeuren op een analoge manier zoals reeds uitgebreid werd beschreven in punt vier van het onderzoek. Alle

instellingen blijven eveneens dezelfde: 2 Gaussiaanse lidfuncties per inputvariabele, voor het FIS wordt

gridpartitie gebruikt en het FIS wordt hybrid getraind. Het getraind en gecheckt ANFIS – model wordt telkens in

de workspace opgeslaan onder de naam ‘gechecktmodelstratificatienummer’. De nummers gaan van 1 tot 4,

respectievelijk voor het opgebouwd model 1 tot en met 4, uit de train-, checken testmatrixen 1 tot en met 4.

Voor elke subdataset worden de volgende matrixen gegenereerd: ‘modeloutputnummer’,

‘prijsgegevensnummer’, ‘testinputnummer’ en ‘prijsfoutnummer’. Dit gebeurt op een analoge wijze zoals

beschreven in punt vier van het onderzoek. Het bestand wordt opgeslaan onder de naam ‘stratificatie.mat’. De

spreiding van de prijsgegevens, de spreiding van de prijsfouten (modelfouten) en de grafieken van de lidfuncties

van alle inputvariabelen na trainen en checken voor de vier modellen zijn terug te vinden in bijlage. De modellen

zijn genummerd van 7.1 tot en met 7.4. De berekeningen van de SEE en R² voor elk model staat in het bestand

‘SEE en R².xls’.

SEE (€) R²

model 7.1 35816 0,39

model 7.2 41792 0,17

model 7.3 47139 0,18

model 7.4 71708 0,44 Tabel 13: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) van model 7.1 tot 7.4 (Excel)

82

Het trainen en checken van elk model gebeurt vanaf iteratie 1. De SEE van de checkdata bij de ANFIS – modellen

‘gechecktmodelstratificatie3’ en ‘gechecktmodelstratificatie4’ vertonen bij iteratie 1 reeds hun minimale

waarde. Dit impliceert dat het slechte modellen betreft. Het aantal lidfuncties van de inputvariabelen en/of hun

vorm dient te worden aangepast. De resultaten van de modellen 7.3 en 7.4 worden meegegeven in tabel 13,

maar ze worden in punt zes van het onderzoek ‘Vergelijking’ niet beschouwd aangezien het slecht opgebouwde

modellen betreft.

83

6. Vergelijking ANFIS - regressie

De bekomen resultaten in dit onderzoek worden vergeleken ten opzichte van de resultaten uit de masterproef

van Marieke Dewulf en Tine Provoost waar de techniek van regressie werd toegepast (Marieke Dewulf en Tine

Provoost, 2012). De overgenomen onderzoeksresultaten uit voorgaande masterproef zijn onder voorbehoud,

alsook de vergelijking. Ten eerste worden de bekomen resultaten uit de masterproef van Marieke Dewulf en Tine

Provoost weergeven. Vervolgens komen de resultaten uit dit onderzoek aan bod. Ten slotte volgt een vergelijking

van de resultaten van de beide technieken.

6.1 Resultaten regressiemodellen

Ten eerste komen de relatieve belangrijkheid van de karakteristieken aan bod. Vervolgens wordt de

nauwkeurigheid (SEE) en betrouwbaarheid (R²) van het beste regressiemodel meegegeven.

6.1.1 Relatieve belangrijkheid karakteristieken



3 aandeel vreemdelingen

4 gemiddelde oppervlakte woning

5 aantal vertrekken per woning

6 aantal woonplaatsen

7 kantoordichtheid

8 garage

9 aandeel geklasseerde gebouwen

10 aantal badkamers

11 centrale verwarming

12 gemiddelde grootte huishoudens

13 werkloosheidsgraad

14 aandeel woningen bewoond door de eigenaar

15 bezettingsgraad parkeermogelijkheden

16 ouderdom appartement Tabel 14: Relatieve belangrijkheid karakteristieken (Marieke Dewulf en Tinne Provoost, 2012)

6.1.2 Nauwkeurigheid (SEE) en betrouwbaarheid (R²)

SEE (€) R²

beste model 33554 0,94 Tabel 15: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) beste regressiemodel (Marieke Dewulf en Tinne Provoost, 2012)

84

6.2 Resultaten ANFIS – modellen

Ten eerste komen de relatieve belangrijkheid van de structerele appartementskarakteristieken aan bod.

Vervolgens worden de nauwkeurigheid (SEE) en betrouwbaarheid (R²) van alle opgebouwde ANFIS – modellen

in dit onderzoek in tabelvorm weergeven.

6.2.1 Relatieve belangrijkheid karakteristieken



3 leeftijd

4 badkamers

5 woonplaatsen Tabel 16: Relatieve belangrijkheid structurele appartementskarakteristieken (Excel)

6.2.2 Nauwkeurigheid (SEE) en betrouwbaarheid (R²)

SEE (€) R²

model 1 50270 0,65

model 2 51154 0,63

model 3 51327 0,63

model 4 55496 0,57

model 5 50340 0,65

model 6 50474 0,64

model 7.1 35816 0,39

model 7.2 41792 0,17 Tabel 17: Nauwkeurigheid (SEE) en betrouwbaarheid (R²) model 1 tot model 7.2 (Excel)

Het toepassen van stratificatie leidt niet tot de verhoopte resultaten. De nauwkeurigheid (SEE) vergroot: € 35816

bij model 7.1 en € 41792 bij model 7.2 ten opzichte van € 50270 bij model 1. Echter vermindert de

betrouwbaarheid (R²) van de beide modellen bekomen door stratificatie sterk: model 7.1 heeft een

betrouwbaarheid van 0,39, voor model 7.2 is dit nog slechts 0.17 ten opzichte van een betrouwbaarheid van 0,65

voor model 1. Verder onderzoek specifiek gericht op de aard van de inputvariabelen om hierop gebaseerde

keuzes te maken voor het aantal lidfuncties en hun vorm voor elke inputvariabele, kan zorgen voor mogelijk een

betere prestatie van de ANFIS – modellen bekomen door stratificatie. Dat het aanpassen van het aantal

lidfuncties en hun vorm voor de inputvariabelen wenselijk is werd rechtstreeks aangetoond door het voorkomen

van de minimale SEE van de checkdata bij iteratie 1 voor de modellen 7.3 en 7.4. Het voorkomen van de minimale

SEE van de checkdata bij iteratie 1 impliceert twee slecht opgebouwde modellen. Ze worden in de vergelijking

daarom niet opgenomen.

85

6.3 Vergelijking

Er gebeurt eerst een vergelijking naar relatieve belangrijkheid van de structurele karakteristieken, vervolgens

naar nauwkeurigheid (SEE) en tot slot naar betrouwbaarheid (R²) toe, van de beide technieken.

6.3.1 Naar relatieve belangrijkheid structurele karakteristieken

ANFIS regressie

1 kadastraal inkomen nuttige oppervlakte

2 nuttige oppervlakte kadastraal inkomen

3 leeftijd woonplaatsen

4 badkamers badkamers

5 woonplaatsen leeftijd Tabel 18: Vergelijking relatieve belangrijkheid structurele appartementskarakteristieken (Excel)

Bij zowel de techniek gebaseerd op ANFIS, als de techniek gebaseerd op regressie, komen de structurele

karakteristieken ‘kadastraal inkomen’ en ‘nuttige oppervlakte’ als meest belangrijk naar voor. De technieken zijn

het wel niet eens over welke karakteristiek het belangrijkst is. ANFIS toont aan dat het kadastraal inkomen het

meeste invloed heeft op de appartementsprijs, bij regressie is dit de nuttige oppervlakte.

6.3.2 Naar nauwkeurigheid (SEE)

ANFIS SEE (€) regressie SEE (€)

model 1 50270 beste model 33554

model 7.1 35816

model 7.2 41792

Tabel 19: Vergelijking nauwkeurigheid (SEE) (Excel)

Hoewel stratificatie de nauwkeurigheid (SEE) van het ANFIS – model vergroot, € 35816 en € 41792 voor

respectievelijk model 7.1 en 7.2 ten opzichte van € 50270 voor model 1, is noch model 7.1, noch model 7.2 in

staat nauwkeuriger te zijn dan het best bekomen model met regressie. Het model 7.1 met [302,900] als interval

voor het kadastraal inkomen van de data komt het meest in de buurt. Verder onderzoek specifiek gericht op de

aard van de inputvariabelen om hierop gebaseerde keuzes te maken voor het aantal lidfuncties en hun vorm

voor elke inputvariabele, kan zorgen voor mogelijk een betere nauwkeurigheid van de ANFIS – modellen

bekomen door stratificatie.

86

6.3.3 Naar betrouwbaarheid (R²)

ANFIS R² regressie R²

model 1 0,65 beste model 0,94

model 7.1 0,39

model 7.2 0,17

Tabel 20: Vergelijking betrouwbaarheid (R²) (Excel)

Geen enkel ANFIS – model is betrouwbaarder dan het beste regressiemodel. Bij de ANFIS – modellen onderling

zorgt stratificatie voor een nog verminderde betrouwbaarheid. Verder onderzoek specifiek gericht op de aard

van de inputvariabelen om hierop gebaseerde keuzes te maken voor het aantal lidfuncties en hun vorm voor elke

inputvariabele, kan zorgen voor mogelijk een betere betrouwbaarheid van de ANFIS – modellen bekomen door

stratificatie.

87

7. Verder onderzoek

We willen erop wijzen dat in dit onderzoek beperkingen zijn, alsook ANFIS – instellingen die niet zijn onderzocht.

Dit biedt ruimte voor verder onderzoek. Het kan het ANFIS – model mogelijk verbeteren. We bespreken eerst de

beperkingen, daarna worden de instellingen in het model behandeld.

Het gebruik van een 40 – 30 – 30 verdeling in dit onderzoek voor respectievelijk de train-, checken testdatasets

is een eerste beperking. Bij neurale netwerken toont gevoerd onderzoek aan dat wanneer de traindataset wordt

vergroot het model beter gaat presteren (Nghiep, N. en C. Al, 2001). Het loont de moeite te onderzoeken als dit

eveneens voor de combinatie van de neurale netwerken met de fuzzy logica (ANFIS – model) het geval is. Ten

tweede werden de structurele appartementskarakteristieken garage, lift en centrale verwarming niet in

beschouwing genomen. Het in rekening brengen van deze inputvariabelen kan mogelijk tot een beter model

leiden. Vervolgens kan de inbreng van omgevings- en buurtkenmerken potentieel tot betere resultaten leiden.

In dit onderzoek werd tot slot, voor de beperkingen, de train-, checken testdata slechts één keer verdeeld. Het

ANFIS – model werd op basis van deze datasets getrained, gechecked en getest. Voorgaand onderzoek gevoerd

door Guan et al. verdeelde de dataset 50 keer random in een train-, checken testdataset. Als fout werd het

gemiddelde genomen van de 50 runs (Guan J., et al., 2008; Guan, J., et al.,2014). Verder onderzoek kan de dataset

meerdere keren random indelen in een train-, checken testdataset en het effect van meerdere keren testen op

de prestatie van het ANFIS – model nagaan.

Het ANFIS – model vraagt veel instellingen. Al deze verschillende instellingen gaan onderzoeken in één werk was

een onmogelijke opdracht. Ten eerste werd bij het genereren van het fuzzy gevolgtrekking systeem (FIS) gebruik

gemaakt van de techniek gridpartitie. Subclustering is een tweede mogelijke techniek. Voorgaand onderzoek die

beide technieken vergeleek kwam tot de vaststelling dat het model gebaseerd op gridpartitie betere resultaten

levert ten opzichte van het model gebruik makend van subclustering (Gerek, I. H. L., 2014). Het zou interessant

zijn te onderzoeken als bij het gebruik van deze dataset eveneens tot dezelfde vaststelling wordt gekomen. Ten

tweede werden bij het definiëren van de lidfuncties als aantal lidfuncties per inputvariabele twee, met als vorm

Gaussiaans, ingesteld. Onderzoek specifiek gericht op de aard van de inputvariabelen en hierop gebaseerde

keuzes voor het aantal lidfuncties en de vorm, kan zorgen voor mogelijk een betere prestatie van het ANFIS –

model. Ten derde werd als type voor de outputlidfunctie in dit onderzoek constant genomen. Het instellen van

lineair als type kan mogelijk tot betere resultaten leiden. Ten slotte werd bij het trainen van het fuzzy

gevolgtrekking systeem (FIS) beroep gedaan op de hybride optimalisatiemethode. Verder onderzoek kan het

effect van backpropagatie als optimalisatiemethode bekijken.

88

Besluit

In deze thesis werd neuro – fuzzy, als model om de hedonische waarde van een appartement te bepalen,

gebruikt. De waarde van een appartement is afhankelijk van veel verschillende variabelen. Een hedonische

waardebepaling stelt dat elke karakteristiek een zekere invloed uitoefent op de totaalprijs van een appartement.

Ten eerste werd met oog op stratificatie de structurele appartementskarakteristiek bepaald die het meeste

invloed uitoefent op de appartementsprijs. Vervolgens werd stratificatie toegepast op basis van het belangrijkste

structurele appartementskenmerk. Tot slot werden de resultaten uit dit onderzoek vergeleken met het beste

regressiemodel bekomen uit een voorgaande masterproef.

De vijf structurele appartementskarakteristieken die gebruikt werden als inputvariabelen voor het ANFIS – model

waren de leeftijd, de nuttige oppervlakte, het kadastraal inkomen, het aantal woonplaatsen en het aantal

badkamers van een appartement. De karakteristiek die de meeste invloed uitoefende op de verkoopprijs van

een appartement was het kadastraal inkomen. Vervolgens werd de oorspronkelijke dataset onderverdeeld in

vier subdatasets op basis van het kadastraal inkomen, stratificatie genoemd. Stratificatie zorgde niet voor een

verbetering van het ANFIS – model. Twee van de vier bekomen ANFIS – modellen ten gevolge van de stratificatie

konden niet in beschouwing worden genomen. Tot slot was geen enkel ANFIS – model in staat beter te presteren,

qua nauwkeurigheid en betrouwbaarheid, ten opzichte van het beste regressiemodel uit een voorgaande

masterproef.

89

Referenties

Ampe P. (2015). Omgevingswerken & infrastructuur.

Ampe P. (2015). Schatting en expertise.

Aurélio Stumpf González, M. and C. Torres Formoso (2006). Mass appraisal with genetic fuzzy rule-based systems.

Property Management 24(1): 20-30.

Buonanno, P., et al. (2012). Housing prices and crime perception. Empirical Economics 45(1): 305-

321.

Ceccato, V. and M. Wilhelmsson (2011). The impact of crime on apartment prices: Evidence from Stockholm,

Sweden. Geografiska Annaler: Series B, Human Geography 93(1): 81-103.

Chinloy, P. (1996). Real estate cycles: theory and empirical evidence. Journal of Housing Research 7: 173-190.

Day, B. (2003). Submarket identification in property markets: a hedonic housing price model for Glasgow, CSERGE

Working Paper EDM.

Day, B., et al. (2003). What price peace? A comprehensive approach to the specification and estimation of

hedonic housing price models, CSERGE Working Paper EDM.

De Vor, F. and H. L. F. de Groot (2011). The Impact of Industrial Sites on Residential Property Values: A Hedonic

Pricing Analysis from the Netherlands. Regional Studies 45(5): 609-623.

Dewulf M. en Provoost T. (2012). Vergelijkend onderzoek van prijsmodellen voor de waardebepaling van

appartementen aan de hand van datamining en regressieanalyse. Masterproef UGent.

Do, Q. and G. Grudnitski, (1992). A Neural Network Approach to Residential Property Appraisal. The Real Estate

Appraiser 58, 38-45.

Dugernier, M., De Nocker, L., Broeckx, S., Bosmans, D. (2014). Analyse van de financiële gevolgen van ruimtelijke

beslissingen: kader en beschrijving van enkele situaties. Ruimte Vlaanderen, departement van de Vlaamse

Overheid.

Efthymiou, D. and C. Antoniou (2013). How do transport infrastructure and policies affect house prices and rents?

Evidence from Athens, Greece." Transportation Research Part a-Policy and Practice 52: 1-22.

90

Fan, G.-Z., et al. (2006). Determinants of house price: A decision tree approach. Urban Studies 43(12): 2301-2315.

Fayyad, U. and R. Uthurusamy (1996). Data mining and knowledge discovery in databases. Communications of

the Acm 39(11): 24-26.

Gerek, I. H. L. (2014). House selling price assessment using two different adaptive neuro-fuzzy techniques.

Automation in Construction 41: 33-39.

Graves, P., et al. (1988). THE ROBUSTNESS OF HEDONIC PRICE ESTIMATION - URBAN AIR-QUALITY. Land

Economics 64(3): 220-233.

Gress, B. (2004). Using semi-parametric spatial autocorrelation models to improve hedonic housing price

prediction, Citeseer.

Guan, J., et al. (2008). An Adaptive Neuro-Fuzzy Inference System Based Approach to Real Estate Property

Assessment. Journal of Real Estate Research 30(4): 395-421.

Guan, J., et al. (2014). Analyzing Massive Data Sets: An Adaptive Fuzzy Neural Approach for Prediction, with a

Real Estate Illustration. Journal of Organizational Computing and Electronic Commerce 24(1): 94-112.

Huang, S. J., & Chiu, N. H. (2009). Applying fuzzy neural network to estimate software development effort.

Applied Intelligence 30(2), 73-83.

Jang, J. S. R. (1993). ANFIS - ADAPTIVE-NETWORK-BASED FUZZY INFERENCE SYSTEM. Transactions on Systems

Man and Cybernetics 23(3): 665-685.

Kestens, Y., et al. (2004). The impact of surrounding land use and vegetation on single-family house prices.

Environment and Planning B-Planning & Design 31(4): 539-567.

Kusan, H., et al. (2010). The use of fuzzy logic in predicting house selling price. Expert Systems with Applications

37(3): 1808-1813.

Lazrak, F., et al. (2013). The market value of cultural heritage in urban areas: an application of spatial hedonic

pricing. Journal of Geographical Systems 16(1): 89-114.

Lee, J. S. and M.-H. Li (2009). The impact of detention basin design on residential property value: Case studies

using GIS in the hedonic price modeling. Landscape and Urban Planning 89(1-2): 7-16.

91

McGreal, S., et al. (1998). Neural networks: the prediction of residential values. Journal of Property Valuation

and Investment 16(1): 57-70.

Nauck, D., et al. (1997). Foundations of neuro-fuzzy systems, John Wiley & Sons, Inc.

Nghiep, N. and C. Al (2001). Predicting housing value: A comparison of multiple regression analysis and artificial

neural networks. Journal of Real Estate Research 22(3): 313-336.

Panduro, T. E. and K. L. Veie (2013). Classification and valuation of urban green spaces—A hedonic house price

valuation. Landscape and Urban Planning 120: 119-128.

Rehdanz, K. (2006). Hedonic Pricing of Climate Change Impacts to Households in Great Britain. Climatic Change

74(4): 413-434.

Saunders, P. (2005). After the House Price Boom. Policy 21(1).

Selim, H. (2009). Determinants of house prices in Turkey: Hedonic regression versus artificial neural network.

Expert Systems with Applications 36(2): 2843-2852.

Smith, V. K. and T. A. Deyak (1975). MEASURING IMPACT OF AIR-POLLUTION ON PROPERTY VALUES. Journal of

Regional Science 15(3): 277-288.

Tay, D. P. H. and D. K. K. Ho. (1992). Artificial Intelligence and the Mass Appraisal of Residential Apartments.

Journal of Property Valuation & Investment 10, 525-540.

Theebe, M. A. J. (2004). Planes, trains, and automobiles: The impact of traffic noise on house prices. Journal of

Real Estate Finance and Economics 28(2-3): 209-234.

Troy, A. and J. M. Grove (2008). Property values, parks, and crime: A hedonic analysis in Baltimore, MD.

Landscape and Urban Planning 87(3): 233-245.

Tse, R. Y. C. (2002). Estimating neighbourhood effects in house prices: Towards a new hedonic model approach.

Urban Studies 39(7): 1165-1180.

Van Puyvelde J. (2011). Het gebruik van datamining bij hedonische waardebepaling van eigendommen.

Masterproef UGent.

92

Vieira, J., et al. (2004). Neuro-fuzzy systems: A survey. 5th WSEAS NNA International Conference on Neural

Networks and Applications, Udine, Italia.

Visser, P., et al. (2006). De prijs van de plek: Woonomgeving en woningprijs, NAi Uitgevers.

Visser, P., et al. (2008). Residential environment and spatial variation in house prices in the netherlands.

Tijdschrift Voor Economische En Sociale Geografie 99(3): 348-360.

Wagteveld, T. (2007). De waarde van groen en water bij woningbouw. Een onderzoek naar de financiële aspecten

van groen en water bij de ontwikkeling van nieuwe woonmilieu’s.

Wang, S.-C. (2003). Artificial neural network. Interdisciplinary Computing in Java Programming, Springer: 81-100.

Worzala, E., et al. (1995). An exploration of neural networks and its application to real estate valuation. Journal

of Real Estate Research 10(2): 185-201.

Zheng, S. Q., et al. (2014). Real Estate Valuation and Cross-Boundary Air Pollution Externalities: Evidence from

Chinese Cities. Journal of Real Estate Finance and Economics 48(3): 398-414.

93

Bijlage

Bijlage 1 – Voorwaardelijke parameters van de lidfuncties van de inputvariabelen na trainen en

checken van model 1 tot model 7.4

Figuur 64: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 1 (Matlab)

Figuur 65: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 1 (Matlab)

94

Figuur 66: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 1 (Matlab)

Figuur 67: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 1 (Matlab)

95

Figuur 68: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 1 (Matlab)


96



97


Figuur 73: Lidfuncties jong en veel van de inputvariabele leeftijd na validatie van het model 3 (Matlab)

98



99



100


Figuur79: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 4 (Matlab)

101



102



103



104



105


Figuur 89: Lidfuncties jong en oud van de inputvariabele leeftijd na validatie van het model 7.1 (Matlab)

106

Figuur 90: Lidfuncties klein en groot van de inputvariabele nuttige oppervlakte na validatie van het model 7.1 (Matlab)

Figuur 91: Lidfuncties laag en hoog van de inputvariabele kadastraal inkomen na validatie van het model 7.1 (Matlab)

107

Figuur 92: Lidfuncties weinig en veel van de inputvariabele woonplaatsen na validatie van het model 7.1 (Matlab)

Figuur 93: Lidfuncties weinig en veel van de inputvariabele badkamers na validatie van het model 7.1 (Matlab)

108



109



110



111



112



113



114



115


116

Bijlage 2 – Formule berekenen SEE

met de gegeven actuele verkoopprijzen y1 tot yn

met de gemodelleerde actuele verkoopprijzen f1 tot fn

117

Bijlage 3 – Formule berekenen R²

met de gegeven actuele verkoopprijzen y1 tot yn

met de gemodelleerde actuele verkoopprijzen f1 tot fn

met y als het gemiddelde van de gegeven n actuele verkoopprijzen

118

Bijlage 4 – Spreiding prijsgegevens model 7.1 tot model 7.4

Grafiek 4: Spreiding prijsgegevens model 7.1 (Matlab)

119


120


121


122

Bijlage 5 – Spreiding prijsfout model 2 tot model 7.4


123


124


125


126


127

Grafiek 13: Spreiding prijsfout model 7.1 (Matlab)

128


129


130


Vergelijking van datamining bij hedonische waardebepaling van...

Documents

Transcript of Vergelijking van datamining bij hedonische waardebepaling van...