Facoltà di Ingegneria - unina. · PDF fileFacoltà di Ingegneria - Corso di Studi...

Click here to load reader

  • date post

    25-Feb-2019
  • Category

    Documents

  • view

    213
  • download

    0

Embed Size (px)

Transcript of Facoltà di Ingegneria - unina. · PDF fileFacoltà di Ingegneria - Corso di Studi...

Facolt di Ingegneria Corso di Studi in Ingegneria Informatica Tesi di laurea

Tagging techniques for Search Engine Optimization Anno Accademico 2012/2013 relatore Ch.mo prof. Porfirio Tramontana candidato Russo Gianluca matr. M63/90

Facolt di Ingegneria - Corso di Studi in Ingegneria Informatica Tagging techniques for Search Engine Optimization

Contents

Introduction 7

Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Chapter organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1 Context and background 12

1.1 From a Web of documents to a Web of Knowledge . . . . . . . . . . . . . . . 12

1.1.1 The Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.1.2 World Wide Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.1.3 Hyper Text Markup Language - HTML . . . . . . . . . . . . . . . . . 15

1.1.4 Extensible Markup Language - XML . . . . . . . . . . . . . . . . . . 17

1.2 Introduction to Semantic Web . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.3 Semantic Web Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.4 The principles of the Semantic Web . . . . . . . . . . . . . . . . . . . . . . . 26

1.5 Semantic Web Languages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.5.1 Markup concept . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.5.2 Metadata concept . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

1.5.3 Resource Description Framework - RDF . . . . . . . . . . . . . . . . . 33

1.5.4 Ontology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.6 Search Engine Optimization - SEO . . . . . . . . . . . . . . . . . . . . . . . . 36

1

Facolt di Ingegneria - Corso di Studi in Ingegneria Informatica Tagging techniques for Search Engine Optimization

2 Semantic annotation of Web pages 40

2.1 The basic concepts and related problem . . . . . . . . . . . . . . . . . . . . . 40

2.1.1 Internal-Embedded annotation . . . . . . . . . . . . . . . . . . . . . . 42

2.1.2 External-Linked annotation . . . . . . . . . . . . . . . . . . . . . . . 43

2.1.3 Direct or Manual annotation . . . . . . . . . . . . . . . . . . . . . . . 44

2.1.4 Automated annotation . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.2 Technological solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.2.1 Microformats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2.2.2 RDFa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.2.3 Microdata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.2.4 Schema.org . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.3 Technological choices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3 MicrodataSemantic tool 60

3.1 Motivation and Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.2 Requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.2.1 Functional requirements: . . . . . . . . . . . . . . . . . . . . . . . . 61

3.2.2 Non-functional requirements: . . . . . . . . . . . . . . . . . . . . . . 62

3.2.3 Use Case Diagram . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.3 Architectural Design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.4 Deployment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.4.1 Model View Controller Design pattern . . . . . . . . . . . . . . . . . . 65

3.4.2 Top-Down Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Facolt di Ingegneria - Corso di Studi in Ingegneria Informatica Tagging techniques for Search Engine Optimization

3.4.3 Vaadin Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.4.3.1 Architectural overview . . . . . . . . . . . . . . . . . . . . 67

3.4.4 Google AppEngine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.4.4.1 Brief Overview . . . . . . . . . . . . . . . . . . . . . . . . 70

3.4.5 Detailed Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.4.5.1 Semantic content creation . . . . . . . . . . . . . . . . . . . 71

3.4.5.2 Semantic validation and verification . . . . . . . . . . . . . 78

3.4.5.3 User Interface for semantic text annotation . . . . . . . . . . 82

3.4.5.4 Class Diagram . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.4.5.5 Package Diagram . . . . . . . . . . . . . . . . . . . . . . . 87

4 Case Study 88

4.1 Company presentation and business problems . . . . . . . . . . . . . . . . . . 88

4.2 Objectives and Research questions . . . . . . . . . . . . . . . . . . . . . . . . 90

4.2.1 Research Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.3 Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.3.1 MicrodataSemantic tool metrics . . . . . . . . . . . . . . . . . . . . . 92

4.3.2 SEO Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.4 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

4.4.1 MicrodataSemantic tool results . . . . . . . . . . . . . . . . . . . . . . 96

4.4.2 SEO results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.6 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Facolt di Ingegneria - Corso di Studi in Ingegneria Informatica Tagging techniques for Search Engine Optimization

5 Conclusion 113

5.1 Generalisation of the results . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

5.2 Future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

List of Figures

1.1 Semantic Web architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.2 Current Web and Semantic Web . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.3 Original World Wide Web Proposal . . . . . . . . . . . . . . . . . . . . . . . 29

1.4 Both the current Web and the Semantic Web handle partial information . . . . . 30

1.5 Combining new information with old when the old information cannot be changed 31

1.6 Search Engine Results Page heatmap . . . . . . . . . . . . . . . . . . . . . . . 37

1.7 Search Engine Results Page chunked heatmap . . . . . . . . . . . . . . . . . . 38

2.1 Microformats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.1 Use Case diagram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.2 Model View Controller design pattern . . . . . . . . . . . . . . . . . . . . . . 65

3.3 Vaadin Framework interaction . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.4 Vaadin Framework architecture . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.5 Available templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.6 Schema.org Article entity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.7 Article entity creation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.8 Package Schematype . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5

Facolt di Ingegneria - Corso di Studi in Ingegneria Informatica Tagging techniques for Search Engine Optimization

3.9 Package Component User Interface . . . . . . . . . . . . . . . . . . . . . . . . 75

3.10 Package Controller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.11 Preview and Source code during the creation . . . . . . . . . . . . . . . . . . 77

3.12 Entity structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

3.13 Four views for semantic text annotation . . . . . . . . . . . . . . . . . . . . . 83

3.14 Web page entities extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.15 Class Diagram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.16 Package Diagram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.1 Search Engine market share . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.2 Keywords . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

4.3 Percentage of entities annotated . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.4 Precision Recall and F-score values . . . . . . . . . . . . . . . . . . . . . . . 98

4.5 Percentage of saved time by using MicrodataSemantic tool . . . . . . . . . . . 99

4.6 Total average of MicrodataSemantic Tool . . . . . . . . . . . . . . . . . . . . 100

4.7 Event ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.8 Software Application#1 ranking . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.9 Software Application#2 ranking . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.10 Article ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.11 Rich Snippet #1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104