Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea...

Post on 07-Jul-2020

2 views 0 download

Transcript of Dezvoltarea sistemelor Web › ~busaco › teach › courses › ... · ga .ro / ~ co Dezvoltarea...

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Dezvoltarea sistemelor Web

(re)găsirea resurselor Web

🕸de la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

“A well-defined problem is half solved.”

Michael Osborne

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Ce activități realizează un motor de căutare?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scop:localizarea resurselor existente pe Web

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scop:localizarea resurselor existente pe Web

conținut textual

documente Web, știri, comentarii, cod-sursă,însemnări în cadrul aplicațiilor Web sociale etc.

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scop:localizarea resurselor existente pe Web

conținut multimedia

imagini (fotografii, diagrame, ilustrații), audio, video, prezentări,… (în formă fizică și/sau electronică

– gratuite ori comerciale)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scop:localizarea resurselor existente pe Web

entități

persoane, organizații, evenimente, cunoaștere (cărți, software), de interes personal/social

(bunuri reale/digitale – produse și/sau servicii),…

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Tipuri de căutări – maniera tradițională:

pe bază de indecși

explorare a Web-ului (crawling) +prelucrarea conținutului textual (indexing)

Lycos – 1994 (Carnegie Mellon University)AltaVista – 1995 (Digital Equipment Corporation)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Tipuri de căutări – maniera tradițională:

pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory, taxonomii)

Yahoo! – Yet Another Hierarchical Officious Oracle1994 (Stanford)

Jerry and David’s guide to the World Wide Web

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Tipuri de căutări – maniera tradițională:

hibrideindecși + taxonomiiportal Web

Excite – 1994 (inițial Architext – Stanford)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Tipuri de căutări – maniera tradițională:

pe baza legăturilor hipertext(hyperlink analysis)

Google – 1996 (inițial BackRub – Stanford)

vezi și S. Buraga, „Căutarea resurselor Web” (2016)www.slideshare.net/busaco/sabin-buraga-cutarea-resurselor-web

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Un motor de căutare trebuie să satisfacănevoia de informații a utilizatorului

(user information-seeking)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

scop

căutarea oricărei resurse existente

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

viteză

rezultatele să fie disponibile imediat

direcție de interes major: real-time Web search

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

disponibilitate

actualizarea permanentă(orice modificare să fie indexată „instantaneu”)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

„reamintire” – recall

găsirea tuturor resurselor relevantepentru o cerere dată

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

precizie

rezultatul conține doar resurse relevante

prezent: recurgerea la tehnici din inteligența artificială

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Caracteristici ale unui motor de căutare ideal

categorisire eficientă – ranking

cele mai relevante resurse Websunt plasate primele

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Care sunt principalele componenteale unui motor de căutare?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

coRobot Webextrage informații

Index (catalog)stochează – în mod persistent – (meta)date

despre resursele existente pe Web

Mecanism de evaluare (ranking)pe baza cererii utilizatorului,

oferă răspunsuri – de dorit, utile

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

structura generică a unui motor de căutare (Chakrabarti, 2003)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Preluarea + indexarea resurselor se pot realiza:

automat – via roboți Webmanual – recurgând la experți umani

hibrid

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Preluarea și indexarea resurselor

strategii:natura datelor/relațiilor (data/relation mining)

detectarea subiectului conținutului (topic distillation)

meta-date – date descriind date (e.g., doar însemnări ca replici la alte mesaje)

căutare socială (tag-uri, anturaj, aplicații Web sociale)

context (e.g., localizare geografică, timp, dispozitiv)

profil al utilizatorului – personalizare(e.g., istoric al căutărilor, preferințe lingvistice)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Am putea recurge la extragerea automatăa datelor expuse pe Web?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

spiders, crawlers, Web bots

robot Web navigator Web

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Roboți

pornind de la un URL, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumiteacțiuni privitoare la reprezentarea unei resurse– uzual, HTML – și, recursiv, din toate resursele

(documentele) desemnate de legăturile existenteîn cadrul reprezentării

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Roboți

pornind de la un URL, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumiteacțiuni privitoare la reprezentarea unei resurse– uzual, HTML – și, recursiv, din toate resursele

(documentele) desemnate de legăturile existenteîn cadrul reprezentării

acțiuni: extrage de date, copiere, agregare de conținut, monitorizare, realizare a unui rezumat etc.

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Operarea în foc rapid (rapid-fire)

trafic de rețea

supraîncărcarea serverelor Webdenial of service

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

necesitatea specificării timpului de revizitare a situluide către robotul Web

<meta name="Revisit-After" content="30 Days" />

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Exploatarea (ne)controlată de către utilizatori

atacuri „brute”

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Intrarea în „găurile negre”

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: pericole

Accesarea unor date nerelevante

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

uzual, va fi folosit câmpul User-Agent

din antetul unei cereri HTTP

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Ai motoarelor de căutare majore

Baidu – Baiduspider: www.baidu.com/search/spider.html

Bing – Bingbot, BingPreview, AdIxBotwww.bing.com/webmaster/help/which-crawlers-does-bing-use-8c184ec0

DuckDuckGo – duckduckgo.com/duckduckbot

Google – APIs-Google, AdSense, AdsBot, Googlebot, Googlebot-Image, Googlebot-News, Googlebot-Video,…

support.google.com/webmasters/answer/1061943

Yahoo! – Slurp: help.yahoo.com/help/us/ysearch/slurp

Yandex – YandexBot, YandexImages etc.:yandex.com/support/webmaster/robot-workings/check-yandex-robots.html

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Specializați

e.g., validarea codului HTML, scurtarea lungimiiURL-urilor, scanare de vulnerabilități, statistici,

arhivarea conținutului disponibil pe Web,…

exemplificări: ChangeDetection, citeseerxbot, Distill,Feedity, Heritrix (folosit de archive.org),

extensii Nagios, Scrapy, W3C Validator

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Personali

rulați de utilizatori

exemplificare: software de „oglindire” (copiere) a conținutului unui (fragment de) sit Web

aplicații notorii disponibile în regim deschis:curl – curl.haxx.se/ wget – www.gnu.org/software/wget/

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

roboți: identificare

Roboți (potențial) malefici

pot cauza breșe de securitate, exploatând diverse vulnerabilități ale siturilor/aplicațiilor Web

exemple tipice: JS/PHP/SQL/link injection, atacuri XSS (Cross-Site Scripting)

www.botreports.com/badbots/

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

66.249.65.173 - - [09/Nov/2019:11:26:31 +0200] "GET /~introp/ HTTP/1.1" 304 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

93.158.178.188 - - [09/Nov/2019:11:25:08 +0200] "GET /~adria/...pdf HTTP/1.1" 200 198738 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

66.249.65.70 - - [09/Nov/2019:11:22:06 +0200] "GET /~busaco/teach/courses/cliw/ HTTP/1.1" 200 2120 "-" "Mozilla/5.0 (iPhone; …Safari/600.1.4 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

180.76.5.101 - - [09/Nov/2019:11:22:02 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

98.137.206.250 - - [09/Nov/2019:11:21:07 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

157.55.39.73 - - [09/Nov/2019:11:20:43 +0200] "GET /~webdata/…/OCT.pdf HTTP/1.1" 403220 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

208.115.111.71 - - [09/Nov/2019:11:20:42 +0200] "GET /%7Eorar/ HTTP/1.1" 200 12705 "-" "Mozilla/5.0 (DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)"

63.249.66.212 - - [09/Nov/2019:11:14:55 +0200] "GET /~croitoru/ag/ HTTP/1.1" 200 2575 "-" "Mozilla/4.0 (compatible; MSIE 6.0; http://www.changedetection.com/bot.html)"

66.249.65.70 - - [09/Nov/2019:11:12:47 +0200] "GET /~busaco/paint/leaf/leaf-9.jpg HTTP/1.1" 304 - "-" "Googlebot-Image/1.0"

157.55.39.177 - - [09/Nov/2019:11:11:53 +0200] "GET /~lrc/ HTTP/1.1" 200 1914 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"

136.243.9.23 - - [09/Nov/2019:09:40:35 +0200] "GET /~busaco/ HTTP/1.0" 200 1907 "-" "Mozilla/5.0 (… James BOT - WebCrawler http://cognitiveseo.com/bot.html"

cereri HTTP efectuate de diverși roboți Web(menționate în fișierul de jurnalizare Apache)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

statistici + detalii:www.botsvsbrowsers.org

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Cum putem „instrui” roboții Websă nu viziteze anumite zone ale sitului?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Orice robot trebuie să respectestandardul de excludere

„inhibă” vizitarea anumitor zone (secțiuni) ale unui sit Web

în rădăcina unui domeniu Web se poate plasa fișierul robots.txt

www.robotstxt.org/robotstxt.html

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

# https://developer.mozilla.org/robots.txt

User-agent: * # toți roboții

Crawl-delay: 5 # 5 sec. între cereri

Sitemap: https://developer.mozilla.org/sitemap.xml

Disallow: /admin/ # căi ce nu trebuie vizitate

Disallow: /*/dashboards/*

Disallow: /*docs/feeds

...

fișierul robots.txt poate cuprinde extensii recunoscute doar de un anumit crawler Web

cazul Google: developers.google.com/search/reference/robots_txt

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

de studiat câteva exemple reale de fișiere robots.txt:www.amazon.com/robots.txt

www.facebook.com/robots.txt

github.com/robots.txt

www.google.com/robots.txt

User-agent: *

Disallow: /user/*

Disallow: /addtocart*

Disallow: /proces_comanda

Disallow: /cart/*

Disallow: /checkout

Disallow: /imagini/*

Disallow: /images/*

Disallow: /compare/*

Disallow: /thank-you$

Disallow: /cat-*/pid-*/ord-*/p-*

Disallow: /adauga-review

Disallow: /adauga-intrebare

Disallow: /header-cart

Disallow: /header-wl

Disallow: /product_get_recommandations/*

Disallow: /get_back_to_search_url

Disallow: /search-tools/*

Disallow: /ajax_live_products

Disallow: /box_user_history

Disallow: /gr_box_bottom_landing/*

Disallow: /site_ajax_ads

Allow: /*/*/*all-products

User-agent: 008

Disallow: /

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Orice robot trebuie să respectestandardul de excludere

evitarea indexării conținutului:

<meta name="robots" content="noindex, nofollow" />

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: căutarea

Activitatea generală a unui robot (crawler) simplu:

F = mulțimea de URL-uri de start (frontiera)cât-timp F este nevidăextrage un URL u din Fpreia pagina (resursa Web) p cu adresa udacă p este relevantăstochează p în indexpentru-fiecare legătură v din p

dacă v nu este în index și v nu aparține lui Fși v ar putea fi vizitată

adaugă v la F

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: căutarea

Robotul/motorul de căutare decide momentulrevizitării resursei care urmează a fi reindexată

sau doar verificată

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Cum se realizează indexarea?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

modele non-relaționale de stocare – „mișcarea” NoSQL

printre primele abordări: BigTable (Chang et al., 2006)research.google.com/archive/bigtable.html

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

arhivarea datelor indexate

e.g., recurgerea la algoritmul de compresiebzip2 – www.bzip.org (cazul Google)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Utilizarea nu doar a datelor propriu-zise(conținutului textual), ci și a meta-datelor

e.g., limbă, cuvinte-cheie, autor, format,data ultimei actualizări, frecvența modificărilor,…

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Indexare bazată pe cuvinte-cheie

relevanță, amplasare – e.g., context de apariție –, meta-date, procesarea limbajului natural,

clasificare (semi-)automată via învățare automată(machine learning) sau alte tehnici,...

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: indexarea

Indexare semantică – recurge la concepte

clasificare socială via adnotare de resurse – tagging (folksonomy)

+ folosirea tehnologiilor Web-ului semantic

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Cererile sunt formulate via o interfață Web

unele motoare de căutare acceptăfolosirea unor operatori specifici

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

exemplificare: o parte dintre operatorii Google

"expresie" ~termen –termen

related: URL cache: URL link: URL

intitle: termen(i) allintitle: termen(i)

intext: termen(i) allintext: termen(i)

inurl: termen(i) allinurl: termen(i)

site: domeniu info: domeniu

define: termen filetype: extensie

unit1 in unit2 număr1 .. număr2

detalii la www.googleguide.com/advanced_operators_reference.html

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

digital camera $700 .. 1400

~book

intitle:design –intitle:web

"burse de merit"

site:uaic.ro

inurl: art nouveau

allinurl: ES6 library

16 cm in inch

related:www.w3.org

js mvc inanchor:slideshare

define:design

cache:http://devdocs.io/

map:iasi,romania

firefox filetype:svg OR filetype:png

unii operatori sunt permiși doar pentru anumite tipuri de căutări – e.g., știri, imagini, hărți

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

grad mare de subiectivitate

e.g., “miserable failure”

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

depind de contextul social/cultural

exemple:“pants” în UK versus US

“madonna and child”

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Interogările din prisma utilizatorului:

dependente de scop (user intent)

informațional (listă, locație, sfat)

navigațional

vizând accesul la (tipuri de) resurse(download, amuzament, interactivitate, tranzacții,…)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

semantici diferite ale unei interogărinecesitatea înțelegerii limbajului natural

www.google.com/search/howsearchworks/algorithms/

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Remarci:

utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana”

exemplu:“hotels located in Bucharest and Iasi”

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: interogarea

Remarci:

interogările uzual sunt scurte,dar focalizate – e.g., 25% pe business – conform Yahoo!

apar confuzii:URI vs. text

lipsa spațiilorvocabular

etc.

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Remarci:

implicit, termenii de căutare trebuie să se regăseascăidentic în cadrul conținutului unui document Web

e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids”

motoare: interogarea

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

interacțiunea cu motorul de căutare poate fi facilitată

și de un agent software conversațional

Apple Siri, Amazon Alexa, Google Assistant, Google Now, Microsoft Cortana, Mycroft.ai,

Dragon Go!, SpeakToIt Assistantthereisabotforthat.com botpress.io

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Detalii despre calculul relevanței?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Evaluarea relevanței:

1. Analizarea interogării (tokenizing)2. Căutarea în indecșii termenilor3. Scanarea documentelor4. Evaluarea relevanței paginilor5. Eliminarea duplicatelor + sortarea6. Afișarea primelor N documente relevante

(URI + alte informații)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Conținutul fiecărui document extraseste analizat și divizat în token-uri

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Unele construcții se ignoră/constrâng

e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”

procesare de bază a conținutului textual

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Fiecărui token i se reține și poziția aparițieiîn document

poziția poate fi folosităla determinarea relevanței termenului

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Criterii vizând calculul relevanței:

ranking bazat pe clasificare umană

resurse clasificate de oameni

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Criterii vizând calculul relevanței:

ranking bazat pe informații privitoarela utilizarea unei resurse

timpul de vizită, periodicitatea vizitei,frecvența actualizării resursei, importanța relativă etc.

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Criterii vizând calculul relevanței:

ranking bazat pe conectivitate

analiza relațiilor (legăturilor hipertext) cu alte pagini

eventual, în funcție de reputațiee.g., importanța domeniului Internet

(sunt luați în calcul factori ca vechimea, localizarea,…)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Calculul relevanței:

tehnici privind IR (Information Retrieval)

căutări bazate pe similaritate – similarity search

recurgând la învățare automată

clasificarea conținutului hipermedia

social network analysis – bibliometrie, prestigiu,…

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Page Rank (Google)Larry Page & Sergey Brin, 1998

evaluarea relevanței pe baza contextului de apariție

exploatarea relațiilor dintre diferite pagini Web

o legătură de la resursa A la B reprezintăun vot dat resursei B de către A

infolab.stanford.edu/~backrub/google.html

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

motoare: relevanță

Actualmente, se iau în considerațieconcepte (cunoștințe), nu cuvinte

“things, not strings”

de vizionat prezentareaM. Lanthaler, “The Future of the Web– From Strings to Things” (2015)

vimeo.com/133137907

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Motoarele tind să „recompenseze” siturile:

de mari dimensiuni

cu viață lungă

specializate, de „nișă”

aparținând unor autorități de încredere

motoare: relevanță

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

timp strategie

înainte de 2000

conținut – indexarea textului(titlu, anteturi, URL, descriere via <meta>)

2000—2010conținutautoritate (via legături desemnate de URL-uri)

2010—prezent

conținutautoritatepersonalizare (social media + profil utilizator)

2012—prezent

conținutautoritatepersonalizareconcepte (date structurate + Web of data)context (localizare geo, limbă, timp, dispozitiv,…)

adaptare după (K. Bodnar & J. Hopkins, 2011)de studiat și www.slideshare.net/randfish/presentations

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

coInstrumente software open source pentru implementatori: Apache Lucene, Apache Nutch, Apache Solr,

mnoGoSearch, Namazu, Xapian,…

API-uri publice: www.programmableweb.com/category/search

disponibilitatea datelor indexate în regim deschis în vederea analizării ulterioare:

commoncrawl.org

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

SERP (Search Engine Result Page)

specifică maniera de redare a rezultateloroferite de motorul de căutare

motoare: afișarea rezultatelor

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

SERP (Search Engine Result Page)

se includ recomandări pe baza:preferințelor utilizatorului

istoricului căutărilorURL-urilor partajate via rețele sociale

meta-datelor (rich snippets)adnotărilor realizate de utilizatorilocalizării geografice (local search)

motoare: afișarea rezultatelor

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

a se considera și DuckDuckGo Instant Answers: duck.co/ia

motorul de căutareDuckDuckGo este axat

asupra asigurării intimitățiiutilizatorului în ceea ce privește

căutările acestuia pe Web

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

“At any one time you rank #1 or #8 or #40based on who is searching, where they search,

and what is happening.”

K. Bodnar & J. Hopkins, 2011

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

În ce mod prezentăm conținutulaltor clienți – diferiți de cei umani?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

SEO – Search Engine Optimization

suită de strategii de redactare a codului HTMLîn vederea obținerii unei relevanțe ridicate

a conținutului, astfel încât pagina/situl să fieregăsite în urma unei căutări specifice efectuate

cu un instrument de căutare

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Structurarea codului-sursă al documentelor Web

Structurarea conținutului (textual, grafic,…)

Structurarea legăturilor cu alte resurse

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)

titluri plasate ierarhic via elementele <h1>, <h2>,…

conținut tabelar cu <table>

aranjament vizual (layout)via stiluri CSS și nu tabele (<table> <tr>…)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)

divizarea conținutului: <section> <article> <header> <footer> <aside> etc.

marcajarea elementelor vizând navigabilitatea cu <nav>

liste specificate cu <ul> <ol> <li>

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

h1

nav

aside

section

h2

ul

h2

articlep

header

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)

conținut textual alternativ pentru imagini (<img alt="..." />), legături (<a title="...">), tabele (<table summary="...">),

multimedia,…

atașarea de meta-date externe în antetul paginii Web via <head>, <meta /> și <link />

Josh Buchea, A free guide to <head> elements – gethead.info

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Se recurge la semnificația logică a marcatorilor HTMLPOSH (Plain Old Semantic HTML)

de evitat elementele învechite – e.g., cadre (frame-uri) –sau proprietare (<blink> ori <marquee>)

documentul trebuie să fie bine-formatatverificarea corectitudinii codului HTML cu instrumentul

oferit de Consorțiul Web – validator.w3.org

a se considera și html5boilerplate.com

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

coConținutul primează – content is king

o importanță majoră o are titlul paginiiUntitled Document – aproape 63 de milioane de rezultate

situl trebuie actualizat periodic, frecvent

numele fișierelor (imagini, stiluri,…) conteazătehnică utilă:

„rescrierea” URL-urilor – e.g., mod_rewrite la Apache

anumite date pot fi „ascunse” de roboți via robots.txt

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

obligatoriu, de inclus legături spre alte resurse(ale sitului propriu ori ale altor situri)

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

de verificat și menținut structura hipertextuluiinstrumentul LinkChecker – validator.w3.org/checklink

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

de citit cap. 2 din S. Buraga, Proiectarea siturilor Web, Polirom, 2005www.slideshare.net/busaco/sabin-buraga-proiectarea-siturilor-web

tehnici clasiceașa-zis „demodate”:

interschimb de adrese(link-uri) – banner-e, blogroll-uri

marketing bazat pe contexte.g., produse/servicii înrudite

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

recurgerea la aplicații Web socialeSMO – Social Media Optimization

partajare în rețeaua de „prieteni”,apreciere, comentarii, opinii,…

S. Buraga, Design Patterns for Social (Web/mobile) Interactions, prelegere la materia Human-Computer Interaction, FII, UAIC, 2019

profs.info.uaic.ro/~busaco/teach/courses/hci/hci-film.html#week7

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

de evitat paginile de eroare – 404 Not Found

orice pagină de eroare poate fi „convertită”într-o resursă folositoare omului/robotului

uzual, se oferă harta sitului (site map), legături relevante, motor intern de căutare,…

alistapart.com/article/perfect404

alistapart.com/article/amoreuseful404

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Realizarea legăturilor între pagini (hipermedia)

a nu se folosi navigarea bazată pe JavaScript ori – mai desuet – pe tehnologii proprietare (Flash/Silverlight)

<p>participanții: <a href="javascript:sari(3);">aici</a></p>

<h5><a href="javascript:window.history.back();">la prima pagină</a></h5>

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Alte aspecte de interes despre SEO?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Specificarea structurii unui sit Web

crearea documentului sitemap.xml

pentru a fi ulterior procesat de motorul de căutare

www.sitemaps.org/protocol.html

complementar fișierului robots.txt

furnizează structura hipertext a unui sit Web

datele pot fi furnizate și în formatele Atom, RSS și text obișnuit

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Specificarea structurii unui sit Web

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

<url>

<loc>https://developer.mozilla.org/en-US/docs/Archive</loc>

<lastmod>2019-12-10</lastmod>

</url>

<!-- alte elemente url -->

</urlset>

cazuri concrete:developer.mozilla.org/sitemap.xml

techcrunch.com/sitemap.xml

instrument Web de generare: www.xml-sitemaps.com

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Evitarea spam-ului Web

e.g., legături încrucișate între pagini similareale aceluiași sit Web ori ale unei colecții de situri

motoarele de căutare detectează + penalizează spam-ul!searchenginewatch.com/?s=spam

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Paginile de „acoperire” (page cloaking)

scop: oferirea de conținut diferit,în funcție de un anumit criteriu

(aici, conținut special pentru roboții de căutare)

black-hat page cloakingtehnică penalizată: support.google.com/webmasters/answer/66355

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Oferirea de conținut via documenteadoptând formate de date nestandardizate

Titluri identice pentru toate paginile unui sit

Pagini de eroare oferite de servervia codul de stare HTTP 200 Ok

Redirecționări incorecte/malițioase

Abuzul de transferuri asincrone (Ajax)

de evitat

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Regăsirea informațiilor disponibile pe Web trebuie considerată într-un context mai larg

accesibilitatea – utilizatorii cu nevoi speciale

Web Accessibility Initiativewww.w3.org/WAI/

Web Accessibility in Mindwebaim.org

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Regăsirea informațiilor disponibile pe Web trebuie considerată într-un context mai larg

performanța aplicațiilor Web

aspect important: timpul de încărcare a unei pagini Web

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Resurse de interes:

Google Webmaster Centraldevelopers.google.com/webmasters/

Learn SEO and Search Marketingmoz.com/learn/seo

Search Engine Landsearchengineland.com

Search Engine Watchsearchenginewatch.com

Search Engine Roundtablewww.seroundtable.com

Search Engines @ VideoLecturesvideolectures.net/Top/Computer_Science/Search_Engines

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Invisible Web (Deep Web)

acea parte a spațiului WWW care nu este detectată de motoarele de căutare sau

de alte tipuri de aplicații de regăsire a resurselordisponibile pe Web

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Dark Web

acea parte a spațiului informațional reprezentat de Deep Web care în mod intenționat e ascunsă

și inaccesibilă via navigatoare Web comune

exemplu notoriu:rețele anonime (VPN – Virtual Private Network)

accesate cu TOR Browser

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Cum am putea descrie conținutul resurselor Webastfel încât să poată fi procesat „inteligent”?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Idee:specificarea unor meta-date direct în cadrul

documentelor HTML pentru a „explica” unui program (software – e.g., motor de căutare)

conținutul unei resurse Web

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Soluții actuale aliniate problematicilor Web-ului semantic – Web of Data

scheme de microdate HTML5 – schema.org

RDFa (standard al Consorțiului Web) – rdfa.info

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

specificație HTML Living Standard (6 decembrie 2019)

html.spec.whatwg.org/multipage/microdata.html

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

posibilitatea de a specifica perechi de proprietăținume—valoare „scufundate” în HTML

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

creare via atributul itemscope

stabilește și domeniul de vizibilitate

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

specificarea unei proprietăți prin atributul itemprop

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

referire cu ajutorul atributului itemref

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

asocierea unui tip de date se face cu atributul itemtype

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

pentru identificarea unui item se folosește itemid

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Există o serie de modele de date(exprimate via microdate)ce pot fi indexate și folosite

de actualele motoare de căutare?

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

istoric și viziune:R. Wallis, “Schema.org: Structured Data – What, Why, & How”, 2018

www.slideshare.net/rjw/schemaorg-structured-data-the-what-why-how-125885618

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

amănunte la schema.org/docs/gs.html

modeleconceptuale

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

tipurile primare de date definite de schema.org

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

diverse proprietăți ce relaționează Integer cu alte concepte

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Thing – schema cea mai generală, incluzând conceptualizări(clasificări realizate riguros)

Action

BroadcastService

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Class

Property

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Person – modelează conceptul „persoană”http://schema.org/Person

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

MusicRecording – specifică o înregistrare muzicală (sub-clasă a conceptului CreativeWork)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

schema.org

relațiile dintre entități sunt precizate via proprietăți

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<div lang="en" itemscope="" itemtype="http://schema.org/RealEstateAgent"><span itemprop="name">Tuxy Unlimited</span><div itemprop="address" itemscope=""

itemtype="http://schema.org/PostalAddress"><span itemprop="streetAddress">Banchiza, 1</span><span itemprop="addressLocality">Iasi</span>,<span itemprop="addressRegion">Iasi</span><span itemprop="postalCode">700550</span>

</div>Phone: <span itemprop="telephone">+4032201090</span><a href=

"http://www.openstreetmap.org/way/243817200#map=18/47.17493/27.57378" itemprop="maps">Details on OpenStreetMap</a>

</div>

fapte vizând domeniul imobiliar

…pe baza modelului conceptual schema.org

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<p itemid="#busaco" itemscope="" itemtype="http://schema.org/Person">This discipline is taught by

<span itemprop="honorificPrefix">Dr.</span> <a href="https://profs.info.uaic.ro/~busaco/"

title="Visit the Website of Sabin-Corneliu Buraga" itemprop="url"><span itemprop="name">

<span itemprop="givenName">Sabin</span>-<span itemprop="additionalName">Corneliu</span> <span itemprop="familyName">Buraga</span>

</span></a>.

</span></p>

specificarea (adnotarea explicită a) faptului: „entitatea având numele Sabin-Corneliu Buraga este o persoană, posedă titlul Dr. și are situl Web propriu

disponibil la adresa https://profs.info.uaic.ro/~busaco/”

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<section id="web-nodejs"><h2>Web Supplement</h2><ul>

<li itemscope="" itemtype="http://schema.org/CreativeWork"itemid="#nodejs" class="lecture"><p>Tutorial: <a itemprop="url" title="…"

href="presentations/web-nodejs.pdf"><span itemprop="name">Web Application Development

with Node.js</span></a></p><div class="terms" itemprop="keywords"> Web, development, server,

Node.js, JavaScript, programming, npm, tools</div></li>…

</ul></section>

specificarea în HTML5 a lucrărilor creative de tip CreativeWork conform schema.org

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

extragerea/verificarea de date structurate via Structured Data Testing Tool – search.google.com/structured-data/testing-tool

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

extragerea informațiilor din HTML5aici, despre prelegerile asociate unei materii

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<article itemscope="" itemtype="http://schema.org/Event"><section id="contest">

<h2>Tema</h2><p itemprop="description">Concursul este destinat studenților<span itemprop="location" itemscope="" itemtype="http://schema.org/Place">

<a href="http://www.info.uaic.ro/" itemprop="url" title="Spre situl FII><span itemprop="name">FII</span></a> (UAIC <span itemprop="address">Iași, România</span>)</span>

și constă în optimizarea conținutului și structurii unui sit Web.</p>…<p>Perioadă de desfășurare: <span itemprop="startDate" content="2018-10-15T00:00">15 octombrie 2018</span>—<strong><span itemprop="endDate" content="2019-01-07T17:00">7 ianuarie 2019, ora 17:00</span></strong>.</p>

</section>…</articol>

pe baza schema.org, se pot modela în HTML date vizând un eveniment (Event) și locul de desfășurare (Place)

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

date pentru „consum” uman vs. date structurate interpretate și prelucrate, ulterior, de algoritmi

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

inspectarea datelor structurate cu OpenLink StructuredData Sniffer – extensie de browser: osds.openlinksw.com

specificarea meta-datelor privitoare la instanța de Article

aici, o instanță ImageObject

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

<div itemscope="" itemtype="http://schema.org/Product"><img itemprop="image" src="tux-de-catifea-cu-paiete.jpg" /><span itemprop="name" lang="ro">Tux de catifea cu paiete</span>

<div itemprop="aggregateRating"itemscope="" itemtype="http://schema.org/AggregateRating"><span itemprop="ratingValue">74</span>din <span itemprop="bestRating">100</span> de punctepe baza a <span itemprop="ratingCount">33</span> de evaluări ale utilizatorilor

</div>

<div itemprop="offers" itemscope=""itemtype="http://schema.org/AggregateOffer">disponibil de la

<span itemprop="lowPrice">30</span> la <span itemprop="highPrice">130</span> de RON pe baza ofertei a <span itemprop="offerCount">10</span> comercianți

Oferta zilei:<div itemprop="offers" itemscope itemtype="http://schema.org/Offer">

<a itemprop="url" href="http://jucarii.biz/tucsi/tux-catifea-paiete">Jucării de sărbători pentru toți, acum și cu paiete!</a>

</div></div>

</div>modelarea cunoștințelor privind

produse și oferte comerciale

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

alte exemplificări: pinterest.com/kidehen/structured-metadata-related/

TripAdvisor

construcții RDFa utilizând Open Graph Protocol (Facebook) – ogp.me

utilizarea conceptelor Country și AggregateRating

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

acțiuni asociate vizualizării unui produs (instanță a clasei Product) – detalii la schema.org/docs/actions.html

vezi și Increase user engagement with actions in emailsdevelopers.google.com/gmail/markup/

eBay

acțiuni ce pot fi efectuate de utilizator(ViewAction e sub-concept al Action)context: dispozitive mobile, e-mail,…

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Diverse utilizări practice:

artefacte culturalevezi prezentările lui A. Isaac despre Europeana

www.slideshare.net/antoineisaac/presentations

biblioteci digitale (digital libraries)R. Wallis, prelegeri la Smart Data’15, BIBFRAME’18,…

www.slideshare.net/rjw/presentations

lucrări științificeformatul Scholarly HTML

w3c.github.io/scholarly-html/

medicină + sănătateschema.org/docs/meddocs.html

health-lifesci.schema.org

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Diverse utilizări practice:

finanțeextensia schema.org privitoare la FIBO (Financial Industry Business Ontology)

wiki.edmcouncil.org

schema.org/FinancialProduct

industria autoauto.schema.org

IoT (Internet of Things)iot.webschemas.org/docs/iot-gettingstarted.html

turismC. Bizer, Schema.org Annotations in Websites. Opportunities

& Challenges for the Tourism Industry, TFF’15www.slideshare.net/TourismFastForward/bizer-christian-schema-orgtourism

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scheme de microdate HTML5în sistemele de management de conținut

(CMS – Content Management Systems)

M. Mössmer, Schema.org Plugins for CMS Systems (2014)oc.sti2.at/sites/default/files/schemaorg_cmsplugins.pdf

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Scheme de microdate HTML5în sistemele de management de conținut

DokuWikiwww.dokuwiki.org/plugin:semantic

Joomlaextensions.joomla.org/extension/google-structured-data-markup

MediaWikiwww.mediawiki.org/wiki/Extension:GoogleRichCards

TYPO3extensions.typo3.org/extension/schema_org/

WordPresswordpress.org/plugins/all-in-one-schemaorg-rich-snippets/

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

statistici vizând includerea de meta-date

direct în codul HTMLtrends.builtwith.com/docinfo

Dr.

Sab

in B

ura

ga

profs.in

fo.uaic.ro/~busa

co

Microdatele HTML5 sunt indexate de motoarele de căutare

Bing Webmastertinyurl.com/b9mx2f2

Google Structured Datadevelopers.google.com/structured-data/

research.googleblog.com/search/label/schema.org

Yandex Webmasteryandex.com/support/webmaster/schema-org/