Detekcia toho istého obsahu pri rozdielnej linke

12
Detekcia toho istého obsahu pri rozdielnej linke Milan Martinkovič

description

Detekcia toho istého obsahu pri rozdielnej linke. Milan Martinkovič. Problém a motivácia. Informačný rozmach = komplikovanejšie prehľadávanie, nižšia efektivita IR Detekcia duplicít možné zvýšenie efektivity IR algoritmov detekcia plagiarizmov. Podobné riešenia. Rôzne on-line detektory - PowerPoint PPT Presentation

Transcript of Detekcia toho istého obsahu pri rozdielnej linke

Page 1: Detekcia toho istého obsahu pri rozdielnej linke

Detekcia toho istého obsahu pri rozdielnej linke

Milan Martinkovič

Page 2: Detekcia toho istého obsahu pri rozdielnej linke

Problém a motivácia

Informačný rozmach = komplikovanejšie prehľadávanie, nižšia efektivita IR

Detekcia duplicít– možné zvýšenie efektivity IR algoritmov– detekcia plagiarizmov

Page 3: Detekcia toho istého obsahu pri rozdielnej linke

Podobné riešenia

Rôzne on-line detektory– Chránia si svoj princíp fungovania

Riešenia zamerané na získanie podstatného obsahu– Boilerpipe– PHP kód zo stránky w-shadow

Page 4: Detekcia toho istého obsahu pri rozdielnej linke

Opis riešenia

Implementácia– V jazyku PHP– Webová aplikácia

Hlavné kroky algoritmu– Získanie HTML kódu stránok– Odstránenie zbytočného obsahu– Prevod HTML na plain text– Porovnanie plain textov

Page 5: Detekcia toho istého obsahu pri rozdielnej linke
Page 6: Detekcia toho istého obsahu pri rozdielnej linke
Page 7: Detekcia toho istého obsahu pri rozdielnej linke

Určenie hraničnej hodnoty duplicity

Číslo merania Zhoda textu v % Zhoda title v % Skóre podobnosti

1. 72,59 60 43,55

2. 75,83 66,66 50,56

3. 66,23 71,43 47,31

4. 57 87,5 49,87

5. 62,5 66,66 41,67

6. 75,1 71,43 53,63

7. 77,48 71,43 55,34

8. 72,69 71,43 51,92

9. 73,77 66,66 49,18

10. 70,33 87,5 61,54

Identické pracovné ponuky

Page 8: Detekcia toho istého obsahu pri rozdielnej linke

Určenie hraničnej hodnoty duplicity

Číslo merania Zhoda textu v % Zhoda title v % Skóre podobnosti

1. 21,56 33,33 7,18

2. 20,18 28,57 5,76

3. 30,41 28,57 8,69

4. 18,75 33,33 6,25

5. 14,95 28,57 4,27

Rozdielne pracovné ponuky

Page 9: Detekcia toho istého obsahu pri rozdielnej linke

Určenie hraničnej hodnoty duplicity

Číslo merania Zhoda textu v % Zhoda title v % Skóre podobnosti

1. 16,2 0 1,62

2. 25,51 0 2,55

3. 14,53 0 1,45

Úplne rozdielne stránky

Hraničná hodnota duplicity– 35– Upozornenie na možné skreslenie kvôli title

Page 10: Detekcia toho istého obsahu pri rozdielnej linke

Vyhodnotenie

Porovnanie ľudského verdiktu (zhodné stránky) a verdiktu programuČíslo merania URL Verdikt algoritmu

1.http://kariera.zoznam.sk/sk/pracovna-ponuka/161503/servisny-technik-programator-

automobilovy-priemysel zhodnéhttp://www.profesia.sk/praca/cpl-jobs/O1379866

2.http://kariera.zoznam.sk/sk/pracovna-ponuka/160813/senior-unix-engineer-3rd-level-

zhodnéhttp://www.profesia.sk/praca/cpl-jobs/O1376486

3.http://www.profesia.sk/praca/adela-call/O1382727

zhodnéhttp://kariera.zoznam.sk/sk/pracovna-ponuka/162093/telefonicky-operator-pre-zaujimave-projekty

4.http://kariera.zoznam.sk/sk/pracovna-ponuka/162090/pomocne-prace-vo-vyrobe

zhodnéhttp://www.profesia.sk/praca/start-people/O1382121

5.http://kariera.zoznam.sk/sk/pracovna-ponuka/161999/mzdovy-uctovnik-cka-s-praxou-pozor!

zhodnéhttp://www.profesia.sk/praca/adecco-organizacna-zlozka/O1380735

6.http://kariera.zoznam.sk/sk/pracovna-ponuka/161998/praca-v-sklade

zhodnéhttp://www.profesia.sk/praca/adecco-organizacna-zlozka/O1381432

7.http://kariera.zoznam.sk/sk/pracovna-ponuka/161908/obchodny-zastupca-pre-oblast-ocnej-

optiky zhodnéhttp://www.profesia.sk/praca/aujob-personalna-agentura/O1381379

8.http://kariera.zoznam.sk/sk/pracovna-ponuka/161906/programator-c-programovaci-jazyk-

zhodnéhttp://www.profesia.sk/praca/aujob-personalna-agentura/O1381385

Page 11: Detekcia toho istého obsahu pri rozdielnej linke

Vyhodnotenie

Nezhodné pracovné ponuky

Číslo merania URL Verdikt algoritmu

1.http://kariera.zoznam.sk/sk/pracovna-ponuka/161966/recepcny-nocny

rozdielnehttp://www.profesia.sk/praca/aujob-personalna-agentura/O1381385

2.http://kariera.zoznam.sk/sk/pracovna-ponuka/162086/tw-operator

rozdielnehttp://www.profesia.sk/praca/webcentrum/O1377202?similar=2

3.http://kariera.zoznam.sk/sk/pracovna-ponuka/154073/technolog-vyroby

rozdielnehttp://www.profesia.sk/praca/monogram-technologies/O1376702?similar=2

4. http://kariera.zoznam.sk/sk/pracovna-ponuka/161905/it-technicka-podpora-s-nemeckym-jazykom rozdielne

http://www.profesia.sk/praca/ago-europe-ago-engineering-ago-group/O1253987?similar=2

5. http://kariera.zoznam.sk/sk/pracovna-ponuka/157079/team-leader-backup-ref-c-1-10-11875-zo- rozdielne

http://www.profesia.sk/praca/m7/O1376724?similar=2

Page 12: Detekcia toho istého obsahu pri rozdielnej linke

Záver

Na základe vyhodnotenia môžeme prehlásiť, že riešenie je funkčné

Možné rozšírenie– Eliminácia STOP slov, za účelom presnejšieho

porovnávania