Miten teet journalistista metadata-annotoijan 30 sekunnissa

24
Journalistisen verkkosisällön puoliautomaattinen sisällönkuvailu Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi @mickhinds | [email protected] 22.11.2013

description

Katsaus Svenska Ylen journalistisen verkkosisällön semanttiseen asiasanaannotointiin, erityisfokuksella ARPA-toiminnallisuuden antamaan puoliautomaattiseen annotointiin.

Transcript of Miten teet journalistista metadata-annotoijan 30 sekunnissa

Page 1: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Journalistisen verkkosisällön

puoliautomaattinen sisällönkuvailu

Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi @mickhinds | [email protected]

22.11.2013

Page 2: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi @mickhinds | [email protected]

22.11.2013

Miten teet journalistista metadata-annotoijan 30

sekunnissa

Page 3: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi @mickhinds | [email protected]

22.11.2013

Miten teet journalistista metadata-annotoijan 30

sekunnissa

Page 4: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Tästä lähdettiin - 2010

Page 5: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Tämä tehtiin 2011-2012

Uusi siältöajattelu“JUST NU!”

Uusi alustaDrupal 7

UusiorganisaatioDESK+

Totalfail :(

Epic

Win!

Page 6: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Jokainen sivu on etusivu

Metadata korvasi menut.

Kävijäliikenne

EtusivuHakukoneetSuositukset

Page 7: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Suositukset syy annotointiin

Page 8: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Svenska.yle.fi:n Onki-moduuli

Linked Data Finlandhttp://www.ldf.fi/

• Drupal 7• Onki moduuli

• https://drupal.org/node/1604784

• ARPA • http://www.seco.tkk.fi/services/arpa/

• KOKO • http://onki.fi/sv/browser/overview/koko

Demo:http://www.youtube.com/watch?v=3PX2_U50UTs

Lue lisää kehitysblogissamme: http://utveckling.ylebloggen.fi/tag/metadata/

Page 9: Miten teet journalistista metadata-annotoijan 30 sekunnissa

ARPA

ARPA on verkkopalvelu automaattiselle tekstiannotaatiolle.http://www.seco.tkk.fi/services/arpa/

Suunnitelmissa siirtää osaksi Kansalliskirjaston Finto (Onki)-projektia, mahdollisesti 2015.

• MAUI https://code.google.com/p/maui-indexer/ • Maui automatically identifies main topics in text documents.

• Snowball http://snowball.tartarus.org/ • Snowball is a small string processing language designed for

creating stemming algorithms for use in Information Retrieval

• Omorfi https://code.google.com/p/omorfi/ • Open morphology for Finnish

• Connexor sv-sdg http://bit.ly/1h2wweN • sv-fdg analyses Swedish text according to a functional

dependency grammar

Page 10: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Metadatalla maailmalle

Page 11: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Google-hyötyä

Yle.fi

Svenska.yle.fi

(Syksy 2012)

Page 12: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Google-hyötyä

Page 13: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Konepellin alla

Page 14: Miten teet journalistista metadata-annotoijan 30 sekunnissa

ARPA toiminnassa

Page 15: Miten teet journalistista metadata-annotoijan 30 sekunnissa

ARPA

Page 16: Miten teet journalistista metadata-annotoijan 30 sekunnissa

ARPA vs. journalisti annotoijana

ARPA:

• Skadestånd• Ägande• Marknad• Telefonförsäljning• Ask• Problem• Köpare• Kinesiska• Rykten

Journalisti:

• Försäljning• Aktier• Ägare• Mobiltelefoner• Mobiltelefonsystem• Bolagsstämmor

Page 17: Miten teet journalistista metadata-annotoijan 30 sekunnissa

Onko ARPA:sta enemmän hyötyä vai haittaa?!

Haitat:

• Ei ole älykäs • Virheellisiä

ehdotuksia• Harhaanjohtavia

ehdotuksia• Ei löydä relevantteja

ehdotuksia• Ei osaa ehdottaa

leipätekstistä puuttuvia asiasanoja

• Antaa illuusion hyvästä asiasanoituksesta

• Hidastaa työnkulkua

Hyödyt:

• Nopeuttaa työnkulkua

• Antaa yleiskatsauksen käytössä olevista asiasnoista

• Antaa inspiraatiota ja assosiaatioita manuaaliseen annotaatioon

Page 18: Miten teet journalistista metadata-annotoijan 30 sekunnissa

ARPA vastaanotto

Annotoito artikkelisi asiasanoilla?

AinaUseimmitenJoskusEi koskaan

Page 19: Miten teet journalistista metadata-annotoijan 30 sekunnissa

ARPA vastaanotto

Käytätkö annotointiin ARPAa?

AinaUseimmitenJoskusEi koskaan

Page 20: Miten teet journalistista metadata-annotoijan 30 sekunnissa

ARPA vastaanotto

Mitä tehdä ARPA:lle?

Pidä sell-aisenaanJatkokehitäEi väliäOta pois käytöstä

Page 21: Miten teet journalistista metadata-annotoijan 30 sekunnissa

ARPA vastaanotto

Kouluarvosana:

6,5

Page 22: Miten teet journalistista metadata-annotoijan 30 sekunnissa

FREEBASE-moduuli

Drupal 7+Freebase (API)

https://www.freebase.com/

Code sandbox:

https://drupal.org/sandbox/jaysire/2095551

• Ei ARPA-toiminnallisuutta• Toimijoita, paikkoja, tapahtumia, medioita

(kirjoja, musiikkia, elokuvia)• Rajattu pois yleiset asiasanat• Loistava valikoima asiasanoja (40M +)• Laatu hyvä, joskin epätasainen

Page 23: Miten teet journalistista metadata-annotoijan 30 sekunnissa

ONKI + FREEBASE

Täydentävät hyvin toisiaan

• ONKI/FINTO antaa • Laatua• Suomalaista kontekstia • Tukea• Yhteistyötä

• FREEBASE antaa• Massaa• Kansainvälistä linkitystä• Aktiivisen yhteisön