Bizonytalanságot jelölő kifejezések automatikus azonosítása

32
Bizonytalanságot jelölő kifejezések automatikus azonosítása Vincze Veronika Szarvas György Farkas Richárd Móra György Szeged, RGAI szeminárium, 2011. november 9.

description

Bizonytalanságot jelölő kifejezések automatikus azonosítása. Vincze VeronikaSzarvas György Farkas Richárd Móra György. Szeged, RGAI szeminárium, 2011. november 9. Bizonytalanság. Információkinyerő rendszerekben a bizonytalan / tagadott információt elkülönítve kell kezelni a tényszerűtől - PowerPoint PPT Presentation

Transcript of Bizonytalanságot jelölő kifejezések automatikus azonosítása

Page 1: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Bizonytalanságot jelölő kifejezések automatikus

azonosítása

Vincze Veronika Szarvas György

Farkas Richárd Móra György

Szeged, RGAI szeminárium, 2011. november 9.

Page 2: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Bizonytalanság• Információkinyerő rendszerekben a

bizonytalan / tagadott információt elkülönítve kell kezelni a tényszerűtől

Analysts worry that the financial crisis centered on Greece might spread.

Speculation is now growing that Berlusconi’s career is drawing to a close.

Page 3: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Felhasználási területek• Információkinyerés• Információ-visszakeresés• Dokumentumosztályozás• Véleménykinyerés• Gépi fordítás• …

• Versenyek: ICD, smoking, obesity, CoNLL-2010

Page 4: Bizonytalanságot jelölő kifejezések automatikus azonosítása

A feladat• Bizonytalanságot jelző nyelvi elemek

(kulcsszavak) azonosítása a szövegben és egyértelműsítése

In May, there may be heavy storms.• Hatókör azonosítása / a kulcsszavak és

események összerendelése• Alkalmazásnak megfelelően az adott

szövegrészek kiszűrése, törlése, kigyűjtése stb.

Page 5: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Problémák• Bizonytalan, hogy mi számít

bizonytalannak - egységes elvek?

• Mondatszinten? Hatókör szintjén? Események szintjén? Kulcsszavak szintjén?

• Annotált korpuszok?• Megközelítés? (Szabályok? ML?

Lexikonok?)

Page 6: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Mi a bizonytalanság?• Uncertainty• Hedge• Speculation• Factuality• Polarity• Weasel• Uncertain• Speculative• Probable• Possible• Doubtful

Page 7: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Korpuszok• BioScope (Vincze et al. 2008)• FactBank (Saurí and Pustejovsky 2009)• WikiWeasel (Farkas et al. 2010) • MPQA (Wiebe, Wilson, and Cardie 2005)• Biológiai cikkek (Medlock & Briscoe 2007)• PubMed-absztraktok (Settles, Craven, and Friedland 2008) • Genia Event (Kim, Ohta, and Tsujii 2008) • 10K biológiai mondat (Shatkay et al. 2008) • E. Coli (Thompson et al. 2008).• Genia Pathway (Nawaz, Thompson, and Ananiadou 2010)• 112 újságcikk (Rubin, Liddy, and Kando 2005; Rubin 2010)• Orvosi zárójelentések (Uzuner, Zhang, and Sibanda 2009)

Page 8: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Azonosságok és különbségek• Fő domének:

– biológiai-klinikai szövegek– Wikipedia– újságcikkek

• Eltérő elvek (GENIA vs. BioScope)In summary, our data (suggest that (1) changes in the composition of transcription factor AP-1 is a key molecular (2) mechanism for (3) increasing IL-2 (4) transcription and (may (5) underlie the phenomenon of (6) costimulation by EC)).

• Cél: egységes doménfüggetlen rendszer

Page 9: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Egységesítés• Egységes definíció:• Bizonytalanság = információ hiánya: a

befogadó nem lehet biztos valamely információban

• vs. tény = a befogadó biztos afelől, hogy az információ helytálló (és a világban is helytálló)

• vs. tagadás = a befogadó biztos afelől, hogy az információ téves (és a világban is téves)

Page 10: Bizonytalanságot jelölő kifejezések automatikus azonosítása

A bizonytalanság fajtái• Szemantikai bizonytalanság: nem

rendelhető igazságérték a propozícióhozAlthough IL-1 has been reported to contribute to Th17 differentiation in mouse and man, it remains to be determined {whether therapeutic targeting of IL-1 will substantially affect IL-17 in RA}.

• Diskurzusszintű bizonytalanság: a propozíciónak van igazságértéke, a bizonytalanság a forrás/viszonyítási pont hiányából fakadSome people claim that this results in a better taste than that of other diet colas.

Page 11: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Szemantikai bizonytalanság• EPISTEMIC: It may be raining.

• HYPOTHETICAL:– DYNAMIC: I have to go.– DOXASTIC: He believes that the Earth

is flat.– INVESTIGATION: We examined the

role of NF-kappa B in protein activation.

– CONDITION: If it rains, we’ll stay in.

Page 12: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Diskurzusszintű bizonytalanság

• Weasel: homályos, bizonytalan, félrevezető kifejezések

Some people claim that this results in a better taste than that of other diet colas.

• Kik? Hányan? Mit jelent az, hogy sokan?

• Forrás hiánya

• Az információ megbízhatósága kérdéses

Page 13: Bizonytalanságot jelölő kifejezések automatikus azonosítása
Page 14: Bizonytalanságot jelölő kifejezések automatikus azonosítása

A bizonytalanság fokozataiI've got the worst hangover ever

I'm crawling to the bathroom againIt hurts so bad that I'm never gonna drink againI'll probably never drink againI may not ever drink againAt least not til next weekend I'm never gonna drink again

(The Offspring: The Worst Hangover Ever)

Page 15: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Korpuszok• BioScope újraannotálva (~20K

mondat)

• WikiWeasel újraannotálva (~20K mondat)

• FactBank annotálva (3100 mondat)

• szemantikai bizonytalanság 4 típusát jelző kulcsszavak (9546 összesen)

Page 16: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Jellemző kulcsszavak

Page 17: Bizonytalanságot jelölő kifejezések automatikus azonosítása

A bizonytalanság jelöléseIn summary, our data (suggest that (1)

changes in the composition of transcription factor AP-1 is a key molecular (2) mechanism for (3) increasing IL-2 (4) transcription and (may (5) underlie the phenomenon of (6) costimulation by EC)).

• Mondat• Nyelvi hatókör• Esemény

Page 18: Bizonytalanságot jelölő kifejezések automatikus azonosítása

A bizonytalanság azonosítása

• Doménenként más kulcsszavak más eloszlásban

To evaluate the PML/RARalpha role in myelopoiesis, transgenic mice expressing PML/RARalpha were engineered.

Our method was evaluated on the Lindahl benchmark for fold recognition.

Page 19: Bizonytalanságot jelölő kifejezések automatikus azonosítása

A kulcsszavak eloszlása

Page 20: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Doménfüggőség• Doménenként külön modell?

• Egy doménfüggetlen modell és doménadaptáció?

• CoNLL-2010 Shared Task:– Biológia és Wikipedia– kevés versenyző használt más

doménbeli adatot (és nem volt egyértelműen pozitív hatása)

– Egységes annotálási elvek?

Page 21: Bizonytalanságot jelölő kifejezések automatikus azonosítása

A mi rendszerünk• Kulcsszavakat azonosít• Felszíni jegyek• Sekély nyelvi elemzés (morfológia,

részleges szintaxis)• CRF• doménfüggetlen• Baseline: szótárjelölés (ami legalább

50%-ban kulcsszó volt a tanító adathalmazon, kulcsszó lesz a teszten)

Page 22: Bizonytalanságot jelölő kifejezések automatikus azonosítása

CoNLL-2010 eredmények

Page 23: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Doménadaptáció• Daumé III (2007) alapján• Kiinduló doménből + céldoménből

származó adaton tanítunk, céldoménen értékelünk ki

• Jellemzők kétszeres definíciója:(1) céldoménen(2) kiinduló + céldomén unióján

• Céldomén sajátosságai tanulhatók• Közös jellemzők tanulhatók

Page 24: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Műfajok és doménekMűfajok:• Tudományos

– Cikk– Absztrakt

• Enciklopédiai szócikk

• Hír– Írott– Élő adás

Domének:• Biológia

– hbc– Bmc– fly

• Enciklopédia• Hír

– tőzsdei– bűnügyi– politikai

Page 25: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Kísérleteink• Számos domén- és műfaji párosításban

végeztünk kísérleteket• Kiinduló és céltartomány változó volt• Baseline: tízszeres keresztvalidáció a

céldoménen• CROSS: tanítás a kiinduló doménen,

kiértékelés a céldoménen• DA/ALL: doménadaptáció a kiinduló

domén minden mondatával• DA/CUE: doménadaptáció a kiinduló

domén céldoménen szereplő kulcsszót tartalmazó mondataival

Page 26: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Eredmények

• CROSS: az eredményesség arányosan csökken az eltérés növekedésével• DA: a csak kiinduló doménen látott kulcsszavak nem hasznosak – nem új

kulcsszavakat tanul a modell, hanem az egyértelműsítésük lesz hatékonyabb

• Wiki és FactBank hasonlóbb, mint gondoltuk

Page 27: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Kulcsszótípusok felismerése

Page 28: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Az annotáció mennyisége• CROSS (nincs céldoménről adat):

60-70% (F-mérték)

• 3000 annotált mondat a céldoménen: 70-80%

• DA + 1000 annotált mondat a céldoménen: 70-80%

Page 29: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Érdekes példákEPISTEMIC USAGE (‘IT IS HIGHLY PROBABLE’): Further

biochemical studies on the mechanism of action of purified kinesin-5 from multiple systems would obviously be fruitful.

CONDITIONAL: “If religion was a thing that money could buy,/The rich would live and the poor would die.”

FUTURE IN THE PAST: This Aarup can trace its history back to 1500, but it would be 1860’s before it would become a town.

REPEATED ACTION IN THE PAST (‘USED TO’): ’Becker’ was the next T.V. Series for Paramount that Farrell would co-star in.

DYNAMIC MODALITY: Individuals would first have a small lesion at the site of the insect bite, which would eventually leave a small scar.

PRAGMATIC USAGE: Although some would dispute the fact, the joke related to a peculiar smell that follows his person.

Page 30: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Összegzés• Bizonytalanság rendszerbe foglalása• Azonos annotációs elvek alapján

korpuszok• Műfajtól és doméntől független módszer

bizonytalan kulcsszavak azonosítására• Ha nincs céldoménről annotált adatunk:

CROSS• 1000-3000 annotált mondat: DA• 3000+ mondat: indomain

Page 31: Bizonytalanságot jelölő kifejezések automatikus azonosítása

További irányok• Kulcsszavakhoz hatókört rendelni• Eseményekhez bizonytalansági

értéket társítani• Bizonytalanság fokozatainak

felismerése (valószínű vs. lehetséges)

• Dinamikus modalitás• Diskurzusszintű bizonytalanság• Mindez magyar nyelvre

Page 32: Bizonytalanságot jelölő kifejezések automatikus azonosítása

Kapcsolódó publikációkFarkas, Richárd; Vincze, Veronika; Móra, György; Csirik, János; Szarvas, György

2010: The CoNLL-2010 Shared Task: Learning to Detect Hedges and their Scope in Natural Language Text. In: Proceedings of CoNLL-2010: Shared Task, Uppsala, Sweden, pp. 1-12.

Szarvas, György 2008: Hedge classification in biomedical texts with a weakly supervised selection of keywords. In: Proceedings of the 45th Annual Meeting of ACL 2008, pp. 281-289.

Vincze, Veronika 2010: Speculation and negation annotation in natural language texts: what the case of BioScope might (not) reveal. In: Proceedings of NeSp-NLP 2010, Uppsala, Sweden, pp. 28-31.

Vincze, Veronika; Szarvas, György; Farkas, Richárd; Móra, György; Csirik, János 2008: The BioScope Corpus: biomedical texts annotated for uncertainty, negation and their scopes. BMC Bioinformatics 9 (Suppl 11):S9 doi:10.1186/1471-2105-9-S11-S9

Vincze, Veronika; Szarvas, György; Móra, György; Ohta, Tomoko; Farkas, Richárd 2011: Linguistic scope-based and biological event-based speculation and negation annotations in the BioScope and Genia Event corpora. Journal of Biomedical Semantics 2(Suppl 5):S8 doi:10.1186/2041-1480-2-S5-S8.

??? Szarvas, György; Vincze, Veronika; Farkas, Richárd; Móra, György; Gurevych, Iryna: Cross-Genre and Cross-Domain Detection of Semantic Uncertainty. Submitted to Computational Linguistics, Special Issue on Modality and Negation.