SOFTCARDINALITY: Learning to Identify Directional Cross-Lingual Entailment from Cardinalities and...

SOFTCARDINALITY: Learning to Identify Directional Cross-Lingual

Entailment from Cardinalities and SMT

Sergio Jimenez and Claudia Becerra

(a participating system in the Cross-lingual Textual Entailment, CLTE, TASK-8)

Alexander Gelbukh

Instituto PolitécnicoNacional, Mexico

Soft Cardinality

B= , ,

Classical(integer)

Soft(real)

|A|’2.9

|B|’1.3

Cardinality: number of different elements in a collection, i.e. set definition.

C= ,= |C|=1 |C|’=1.0

Soft Cardinality

|𝐴|′=∑𝑖=1

|𝐴|

𝑤𝑖 (∑𝑗=1

|𝐴|

𝑠𝑖𝑚(𝑎𝑖❑ ,𝑎 𝑗

❑)𝑝)− 1

inter-elementssimilarity

elementsweights

“softness”control

word-to-wordsimilarity

idf termweighting

Word-to-word similarity functions

• Character q-grams𝑠𝑖𝑚 (𝑡𝑖 ,𝑡 𝑗 )=

|𝑡 𝑖∩𝑡 𝑗|−𝑏𝑖𝑎𝑠∝max (|𝑡 𝑖|,|𝑡 𝑗|)+(1−∝ ) min(|𝑡𝑖|,|𝑡 𝑗|)

• Edit-distance𝑠𝑖𝑚 (𝑡𝑖 ,𝑡 𝑗 )=1−

𝐸𝑑𝑖𝑡𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝑡 𝑖 ,𝑡 𝑗 )max [𝑙𝑒𝑛 (𝑡 𝑖 ) , 𝑙𝑒𝑛(𝑡 𝑗)]

• Jaro-Winkler𝑠𝑖𝑚 (𝑡𝑖 ,𝑡 𝑗 )=

13 ( 𝑐𝑙𝑒𝑛(𝑡𝑖)

𝑙𝑒𝑛(𝑡 𝑗)+𝑐−𝑚𝑐 )

c is the number of characters in common with in a sliding window of size

m is the number of order mismatches between the common characters

Features for Text Pairs T1 , T2

Language-pair Model

T1(EN)

T2(FR)

translate

• Tokenizing• Stemming• Stop-words removal• idf term weighting

Goldstandard

Submitted Systems

• RUN1: 4 language-pair models (es-en, fr-en, it-en, de-en) each one trained with 1,000 text pairs. SVM using C=1.0• RUN2: same as RUN1 but optimizing

C for max. accuracy.

Official Results

Circular Pivoting Translations

T1(EN)

T2(FR)

Original feature set: 2 comparable text pairs x 14 features= 28 features

Extended feature set: 2+2+4 comparable text pairs x 14 features= 112 features

Original feature set: 2+2 comparable text pairs x 14 features= 56 features

Single Multilingual Modelen de

1,000 feature vectors

4,000 features vector

training data set

Single Multilingual Model Results

4.6% better than best official

5.3% better than best official 1.3%

better than best official

4.4% below best

official

6.0% better than best official

baseline

Conclusions

• Soft Cardinality + SMT + SVM seems to be a good combination for CLTE.

• A single multilingual model produced improved results than language-pair models.

• Additional circular pivoting translations produced slightly improved but consistent improvements.

• Character q-grams seems to be better than Edit-distance and Jaro-Winkler.

Soft Cardinality at *SEM and SemEval

• STS-2012, official 3th out of 89 systems• STS-2013-CORE task, 18th out of 90 systems

(4th un-official)• STS-2013-TYPED task, top-system UNITOR team• CLTE-2012, 3rd out of 29 systems (1st un-official)• CLTE-2013, among the 2-top systems• SRA-2013, among the 2-top systems

, , 1.3’

SOFTCARDINALITY: Learning to Identify Directional Cross-Lingual Entailment from Cardinalities and...

Technology

Transcript of SOFTCARDINALITY: Learning to Identify Directional Cross-Lingual Entailment from Cardinalities and...

Inverse Entailment in Nonmonotonic Logic Programs

Dialectica Categories and Cardinalities of the Continuum (March2014)

XNLI: Evaluating Cross-lingual Sentence Representations · Language Premise / Hypothesis Genre Label English You don’t have to stay there. You can leave. Face-To-Face Entailment

Textual Entailment Using Univariate Density Model and Maximizing Discriminant Function “Third Recognizing Textual Entailment Challenge 2007 Submission”

Recognizing Text Entailment - Tutorial

M3T Cardinalities

Textual Entailment - UPC Universitat Politècnica de Catalunyaageno/anlp/textualEntailment.pdf · Textual Entailment 8 Textual Entailment • Textual entailment recognition is the

Presupposition and-entailment

Dialectica Categories, Cardinalities of the Continuum and ... · 2 Dialectica Categories, Cardinalities of the Continuum and Combinatorics of Ideals Given the expected audience for

Scalar and fuzzy cardinalities of crisp and fuzzy multisetsbioinfo.uib.es/~cesc/recerca/publicacions/fuzzybags0505.pdf · sets has been used [4, 5, 19], as well as nonconvex cardinalities

Saharon Shelah- Cardinalities of topologies with small base

Lexical entailment - Universität des Saarlandes

Infinite sets and cardinalities

Entailment of Statement Forms

Mul%lingual / Cross-lingual Methods

The complexity of computable entailment

Brouwer and Cardinalities

Scalar and fuzzy cardinalities of crisp and fuzzy multisetspsystems.disco.unimib.it/download/fuzzybags0212.pdf · for fuzzy sets has been used [5, 6] as well as nonconvex cardinalities

Cross-lingual and Multi-lingual IR

Presupposition And Entailment