1 Three-level approach for Passage Retrieval in Arabic Question/Answering Systems Lahsen Abouenour...

30
1 Three-level approach for Passage Retrieval Three-level approach for Passage Retrieval in Arabic Question/Answering Systems in Arabic Question/Answering Systems Lahsen Abouenour 1 , Karim Bouzoubaa 1 , Paolo Rosso 2 1 Mohammadia School of Engineers, Mohamed V th University-Agdal Rabat - Morocco 2 Natural Language Engineering Lab., Universidad Politécnica Valencia, Spain Mohammadia School of Engineers, Rabat, Morocco - May 2009 The 3rd International Conference on The 3rd International Conference on Arabic Natural Language Processing Arabic Natural Language Processing

Transcript of 1 Three-level approach for Passage Retrieval in Arabic Question/Answering Systems Lahsen Abouenour...

1

Three-level approach for Passage Retrieval Three-level approach for Passage Retrieval in Arabic Question/Answering Systemsin Arabic Question/Answering Systems

Lahsen Abouenour1, Karim Bouzoubaa1, Paolo Rosso2

1 Mohammadia School of Engineers, Mohamed Vth University-Agdal

Rabat - Morocco

2 Natural Language Engineering Lab., Universidad Politécnica Valencia, Spain

Mohammadia School of Engineers, Rabat, Morocco - May 2009

The 3rd International Conference on The 3rd International Conference on Arabic Natural Language Processing Arabic Natural Language Processing

2

Arabic Question/Answering Systems

Classical IR

User Query (keywords)

List of documents/links

User Checking Answer toUser Query

1 2

34

???

?

3

Arabic Question/Answering Systems

Question/Answering

User Query (question = keywords+structure)

1

3

List of documents/links

User Checking

2

???

?

Answer toUser Query

4

Existing Arabic Q/A Systems

- QARAB (based on Al-Raya corpus)

- AQAS (extract answers from only structured texts)

- ArabiQA (deal with factoid questions, embeds NER module )

- QASAL (semi-automatic Q/A system for factoid questions )

Arabic Question/Answering Systems

Three Modules

Question Analysis

PassageRetrieval

AnswerExtraction

Question type

Keywords

Named Entities

Candidate passage

Passage ranking

Answer identification

Answer construction

5

Challenges of Arabic Q/A Systems

- short vowels,

- absence of capital letters,

- complex morphology,

-etc.

Arabic Question/Answering Systems

6

Arabic Question/Answering Systems

Question/Answering

User Query (question = keywords+structure)

1

?

Natural Language ( ؟ مراكش مدينة توجد (? Where is the city of Marrakech | أين

-- Keywords : Where | is | the | city | of | Marrakech مراكش | مدينة | توجد | أين

-- Structure :

Where is the city of Marrakech ?

Is Marrakech a city ?

≠توجد ؟ مراكش مدينةأين

≠؟ مدينة مراكش هل

7

Arabic Question/Answering Systems

Question/Answering

Passage Retrieval

2

( ؟ مراكش مدينة توجدأين | Where is the city of Marrakech ?)

Xxxxx مراكش (Marrakech)xxxxxx xx xxx xxxx

Xx xxx xxxxx xxx xxxx xxx xxxx

Xxxxx مدينة (city) xxxxx xx xxx توجد (exist in) xxx

يوجد إقليم مراكش xxx (Morroco) المغرب (the region

of marrakech exists in) xxx Xx xxx xxxxx xxx xxxx

xxx xxxx

Xxxxx xx xxxxx xx xxx xx xxx

Passage 1

Passage N

The answer

No answer

8

Arabic Question/Answering Systems

Question/Answering

Passage Retrieval

2

( ؟ مراكش مدينة توجدأين | Where is the city of Marrakech ?)

Xxxxx مراكش (Marrakech) xxxxxx xx xxx xxxx Xx xxx xxxxx xxx xxxx xxx xxxx

Xxxxx مدينة (city) xxxxx xx xxx توجد (exist in) xxx

Passage 1

Passage N

مدينة | مراكش | توجد

(Is in | Marrakech | city)

إقليم | مراكش | يوجد

(Is in | Marrakech | city)

hyponymy/semanticrelation

Morphologicalrelation

يوجد إقليم مراكش xxx (Morroco) المغرب (the region

of marrakech exists in) xxx Xx xxx xxxxx xxx xxxx

xxx xxxx

Xxxxx xx xxxxx xx xxx xx xxx

9

Arabic Question/Answering Systems

Question/Answering

Passage Retrieval

2

( ؟ مراكش مدينة توجدأين | Where is the city of Marrakech ?)

Xxxxx مراكش xxxxxx xx xxx xxxx

Xx xxx xxxxx xxx xxxx xxx xxxx

Xxxxx مدينة xxxxx xx xxx توجد xxx

يوجد إقليم مراكش xxx المغرب xxx

Xx xxx xxxxx xxx xxxx xxx xxxx

Xxxxx xx xxxxx xx xxx xx xxx

Passage 1 Passage N

Vs

???

With respect to Morphological and Semantic Relation relevance(P1)=relevance(PN)

What about the question structure ?

10

Arabic Question/Answering Systems

Question/Answering

Passage Retrieval

2

( ؟ مراكش مدينة توجدأين | Where is the city of Marrakech ?)

مراكش

مدينة توجد أين

Expected Answer:

في مراكش

مدينة توجد

Question: في مراكش مدينة توجد؟ مراكش مدينة توجدأين (The city of Marrakech is in …) (Where is the city of Marrakech ?)

xxxxx مراكش

xxxxxx xx

Passage 1 structures

xx xxx توجد xxx

xxxxx مدينة xxxx xx

xxxxx مراكش

يوجد إقليم

Passage N structures

11

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Presentation

Semantic Query Expansion (extending the list of keywords related to the user question)

Keyword-based level (candidate passages with related keywords)

Structure-based level (candidate passages with related structure)

Levels

Semantic reasoning level (comparing CG representations)

12

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Presentation

Semantic Query Expansion (Arabic WordNet, Amine Plateform)

Keyword-based PR (Yahoo API)

Structure-based PR (The Java Information Retrieval System - JIRS)

Resources & Tools

Semantic reasoning level (Amine Plateform)

13

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Presentation

Semantic Query Expansion

Ontology

- AWN is a free Lexical resource

- AWN contains Over than 20 000 arabic words grouped into synsets

- AWN is connected with the SUMO (Suggested Upper Merged Ontology)

- SUMO has about 2000 general concept

- SUMO Many relations between concepts (hyponymy, hypernymy, ...)

14

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Presentation

Semantic Query Expansion

Amine Platform

- Amine is a multi-layer platform dedicated to the development

of Intelligent Systems and Multi-Agents Systems

- Amine is an Open Source Platform

- Amine is 100 % Java implementation

- Amine provides a set of operations related to Ontologies

15

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Presentation

Semantic Query Expansion

Content

Arabic WordNet

Structure

Link with SUMO

Temporary DataBase (MySQL)

JAVA Program

Amine AWN ontology

Amine Platform API

16

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Presentation

Semantic Query Expansion

17

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Presentation

Semantic Query Expansion

Global Expansion

Morphological Expansion

AAWN Ontology Expansion

1 - By synonyms

2 – By supertypes

3 – By definition

4 – By subtypes

Concept/Term

18

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Presentation

Structure-based PR

The Java Information Retrieval System (JIRS)

- a language-independent PR system

- adpated for many non-agglutinative European languages (English,

French, Spanish, Italian, ...)

- adapted for the Arabic language

- re-ranking of the retrieved passages is based on a distance density n-

gram model

URL : http://sourceforge.net/projects/jirs/

19

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Evaluation Process

CLEF Questions

The accuracy

We consider only the first five returned passagesThe Mean Reciprocal Rank (MRR)

2 - Automatic Process

Yahoo Semantic QE

Yahoo

Semantic QE

JIRS

JIRSGoogle Semantic QE

Google

1 - Manual Process

Keyword-based Structure-based

TREC Questions

20

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Evaluation Process

The Questions

- a set of 82 of the CLEF and TREC questions

- facoid questions seeking for NE

- significant coverage : questions classified into different domains

21

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Evaluation Process

Keyword-based evaluation

Accuracy and MRR have been improved after using semantic QE

Google (CLEF)

Yahoo (CLEF)

Yahoo(TREC)

no QE QE no QE QE no QE QE

Accuracy 29,26% 32,92% 1,22% 7,32% 5,02 % 6,95 %

MRR 10,15 11,25 0,99 3,25 2,04 2,88

22

Arabic Question/Answering Systems

Our Passage Retrieval Approach : Evaluation Process

Structure-based evaluation

Accuracy and MRR have been improved after using semantic QE

Compared to the keyword-based PR, the structure-based PR givesThe best Accuracy and MRR

Yahoo (CLEF)

Yahoo(TREC)

no QE QE no QE QE

Accuracy 15,85% 19,51% 2,7 % 10,81 %

MRR 5,46 7,85 0,67 4,53

23

Arabic Question/Answering Systems

Semantic Query Expansion

Keyword-based PR

Structure-based PR

Our Passage Retrieval Approach : Evaluation Process

Summarize

Acc. 7,32%

MRR 3,25

Yes No

Acc. 1,22%

MRR 0,99

Acc. 15,85%

MRR 5,46

Acc. 19,51%

MRR 7,85

24

Arabic Question/Answering Systems

Our Passage Retrieval Approach : The semantic reasoning level

Presentation

Question Expected Answer CG-EA

P1

Pi

sub passage

sub passage

CG1

CGi Generalization)CG-Pi,CG-EA(

Semantic score (p1)

Generalization)CG-P1,CG-EA(

Semantic score (pi)

25

Arabic Question/Answering Systems

Our Passage Retrieval Approach : The semantic reasoning level

Example

TREC question: األرض؟ علىسطح نقطة أعلى تقع أين(Where is the highest point on the surface of the earth?" )

ID Rank Passage

P1 1

إلى قمة األرضفي نقطتينوأخفض أعلىباالضافة حيث ترتفع افرست، الهماليا جبال 8848فيعن تكون سطحمتر وبذلك األرض البحر سطح في نقطة اخفض أعلى بينما سطح ، على نقطة

قارات .. . األرض cأّي ضمن أوقيانوسيا في الهادّي المحيط جزر تقع ال البحر قرب تكون

P2 2

األرض كل على إليها ... نقطة ننسب أن يمكن وهكذا ومواز، طول خط تقاطع على تقع القطبين عداوصف أجل من أنه نتذكر أن األرض المهم سطح على على ... نقطة ولهذا عددين، إلى نحتاج

" أسفل " في للكرة المماس من "نقطةالمستوّي انطالقا نقطة" منها . ...أعلى فيها

P3 3ابعاد األرض ولتمثيل ثم ... سطح خفيف مع تتناسب خاصة بنسب األبعاد هذه ترسم ، الخريطة على

عند حاد اإلرتفاع يصبح حتى اإلرتفاع مع اإلنحدار نقطة يزداد . ...أعلى

P4 4هواء كثافة بنفس يتمتع ال المريخ على األرضهواء الجوّي الضغط يبلغ مقابل .... سطحإذ تقع فهي

إلى وتصل الغروب، في تظهر إذ سمائنا؛ في بالضبط نقطة الشمس لها ...أعلى

P5 5

cنا م�ثل قطرها األرضإذا صغيرة كرة فيه ... 457بصورة المفروض كان أعلى ارتفاع فيكون متر ميلي cاألرضأن ) حول ) تدور وغيرها والشمس العالم مركز في الشمس األرضحركة. ... األرضتقع حول

في فسرعتها مدارها على مواضعها هي نقطةباختالف فيما 5كم ... 29.3األوج القطبية األنوار ظهورسطح من كيلومتر ألف إلى أنc ...األرضيرتفع على cيدل

P6 6نقطة جبل اليابسة في أعلى قمة ترتفع إفرستهي عن 8846ألنها في سطحمترا وتقع البحر

على جبل أطول أن والواقع ، الهماليا األرض جبال إذ ...سطح ، هاواّي في موناكي هو

>> Using Google Search Engine

26

Arabic Question/Answering Systems

Our Passage Retrieval Approach : The semantic reasoning level

Example

TREC question: األرض؟ علىسطح نقطة أعلى تقع أين(Where is the highest point on the surface of the earth?" )

ID Structure Score Passage

P1 0,67

إلى قمة األرض في نقطتينوأخفض أعلىباالضافة حيث ترتفع افرست، الهماليا جبال فيعن 8848 تكون سطحمتر وبذلك نقطة البحر األرض في أعلى اخفض سطح بينما على ، نقطة

األرض قارات .. . سطح cأّي ضمن أوقيانوسيا في الهادّي المحيط جزر تقع ال البحر قرب .. .تكون

P6 0,63نقطة اليابسة أعلى جبل في قمة ترتفع إفرستهي عن 8846ألنها في سطحمترا وتقع البحر

جبل أطول أن والواقع ، الهماليا األرض جبال سطح إذ على ، هاواّي في موناكي .. .هو

P2 0,54األرض كل على إليها نقطة ننسب أن يمكن وهكذا ومواز، طول خط تقاطع على تقع القطبين عدا

وصف.. . أجل من أنه نتذكر أن األرض المهم سطح على ولهذا نقطة عددين، إلى .. .نحتاج

P4 0,49هواء كثافة بنفس يتمتع ال المريخ على األرضهواء الجوّي الضغط يبلغ تقع ... . سطحإذ فهي

إلى وتصل الغروب، في تظهر إذ سمائنا؛ في بالضبط الشمس نقطة مقابل .. .لها أعلى

P3 0,39ابعاد على ولتمثيل األرض خفيف .. . سطح مع تتناسب خاصة بنسب األبعاد هذه ترسم ، الخريطة

عند حاد اإلرتفاع يصبح حتى اإلرتفاع مع اإلنحدار يزداد نقطة ثم ... .أعلى

P5 0,29

cنا م�ثل قطرها األرضإذا صغيرة كرة فيكون 457بصورة متر أعلى ميلي المفروض ... ارتفاع كان cأن ( تقع األرضفيه حول ) تدور وغيرها والشمس العالم مركز حول األرضحركة. ... األرضفي

هي األوج نقطة في فسرعتها مدارها على مواضعها باختالف األنوار 5كم ... 29.3الشمس ظهورمن كيلومتر ألف إلى يرتفع فيما األرض القطبية أنc ...سطح على cيدل

>> Passages Ranks after LEVEL 1 (Keyword-based) and LEVEL 2 (Structure-based)

27

Arabic Question/Answering Systems

Our Passage Retrieval Approach : The semantic reasoning level

Example

TREC question: األرض؟ علىسطح نقطة أعلى تقع أين(Where is the highest point on the surface of the earth?" )

The expected answer is: األرضفي علىسطح نقطة أعلى ... تقع

CG-EA : [نقطة]- -attr->[أعلى], -ala->[األرض], <-agnt-[تقع]-fi->[ عام [مفهوم

Passage Generalization (CG-EA, CG-P)

1 [صفة]

2 [صفة]

3 [صفة]

4 [فعل]

5

[ 0نقطة # ] -

-attr->[أعلى], -ala->[األرض]

6 [حدث]-agnt->[نقطة]

28

Arabic Question/Answering Systems

Our Passage Retrieval Approach : The semantic reasoning level

Example

TREC question: األرض؟ علىسطح نقطة أعلى تقع أين(Where is the highest point on the surface of the earth?" )

SemanticScore(P) = ∑(weight(ci)*β(ci,π(ci)))/ ∑(weight(ci) ci C

Semantic Score Formula

ID Semantic Score Passage

P6 0,66إفرست جبل هيقمة اليابسة في نقطة ترتفع أعلى أطول 8846ألنها أن والواقع ، الهماليا جبال في وتقع البحر سطح عن مترا

إذ ، هاواّي في موناكي هو األرض سطح على .. .جبل

P1 0,29

األرض، في نقطتين وأخفض أعلى إلى ترتفع باالضافة الهماليا جبال افرستفي البحر 8848حيثقمة عنسطح متراألرض فيسطح نقطة أعلى تكون الهادّي .. . وبذلك المحيط جزر تقع ال البحر قرب تكون األرض سطح على نقطة اخفض بينما ،

قارات cأّي ضمن أوقيانوسيا .. .في

P5 0,26

قطرها صغيرة كرة بصورة األرض cنا م�ثل العالم ... 457إذا مركز في تقع األرض cأن فيه المفروض كان أعلى ارتفاع فيكون متر ميلي ... . ) هي ) األوج نقطة في فسرعتها مدارها على مواضعها باختالف الشمس حول األرض حركة األرض حول تدور وغيرها 29.3والشمس

أنc ...5كم ... على cيدل األرض سطح من كيلومتر ألف إلى يرتفع فيما القطبية األنوار ظهور

P3 0,20حتى .. . اإلرتفاع مع اإلنحدار يزداد ثم خفيف مع تتناسب خاصة بنسب األبعاد هذه ترسم ، الخريطة على األرض سطح ابعاد ولتمثيل

نقطة أعلى عند حاد اإلرتفاع ... .يصبح

P4 0,19إذ ... . سمائنا؛ في بالضبط الشمس مقابل تقع فهي سطح على الجوّي الضغط يبلغ إذ األرض هواء كثافة بنفس يتمتع ال المريخ هواء

لها نقطة أعلى إلى وتصل الغروب، في .. .تظهر

P2 0,04وصف .. . أجل من أنه نتذكر أن المهم إليها ننسب أن يمكن وهكذا ومواز، طول خط تقاطع على تقع القطبين عدا األرض على نقطة كل

ولهذا عددين، إلى نحتاج األرض سطح على .. .نقطة

29

Conclusion & Future Work

Covering all CLEF and TREC questions

Automating the semantic reasoning level module

Conducting corresponding experiments

Integrating more enriched releases of Arabic WordNet

The keyword-based and structure-based levels of our Arabic PR approach

have improved the Accuracy and the MRR in the context of Q/A systems

A semantic reasoning level on top of the first and second levels could

impove even more the reached performances

30

Thank you for your attentionThank you for your attention

>> Questions>> Questions