Comment l'intelligence artificielle améliore la recherche documentaire
Transcript of Comment l'intelligence artificielle améliore la recherche documentaire
![Page 1: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/1.jpg)
Comment l’intelligence artificielle améliore la recherche documentaire
Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet
![Page 2: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/2.jpg)
2 @AntidotNet
Agenda●Antidot (en 2 slides)●Où en est la recherche documentaire ?●Comment enrichir les documents ?
●Text Mining et IA - créer des métadonnées●Linked (Open) Data – lier les documents
●Exemples
![Page 3: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/3.jpg)
3
Antidot en 2 slides
![Page 4: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/4.jpg)
4 @AntidotNet
Antidot @AntidotNet●Editeur de logiciels
● moteurs de recherche | enrichissement des données● depuis 1999 | Paris, Lyon, Aix-en-Provence● 47 collaborateurs | +150 clients
●Mission : fournir des solutions innovantes qui créent de la valeur à partir des données et augmentent la performance opérationnelle de nos clients
![Page 5: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/5.jpg)
5 @AntidotNet
Parmi nos clients● Production de contenus
● Industries
● E-Commerce
● Santé
![Page 6: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/6.jpg)
6 @AntidotNet
Pierre Col @PierreCol
1978
1963
1983
1986
1996
2007
2010
![Page 7: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/7.jpg)
7
Où en est la recherche documentaire ?
![Page 8: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/8.jpg)
8 @AntidotNet
Question :
Que s’est-il passé ces 10 dernières années dans le monde du moteur de recherche documentaire ?
Notre réponse :
Rien de bien passionnant…
![Page 9: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/9.jpg)
9 @AntidotNet
3 types de moteurs de recherche
![Page 10: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/10.jpg)
10 @AntidotNet
Comment un moteur trouve-t-il ?●Il recherche dans les documents
les mots-clés renseignés●Il filtre les résultats trouvés selon les
critères demandés : type de document, taille, fourchette de prix…
●Et enfin, le plus important : il ordonne les document dans l’ordre « le plus pertinent »
![Page 11: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/11.jpg)
11 @AntidotNet
Qu’est-ce que la pertinence ?
MotMot
MotMot
Mot
Mot
Mot
Mot
1
Mot
![Page 12: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/12.jpg)
12 @AntidotNet
Qu’est-ce que la pertinence ?●Cette méthode de pondération s’appelle
TF-IDF (Term Frequency - Inverse Document Frequency)
●Elle a été inventée en 1970 par Gerry Salton, appelé le père de la recherche d’information
![Page 13: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/13.jpg)
13 @AntidotNet
Pertinence des moteurs spécialisés
![Page 14: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/14.jpg)
14 @AntidotNet
Pertinence des moteurs spécialisés
![Page 15: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/15.jpg)
15 @AntidotNet
Pertinence des moteurs spécialisés
![Page 16: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/16.jpg)
16 @AntidotNet
Pertinence des moteurs Web●Étape 1 - 90s : algorithmes TF-IDF●Étape 2 - 2000 : Google invente le Page
Rank●Étape 3 - 2005 : explosion du nombre de
paramètres de pondération●Étape 4 - 2010 : le Machine Learning
pour trouver la meilleure pertinence pour chacun
![Page 17: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/17.jpg)
17 @AntidotNet
Pertinence des moteurs d’entreprise
●TF-IDF est toujours implémenté dans tous les moteurs de recherche documentaires,via les algorithmes appelés Best Match ou Vector Space Model
●L’état de l’art scientifique de ces moteurs de recherche a 45 ans !
![Page 18: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/18.jpg)
18
Comment améliorer l’efficacité de la recherche ?
![Page 19: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/19.jpg)
19 @AntidotNet
Disposer d’un contexte riche●Les résultats sont d’autant plus
pertinents que le moteur de recherche dispose, pour chaque document, de métadonnées riches
![Page 20: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/20.jpg)
20 @AntidotNet
Disposer d’un contexte riche●Si nécessaire, avant indexation des
documents, créer des métadonnées pour ●caractériser finement chaque document●lier les documents entre eux
●Des outils précieux : ●Text Mining / Machine Learning●Linked Data
![Page 21: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/21.jpg)
21 @AntidotNet
Qu’est-ce que le Text Mining ?●Fouille de textes : ensemble de
traitements informatiques consistant à extraire des connaissances dans des textes produits par des humains pour des humains.
●Disciplines scientifiques : ●linguistique calculatoire, traitement automatique
des langues, ●apprentissage automatique, intelligence artificielle, ●statistique
![Page 22: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/22.jpg)
22 @AntidotNet
Qu’est-ce que le Machine Learning ?●Définition : faculté donnée à
un ordinateur d’apprendre un comportement à partir d’exemples
●Discipline scientifique : ●Intelligence Artificielle ●approche probabiliste ≠ approches par règles
![Page 23: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/23.jpg)
23 @AntidotNet
Disposer d’un contexte riche●En exploitant les métadonnées, on peut
créer des liens entre documents issus de silos différents
●Pour cela, on dispose de l’approche et des standards du web de données : Linked Data
![Page 24: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/24.jpg)
24 @AntidotNet
L’approche globale d’Antidot
Access
SearchSemantic &
Complex
Enrich
Text MiningMachine Learning
Doc Graph & Linked Data
![Page 25: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/25.jpg)
25
Classification automatiquede documents
![Page 26: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/26.jpg)
26 @AntidotNet
Classification automatique de texte
Droit de la familleDroit fiscalDroit pénal
![Page 27: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/27.jpg)
27 @AntidotNet
Principe de fonctionnement
Corpus d’entrainemen
t
Base d’apprentissag
eTraitement statistique
![Page 28: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/28.jpg)
28 @AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
![Page 29: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/29.jpg)
29 @AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
![Page 30: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/30.jpg)
30 @AntidotNet
Etape 1 : Constitution du corpus d’apprentissage
![Page 31: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/31.jpg)
31 @AntidotNet
Etape 2 : Lancer le Machine Learning
![Page 32: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/32.jpg)
32 @AntidotNet
Etape 3 : Mesurer le niveau de qualité du ML
![Page 33: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/33.jpg)
33 @AntidotNet
Etape 4 : Itérer pour amélioration de la qualité
Base d’apprentissag
eBase d’apprentissag
e
![Page 34: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/34.jpg)
34 @AntidotNet
Etape 4 : Mesurer l’amélioration de la qualité
![Page 35: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/35.jpg)
35 @AntidotNet
En résumé
![Page 36: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/36.jpg)
36
Exemple :www.rechercheisidore.fr
![Page 37: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/37.jpg)
37 @AntidotNet
www.rechercheisidore.fr●2010
●750 sources ●1,8 M publications scientifiques en SHS●dont 100.000 classées par les
documentalistes
●2016●3700 sources ●4,2 M publications classées automatiquement
![Page 38: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/38.jpg)
38 @AntidotNet
Classification automatique
![Page 39: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/39.jpg)
39 @AntidotNet
Classification automatique
![Page 40: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/40.jpg)
40
Exemple :www.caij.qc.ca
![Page 41: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/41.jpg)
41 @AntidotNet
www.caij.qc.ca●L’information pour les avocats du Québec●Une information « en vrac »
●1,7 M documents sans classement à la source●10.000 nouveaux docs chaque mois●Plan de classement : 600 domaines du droit
●Classer : une tâche surhumaine●10 à 15 minutes par document ?●Un travail évalué à plus de 200 années
hommes !
![Page 42: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/42.jpg)
42 @AntidotNet
Classification automatique
![Page 43: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/43.jpg)
43 @AntidotNet
Atelier d’entraînement
![Page 44: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/44.jpg)
44 @AntidotNet
Atelier d’entraînement
![Page 45: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/45.jpg)
45 @AntidotNet
Atelier d’entraînement
![Page 46: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/46.jpg)
46 @AntidotNet
Boucle d’amélioration continue
![Page 47: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/47.jpg)
47 @AntidotNet
![Page 48: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/48.jpg)
48 @AntidotNet
Mesurer la qualité des résultats
![Page 49: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/49.jpg)
49 @AntidotNet
Mesurer la qualité des résultats
![Page 50: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/50.jpg)
50 @AntidotNet
Précision inégalée
![Page 51: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/51.jpg)
51 @AntidotNet
Un projet mené en 3 mois●3 personnes ont travaillé itérativement
pour constituer le corpus d’entraînement : ≈ 20 docs x 600 domaines ≈ 12.000 docs
●1,7M de documents classés en 10 h, à raison de 23 ms par document
![Page 52: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/52.jpg)
52
Extraction d’entités nommées
![Page 53: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/53.jpg)
53 @AntidotNet
Extraction d’entités nommées
![Page 54: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/54.jpg)
54 @AntidotNet
Extraction d’entités
![Page 55: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/55.jpg)
55 @AntidotNet
Extraction d’entités
![Page 56: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/56.jpg)
56
Linked (Open) Data
![Page 57: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/57.jpg)
57 @AntidotNet
Exploiter la variété des documents●Tirer profit de l’énorme gisement de
valeur des données non structurées : ●documents bureautiques, courriels ●GED – gestion électronique de documents●CRM – gestion de la relation clients●ERP – outils de gestion d’entreprise●…et de leur richesse
sémantique !
![Page 58: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/58.jpg)
58 @AntidotNet
Changer de paradigme●Ne plus considérer les applications mais
SEULEMENT LES DONNÉES
![Page 59: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/59.jpg)
59 @AntidotNet
Relier les données●Mettre les données de l’entreprise en
commun, les mailler au niveau le plus fin
![Page 60: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/60.jpg)
60 @AntidotNet
Faire émerger l’implicite
![Page 61: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/61.jpg)
61
Exemple :www.rechercheisidore.fr
![Page 62: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/62.jpg)
62 @AntidotNet
On recherche par mots clés
![Page 63: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/63.jpg)
63 @AntidotNet
On filtre via les facettes
![Page 64: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/64.jpg)
64 @AntidotNet
On sélectionne un document
![Page 65: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/65.jpg)
65 @AntidotNet
On rebondit via les métadonnées
![Page 66: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/66.jpg)
66 @AntidotNet
Modèle de données public
![Page 67: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/67.jpg)
67 @AntidotNet
Accès normalisé RDF / SPARQL
![Page 68: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/68.jpg)
68
Conclusion
![Page 69: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/69.jpg)
69 @AntidotNet
Enrichir et contextualiser pour trouver vite
![Page 70: Comment l'intelligence artificielle améliore la recherche documentaire](https://reader038.fdocuments.net/reader038/viewer/2022102720/587575391a28ab78498b4aa7/html5/thumbnails/70.jpg)
Des questions ?Merci de votre attention
Meetup Lyon Data Science – 9 juin 2016Pierre Col – Directeur Marketing Antidot @PierreCol – @AntidotNet