Textométrie - Tableau comparatif

2
Acquisition Url http://www.image- zafar. com/index_alceste.h http://www.antlab. sci.waseda.ac. jp/antconc_index. html http://laseldi.univ- fcomte. fr/document/viprey/p http: //williammartinez. fr/coocs/page.php http://ses.telecom- paristech. fr/lebart/05_Logiciel. http://ancilla.unice. fr/~brunet/pub/hyper http://hyperpo.org/ http://www.cavi. univ-paris3. fr/Ilpga/ilpga/tal/lexic http://www.athel. com/mono.html http://www. nooj4nlp.net/ http://philologic. uchicago.edu/ http://www.ling. uqam.ca/ato/sato/ http://spadsoft. com/content/view/20 http://www. lesphinx- developpement. fr/fr/accueil/accueil_ http://www.chass. utoronto.ca/tact/ http://www.taltac. it/it/index.shtml http://textometrie. sourceforge.net/ http://tal.univ- paris3.fr/trameur/ http://www. treecloud.org http://www.acetic. fr/tropesfr.htm http://www.xaira. org/ http://weblex.ens- lsh.fr/wlx/ http://www. grimmersoft. com/grimmersoft/cm http://www. lexically. net/wordsmith/ http://www.cavi. univ-paris3. fr/ilpga/ilpga/sfleury/ Acquisition Licence Interface web Shareware Shareware GPL Freeware GPL Shareware Shareware Shareware Acquisition Prix Sur devis Freeware Prototype expérimental gratuit Freeware (version académique) Freeware (version académique) 145€, version d'évaluation gratuite 150€ (v.3), 0€ (v.1, 2) 85 $ (free demo version) 0 € Version d'évaluation gratuite après remplissage d'un formulaire 50 $ De 25 € à 1500 € 0 € 0 € 0 € (démo), 1435 € 0 € 950 €. Démo inaccessible en juin 2009 65 € Acquisition Manuel utilisateur http://www.antlab. sci.waseda.ac. jp/software/AntConc Inclus Inclus Inclus Manuels d'utilisation et exempled d'explorations téléchargeables sur le site http://www.athel. com/tour.pdf http://www. nooj4nlp. net/pages/reference Inclus En anglais : http: //www.chass. utoronto. ca/tact/TACT/tact0.h - en français : http: //www.chass. utoronto. ca/~wulfric/articles2/ http://issuu. com/sfleury/docs/lem Inclus, http://www. lirmm. fr/~gambette/Progra http://weblex.ens- lsh.fr/doc/weblex/ http://www. lexically. net/downloads/versi http://textopol.free. fr/Documents/edXM Acquisition Langue du logiciel Français, anglais Anglais Français Français, anglais, espgnol Français Français Anglais Français Anglais Français, anglais, espagnol Français, anglais Anglais Italien, Anglais Français Français, anglais Français, anglais, portugais, espagnol Anglais Acquisition Système d'exploitation Windows XP, Vista, MacOsX Windows, Linux, Mac Windows Windows Windows Windows Windows DOS Windows, Linux, Mac (interface graphique uniquement Windows) Windows Conception Auteur(s) Max Reinert Laurence Anthony Jean-Marie Viprey William Martinez Ludovic Lebart Etienne Brunet Stéphan Sinclair André Salem, Cédric Lamalle, William Martinez, Serge Fleury Michael Barlow Max Silberztein François Daoust John Bradley, Ian Lancashire, Lidio Presutti, Michael Stairs Sergio Bolasco, Francesco Baiocchi, Adolfo Morrone... Serge Heiden... Serge Fleury Philippe Gambette Lou Bernard Serge Heiden Jean-François Grimmer Mike Scott Calin-Ioan Mosut Valérie Beaudouin, François Yvon Conception Organisme Société Image (Toulouse) Celese (Waseda University) ATST/Laseldi (UFC) SYLED (Paris 3) TELECOM- ParisTech / CNRS BCL (Université de Nice Sophia Antipolis) CSMM dpt. (McMaster University) CLA²T (Paris 3) Société Athelstan Laseldi (UFC) ATO (UQAM) Société SpadSoft Société Le Sphinx Développement IBM - University of Toronto DSGSSAR (Sapienza, Université de Rome) ANR CLA²T (Paris 3) LIRMM (Université Montpellier 2) Société Acetic Oxford University Icar (ENS LSH Lyon) Société Grimmersoft Oxford University Press CLA²T (Paris 3) Conception Langage de programmation Perl Visual Basic C++ Librairie Java Python Prétraitement : Format d'entrée Format texte Format texte Format Lexico 3 Format texte Format texte Format texte Format texte, XML Prétraitement : Caractères spéciaux dans le format d'entrée $$$ < > * Prétraitement : Catégorisation morpho- syntaxique Prétraitement : Analyse morpho-syntaxique Non Prétraitement : Antidictionnaire / suppression de mots Français, anglais, allemand, personnalisé Prétraitement : Lemmatisation / remplacement de mots Lemmatisation et remplacement avec Diatag Remplacement de mots Lemmatisation Treetagger (paramétré français intégré) Lemmatisation maison pour l'italien, TreeTagger pour autres langues Non Prétraitement : Segmentation mots Choix des caractères séparateurs de mots Choix des caractères séparateurs de mots Caractères séparateurs : ponctuation Python Prétraitement : Segmentation textes / découpage en parties (une seule partition, plusieurs possibles ? possibilité de redéfinir les parties ?) Ok Non Prétraitement : Découpage par parties : aperçu de la syntaxe $$$ Partie 1,Part1, P1 $$$ <partie=p1> Personnalisable Comptage : Nombre de mots, de formes différentes Recherche : KWOC (liste des formes ou des catégories) Oui, fréquence Oui, aussi liste de locutions de lieu, nationalités... Oui, fréquence Recherche : KWAC (concordance, possibilités de tris multiples) Oui, taille fixe, tri à droite et gauche Oui, taille fixe, tri à gauche Oui, taille fixe, par phrase, tri à gauche, à droite Oui, concordance de groupes de mots Non Recherche : KWIC (contextes) Non Recherche : KWUT (texte surligné) Non Objet de recherche : Filtre (expressions régulières, troncature) Préfixes (également dans la concordance) Préfixes, suffixes, expressions régulières Non Objet de recherche : Catégories codées dans le corpus (lemmes par ex.). Possibilité de superposer différents types de catégories Ok Non Objet de recherche : Recherche simultanée de plusieurs motifs (schéma de motifs consécutifs ou bien avec discontinuités) Oui pour les formes graphiques, avec discontinuités Oui pour les schémas syntaxiques sans discontinuité Oui Non Formes remarquables : Spécificité Oui (valeurs réelles), graphique Oui (valeurs entières), graphique, sur textes sélectionnés depuis AFC Oui (TF-IDF) Non Formes remarquables : Collocation et segments répétés (organisation : triables par longueur, fréquence, significativité) Mutual information, t-score Oui Oui (fenêtre glissante de taille 2), choix de distance Formes remarquables : Cooccurrences Oui (modèle hypergéométrique) Oui, choix de distance (parmi 13 formules) Formes remarquables : Lieu du calcul de la cooccurrence (fenêtre de taille fixe, phrase, paragraphe, partie) Fenêtre de taille fixe ou partie Formes remarquables : Cooccurrences autour d'un pôle donné Fournir la concordance du pôle en entrée du logiciel Formes remarquables : Polycooccurrences (occcurrence simultanée de plusieurs termes dans un même bloc) Oui, visualisation par des chemins de cooccurrence Visualisation : Position d'un mot au fil du texte Concordance plot Recherche plein- texte Graphique des fréquences absolues, relatives, cartes de sections, ensembles de mots Non Visualisation : Analyse factorielle Oui (projection sur une sphère) Oui Oui, des textes et des mots Oui, des textes Ok, des mots et des textes Non Visualisation : Fiabilité de l'analyse factorielle (ellipses de bootstrap, diagramme de contribution des composantes) Diagramme de contribution des composantes Oui, ellipses de bootstrap Oui, valeur de bootstrap pour l'arbre Visualisation : Analyse arborée (intratextuelle ou intertextuelle) Oui, limitée à 50 feuilles, intratextuelle ou intertextuelle, décoration par couleurs Analyse arborée intratextuelle, décoration par couleurs et taille de police variable Visualisation : Fiabilité de l'analyse arborée (valeurs de bootstrap sur les arêtes, sur l'arbre) Visualisation : Carte auto-organisatrice Oui Non Visualisation : Fiabilité de la carte auto- organisatrice (U-matrix) Visualisation : Graphe de cooccurrence, lexicogramme (filtrage ?) Oui, filtré par degré de cooccurrence Oui Non Ok Ok Ok Ergonomie : Lien entre fonctionnalités Retour au texte par clic Recours au glisser-déplacer pour faire le lien entre listes et visualisations Non Ergonomie : Historique de navigation Non, sauvegarde des derniers paramètres utilisés dans l'interface graphique Windows Ergonomie : Export Matrice de cooccurrence exportée en .csv, arbre exporté en . nexus ou .newick Ergonomie : Possibilité d'appeler automatiquement le programme Non Oui Limites : Taille au-delà de 3 Mo de corpus, choisir version supérieure à 4.6 22.500 répondants (individus, lignes), 1.000 variables (numériques ou nominales), 100.000 caractères pour les réponses d'un individu à des questions ouvertes. 10^7 mots 10^7 mots Limite inconnue, chargement de 400,000 mots en 30 secondes Thèmes Logiciels : Alceste AntConc Astartex-Diatag CooCS DtmVic Hyperbase Hyperpo Lexico3 MonoConc Nooj (Intex) PhiloLogic SATO Spad Sphinx-Lexica Tact TalTac Textometrie Trameur (Métier Lexicométrique) TreeCloud Tropes Xaira Weblex (Lexploreur) Wordmapper Wordsmith A tester, insertion possible : edxml Métromètre

Transcript of Textométrie - Tableau comparatif

Page 1: Textométrie - Tableau comparatif

Acquisition Url

http://www.image-zafar.com/index_alceste.htm

http://www.antlab.sci.waseda.ac.jp/antconc_index.html

http://laseldi.univ-fcomte.fr/document/viprey/page_JMV.htm

http://williammartinez.fr/coocs/page.php

http://ses.telecom-paristech.fr/lebart/05_Logiciel.html

http://ancilla.unice.fr/~brunet/pub/hyperbase.htmlhttp://hyperpo.org/

http://www.cavi.univ-paris3.fr/Ilpga/ilpga/tal/lexicoWWW/lexico3.htm

http://www.athel.com/mono.html

http://www.nooj4nlp.net/

http://philologic.uchicago.edu/

http://www.ling.uqam.ca/ato/sato/

http://spadsoft.com/content/view/20/49/

http://www.lesphinx-developpement.fr/fr/accueil/accueil_sphinx.php

http://www.chass.utoronto.ca/tact/

http://www.taltac.it/it/index.shtml

http://textometrie.sourceforge.net/

http://tal.univ-paris3.fr/trameur/

http://www.treecloud.org

http://www.acetic.fr/tropesfr.htm

http://www.xaira.org/

http://weblex.ens-lsh.fr/wlx/

http://www.grimmersoft.com/grimmersoft/cms/37/wordmapper.dhtml

http://www.lexically.net/wordsmith/

http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/helpmodules/help_edxml.htm

Acquisition Licence Interface web Shareware Shareware GPL Freeware GPL Shareware Shareware Shareware

Acquisition Prix Sur devis Freeware

Prototypeexpérimentalgratuit

Freeware (versionacadémique)

Freeware (versionacadémique)

145€, versiond'évaluationgratuite

150€ (v.3), 0€ (v.1,2)

85 $ (free demoversion) 0 €

Versiond'évaluationgratuite aprèsremplissage d'unformulaire 50 $ De 25 € à 1500 € 0 € 0 € 0 € (démo), 1435 € 0 €

950 €. Démoinaccessible enjuin 2009 65 €

Acquisition Manuel utilisateur

http://www.antlab.sci.waseda.ac.jp/software/AntConc_Help/AntConc_Help.htmInclus Inclus Inclus

Manuelsd'utilisation etexempledd'explorationstéléchargeablessur le site

http://www.athel.com/tour.pdf

http://www.nooj4nlp.net/pages/references.html Inclus

En anglais : http://www.chass.utoronto.ca/tact/TACT/tact0.html- en français : http://www.chass.utoronto.ca/~wulfric/articles2/poitiers2001/

http://issuu.com/sfleury/docs/lemetierlexicometrique/

Inclus, http://www.lirmm.fr/~gambette/ProgramTreecloudPython/ManualTreecloud.pdf

http://weblex.ens-lsh.fr/doc/weblex/

http://www.lexically.net/downloads/version5/HTML/index.html

http://textopol.free.fr/Documents/edXML/ManuelEdxml.pdf

Acquisition Langue du logiciel Français, anglais Anglais FrançaisFrançais, anglais,espgnol Français Français Anglais Français Anglais

Français, anglais,espagnol Français, anglais Anglais Italien, Anglais Français Français, anglais

Français, anglais,portugais,espagnol Anglais

Acquisition Système d'exploitationWindows XP,Vista, MacOsX

Windows, Linux,Mac Windows Windows Windows Windows Windows DOS

Windows, Linux,Mac (interfacegraphiqueuniquementWindows) Windows

Conception Auteur(s) Max Reinert Laurence Anthony Jean-Marie Viprey William Martinez Ludovic Lebart Etienne Brunet Stéphan Sinclair

André Salem,Cédric Lamalle,William Martinez,Serge Fleury Michael Barlow Max Silberztein François Daoust

John Bradley, IanLancashire, LidioPresutti, MichaelStairs

Sergio Bolasco,FrancescoBaiocchi, AdolfoMorrone... Serge Heiden... Serge Fleury Philippe Gambette Lou Bernard Serge Heiden

Jean-FrançoisGrimmer Mike Scott Calin-Ioan Mosut

Valérie Beaudouin,François Yvon

Conception OrganismeSociété Image(Toulouse)

Celese (WasedaUniversity)

ATST/Laseldi(UFC) SYLED (Paris 3)

TELECOM-ParisTech / CNRS

BCL (Université deNice SophiaAntipolis)

CSMM dpt.(McMasterUniversity) CLA²T (Paris 3) Société Athelstan Laseldi (UFC) ATO (UQAM) Société SpadSoft

Société Le SphinxDéveloppement

IBM - University ofToronto

DSGSSAR(Sapienza,Université deRome) ANR CLA²T (Paris 3)

LIRMM (UniversitéMontpellier 2) Société Acetic Oxford University

Icar (ENS LSHLyon)

SociétéGrimmersoft

Oxford UniversityPress CLA²T (Paris 3)

Conception Langage de programmation Perl Visual Basic C++ Librairie Java PythonPrétraitement : Format d'entrée Format texte Format texte Format Lexico 3 Format texte Format texte Format texte Format texte, XML

Prétraitement :Caractères spéciaux dans leformat d'entrée $$$ < > *

Prétraitement :Catégorisation morpho-syntaxique

Prétraitement : Analyse morpho-syntaxique Non

Prétraitement :Antidictionnaire / suppression demots

Français, anglais,allemand,personnalisé

Prétraitement :Lemmatisation / remplacementde mots

Lemmatisation etremplacementavec Diatag

Remplacement demots

LemmatisationTreetagger(paramétréfrançais intégré)

Lemmatisationmaison pourl'italien,TreeTagger pourautres langues Non

Prétraitement : Segmentation mots

Choix descaractèresséparateurs demots

Choix descaractèresséparateurs demots

Caractèresséparateurs :ponctuationPython

Prétraitement :

Segmentation textes /découpage en parties (uneseule partition, plusieurspossibles ? possibilité deredéfinir les parties ?) Ok Non

Prétraitement :Découpage par parties : aperçude la syntaxe

$$$ Partie 1,Part1,P1 $$$ <partie=p1> Personnalisable

Comptage :Nombre de mots, de formesdifférentes

Recherche :KWOC (liste des formes ou descatégories) Oui, fréquence

Oui, aussi liste delocutions de lieu,nationalités... Oui, fréquence

Recherche :KWAC (concordance,possibilités de tris multiples)

Oui, taille fixe, tri àdroite et gauche

Oui, taille fixe, tri àgauche

Oui, taille fixe, parphrase, tri àgauche, à droite

Oui, concordancede groupes demots Non

Recherche : KWIC (contextes) NonRecherche : KWUT (texte surligné) Non

Objet de recherche :Filtre (expressions régulières,troncature)

Préfixes(également dans laconcordance)

Préfixes, suffixes,expressionsrégulières Non

Objet de recherche :

Catégories codées dans lecorpus (lemmes par ex.).Possibilité de superposerdifférents types de catégories Ok Non

Objet de recherche :

Recherche simultanée deplusieurs motifs (schéma demotifs consécutifs ou bien avecdiscontinuités)

Oui pour lesformesgraphiques, avecdiscontinuités

Oui pour lesschémassyntaxiques sansdiscontinuité Oui Non

Formesremarquables : Spécificité

Oui (valeursréelles), graphique

Oui (valeursentières),graphique, surtextes sélectionnésdepuis AFC Oui (TF-IDF) Non

Formesremarquables :

Collocation et segments répétés(organisation : triables parlongueur, fréquence,significativité)

Mutual information,t-score Oui

Oui (fenêtreglissante de taille2), choix dedistance

Formesremarquables : Cooccurrences

Oui (modèlehypergéométrique)

Oui, choix dedistance (parmi 13formules)

Formesremarquables :

Lieu du calcul de lacooccurrence (fenêtre de taillefixe, phrase, paragraphe, partie)

Fenêtre de taillefixe ou partie

Formesremarquables :

Cooccurrences autour d'un pôledonné

Fournir laconcordance dupôle en entrée dulogiciel

Formesremarquables :

Polycooccurrences (occcurrencesimultanée de plusieurs termesdans un même bloc)

Oui, visualisationpar des cheminsde cooccurrence

Visualisation : Position d'un mot au fil du texte Concordance plotRecherche plein-texte

Graphique desfréquencesabsolues,relatives, cartes desections,ensembles demots Non

Visualisation : Analyse factorielleOui (projection surune sphère) Oui

Oui, des textes etdes mots Oui, des textes

Ok, des mots etdes textes Non

Visualisation :

Fiabilité de l'analyse factorielle(ellipses de bootstrap,diagramme de contribution descomposantes)

Diagramme decontribution descomposantes

Oui, ellipses debootstrap

Oui, valeur debootstrap pourl'arbre

Visualisation :Analyse arborée (intratextuelleou intertextuelle)

Oui, limitée à 50feuilles,intratextuelle ouintertextuelle,décoration parcouleurs

Analyse arboréeintratextuelle,décoration parcouleurs et taillede police variable

Visualisation :

Fiabilité de l'analyse arborée(valeurs de bootstrap sur lesarêtes, sur l'arbre)

Visualisation : Carte auto-organisatrice Oui Non

Visualisation :Fiabilité de la carte auto-organisatrice (U-matrix)

Visualisation :Graphe de cooccurrence,lexicogramme (filtrage ?)

Oui, filtré pardegré decooccurrence Oui Non Ok Ok Ok

Ergonomie : Lien entre fonctionnalitésRetour au textepar clic

Recours auglisser-déplacerpour faire le lienentre listes etvisualisations Non

Ergonomie : Historique de navigation

Non, sauvegardedes derniersparamètres utilisésdans l'interfacegraphiqueWindows

Ergonomie : Export

Matrice decooccurrenceexportée en .csv,arbre exporté en .nexus ou .newick

Ergonomie :Possibilité d'appelerautomatiquement le programme Non Oui

Limites : Taille

au-delà de 3 Mode corpus, choisirversion supérieureà 4.6

22.500 répondants(individus, lignes),1.000 variables(numériques ounominales),100.000caractères pour lesréponses d'unindividu à desquestionsouvertes. 10^7 mots 10^7 mots

Limite inconnue,chargement de400,000 mots en30 secondes

Thèmes Logiciels : Alceste AntConc Astartex-Diatag CooCS DtmVic Hyperbase Hyperpo Lexico3 MonoConc Nooj (Intex) PhiloLogic SATO Spad Sphinx-Lexica Tact TalTac TextometrieTrameur (MétierLexicométrique) TreeCloud Tropes Xaira

Weblex(Lexploreur) Wordmapper Wordsmith

A tester, insertionpossible : edxml Métromètre

Page 2: Textométrie - Tableau comparatif

Limites : Nombre de textes 76 textes

« there may be alimit on the numberof files loaded »

Version 5.5 :Dépassement decapacité pouranalyse des corresbinaires à fichierWesley 1-74 d’environ 385.000occurrences ou 2,2Mo

1, éventuellementsegmenté enfenêtres decooccurrences ennombre illimité

Thèmes Logiciels : Alceste AntConc Astartex-Diatag CooCS DtmVic Hyperbase Hyperpo Lexico3 MonoConc Nooj (Intex) PhiloLogic SATO Spad Sphinx-Lexica Tact TalTac TextometrieTrameur (MétierLexicométrique) TreeCloud Tropes Xaira

Weblex(Lexploreur) Wordmapper Wordsmith

A tester, insertionpossible : edxml Métromètre