Pages : 1
#1 Le 11/04/2020, à 10:00
- gorosk
logiciel d'analyse textuelle
Bonjour, je vais essayer de poster à nouveau une discussion qui avait malheureusement été fermée par un modérateur sous prétexte qu’il s’agissait d’un doublon.
Voilà le contenu du message incriminé:
« Sauriez-vous me conseiller un logiciel libre d'analyse textuelle pour Linux permettant d'effectuer l'analyse des fréquences d’emploi des mots et des signes de ponctuations dans un texte ? Par exemple, savoir combien de fois tel mot a été employé ainsi que les virgules, points etc... »
NB. Mon premier message (celui qui a été maintenu dans le forum et qui est maintenant résolu) portait sur l’existence d’une fonction/extension pour LibreOffice permettant l’analyse textuelle et non pas sur des logiciels à proprement parler.
Dans l’espoir que cette fois-ci le contenu du message soit compris, je vous souhaite de joyeuses Pâques.
Julie
Hors ligne
#2 Le 11/04/2020, à 10:34
- Compte supprimé
Re : logiciel d'analyse textuelle
Bonjour,
Un truc de ce genre ?
https://rtemis.hypotheses.org/
https://rtemis.hypotheses.org/r-temis-dans-rstudio
Dernière modification par Compte supprimé (Le 11/04/2020, à 10:37)
#3 Le 11/04/2020, à 12:25
- kamaris
Re : logiciel d'analyse textuelle
En ligne de commande, tu peux faire ça assez facilement avec gawk.
Pour avoir le nombre d’occurrences d'un signe de ponctuation dans un fichier texte, par exemple une virgule :
gawk -F',' 'BEGIN{RS="\x00"} {print "Nombre de \"" FS "\" : " NF-1}' fichier
Pour avoir le nombre d’occurrences d'un mot (au sens d'une chaine de caractères séparée du reste du texte par une espace, un signe de ponctuation, ou autre caractère non alphanumérique) :
gawk -F'\\<mot\\>' 'BEGIN{RS="\x00"} {print "Nombre de \"" FS "\" : " NF-1}' fichier
Après, si tu as plusieurs caractères ou mots dont tu veux avoir le nombre d'occurrences, tu peux faire rentrer le choix du séparateur de champ dans gawk.
Par exemple, pour compter le nombre de virgules, de points et de « mot » :
gawk 'BEGIN{RS="\x00"; a["\\<mot\\>"]=""; a[","]=""; a["."]=""} {for (s in a){FS=s; $0=$0; print "Nombre de " s " : " NF-1}}' fichier
Hors ligne
Pages : 1