Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 11/04/2020, à 10:00

gorosk

logiciel d'analyse textuelle

Bonjour, je vais essayer de poster à nouveau une discussion qui avait malheureusement été fermée par un modérateur sous prétexte qu’il s’agissait d’un doublon.

Voilà le contenu du message incriminé:

« Sauriez-vous me conseiller un logiciel libre d'analyse textuelle pour Linux permettant d'effectuer l'analyse des fréquences d’emploi des mots et des signes de ponctuations dans un texte ? Par exemple, savoir combien de fois tel mot a été employé ainsi que les virgules, points etc... »

NB. Mon premier message (celui qui a été maintenu dans le forum et qui est maintenant résolu) portait sur l’existence d’une fonction/extension pour LibreOffice permettant l’analyse textuelle et non pas sur des logiciels à proprement parler.

Dans l’espoir que cette fois-ci le contenu du message soit compris, je vous souhaite de joyeuses Pâques.

Julie

Hors ligne

#2 Le 11/04/2020, à 10:34

Compte supprimé

Re : logiciel d'analyse textuelle

Bonjour,
Un truc de ce genre ?
https://rtemis.hypotheses.org/
https://rtemis.hypotheses.org/r-temis-dans-rstudio

Dernière modification par Compte supprimé (Le 11/04/2020, à 10:37)

#3 Le 11/04/2020, à 12:25

kamaris

Re : logiciel d'analyse textuelle

En ligne de commande, tu peux faire ça assez facilement avec gawk.
Pour avoir le nombre d’occurrences d'un signe de ponctuation dans un fichier texte, par exemple une virgule :

gawk -F',' 'BEGIN{RS="\x00"} {print "Nombre de \"" FS "\" : " NF-1}' fichier

Pour avoir le nombre d’occurrences d'un mot (au sens d'une chaine de caractères séparée du reste du texte par une espace, un signe de ponctuation, ou autre caractère non alphanumérique) :

gawk -F'\\<mot\\>' 'BEGIN{RS="\x00"} {print "Nombre de \"" FS "\" : " NF-1}' fichier

Après, si tu as plusieurs caractères ou mots dont tu veux avoir le nombre d'occurrences, tu peux faire rentrer le choix du séparateur de champ dans gawk.
Par exemple, pour compter le nombre de virgules, de points et de « mot » :

gawk 'BEGIN{RS="\x00"; a["\\<mot\\>"]=""; a[","]=""; a["."]=""} {for (s in a){FS=s; $0=$0; print "Nombre de " s " : " NF-1}}' fichier

Hors ligne