Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 21/09/2021, à 16:23

L'Africain

Convertir code html lettres grec en utf8

Bonjour,
J'ai un milier de fichier html avec des passages en grecs. Je convertis les fichiers en txt avec html2text. Hélas durant la conversion les mots grecs restent en code html.
Je cherche un moyen de convertir ces mots en "vrais" caractères grecs. Voilà un exemple de texte dans la sortie en fichier txt:

This book has had a variety of names: Πραξεις των Αποστολων, the Res Gestae, Acts or Transactions of the Apostles, is the title it bears in the Codex Bezae. Πραξεις των ΑÌ”γιων Αποστολων The Acts of the Holy Apostles, is its title in the Codex

Autre éléments quand je fais un:

file -mime--encoding 

Il me répond us-ascii. Si j'utilise unoconv pour la conversion ça fonctionne bien, pour le grec mais ça prend une temps extrêmement long vu le nombre de fichiers.

Merci d'avance.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#2 Le 21/09/2021, à 16:58

Vobul

Re : Convertir code html lettres grec en utf8

L'Africain a écrit :

Si j'utilise unoconv pour la conversion ça fonctionne bien, pour le grec mais ça prend une temps extrêmement long vu le nombre de fichiers.

Donc t'as déjà une solution qui fonctionne si je comprends bien. "un temps extrêmement long", c'est-à-dire ? Et si tu mets les fichiers sur un disque nvme ?


Vobul
Utilisez le retour utilisable de commandes !!!
J'aime la langue française, mais je parle franglais, deal with it.
RTFM

Hors ligne

#3 Le 21/09/2021, à 18:18

L'Africain

Re : Convertir code html lettres grec en utf8

un temps extrêmement long

Deux heures en réalité. Le tout est déjà sur un disque sdd. unoconv n'est pas une solution correcte, de façon générale il est buggé. Si je n'ai pas le choix, je l'utiliserais, mais tout mon script est construit avec html2text il faudrait que je recommence tout si je viens à unoconv.

Dernière modification par L'Africain (Le 21/09/2021, à 20:11)


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#4 Le 22/09/2021, à 09:20

gigiair

Re : Convertir code html lettres grec en utf8

pandoc permet toute conversion entre langages à balise. Le man explique comment procéder pour obrenir un résultat en utf-8. Je ne peux pas garantir que la conversion sera plus rapide, il faut essayer.


--
JJR.

Hors ligne

#5 Le 22/09/2021, à 14:41

L'Africain

Re : Convertir code html lettres grec en utf8

Ok merci je vais essayer ça.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#6 Le 22/09/2021, à 16:14

LeoMajor

Re : Convertir code html lettres grec en utf8

salut,
il faut récupérer le charset sur ton html d'origine.
exemple avec du japonais.

$ lynx -source https://www1.kaiho.mlit.go.jp/KANKYO/TIDE/curr_pred/index.htm | grep -i charset
  <META content="text/html: charset=Shift_JIS" http-equiv-Content-Type>

donc,

lynx -source  -display_charset=Shift_JIS https://www1.kaiho.mlit.go.jp/KANKYO/TIDE/curr_pred/index.htm  | iconv -f SHIFT-JIS -t UTF8 

Edit;  format un peu plus compact

lynx -dump  -nolist  -display_charset=Shift_JIS  ....  | iconv -f SHIFT-JIS -t UTF8 

Dernière modification par LeoMajor (Le 22/09/2021, à 16:38)

Hors ligne

#7 Le 22/09/2021, à 16:48

L'Africain

Re : Convertir code html lettres grec en utf8

Dans mon fichier html le charset est déjà à utf8. Il semble que l'ascii soit une sous catégorie de l'utf8.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#8 Le 22/09/2021, à 20:52

grigouille

Re : Convertir code html lettres grec en utf8

Ben c'est normal qu'il te ressorte le texte comme il est : il faut écrire &#x3A0;

Essaie ceci :

This book has had a variety of names: &#x3a0;

Debian (xfce) 12
HP LaserJet M1132 MFP

Hors ligne

#9 Le 22/09/2021, à 20:59

L'Africain

Re : Convertir code html lettres grec en utf8

Salut Grigoulle,
J'ai pas compris? C'est quoi que je dois changer?
Bon au final je me contente d'unoconv pour l'instant. Je le lance quand je fait autre chose.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#10 Le 22/09/2021, à 21:04

grigouille

Re : Convertir code html lettres grec en utf8

$ cat toto.html 
<html>
This book has had a variety of names: &amp;#x3a0;
This book has had a variety of names: &#x3a0;
</html>

Maintenant ouvre dans un navigateur :

firefox toto.html

Debian (xfce) 12
HP LaserJet M1132 MFP

Hors ligne

#11 Le 23/09/2021, à 09:16

grigouille

Re : Convertir code html lettres grec en utf8

Désolé l'Africain, j'ai mal compris ta question. Effectivement html2text ne fait pas le travail.


Debian (xfce) 12
HP LaserJet M1132 MFP

Hors ligne

#12 Le 23/09/2021, à 11:32

LeoMajor

Re : Convertir code html lettres grec en utf8

si tu es déjà en utf8 ...

alors avec les locales, cela devrait être plus rapide

~$ locale -a | grep -i "jp\|gr\|el"
el_CY.utf8
el_GR.utf8
ja_JP.utf8

https...://el.wikipedia.org/wiki/%CE%95%CE%BB%CE%BB%CE%AC%CE%B4%CE%B1   (el.wikipedia.org/wiki/Ελλάδα)  renvoie un charset utf8

~$ LANG=el_GR.utf8 date > /tmp/wiki-grec.txt 
~$ LANG=el_GR.utf8 lynx -dump -nolist  https://el.wikipedia.org/wiki/%CE%95%CE%BB%CE%BB%CE%AC%CE%B4%CE%B1 >> /tmp/wiki-grec.txt
~$ head -20 /tmp/wiki-grec.txt
Πεμ 23 Σεπ 2021 11:25:08 πμ CEST
   #alternate Επεξεργασία Βικιπαίδεια (el)

Ελλάδα

   Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
   Μετάβαση στην πλοήγηση Πήδηση στην αναζήτηση
   Ο όρος «Ελληνική Δημοκρατία» ανακατευθύνει εδώ. Για άλλες χρήσεις,
   δείτε: Ελληνική Δημοκρατία (αποσαφήνιση).
...

Hors ligne