Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 29/11/2005, à 11:04

sx1

Encodage page htm sous Linux, le retour en enfer ???

Bonjour,

Je ne sais pas si je suis au bon endroit, mais j'ai un gros soucis depuis que j'essaye de gérer et mettre à jour mon site à partir d'Ubuntu.

Aujourd'hui c'est l'encodage qui délire et je ne sais pas quoi faire.

Jusque à présent toutes mes pages sont en iso 8859-1 via l'entête dynamique des pages.

Screem travaille en UTF8, mais j'ai enregistré en 8859-1.

Bilan : une horreur, j'ai des codes partout ou il y a des caractère accentués.

Exemple :

phénomène à

en 8859-1 enregistré via Screem
alors que je devrait avoir

phénomène à

en vrai

Lorsque j'ouvre la page en local en changeant l'encodage avec firefox, en UTF8 j'ai un affichage nickel.

Donc malgré le choix manuel à la sauvegarde en 8859-1, Screem reste en utf8, à priori.

Quelqu'un aurait-il une solution ? Ou au moins une adresse d'un forum plus adéquoit pour ce type de topic ?

Merci.


Sous Linux depuis 2005.

Hors ligne

#2 Le 29/11/2005, à 11:23

martin

Re : Encodage page htm sous Linux, le retour en enfer ???

dans l'entête de tes pages (<head></head>) il te faut ça pour que les navigateurs sélectionnent le bin jeu de caractères :

<meta HTTP-EQUIV="content-type" CONTENT="text/html; charset=UTF-8">

Hors ligne

#3 Le 29/11/2005, à 11:33

sx1

Re : Encodage page htm sous Linux, le retour en enfer ???

Je sais çà.

Mes pages sont codées ainsi depuis toujours :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr">

<head>

<!--balises meta html-equiv -->

<meta http-equiv="Content-Type" content="text/xml; charset=iso-8859-1" />
[blablabla]

C'est injecté automatiquement puisque mes pages sont dynamiques (php).
(séparation entête/corps de page/pied)

Cela fonctionne depuis 4 ans...

La question est comment enregistrer un fichier texte en 8859-1 sous Ubuntu, puisque même en faisant un copier coller sous gedit, je reste en UTF8.

Je ne veux pas d'UTF8, je ne vais jamais en UTF8, je hais l'UTF8... wink


Sous Linux depuis 2005.

Hors ligne

#4 Le 29/11/2005, à 12:01

Donk

Re : Encodage page htm sous Linux, le retour en enfer ???

L'utf-8 c'est bon, mangez-en tongue

Sinon sous gedit pour changer l'encodage, tu fais "fichier ->enregistrer sous" et là tu pourras sélectionner l'encodage que tu désir

Hors ligne

#5 Le 29/11/2005, à 12:54

sx1

Re : Encodage page htm sous Linux, le retour en enfer ???

C'est ce que je fait. Cela ne donne rien.
Je pb doit venir du fait que le texte brut est une export de OpenOffice en format xml, je cherche...


Sous Linux depuis 2005.

Hors ligne

#6 Le 29/11/2005, à 12:58

Yann

Re : Encodage page htm sous Linux, le retour en enfer ???

c'est simple, tu as enregistré ton fichier en utf8, et tu indiques dans la apge HTML de l'afficher en iso-8859-1 smile avec gedit tu dois pouvoir spécifier l'encodage, mais le fichier source est en utf8 là c'est sur wink


Et pourtant moi, jsuis pas du genre délicat,
Dans un coin de la musse, j'ai posé mon matelas
- Paulo Anarkao

Hors ligne

#7 Le 29/11/2005, à 13:40

sx1

Re : Encodage page htm sous Linux, le retour en enfer ???

Ben là Gedit me répondre gentiment quoique fermement :

IMPOSSIBLE D'ENREGISTRER
Séquence d'octets non valide en entrée du convertisseur.

Je hais toujours l'UTF8...


Sous Linux depuis 2005.

Hors ligne

#8 Le 29/11/2005, à 23:45

doof

Re : Encodage page htm sous Linux, le retour en enfer ???

Salut, je n'ai hélas pas la solution sous gnome, mais j'ai aussi été confronté à ce problème quand je suis passé sur kubuntu.

Avec l'editeur kate du kde, il sufisait de selectionner le bon encodage ( de mémoire "outils"->"encodage"->"utf8") et ensuite de sauvegarder.

Sinon, j'ai découvert dernièrement un "service menu" pour konqueror qui permet de tout renommer en utf8 et aussi de transformer les fichiers texte en utf8. Ca marche très bien (grace a lui, j'ai pu renommer 40000 fichiers).

L'interressant est que ce service menu s'appuie sur 2 programmes en ligne de commande : "convmv" pour renommer les fichiers et "recode" pour les transformer, tu pourra voir la syntaxe en regardant directement dans le service menu : http://www.kde-apps.org/content/show.php?content=31400 et l'adapter (pourquoi pas en faire un script nautilus).

Par contre, je crains que ta manip de vouloir sauvegarder en utf8 sans le transformer avant ai donné des fichiers corrompus.

Hors ligne

#9 Le 04/12/2005, à 00:46

jd

Re : Encodage page htm sous Linux, le retour en enfer ???

1. Quel est le problème ?
À titre informatif, si quelqu'un rencontre le même problème sans savoir vraiment qu'elle en est la cause : le soucis de sx1, c'est que son fichier html déclare à tout le monde « je suis en iso-8859-1 ! » avec la mention charset=iso-8859-1 (il s'agit d'un encodage européen), mais cela ne correspond pas à la réalité des caractères du fichier, qui ont été enregistrés et encodés d'une autre manière que celle correspondant à iso-8859-1. En l'occurence, cette autre manière de faire, d'encoder les caractères, est celle d'UTF-8. Comme ce que le fichier dit ne correspond pas à ce que le fichier est, il y a problème.

Moralité : il ne suffit pas de déclarer dans son fichier html l'encodage utilisé pour les caractères, il faut aussi veiller à enregistrer le-dit fichier dans l'encodage déclaré.

2. Qu'est-ce que l'UTF-8 ?
La lecture de cet article répondra à vos questions : http://openweb.eu.org/articles/jeux_caracteres/

Pour résumer rapidement, utf-8 est un codage des caractères, dont la vocation est de proposer à la fois un très grand nombre d'alphabets et une compatibilité avec les systèmes plus anciens et restreints de codage des caractères (techniquement parlant, UTF-8 est un format de codage pour les caractères d'Unicode, dont la particularité est de reposer sur un codage de longueur variable - de un à quatre octets par caractère. voir http://fr.wikipedia.org/wiki/UTF-8 pour plus de détails).

Parmi les encodages de jeux de caractères plus anciens, on trouve par exemple l'iso-8859-1/15, qui correspond à un ensemble de caractères « européens » (avec des choses comme ç, ö, œ...). Il y a également le très connu ASCII, qui code 128 caractères, sans accents ni autres distinctions typographiques.

Pendant longtemps, il a été compliqué (pour ne pas dire impossible) de mélanger différentes langues au sein du même document html, car on ne peut utiliser qu'un seul jeu de caractère par document (la raison est simple : il faut à un moment enregistrer le document, c'est-à-dire encoder sous forme binaire les caractères qui le composent ; les correspondances sont celles indiquées par le charset déclaré dans le corps du document html).

L'UTF-8 rend possible l'intégration de différentes langues au sein d'un même document (on peut écrire du japonais, du grec et du français avec le même jeu de caractère car on utilise un seul encodage pour tout ça). Mais ça ne concerne pas que les pages web : Ubuntu possède par exemple une « locale », variable système, indiquant la langue de l'OS et l'encodage utilisé. Vous avez peut-être remarqué et/ou choisi fr_FR.UTF8 comme valeur de cette locale.

Moralité : l'UTF-8 est très utile et courant, mais finalement méconnu, et parfois dénigré à tort. Une fois qu'on a compris comment ça marche, les problèmes usuels s'envolent.

Dernière modification par jd (Le 04/12/2005, à 15:57)

Hors ligne

#10 Le 04/12/2005, à 13:16

aleph

Re : Encodage page htm sous Linux, le retour en enfer ???

Pour résumer rapidement, utf-8 est un jeu de caractère...

En résumé, il ne faut pas résumer.
UTF-8 n'est pas un jeu de caractères, UTF-8 n'est qu'un encodage d'Unicode.

#11 Le 04/12/2005, à 14:52

jd

Re : Encodage page htm sous Linux, le retour en enfer ???

En effet, UTF-8 est un format de codage des caractères Unicode, tandis que le jeu de caractère en lui-même est l'ensemble des glyphes (en l'occurence, un bon paquet pour UTF).

J'ai fait ce raccourci presque malgré moi, car à force de déclarer des charset=, on a tendance à désigner par « jeu de caractères » ce qui n'en est pas un. J'ai corrigé.

Dernière modification par jd (Le 04/12/2005, à 14:58)

Hors ligne

#12 Le 04/12/2005, à 16:47

RastaPopoulos

Re : Encodage page htm sous Linux, le retour en enfer ???

Non mais d'après ce que j'ai lu sx1 à TRES BIEN compris qu'il ne suffisait pas de marquer que c'était en iso-88-59-1 pour que ça le soit. Il sait parfaitement comme ça marche mais il VEUT que ce soit justement encodé en iso-8859-1 mais il n'y arrive pas ! A chaque fois qu'il enregistre ça se met en UTF-8. C'est ça qu'il demande.

Et je vois pas quoi lui dire de plus parce qu'effectivement la seule manière que je connais avec gedit en tout cas c'est de faire "enregistrer sous" et là on peut choisir.

Alors si ça, ça ne marche pas, il va falloir chercher un autre programme. Perso je n'y connais rien (putain mon intervention n'a aucune utilité en fait) vu que gedit marche très bien chez moi.

Dernière modification par RastaPopoulos (Le 04/12/2005, à 16:49)


Aux stars qui s'offrent en idoles / Aux intellos parasitaires
Je laisse jouer le rôle / Peu à mon goût libertaire
De porte-plume et parole / Pour les muets volontaires

Hors ligne

#13 Le 04/12/2005, à 19:19

racoon97

Re : Encodage page htm sous Linux, le retour en enfer ???

Sujet déplacé dans "Internet & réseaux"


Pas de logiciel de montage vidéo professionnel sous Linux ? Demandez à Sony son portage de Vegas Pro sous Linux... ou attendez Lightworks ;)

Hors ligne

#14 Le 04/12/2005, à 23:58

skateinmars

Re : Encodage page htm sous Linux, le retour en enfer ???

je vois une solution:
tout avoir en utf-8 big_smile

Hors ligne

#15 Le 06/12/2005, à 01:24

EurkY

Re : Encodage page htm sous Linux, le retour en enfer ???

et éventuellement :
ne pas utiliser GEDIT, mais VIM ( avec sa coloration syntaxique ) me semble qu'il écrit lui en iso-8859- ...

Enfin jamais vérifier en meme temps, vu que je n'utilise pas gedit, trop lourd a démarrer à mon gout:rolleyes:

Hors ligne

#16 Le 06/12/2005, à 11:34

reggaemanu

Re : Encodage page htm sous Linux, le retour en enfer ???

Puisque tes pages passent si tu les enregistre en utf-8 pourquoi te prendre la tête?
D'autant plus que l'utf-8 c'est l'avenir, meme windows y viendra un jour, c'est bien plus pratique que l'iso.
Bon ok ça ne répond pas au problème, mais bon...

Hors ligne

#17 Le 06/12/2005, à 11:36

Stemp

Re : Encodage page htm sous Linux, le retour en enfer ???

EurkY a écrit :

et éventuellement :
ne pas utiliser GEDIT, mais VIM ( avec sa coloration syntaxique ) me semble qu'il écrit lui en iso-8859- ...

Enfin jamais vérifier en meme temps, vu que je n'utilise pas gedit, trop lourd a démarrer à mon gout:rolleyes:

Sous gedit --> enregister sous .... modifier le codage de caractères


«La violence n'a jamais rien réglé» Gengis Khan 1162-1227
Blog | Crunchbang Linux | Arch Linux

Hors ligne

#18 Le 06/12/2005, à 17:36

aleph

Re : Encodage page htm sous Linux, le retour en enfer ???

Bon honnêtement, après tout ce blabla, j'aimerais avoir un état clair et correct de la situation.
Est-ce que gedit enregistre correctement les fichiers texte au format ISO-8859-1 ? Oui ou
non ?
Si problème il y a, est-ce un problème dû à Ubuntu, Gnome ou gedit. Et Kubuntu,  Kate ?

Je demande ceci humblement, j'ai plusieurs milliers de scripts Python sur ma platform w2k. Si les éditeurs standards d'Ubuntu ne fonctionne pas, je n'ai même plus l'envie de re-tester Ubuntu.

Merci

PS
"D'autant plus que l'utf-8 c'est l'avenir, même windows y viendra un jour, c'est bien plus pratique que l'iso."
Microsoft utilise Unicode depuis belles lurettes, bien avant qu'Ubuntu n'existe. C'est son standard pour les représentations internes dans les API. Microsoft utilise l'encodage UTF-16. Les platformes "unix" sont plutôt orientées UTF-8.

#19 Le 14/12/2005, à 20:16

Yoms

Re : Encodage page htm sous Linux, le retour en enfer ???

Je re-uppe ce vieux thread car il m'intéresse. J'ai un dual boot WinXP / Kubuntu. J'ai installé ce dernier récemment et bien entendu tous mes docs, CV et j'en passe ont été faits sous WinXP.

Bref, qu'est-ce que je dois choisir pour ne plus avoir des "rectangles" dans mes fichiers texte par exemple, là où je devrais avoir des accents ? D'après le précédent post, c'est UTF-16 que je dois prendre ? Y'a moyen de changer pour que ce soit applicable partout dans mon OS ?

Merci.

Hors ligne