#1 Le 28/04/2020, à 10:32
- DonutMan75
un fichier pdf bien foireux...
Bonjour à tous,
j'ai un soucis avec un fichier pdf de 2011 que j'ai récupéré et que j'arrivais à lire cahin-caha à l'époque (comprendre par là : uniquement avec Adobe Reader sous OSX).
Avec un autre lecteur ou un autre OS, de grandes parties de texte ne s'affichaient pas...
Aujourd'hui je souhaite le relire et TOUS les lecteurs foirent...
En cherchant sur le net, je crois comprendre que ce problème est symptomatique d'une police de caractère qui N'est PAS incluse dans le PDF et qui n'est pas non plus présente sur mon système...
Il s'agit d'un PDF créé par "Acrobat Distiller 9.3.3 (Windows)" via "Acrobat PDFMaker 9.1 de Word Office" et il est au format PDF-1.3
Quand je l'ouvre avec Evince, j'ai ce message (qui s'affiche curieusement dans le terminal) :
$ evince "fichier_pdf_moisi.pdf"
$ ! SyncTeX Error : No file?
Le lecteur se lance normalement et tout se passe bien (mis-à-part ces portions de texte qui disparaissent).
J'ai installé des polices de caractères au petit bonheur la chance sans que ça ait changé quoi que ce soit :
$ sudo apt-get install ttf-mscorefonts-installer
$ sudo apt-get install gsfonts-x11
J'ai aussi copié les polices de caractère Windows (de mon dual boot) sans que ça ait changé quoi que ce soit.
Voici les lecteurs testés :
- lecteur par défaut OSX
- Acrobat Reader OSX
- lecteur par défaut Windows 10
- Evince
A chaque fois le même problème....
Le fait que j'y arrivais dans le temps me laisse supposer qu'il doit s'agir d'une vieille police de caractère qui n'est plus vraiment populaire actuellement...
Evince n'a hélas pas d'option verbose. J'aurais aimé avoir une sortie du style "Erreur : la police 'police_toute_pourrie.ttf" n'a pas été trouvé sur le système.."
Que me conseillez-vous de faire ?
Merci d'avance
Donut
Hors ligne
#2 Le 28/04/2020, à 10:51
- Nuliel
Re : un fichier pdf bien foireux...
Bonjour,
Tu peux essayer d'installer le paquet libsynctex-dev ou libsynctex1 .
Apparemment ton fichier contient du latex vu qu'il a besoin d'un parser Tex.
Hors ligne
#3 Le 28/04/2020, à 10:52
- diesel
Re : un fichier pdf bien foireux...
grep ".ttf" mon_pdf_pourri.pdf
Amicalement.
Jean-Marie
Je déteste qu'on cherche à me faire passer pour un con, j'y arrive déjà très bien tout seul.
Le mort, il sait pas qu'il est mort ; c'est pour les autres que c'est dur.................... Pour les cons, c'est pareil.
Hors ligne
#4 Le 28/04/2020, à 10:59
- gl38
Re : un fichier pdf bien foireux...
La commande pdffonts devrait donner les polices du fichier.
Cordialement,
Guy
Hors ligne
#5 Le 28/04/2020, à 11:05
- DonutMan75
Re : un fichier pdf bien foireux...
Bonjour à vous deux,
merci pour vos retours
Naziel : j'ai installé ces paquets mais ça n'a rien changé..
diesel : merci pour ta suggestion, j'ai creusé dans ce sens là
grep '.ttf' mon_pdf_pourri.pdf ne fonctionne pas directement, j'ai du ajouter un strings devant
$ strings mon_pdf_pourri.pdf | grep '\.ttf'
$ strings mon_pdf_pourri.pdf | grep FontName
<< /Type /FontDescriptor /FontName /EBDPXN+TimesNewRomanPSMT /Flags 32 /FontBBox
<< /Type /FontDescriptor /FontName /HPIQOT+Arial-BoldMT /Flags 32 /FontBBox
<< /Type /FontDescriptor /FontName /CVURWA+ArialMT /Flags 4 /FontBBox [-665 -325 2000 1006]
<< /Type /FontDescriptor /FontName /REPSPD+SymbolMT /Flags 4 /FontBBox [0 -220 1113 1005]
<< /Type /FontDescriptor /FontName /RWLFHO+Arial-ItalicMT /Flags 96 /FontBBox
<< /Type /FontDescriptor /FontName /JXTZIF+TimesNewRomanPS-ItalicMT /Flags
<< /Type /FontDescriptor /FontName /JLVOKP+Arial-BoldMT /Flags 32 /FontBBox
<< /Type /FontDescriptor /FontName /FHUIDG+TimesNewRomanPSMT /Flags 32 /FontBBox
<< /Type /FontDescriptor /FontName /VESJOW+ArialMT /Flags 32 /FontBBox [-665 -325 2000 1006]
Ok on a quelques pistes ici... Je n'y connais rien du tout en Police, j'ignore si celles-ci sont communes ou pas sur Linux..
Apparemment la commande fc-list permet de lister les polices installées sur le système... mais je suis bien incapable d'établir une correspondance entre les éléments de cette liste et ceux obtenus via strings...
$ fc-list : family | grep -iE "(times|arial|symbol)"
OpenSymbol
Segoe UI Symbol
Arial Black
Times New Roman
Symbol
Standard Symbols L
Arial,Arial Black
Noto Sans Symbols
Arial
Noto Sans Symbols2
Hors ligne
#6 Le 28/04/2020, à 11:14
- Hizoka
Re : un fichier pdf bien foireux...
Salut,
J'aurais tendance à dire qu'il te faut les polices :
Arial : OK
Arial-Bold : Absent : https://ufonts.com/download/arial-boldmt-opentype.html
Arial-Italic : Absent : https://ufonts.com/download/arial-itali … ntype.html
Symbol : OK
TimesNewRomanPS-Italic : Absent :
TimesNewRomanPS : Absent ? : https://www.world-fonts.com/font/show/t … font-v1-00
Dernière modification par Hizoka (Le 28/04/2020, à 11:19)
KDE Neon 64bits
Tous mes softs (MKVExtractorQt, HizoSelect, HizoProgress, Qtesseract, Keneric, Services menus...) sont sur github
Hors ligne
#7 Le 28/04/2020, à 12:15
- serged
Re : un fichier pdf bien foireux...
Si c'est le texte qui t'intéresse, tu peux utiliser pdftohtml voire pdf2txt (dans le paquet python-pdfminer)
LinuxMint Vera Cinnamon et d'autres machines en MATE, XFCE... 20.x , 21.x ou 19.x
Tour : Asus F2A55 / AMD A8-5600K APU 3,6GHz / RAM 16Go / Nvidia GeForce GT610 / LM21.1 Cinnamon
Portable : LDLC Mercure MH : Celeron N3450 /RAM 4Go / Intel HD graphics 500 i915 / biboot Win 10 (sur SSD) - LM21.1 MATE (sur HDD)
Hors ligne
#8 Le 28/04/2020, à 13:59
- DonutMan75
Re : un fichier pdf bien foireux...
Bonjour Hizoka et serged,
merci serged pour ta suggestion, je n'y avais pas pensé. J'ai d'abord tenté un pdf2ps mais le résultat est identique (police absente). Avec pdftohtml, ça mouline pas mal (le document fait plus de 800 pages...). J'ai tenté de borner les pages pour un test avec les options -f (from) et -l (last) mais alros ça me renvoie toujours le sommaire quelques que soient les valeurs passées à from et last.
Hizoka, j'ai suivi ta suggestion et j'ai rajouté les polices dans /usr/share/fonts/custom (créé pour l'ocassion). J'ai ensuite lancé un fc-cache tel qu'expliqué dans la doc d'Ubuntu :
$ sudo fc-cache -f -v
(...)
/usr/share/fonts/custom: caching, new cache contents: 3 fonts, 0 dirs
(...)
Puis j'ai redémarré. Et hélas toujours le même affichage...
J'ai farfouillé du côté de la doc de PDF v1.3 pour savoir ce qu'étaient ces FontDescriptor. Morceau choisi :
A font descriptor specifies metrics and other attributes of a simple font or a CID-Font as a whole, as distinct from the metrics of individual glyphs. These fontmetrics provide information that enable a viewing application to synthesize a substitute font or select a similar font when the font program is unavailable. The font descriptor may also be used to embed the font program in the PDF file. (Font descriptors are not used with Type 0 or Type 3 fonts.)
Donc... bin normalement il n'est pas sensé m'afficher du vide s'il manque des polices non ?
Hors ligne
#9 Le 28/04/2020, à 14:32
- gl38
Re : un fichier pdf bien foireux...
Avec pdftk on peut extraire des pages d'un pdf.
J'ignore s'il pourra atteindre 800 !
Cordialement,
Guy
Hors ligne