Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 12/04/2019, à 09:31

L'Africain

Supprimer entrées dupliquées dans fichier de dictionnaire

Bonjour,
Je travaille actuellement sur la création d'un dictionnaire grec ancien. A la base il était en doc, je l'ai converti en xml au format TEI. Cependant avant de pouvoir le distribuer je devrais supprimer les entrées en double, ou plutôt les fusionner. Et si possible modifier l'entrée numéro de Strong comme dans l'exemple plus bas. Je n'ai absolument aucune idée de comment faire ça...
Voici deux exemples:

<entryFree sortKey="Ἀβιά"><def>
<p><hi rend="italic"> (Abia)</hi></p>
   <p>di origine ebraica</p>
   <p>Numero Strong: 7</p>
   <p>nome maschile</p>
   <p>Abia = &quot;mio padre è Yah (Yahweh)&quot;</p>
   <p>1) un sacerdote, il capo di una famiglia sacerdotale; quando Davide divise i sacerdoti in 24 ordine, Abia era il capo dell&apos;ottavo</p>
   <p>2) figlio e successore di Roboamo sul trono di Giuda; nell&apos;AT Abiia</p>
   </def></entryFree>
<entryFree sortKey="Ἀβιά"><def>
<p><hi rend="italic">acc. sing., gen. sing.</hi></p>
   </def></entryFree>
<entryFree sortKey="Ἀβιὰ"><def>
<p><hi rend="italic">nom. sing.</hi></p>
    (+
<hi rend="bold">ὁ</hi>
) Abia: 1
   <p>Abia: 1</p>
   <p>di Abia: 1</p>
   <p><hi rend="bold">Totale:</hi> 3</p>
   </def></entryFree>

Je devrais donc le transformer en:

<entryFree sortKey="Ἀβιά|G0007"><def>
<p><hi rend="italic"> (Abia)</hi></p>
   <p>di origine ebraica</p>
   <p>nome maschile</p>
   <p>Abia = &quot;mio padre è Yah (Yahweh)&quot;</p>
   <p>1) un sacerdote, il capo di una famiglia sacerdotale; quando Davide divise i sacerdoti in 24 ordine, Abia era il capo dell&apos;ottavo</p>
   <p>2) figlio e successore di Roboamo sul trono di Giuda; nell&apos;AT Abiia</p>
  <p><hi rend="bold">Ἀβιά</hi>
<p><hi rend="italic">acc. sing., gen. sing.</hi></p>
  <p><hi rend="bold">Ἀβιὰ</hi>
<p><hi rend="italic">nom. sing.</hi></p>
    (+
<hi rend="bold">ὁ</hi>
) Abia: 1
   <p>Abia: 1</p>
   <p>di Abia: 1</p>
   <p><hi rend="bold">Totale:</hi> 3</p>
   </def></entryFree>

Ce premier exemple a deux entrées identiques pour un même mot et une troisième avec une différence d'accent sur le  ὰ final. la ligne Numero Strong est supprimée et le chiffre placé après l'entrée principale comme suit |G000<chiffre>, trois zéro si un seul chiffre, deux si deux chiffres de strong, etc.
Autre exemple:

<entryFree sortKey="Ἀβραάμ"><def>
<p><hi rend="italic"> (Abraam)</hi></p>
   <p>di origine ebraica</p>
   <p>TDNT - 1: 8,2</p>
   <p>Numero Strong: 11</p>
   <p>nome maschile</p>
   <p>Abraamo = &quot;padre di una moltitudine&quot;</p>
   <p>1) il figlio di Tera e il fondatore della nazione ebrea</p>
   </def></entryFree>
<entryFree sortKey="Ἀβραάμ"><def>
<p><hi rend="italic">acc. sing., dat. sing., gen. sing., nom. sing., voc. sing.</hi></p>
   </def></entryFree>
<entryFree sortKey="Ἀβραὰμ"><def>
<p><hi rend="italic">acc. sing.</hi></p>
    (+
<hi rend="bold">ὁ</hi>
) Abraamo: 2
   <p>a Abraamo: 1</p>
   <p>Abraamo: 50</p>
   <p>da Abraamo: 1</p>
   <p>di Abraamo: 19</p>
   <p><hi rend="bold">Totale:</hi> 73</p>
   </def></entryFree>

ça devrait donner:

<entryFree sortKey="Ἀβραάμ|G0011"><def>
<p><hi rend="italic"> (Abraam)</hi></p>
   <p>di origine ebraica</p>
   <p>TDNT - 1: 8,2</p>
   <p>nome maschile</p>
   <p>Abraamo = &quot;padre di una moltitudine&quot;</p>
   <p>1) il figlio di Tera e il fondatore della nazione ebrea</p>
   <hi rend="bold">Ἀβραάμ</hi>
<p><hi rend="italic">acc. sing., dat. sing., gen. sing., nom. sing., voc. sing.</hi></p>
   </def></entryFree>
<hi rend="bold">Ἀβραὰμ</hi>
<p><hi rend="italic">acc. sing.</hi></p>
    (+
<hi rend="bold">ὁ</hi>
) Abraamo: 2
   <p>a Abraamo: 1</p>
   <p>Abraamo: 50</p>
   <p>da Abraamo: 1</p>
   <p>di Abraamo: 19</p>
   <p><hi rend="bold">Totale:</hi> 73</p>
   </def></entryFree>

Je ne sais pas si on peut scripter ça, en tout cas déjà merci.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#2 Le 14/04/2019, à 15:23

LeoMajor

Re : Supprimer entrées dupliquées dans fichier de dictionnaire

bonjour,

sur quoi, tu te bases, pour supprimer , en tant que clefs dans le dico,  "Ἀβιὰ", "Ἀβραὰμ" ?  je trouve la décision arbitraire.

 /usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y  -l fr -s el  -t fr Ἀβιά
Ἀβιά
(Aviá)

Ivoia

Traductions de Ἀβιά
[ Ελληνικά -> Français ]

/usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y  -l fr -s el  -t fr Ἀβιὰ
Ἀβιὰ
(Aviá)

Avia

Traductions de Ἀβιὰ
[ Ελληνικά -> Français ]
/usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y -l es -s el  -t es Ἀβραάμ
Ἀβραάμ
(Avraám)

Abraham

Traducciones de Ἀβραάμ
[ Ελληνικά -> Español ]
 /usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y -l es -s el  -t es Ἀβραὰμ
Ἀβραὰμ
(Avraám)

Ibrahim

Traducciones de Ἀβραὰμ
[ Ελληνικά -> Español ]
/usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y -l fr -s el  -t fr Ἀβραάμ
Ἀβραάμ
(Avraám)

Abraham

Traductions de Ἀβραάμ
[ Ελληνικά -> Français ]

 /usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y -l fr -s el  -t fr Ἀβραὰμ

Ἀβραὰμ
(Avraám)

Ibrahim

Traductions de Ἀβραὰμ
[ Ελληνικά -> Français ]
/usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y -w 20 -l ar -s el  -t ar Ἀβραάμ
Ἀβραάμ
(Avraám)

             ﻢﻴﻫﺍﺮﺑﺇ
('iibrahim)

       Ἀβραάμ ﺕﺎﻤﺟﺮﺗ
[ Ελληνικά -> ﺔﻴﺑﺮﻌﻟﺍ ]

 /usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y -w 20 -l ar -s el  -t ar Ἀβραὰμ
Ἀβραὰμ
(Avraám)

             ﻢﻴﻫﺍﺮﺑﺇ
('iibrahim)

       Ἀβραὰμ ﺕﺎﻤﺟﺮﺗ
[ Ελληνικά -> ﺔﻴﺑﺮﻌﻟﺍ ]

et même là où on n'y s'attend pas (en japonais)

/usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y  -l ja -s el  -t ja Ἀβραάμ
Ἀβραάμ
(Avraám)

アブラハム
(Aburahamu)

「Ἀβραάμ」の翻訳
[ Ελληνικά -> 日本語 ]

 /usr/local/bin/trans -no-auto -d -e google -show-original-phonetics=Y -show-translation-phonetics=Y  -l ja -s el  -t ja Ἀβραὰμ
Ἀβραὰμ
(Avraám)

イブラヒム
(Iburahimu)


「Ἀβραὰμ」の翻訳
[ Ελληνικά -> 日本語 ]

je pense qu'il faut laisser les clefs pour que les requêtes aboutissent et faire comme le petit larousse, ou wikipedia.
abraham <-> ibrahim
clef abraham  <-> clef ibrahim

Ἀβιά / Ἀβιὰ ; deux clefs distinctes avec selon les langues, des valeurs identiques (en, it, la, .. vs pays musulmans) ou différentes (es,fr,de,ja, ...).
idem avec Ἀβραάμ / Ἀβραὰμ

si tu supprimes certaines clefs, cela veut dire aussi, que dans une routine informatique, tu ne pourras pas modéliser du grec pour n langues.

Hors ligne

#3 Le 15/04/2019, à 08:42

L'Africain

Re : Supprimer entrées dupliquées dans fichier de dictionnaire

Salut,
Il n'y a rien d'arbitraire. Sauf que le second exemple je n'avais pas vu que l'accent était différent. Je ne veux que supprimer les entrées exactement identiques. Là je le fait manuellement en ayant fait un sort et un diff, mais mon fichier diff me note tout de même des entrées qui ne se trouvent qu'une fois. J'ai 2500 entrées en double, je suis arrivé à 1500 manuellement...


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne