Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 29/02/2020, à 13:15

ptilou007

Doublons recherche par le contenu ?

Bonjour,

Je cherche un script pour faire un trie dans 3 To de donnée, j'ai d'une part des images comme elles sont sauvegardé par divers moyen elles n'ont pas les même données et tailles, d'autre part (c'est mal) j'ai utilisé Windows media et j'ai de la music avec des titre et artiste différent alors que le contenu est le même, je cherche donc un script en batch, perl, ou python ?

Merci

--
ptilou

Hors ligne

#2 Le 29/02/2020, à 13:49

JpmGir

Re : Doublons recherche par le contenu ?

Salut
pour le script je ne t'aiderai pas désolé, mais il y a un logiciel génial qui aide beaucoup a faire du tri c FSlint.


JpmGir ȣ JG
http://jpmgir.org/ http://serveur-1.jpmgir.org/ http://serveur-2.jpmgir.org/ http://serveur-4.jpmgir.org/
Cacographe émérite depuis plus de 50 années terrestre je vous prit si vous voyer des erreur dans entretenir votre animal de compagnie ȣ votre dieu préféré, car çà m’en touche une sans faire bouger l’autre merci.

Hors ligne

#3 Le 29/02/2020, à 17:39

kamaris

Re : Doublons recherche par le contenu ?

ptilou007 a écrit :

j'ai d'une part des images comme elles sont sauvegardé par divers moyen elles n'ont pas les même données et tailles

Et alors, tu veux les trier comment ?

ptilou007 a écrit :

, d'autre part (c'est mal) j'ai utilisé Windows media et j'ai de la music avec des titre et artiste différent alors que le contenu est le même

Une idée pour repérer des fichiers audio aux métadonnées différentes, mais au même contenu : analyser la sortie de ffmpeg -i.
Par exemple

ffmpeg -i fichier.audio 2>&1 | grep '^\s*Duration:'

doit renvoyer la même chose si les fichiers ne diffèrent que par leurs métadonnées.
Et je pense que réciproquement, si la commande renvoie la même chose pour deux fichiers, c'est qu'ils ne diffèrent que par leurs métadonnées.
Mais peut-être existe-t-il une ou des commandes plus adaptées à ce genre de tri.

Hors ligne

#4 Le 29/02/2020, à 18:06

moko138

Re : Doublons recherche par le contenu ?

ptilou007 a écrit :

j'ai d'une part des images comme elles sont sauvegardé par divers moyen elles n'ont pas les même données et tailles

Pardon ???
S'il te plaît, faut m'expliquer, là...
Merci !


%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel :  À la découverte de dcraw

Hors ligne

#5 Le 01/03/2020, à 10:21

ptilou007

Re : Doublons recherche par le contenu ?

Bonjour,

J'ai sauvegardé les images avec un téléphone qui fait disque dur wifi, si tu le connecte, ou t'envoie les images en réseau radio et bien le nom des fichiers change !
Y a d'autre action qui fait que j'ai : 267137 fichier dans un peut moins de 2000 dossier !
et coté music le script proposé n'est pas opérationnel, la durée c'est pas bon, parce que un logiciel comme Itune fait un lissage du volume sonore et à cette occasion il écorne la durée du mp3 et la j'ai :63838 fichier dans 12 398 dossier !

Le fait que l'on en ai discuté pour la musique, est-ce que shazam à une biblio dynamique que l'on peut passer en ligne de commande en appel, ou autre chose que shazam libre ?

Pour les images je pense l'idée mauvaise, mais faire un hash du contenu du fichier et opérer dans un tableau une comparaison d'un clés à l'autre, pas besoin de parano au niveau des collisions ?

Y avait un magazine anglais sur Linux administration au Fosdem, qui publie dans un hors serie un DVD avec plus de 6000 script, sur qu'il y a monn bohneur là dedans, quelqu'un à le liens pour télécharger ?

Merci

--
ptilou

Hors ligne

#6 Le 01/03/2020, à 14:05

kamaris

Re : Doublons recherche par le contenu ?

Pour la musique, du coup, ça devient compliqué : il faudrait effectivement passer par une reconnaissance du morceau, ou bien des outils de traitement du signal pour séparer le lissage du contenu d'origine, car là les fichiers n'ont plus rien à voir.
Pour les images, passer par un hash est possible oui, ou bien simplement regarder la taille par la commande stat -c'%s' fichier : c'est un critère qui peut suffire, quitte à gérer les quelques doublons résiduels à la main.

Hors ligne

#7 Le 01/03/2020, à 19:42

ptilou007

Re : Doublons recherche par le contenu ?

Slt,

https://ourcodeworld.com/articles/read/ … untu-18-04

Quelqu'un a testé ?
C'est pas apple qui a acheté shazam ?

--
ptilou

Hors ligne

#8 Le 01/03/2020, à 19:57

kamaris

Re : Doublons recherche par le contenu ?

Sais pas, pas testé.
Est-ce que tu peux donner les retours de

ffmpeg -hide_banner -i fichier_audio

pour deux fichiers audio ayant le même contenu, avant et après lissage du volume par itune ?

Hors ligne

#9 Le 01/03/2020, à 20:58

ptilou007

Re : Doublons recherche par le contenu ?

Bonsoir ,

Je cherche pour les images, tu connais quelqu'un qui a essayé la solution que je propose ?

C'est sous ubuntu en plus !

Merci

--
ptilou

Hors ligne

#10 Le 01/03/2020, à 21:06

kamaris

Re : Doublons recherche par le contenu ?

Non, mais je t'ai posé une question en #8, tu pourrais y répondre ?

Hors ligne

#11 Le 01/03/2020, à 21:58

LeoMajor

Re : Doublons recherche par le contenu ?

bonjour,

pour le multimedia;

fdupes  pour les doublons, triplets et plus. C'est une sorte de md5sum.
easytag pour mettre à jour, réparer, les fichiers audios.
pyrenamer pour renommer les noms de fichiers en fonction de x,y,z
detox pour les noms de fichiers problématiques (espace, encodage, caractères spéciaux, ..).

Hors ligne

#12 Le 04/03/2020, à 16:55

ptilou007

Re : Doublons recherche par le contenu ?

Bonjour,

kamaris a écrit :

Non, mais je t'ai posé une question en #8, tu pourrais y répondre ?

Relié y a des erreur !

--
Ptilou

Hors ligne

#13 Le 04/03/2020, à 16:58

ptilou007

Re : Doublons recherche par le contenu ?

Bonjour,

LeoMajor a écrit :

bonjour,

pour le multimedia;

fdupes  pour les doublons, triplets et plus. C'est une sorte de md5sum.
easytag pour mettre à jour, réparer, les fichiers audios.
pyrenamer pour renommer les noms de fichiers en fonction de x,y,z
detox pour les noms de fichiers problématiques (espace, encodage, caractères spéciaux, ..).

Je cherche un script avec entre autre diff, find et grep, comme ça cela me fait travailler les expressions régulière et je suis sur du code éprouvé !

T'as vu mon message sur le DVD ?

Tu ne connais pas ?

--
Ptilou

Hors ligne

#14 Le 04/03/2020, à 17:19

kamaris

Re : Doublons recherche par le contenu ?

ptilou007 a écrit :

Relié y a des erreur !

Ben faut essayer délié alors…

Hors ligne

#15 Le 04/03/2020, à 18:12

ptilou007

Re : Doublons recherche par le contenu ?

Bonsoir,

Non , et puis bon je suis navré que tu ne puisse m'aider, bon courage à toi !

Faut imbriquer des boucles avec un tableau, c'est un travail pour un technicien, bon si on n'arrive pas à résoudre ce problème tres simple, on  ne peut te soliciter pour faire de l'informatique !
Du coup on déménagera beaucoup plus tard ...

Merci d'avoir essayé

--
ptilou

Hors ligne

#16 Le 04/03/2020, à 18:21

kamaris

Re : Doublons recherche par le contenu ?

De rien, bon courage à toi aussi, et bon déménagement…

Hors ligne