#1 Le 07/06/2005, à 12:51
- Touns
trier plusieurs millions de lignes - calcul partagé? openmosix?
j'ai besoin de trier par ordre alaphabetique plusieurs millions de lignes de caractère, puis de n'en garder qu'un seul occurence, j'utilisais pour cela sort. ça marchait tres bien avec 200 000lignes... mais maintenant avec plusieurs million de ligne c'est limites... surtout si par la suite j'en aurai d'autre
comment puis-je faire?
je me suis renseigné sur openmosix, mais apparement ça distribue la charge sur les pc les moins chargé, mais je n'ai ici qu'un ou 2 processus! sort et uniq!
quelqu'un en saurait un peu plus svp? merci d'avance pour vos réponses.
Touns
#2 Le 07/06/2005, à 13:02
- coffee
Re : trier plusieurs millions de lignes - calcul partagé? openmosix?
revoir ton programme?
Il est en quel langage ton programme?
Revoir l'algo de tri aussi en ne cherchant pas la vitesse mais la gestion de masse
Nom d'un tupperware habillé en streetware mangeant de la confiture de pouère et qui se dite où est-ce que je suis ouère !
Tiens mon blog
Les blagues sous forme de fausses aides sont susceptible de ban (ex: rm)
Hors ligne
#3 Le 07/06/2005, à 13:03
- ZeBob
Re : trier plusieurs millions de lignes - calcul partagé? openmosix?
juste par curiosité, c'est quoi les lignes à trier ??
Hors ligne
#4 Le 07/06/2005, à 13:07
- Touns
Re : trier plusieurs millions de lignes - calcul partagé? openmosix?
c'est du bash!! et ce sont des urls à trier.
#5 Le 07/06/2005, à 13:23
- coffee
Re : trier plusieurs millions de lignes - calcul partagé? openmosix?
hop en 1 ligne:
cat fichierdepart | sort -d -f | uniq > fichiertmp
EDIT: le -f est là pour ne pas différencier un a d'un A lors du tri (que j'ai supposé alphabétique) comme ça tu as on ne différencie pas HTTP et http mais on garde néanmoins les majuscule à l'arrivée
EDIT2: Je déconseille de mettre comme meme fichier fichierdepart et fichiertmp
EDIT3: ça va être tres long vu la quantité d'info
EDIT4: Quel etait ton script?
EDIT5: Si le script plante, il va peut etre falloir créer un vrai programme qui ne passe pas par un shell et qui se compile
EDIT6: voir avec du perl...
Nom d'un tupperware habillé en streetware mangeant de la confiture de pouère et qui se dite où est-ce que je suis ouère !
Tiens mon blog
Les blagues sous forme de fausses aides sont susceptible de ban (ex: rm)
Hors ligne
#6 Le 07/06/2005, à 14:56
- Touns
Re : trier plusieurs millions de lignes - calcul partagé? openmosix?
c'est exactement ce que je fesais... mais ça prends du temps. enfin après coup je me suis rendu compte que ce qui prennais du temps n'était pas le sort, mais c'était l'extraction des url de mes pages web. Et là je peux y faire quelquechose.
merci quand même!
Touns
#7 Le 07/06/2005, à 15:54
- sbrunner
Re : trier plusieurs millions de lignes - calcul partagé? openmosix?
Soyons fous,
tu à essayer de mettre tes URL's dans une table My SQL
CU
Stéphane
Hors ligne
#8 Le 07/06/2005, à 17:50
- coffee
Re : trier plusieurs millions de lignes - calcul partagé? openmosix?
C'est nomal que ça prenne du temps, tu es en bash. pour extraire tes URLs, perl est surement la meilleur solution (ou alors awk+sed)
Nom d'un tupperware habillé en streetware mangeant de la confiture de pouère et qui se dite où est-ce que je suis ouère !
Tiens mon blog
Les blagues sous forme de fausses aides sont susceptible de ban (ex: rm)
Hors ligne