Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 07/06/2005, à 12:51

Touns

trier plusieurs millions de lignes - calcul partagé? openmosix?

j'ai besoin de trier par ordre alaphabetique plusieurs millions de lignes de caractère, puis de n'en garder qu'un seul occurence, j'utilisais pour cela sort. ça marchait tres bien avec 200 000lignes... mais maintenant avec plusieurs million de ligne c'est limites... hmm surtout si par la suite j'en aurai d'autre

comment puis-je faire?

je me suis renseigné sur openmosix, mais apparement ça distribue la charge sur les pc les moins chargé, mais je n'ai ici qu'un ou 2 processus! sort et uniq!

quelqu'un en saurait un peu plus svp? merci d'avance pour vos réponses.

Touns

#2 Le 07/06/2005, à 13:02

coffee

Re : trier plusieurs millions de lignes - calcul partagé? openmosix?

revoir ton programme?

Il est en quel langage ton programme?

Revoir l'algo de tri aussi en ne cherchant pas la vitesse mais la gestion de masse


Nom d'un tupperware habillé en streetware mangeant de la confiture de pouère et qui se dite où est-ce que je suis ouère !
Tiens mon blog
Les blagues sous forme de fausses aides sont susceptible de ban (ex: rm)

Hors ligne

#3 Le 07/06/2005, à 13:03

ZeBob

Re : trier plusieurs millions de lignes - calcul partagé? openmosix?

juste par curiosité, c'est quoi les lignes à trier ??

Hors ligne

#4 Le 07/06/2005, à 13:07

Touns

Re : trier plusieurs millions de lignes - calcul partagé? openmosix?

c'est du bash!! et ce sont des urls à trier.

#5 Le 07/06/2005, à 13:23

coffee

Re : trier plusieurs millions de lignes - calcul partagé? openmosix?

hop en 1 ligne:
cat fichierdepart | sort -d -f | uniq > fichiertmp

EDIT: le -f est là pour ne pas différencier un a d'un A lors du tri (que j'ai supposé alphabétique) comme ça tu as on ne différencie pas HTTP et http mais on garde néanmoins les majuscule à l'arrivée

EDIT2: Je déconseille de mettre comme meme fichier fichierdepart et fichiertmp

EDIT3: ça va être tres long vu la quantité d'info

EDIT4: Quel etait ton script?

EDIT5: Si le script plante, il va peut etre falloir créer un vrai programme qui ne passe pas par un shell et qui se compile

EDIT6: voir avec du perl...


Nom d'un tupperware habillé en streetware mangeant de la confiture de pouère et qui se dite où est-ce que je suis ouère !
Tiens mon blog
Les blagues sous forme de fausses aides sont susceptible de ban (ex: rm)

Hors ligne

#6 Le 07/06/2005, à 14:56

Touns

Re : trier plusieurs millions de lignes - calcul partagé? openmosix?

c'est exactement ce que je fesais... mais ça prends du temps. enfin après coup je me suis rendu compte que ce qui prennais du temps n'était pas le sort, mais c'était l'extraction des url de mes pages web. Et là je peux y faire quelquechose.

merci quand même!

Touns

#7 Le 07/06/2005, à 15:54

sbrunner

Re : trier plusieurs millions de lignes - calcul partagé? openmosix?

Soyons fous,
tu à essayer de mettre tes URL's dans une table My SQL big_smile

CU
Stéphane

Hors ligne

#8 Le 07/06/2005, à 17:50

coffee

Re : trier plusieurs millions de lignes - calcul partagé? openmosix?

C'est nomal que ça prenne du temps, tu es en bash. pour extraire tes URLs, perl est surement la meilleur solution (ou alors awk+sed)


Nom d'un tupperware habillé en streetware mangeant de la confiture de pouère et qui se dite où est-ce que je suis ouère !
Tiens mon blog
Les blagues sous forme de fausses aides sont susceptible de ban (ex: rm)

Hors ligne