Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 23/01/2017, à 13:04

jmvau54

Récupération données Raid 5 provenant d'un NAS

Bonjour/Bonsoir.

J'ai un souci avec mon NAS, un DLINK 340L.
J'ai dedans 4 disques montés en raid 5.
Ca fonctionnait bien jusqu'à ce que une nuit, alors qu'il était en veille, il y a eu une coupure de courant.
Je le redémarre mais le raid est en erreur. LE bouton dans l'interface web pour reconstruire le raid est grisé.
J'ai fait un test smart, 2 disques sont ok et 2 ko.
Je me dis que je vais tout mettre sur un linux pour voir ce qu'il en est. Mais étant débutant avec mdadm, je préfère demander avant de faire des bêtises.

Je suis à votre écoute pour les commandes à lancer. Ou les diagnostiques que je pourrais faire. ou un tuto à suivre.
Je peux éventuellement mettre mes disques sur un windows 7 si nécessaire.

Promis, dès que je récupère mes données, je fais une réplication sur un autre nas.

Comme point de départ, lors du boot sous ubuntu, sans rien monter, j'ai ça.

cat /proc/mdstat

jm@jm-P35C-DS3R:~$ cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md127 : inactive sdd1[3](S)
      524224 blocks
       
md1 : inactive sdd2[3](S) sdc2[2](S) sdb2[1](S) sda2[0](S)
      7803563952 blocks super 1.0
       
md0 : active raid1 sdc1[2] sdb1[1] sda1[0]
      524224 blocks [3/3] [UUU]
      
unused devices: <none>

mdadm --examine /dev/sd[abcd]2

jm@jm-P35C-DS3R:~$ sudo mdadm --examine /dev/sd[abcd]2
/dev/sda2:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x0
     Array UUID : 3547e3d0:ef8809ed:d9457653:208c59a5
           Name : 1
  Creation Time : Sat Apr  6 09:30:03 2013
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3901781976 (1860.51 GiB 1997.71 GB)
     Array Size : 5852672640 (5581.54 GiB 5993.14 GB)
  Used Dev Size : 3901781760 (1860.51 GiB 1997.71 GB)
   Super Offset : 3901782104 sectors
   Unused Space : before=0 sectors, after=344 sectors
          State : clean
    Device UUID : 8a58a41e:1c395bb4:10092524:9fa162d4

    Update Time : Tue Jan 17 00:13:08 2017
       Checksum : 8e419ba7 - correct
         Events : 123652

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 0
   Array State : AA.. ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdb2:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x0
     Array UUID : 3547e3d0:ef8809ed:d9457653:208c59a5
           Name : 1
  Creation Time : Sat Apr  6 09:30:03 2013
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3901781976 (1860.51 GiB 1997.71 GB)
     Array Size : 5852672640 (5581.54 GiB 5993.14 GB)
  Used Dev Size : 3901781760 (1860.51 GiB 1997.71 GB)
   Super Offset : 3901782104 sectors
   Unused Space : before=0 sectors, after=344 sectors
          State : clean
    Device UUID : 72568a15:e2f49536:23efdc05:92e18e98

    Update Time : Tue Jan 17 00:13:08 2017
       Checksum : ad467b5b - correct
         Events : 123652

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 1
   Array State : AA.. ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdc2:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x0
     Array UUID : 3547e3d0:ef8809ed:d9457653:208c59a5
           Name : 1
  Creation Time : Sat Apr  6 09:30:03 2013
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3901781976 (1860.51 GiB 1997.71 GB)
     Array Size : 5852672640 (5581.54 GiB 5993.14 GB)
  Used Dev Size : 3901781760 (1860.51 GiB 1997.71 GB)
   Super Offset : 3901782104 sectors
   Unused Space : before=0 sectors, after=344 sectors
          State : clean
    Device UUID : 510f715e:96f19e1c:a7b023bb:a8c9112b

    Update Time : Sat Sep 24 10:01:16 2016
       Checksum : 236ad8b3 - correct
         Events : 2

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 2
   Array State : AAAA ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdd2:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x0
     Array UUID : 3547e3d0:ef8809ed:d9457653:208c59a5
           Name : 1
  Creation Time : Sat Apr  6 09:30:03 2013
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3901781976 (1860.51 GiB 1997.71 GB)
     Array Size : 5852672640 (5581.54 GiB 5993.14 GB)
  Used Dev Size : 3901781760 (1860.51 GiB 1997.71 GB)
   Super Offset : 3901782104 sectors
   Unused Space : before=0 sectors, after=344 sectors
          State : active
    Device UUID : 54d46d80:28888205:44da4ff6:4d01586d

    Update Time : Mon Jan 16 23:56:55 2017
       Checksum : ac57934c - correct
         Events : 123580

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 3
   Array State : AA.A ('A' == active, '.' == missing, 'R' == replacing)

MErci d'avance pour votre aide.

Dernière modification par jmvau54 (Le 23/01/2017, à 13:54)

Hors ligne

#2 Le 23/01/2017, à 15:01

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

Bonjour
Peux-tu donner le détail  de la qualité des disques  par smartctl?  ===>>> https://doc.ubuntu-fr.org/smartmontools spécialement pour les deux disques que tu supposes être HS
En fait, donnes pour les quatre disques.

Peux-tu aussi faire la commande suivante

sudo lsblk -o SIZE,NAME,FSTYPE,LABEL,MOUNTPOINT

afin de mieux voir les disques
et aussi

 mdadm --examine /dev/sd[abcd]1

RAIDS5   Avec deux disques HS ===> tout est perdu

https://doc.ubuntu-fr.org/raid_logiciel a écrit :

RAID 5: 3 disques minimum - "Taille du plus petit disque" x ("Nombre de disques" - 1) - Le RAID 5 est un mélange de RAID 0 et de RAID 1. Les fichiers sont à la fois coupés en plusieurs disques pour optimiser les performances et à la fois clonés de telle manière à ce qu'ils soient récupérables lors de la perte d'un disque. La vitesse est d'environ celle de "vitesse du pire disque" x ("Nombre de disques" - 1) que ce soit en lecture ou écriture, même si les performances en écriture peuvent être limitées par la puissance du CPU quand le nombre de disques est élevé (+ de 6 sur un PC actuel haut de gamme). Vous pouvez ajouter autant de disques que vous le souhaitez, mais le nombre de disques pouvant tomber en panne avant la perte totale des données du groupe restera toujours de 1.

Tu peux faire appel à un expert qui pourrait peut-être en réparer un des deux.  Contactes RMY par messagerie privée

Je suis loin d'être un expert en RAID mais je vois trois disques avec un état clean.
Donc il faut creuser un peu plus pour l'état des disques.
Pour remonter le RAIDS, J'ai bien l'impression qu'il va suffire d'accrocher le troisième disque avec la bonne commande.
Mais ne t'inquiètes pas trop il y a quelques personnes qui savent donner la bonne commande.

Ce qui me surprend, c'est que tu aurais deux partitions.
MD0     avec trois disques qui est active   et donc quasiment opérationnelle    avec une taille petite       
md0 : active raid1 sdc1[2] sdb1[1] sda1[0]
      524.224 blocks [3/3] [UUU]      
et
MD1   avec trois disques qui est non active. mais avec une grande taille
md1 : inactive sdd2[3](S) sdc2[2](S) sdb2[1](S) sda2[0](S)
      7.803.563.952 blocks super 1.0

Pour la partition MD1, Je pense voir le problème: Tu as été 4 mois avec un disque HS    =>SDC2

/dev/sda2:   Update Time : Tue Jan 17 00:13:08 2017       Events : 123652
/dev/sdb2:   Update Time : Tue Jan 17 00:13:08 2017       Events : 123652
/dev/sdc2:   Update Time : Sat Sep 24 10:01:16 2016       Events : 2
/dev/sdd2    Update Time : Mon Jan 16 23:56:55 2017       Events : 123580

     La partition SDD2 est décalée de 17 minutes environ par rapport à SDA2 et SDB2.  comme tu dis que tu n'étais pas en phase d'écriture, J'e pense qu'il doit être possible de forcer le réassemblage de ces trois partitions.    un exemple https://forum.ubuntu-fr.org/viewtopic.p … #p21619183

Donc on va aussi voir pour la partition MD0 si elle est dans le même contexte.
       

Dernière modification par Bougron (Le 23/01/2017, à 17:04)

Hors ligne

#3 Le 23/01/2017, à 23:12

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Merci pour ta réponse

En sachant qu'il y a un disque de 120go sur lequel ubuntu est installé.

sudo lsblk -o SIZE,NAME,FSTYPE,LABEL,MOUNTPOINT

jm@jm-P35C-DS3R:~$ sudo lsblk -o SIZE,NAME,FSTYPE,LABEL,MOUNTPOINT
  SIZE NAME    FSTYPE            LABEL MOUNTPOINT
  1,8T sda                             
  512M ├─sda1  linux_raid_member       
  512M │ └─md0 swap                    
  1,8T ├─sda2  linux_raid_member 1     
    1G ├─sda3                          
    1G └─sda4  ext4                    
  1,8T sdb                             
  512M ├─sdb1  linux_raid_member       
  512M │ └─md0 swap                    
  1,8T ├─sdb2  linux_raid_member 1     
    1G ├─sdb3                          
    1G └─sdb4  ext4                    
  1,8T sdc                             
  512M ├─sdc1  linux_raid_member       
  512M │ └─md0 swap                    
  1,8T ├─sdc2  linux_raid_member 1     
    1G ├─sdc3                          
    1G └─sdc4  ext4                    
  1,8T sdd                             
  512M ├─sdd1  linux_raid_member       
  1,8T ├─sdd2  linux_raid_member 1     
    1G ├─sdd3                          
    1G └─sdd4  ext4                    
111,8G sde                             
107,8G ├─sde1  ext4                    /
    1K ├─sde2                          
    4G └─sde5  swap                    [SWAP]
jm@jm-P35C-DS3R:~$ 

mdadm --examine /dev/sd[abcd]1

jm@jm-P35C-DS3R:~$ sudo  mdadm --examine /dev/sd[abcd]1
/dev/sda1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 6df98f55:6c721254:c0da10a6:c9a3aaa7
  Creation Time : Tue Jan 17 06:40:08 2017
     Raid Level : raid1
  Used Dev Size : 524224 (512.02 MiB 536.81 MB)
     Array Size : 524224 (512.02 MiB 536.81 MB)
   Raid Devices : 3
  Total Devices : 3
Preferred Minor : 0

    Update Time : Tue Jan 17 06:40:54 2017
          State : clean
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0
       Checksum : bf18092f - correct
         Events : 1


      Number   Major   Minor   RaidDevice State
this     0       8        1        0      active sync   /dev/sda1

   0     0       8        1        0      active sync   /dev/sda1
   1     1       8       17        1      active sync   /dev/sdb1
   2     2       8       33        2      active sync   /dev/sdc1
/dev/sdb1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 6df98f55:6c721254:c0da10a6:c9a3aaa7
  Creation Time : Tue Jan 17 06:40:08 2017
     Raid Level : raid1
  Used Dev Size : 524224 (512.02 MiB 536.81 MB)
     Array Size : 524224 (512.02 MiB 536.81 MB)
   Raid Devices : 3
  Total Devices : 3
Preferred Minor : 0

    Update Time : Tue Jan 17 06:40:54 2017
          State : clean
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0
       Checksum : bf180941 - correct
         Events : 1


      Number   Major   Minor   RaidDevice State
this     1       8       17        1      active sync   /dev/sdb1

   0     0       8        1        0      active sync   /dev/sda1
   1     1       8       17        1      active sync   /dev/sdb1
   2     2       8       33        2      active sync   /dev/sdc1
/dev/sdc1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 6df98f55:6c721254:c0da10a6:c9a3aaa7
  Creation Time : Tue Jan 17 06:40:08 2017
     Raid Level : raid1
  Used Dev Size : 524224 (512.02 MiB 536.81 MB)
     Array Size : 524224 (512.02 MiB 536.81 MB)
   Raid Devices : 3
  Total Devices : 3
Preferred Minor : 0

    Update Time : Tue Jan 17 06:40:54 2017
          State : clean
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0
       Checksum : bf180953 - correct
         Events : 1


      Number   Major   Minor   RaidDevice State
this     2       8       33        2      active sync   /dev/sdc1

   0     0       8        1        0      active sync   /dev/sda1
   1     1       8       17        1      active sync   /dev/sdb1
   2     2       8       33        2      active sync   /dev/sdc1
/dev/sdd1:
          Magic : a92b4efc
        Version : 0.90.00
           UUID : 4d1d7e3f:fe731191:84a3101e:754d2ff9
  Creation Time : Tue Jan 17 00:22:22 2017
     Raid Level : raid1
  Used Dev Size : 524224 (512.02 MiB 536.81 MB)
     Array Size : 524224 (512.02 MiB 536.81 MB)
   Raid Devices : 4
  Total Devices : 4
Preferred Minor : 0

    Update Time : Tue Jan 17 00:23:03 2017
          State : clean
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0
       Checksum : 9faecb86 - correct
         Events : 1


      Number   Major   Minor   RaidDevice State
this     3       8       49        3      active sync   /dev/sdd1

   0     0       8        1        0      active sync   /dev/sda1
   1     1       8       17        1      active sync   /dev/sdb1
   2     2       8       33        2      active sync   /dev/sdc1
   3     3       8       49        3      active sync   /dev/sdd1

Hors ligne

#4 Le 23/01/2017, à 23:16

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

C'est les 2 WD qui ne sont pas en forme. le C et le D
Pour le A

jm@jm-P35C-DS3R:~$ sudo smartctl -s on -a /dev/sda
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda Green (AF)
Device Model:     ST2000DL003-9VT166
Serial Number:    5YD0XFK9
LU WWN Device Id: 5 000c50 02f0302ea
Firmware Version: CC32
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    5900 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Mon Jan 23 23:12:26 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  623) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 336) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x30b7)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       188025536
  3 Spin_Up_Time            0x0003   092   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       410
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4100832
  9 Power_On_Hours          0x0032   083   080   000    Old_age   Always       -       15327
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       358
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   058   045    Old_age   Always       -       32 (Min/Max 24/32)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       350
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       535
194 Temperature_Celsius     0x0022   032   042   000    Old_age   Always       -       32 (0 9 0 0 0)
195 Hardware_ECC_Recovered  0x001a   022   009   000    Old_age   Always       -       188025536
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       702 (160 190 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2891332494
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       2431328960

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     15325         -
# 2  Short offline       Completed without error       00%     15325         -
# 3  Short offline       Completed without error       00%       561         -
# 4  Short offline       Completed without error       00%       513         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Pour le B

jm@jm-P35C-DS3R:~$ sudo smartctl -s on -a /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda Green (AF)
Device Model:     ST2000DL003-9VT166
Serial Number:    5YD0Y2H4
LU WWN Device Id: 5 000c50 02eff7c50
Firmware Version: CC32
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    5900 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Mon Jan 23 23:13:50 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  612) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 342) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x30b7)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       178857024
  3 Spin_Up_Time            0x0003   092   091   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       418
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4189785
  9 Power_On_Hours          0x0032   084   080   000    Old_age   Always       -       14442
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       366
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       4295032833
189 High_Fly_Writes         0x003a   097   097   000    Old_age   Always       -       3
190 Airflow_Temperature_Cel 0x0022   068   056   045    Old_age   Always       -       32 (Min/Max 24/32)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       354
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       551
194 Temperature_Celsius     0x0022   032   044   000    Old_age   Always       -       32 (0 9 0 0 0)
195 Hardware_ECC_Recovered  0x001a   022   009   000    Old_age   Always       -       178857024
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       1
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       737 (100 159 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       552959493
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1949653606

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     14440         -
# 2  Short offline       Completed without error       00%     14440         -
# 3  Short offline       Completed without error       00%       593         -
# 4  Short offline       Completed without error       00%       545         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 mi

Le C

jm@jm-P35C-DS3R:~$ sudo smartctl -s on -a /dev/sdc
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Green (AF)
Device Model:     WDC WD20EARS-00MVWB0
Serial Number:    WD-WMAZA0775988
LU WWN Device Id: 5 0014ee 6006d7948
Firmware Version: 51.0AB51
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Mon Jan 23 23:14:18 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)	Offline data collection activity
					was suspended by an interrupting command from host.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(36960) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 357) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x3035)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   175   175   051    Pre-fail  Always       -       2075
  3 Spin_Up_Time            0x0027   167   162   021    Pre-fail  Always       -       6633
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       533
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       2826
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       443
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       52
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       5658
194 Temperature_Celsius     0x0022   120   104   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   196   196   000    Old_age   Always       -       1331
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       217
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       6
200 Multi_Zone_Error_Rate   0x0008   088   088   000    Old_age   Offline      -       29929

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       10%      2824         1195731968
# 2  Short offline       Completed: read failure       10%      2824         1195726792
# 3  Short offline       Completed: read failure       10%      2823         1195732176
# 4  Short offline       Completed: read failure       90%      1040         1079687313
# 5  Short offline       Completed without error       00%       836         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

jm@jm-P35C-DS3R:~$ 

Le D

jm@jm-P35C-DS3R:~$ sudo smartctl -s on -a /dev/sdd
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Green (AF)
Device Model:     WDC WD20EARS-00MVWB0
Serial Number:    WD-WMAZA0733372
LU WWN Device Id: 5 0014ee 0026a39df
Firmware Version: 51.0AB51
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Mon Jan 23 23:15:11 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)	Offline data collection activity
					was suspended by an interrupting command from host.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(35880) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 346) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x3035)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   163   158   021    Pre-fail  Always       -       6850
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       629
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       4149
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       435
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       9422
194 Temperature_Celsius     0x0022   122   106   000    Old_age   Always       -       28
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   196   001   000    Old_age   Always       -       1367
198 Offline_Uncorrectable   0x0030   197   197   000    Old_age   Offline      -       999
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   182   182   000    Old_age   Offline      -       4911

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      4147         199883077
# 2  Short offline       Completed: read failure       90%      1071         199883077
# 3  Short offline       Completed without error       00%       953         -
# 4  Extended offline    Completed: read failure       90%       868         559851886
# 5  Short offline       Completed: read failure       90%       868         559851885

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Dernière modification par jmvau54 (Le 23/01/2017, à 23:59)

Hors ligne

#5 Le 23/01/2017, à 23:20

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Il va falloir que je fasse plus attention à l'état de mes futurs RAIDS.
En fait, il y a 4 led sur la face avant du nas et elles ont toujours clignoté normalement toutes les 4 indiquant une activité normale.
Quand il y a un défaut, elles sont orange mais  je ne les ai jamais vu orange avant l'arrêt pour faute de courant.

Sinon, il n'y a normalement qu'une partition de taille maximale (6go avec la redondance)

Hors ligne

#6 Le 24/01/2017, à 00:11

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

Bonsoir
D'abord quelques éléments sur les disques. Merci d'avoir posté les 4. Je vais tenter un début de tableau.

SDA Seagate Barracuda Green (AF)
 1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       188025536
 7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4100832
 9 Power_On_Hours          0x0032   083   080   000    Old_age   Always       -       15327
 7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4100832
 195 Hardware_ECC_Recovered  0x001a  [color=#ff0818] 022[/color]   009   000    Old_age   Always       -       188025536

    => disque usé à 80%

SDB Seagate Barracuda Green (AF)
   1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       178857024
   7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4189785
   9 Power_On_Hours          0x0032   084   080   000    Old_age   Always       -       14442
   195 Hardware_ECC_Recovered  0x001a   [color=#ff1222]022[/color]   009   000    Old_age   Always       -       178857024

    => disque usé à 80%

SDC Model Family:     Western Digital Caviar Green (AF)
   9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       2826
  197 Current_Pending_Sector  0x0032   196   196   000    Old_age   Always       -       1331

SDD Model Family:     Western Digital Caviar Green (AF)
     9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       4149
   197 Current_Pending_Sector  0x0032   196   001   000    Old_age   Always       -       1367

Sans en être sur, je dirais que la cause de la non remise en route est un secteur pourri avec le même numéro pour SDC et SDD
Je n'ose pas écrire que la cause est la présence d'un seul secteur illisible!!!!!!

Mécaniquement, les disques SDC et SDD peuvent tenir le choc.

Je te propose d'obtenir la liste des secteurs fichus pour ces deux disques.
Puis visuellement de regarder  s'il y en a un ou plusieurs identiques.   Si OUI, C'est quasiment certain que la cause de l'éjection est celle-la.
Sinon comme c'est fichu, on essaiera d'écrire dans ces secteurs pour tenter de les faire revivre.
Je te donne la codif dans quelques minutes.
A)   Analyse du disque SDC : on va lancer un scan complet de sdc et voir ce que ça donne... Cela va durer car 2TO à scruter.

sudo badblocks -s -b 512 -o ~/SDC4.badblocks   /dev/sdc4
cat ~/SDC4.badblocks
sudo badblocks -s -b 512 -o ~/SDC1.badblocks   /dev/sdc1
cat ~/SDC1.badblocks
sudo badblocks -b 512 -o ~/SDC2.badblocks   /dev/sdc2
cat ~/SDC2.badblocks
wc ~/SDC4.badblocks
wc ~/SDC1badblocks
wc ~/SDC2.badblocks
sudo smartctl -a /dev/sdc

B)   Analyse du disque SDD : on va lancer un scan complet de sdd et voir ce que ça donne... Cela va durer car 2TO à scruter.

sudo badblocks -s -b 512 -o ~/SDD4.badblocks   /dev/sdd4
cat ~/SDD4.badblocks
sudo badblocks -s -b 512 -o ~/SDD1.badblocks   /dev/sdd1
cat ~/SDD1.badblocks
sudo badblocks -s -b 512 -o ~/SDD2.badblocks   /dev/sdd2
cat ~/SDD2.badblocks
wc ~/SDD4.badblocks
wc ~/SDD1.badblocks
wc ~/SDD2.badblocks
sudo smartctl -a /dev/sdd

et tu fais tourner ensemble A et B
AJOUT
Tu fais tourner simultanément ces commandes du paquet A  dans une session que tu ouvres par Ctrl Al t et celles du paquet B dans une autre session que tu ouvres par Ctrl Al t

PS: Une petite question:  Comment as-tu connecté les 4 disques pour qu'ils s'appellent SDA SDB SDC SDD
Ne serais-tu  pas en train de travailler en LIVE-USB???
Si OUI as-tu vérifié qu'elle est persistante?  car ce serait très bête de perdre les fichiers badblocks
Nota, J'ai remarqué que probablement ubuntu est sur SDE

111,8G sde                             
107,8G ├─sde1  ext4                    /
    1K ├─sde2                          
    4G └─sde5  swap                    [SWAP]

 

Dernière modification par Bougron (Le 25/01/2017, à 08:09)

Hors ligne

#7 Le 24/01/2017, à 07:28

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

jmvau54 a écrit :

En fait, il y a 4 led sur la face avant du nas et elles ont toujours clignoté normalement toutes les 4 indiquant une activité normale.
Quand il y a un défaut, elles sont orange mais  je ne les ai jamais vu orange avant l'arrêt pour faute de courant.

Oui bien sur les 4 disques sont encore en train de fonctionner totalement normalement.  Ils sont tous utilisables en lecture et en écriture:
Aucun n'est en état FAILED   et de ce point de vue, les disques SDC et SDD ont encore de nombreuses années de vie.
                                                                                           Ce sont les disques SDA et SDB qui commencent à décliner. Encore 1 an de vie ?
      Ils n'ont seulement que quelques secteurs non lisibles (1367 pour le plus usagé) sur un total de 4 000 000 000 000 soit  0,0000000342%

/dev/sdc1:
                 Creation Time : Tue Jan 17 06:40:08 2017                     =====> Pourquoi une telle date de creation?
                 Used Dev Size : 524224 (512.02 MiB 536.81 MB)          =>taille 0,5 Gio           
    Update Time : Tue Jan 17 06:40:54 2017
                  State : clean

Mais certainement pas pour la seconde partition de ce disque qui s' est malheureusement arrêtée d'écrite au  24 septembre 2016 à 10 heures 1 minute et 16 secondes

/dev/sdc2:
          creation Time : Sat Apr  6 09:30:03 2013  
          Used Dev Size : 3901781760 (1860.51 GiB 1997.71 GB)      Taille   1,8 Tio
    Update Time : Sat Sep 24 10:01:16 2016

Je n'ai absolument aucune idée de la cause qui a fait que le logiciel a cessé d'écrire il y a 4 mois de cela. Ce qui semble la vraie cause du problème actuel.
==> comme il y a eu une panne, il a fallu redémarrer    Le contrôle de redémarrage ne passe pas.
      Cette partition est absolument top ancienne.    à moins que tu n'écrives plus depuis 4 mois dans ce raid......
      L'idée que j'ai est de dire qu'elle est complétement fichue et de la retirer du RAIDS.
       Puis de s'en servir comme partition de test pour vérifier si les commandes de réparation vont se faire correctement.
      Sauf si tu dis que  c'est vrai qu'il n'y a eu aucune écriture depuis 4mois.

jmvau54 a écrit :

Sinon, il n'y a normalement qu'une partition de taille maximale (6go avec la redondance)

Je ne comprends pas trop.
Tu as 4 disques en RAID5  pour chacun des disques tu as  une partition de taille 1,8 Tio d'utilisable
Mettre tout cela en RAID5 fait une taille utilisable de    1,8 * (4 - 1)  environ 6 To   vue comme la partition MD2

Dernière modification par Bougron (Le 24/01/2017, à 08:04)

Hors ligne

#8 Le 24/01/2017, à 09:43

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Bougron a écrit :

PS: Une petite question:  Comment as-tu connecté les 4 disques pour qu'ils s'appellent SDA SDB SDC SDD
Ne serais-tu  pas en train de travailler en LIVE-USB???
Si OUI as-tu vérifié qu'elle est persistante?  car ce serait très bête de perdre les fichiers badblocks
Nota, J'ai remarqué que probablement ubuntu est sur SDE

111,8G sde                             
107,8G ├─sde1  ext4                    /
    1K ├─sde2                          
    4G └─sde5  swap                    [SWAP]

 

Je m'occupe des commandes ce soir.

Pour répondre à ta question, l'ordi sur lequel tourne ubuntu a déjà quelques années.
Sans rentrer dans les détails, j'en avais fait un serveur de fichier. La carte mère gèrait les raid 1 (4 grappes de 2 disques) et tournait sous windows serveur 2003.
La carte mère est une P35C-DS3R (comme tu as pu le voir). Il y a 6 sata en native plus une puce (intégrée à la carte mère) qui en gère 2.
Actuellement, les disques du raid sont connectés aux ports sata0, sata1 sata2 et sata3, donc gérés par le P35.
Ubuntu est installé sur un ssd qui n'a pas beaucoup servi, un corsair force de 120go. branché sur un sata de la puce additionnelle, qui est effectivement SDE. L'install est toute fraiche, exprès pour essayer de résoudre ce problème de raid.

Hors ligne

#9 Le 24/01/2017, à 10:12

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Bougron a écrit :

Oui bien sur les 4 disques sont encore en train de fonctionner totalement normalement.  Ils sont tous utilisables en lecture et en écriture:
Aucun n'est en état FAILED   et de ce point de vue, les disques SDC et SDD ont encore de nombreuses années de vie.
                                                                                           Ce sont les disques SDA et SDB qui commencent à décliner. Encore 1 an de vie ?

Ce n'est pas l'inverse ? les western digital qui commencent à lacher (SDC et SDD) ?
Si j'ai bien compris ce que tu as dit, les secteurs défectueux sont sur SDC et SDD mais c'est SDA et SDB qui sont en fin de vie.
Quand on aura fini, tu me diras quels sont les indicateurs les plus pertinents pour se faire une idée de l'état du disque. J'en ai plusieurs de 1 à 2 to dont il faudrait que je connaisse l'état, savoir si je les jette ou si je peux encore avoir confiance en eux.

/dev/sdc1:
                 Creation Time : Tue Jan 17 06:40:08 2017                     =====> Pourquoi une telle date de creation?
                 Used Dev Size : 524224 (512.02 MiB 536.81 MB)          =>taille 0,5 Gio           
    Update Time : Tue Jan 17 06:40:54 2017
                  State : clean

Si c'est bien 6h du matin, je n'en ai aucune idée. Je ne sais pas pourquoi il y a une partition de 500mo.

Bougron a écrit :

Mais certainement pas pour la seconde partition de ce disque qui s' est malheureusement arrêtée d'écrite au  24 septembre 2016 à 10 heures 1 minute et 16 secondes

/dev/sdc2:
          creation Time : Sat Apr  6 09:30:03 2013  
          Used Dev Size : 3901781760 (1860.51 GiB 1997.71 GB)      Taille   1,8 Tio
    Update Time : Sat Sep 24 10:01:16 2016

Je n'ai absolument aucune idée de la cause qui a fait que le logiciel a cessé d'écrire il y a 4 mois de cela. Ce qui semble la vraie cause du problème actuel.
==> comme il y a eu une panne, il a fallu redémarrer    Le contrôle de redémarrage ne passe pas.
      Cette partition est absolument top ancienne.    à moins que tu n'écrives plus depuis 4 mois dans ce raid......
      L'idée que j'ai est de dire qu'elle est complétement fichue et de la retirer du RAIDS.
       Puis de s'en servir comme partition de test pour vérifier si les commandes de réparation vont se faire correctement.
      Sauf si tu dis que  c'est vrai qu'il n'y a eu aucune écriture depuis 4mois.

Je n'écris pas beaucoup dessus mais la dernière fois, c'était il y a 2 mois environ. Il me sert surtout pour lire les photos et vidéos qu'il y a dessus.

Bougron a écrit :

Je ne comprends pas trop.
Tu as 4 disques en RAID5  pour chacun des disques tu as  une partition de taille 1,8 Tio d'utilisable
Mettre tout cela en RAID5 fait une taille utilisable de    1,8 * (4 - 1)  environ 6 To   vue comme la partition MD2

Oui je n'ai pas été clair. Il y a une partition de 6to (1,8 * (4 - 1)) (enfin un peu moins) en raid 5 sur les 4 disques. Ton paragraphe est juste.

Hors ligne

#10 Le 24/01/2017, à 10:44

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Bougron a écrit :

Bonsoir

A)   Analyse du disque SDC : on va lancer un scan complet de sdc et voir ce que ça donne... Cela va durer car 2TO à scruter.

sudo badblocks -b 512 -o ~/SDC4.badblocks   /dev/sdc4
wc ~/SDC4.badblocks
cat ~/SDC4.badblocks
sudo badblocks -b 512 -o ~/SDC1.badblocks   /dev/sdc1
wc ~/SDC1.badblocks
cat ~/SDC1.badblocks
sudo badblocks -b 512 -o ~/SDC2.badblocks   /dev/sdc2
wc ~/SDC2.badblocks
cat ~/SDC2.badblocks
sudo smartctl -a /dev/sdc

B)   Analyse du disque SDD : on va lancer un scan complet de sdd et voir ce que ça donne... Cela va durer car 2TO à scruter.

sudo badblocks -b 512 -o ~/SDD4.badblocks   /dev/sdd4
wc ~/SDD4.badblocks
cat ~/SDD4.badblocks
sudo badblocks -b 512 -o ~/SDD1.badblocks   /dev/sdd1
wc ~/SDD1.badblocks
cat ~/SDD1.badblocks
sudo badblocks -b 512 -o ~/SDD2.badblocks   /dev/sdd2
wc ~/SDD2.badblocks
cat ~/SDD2.badblocks
sudo smartctl -a /dev/sdd

et tu fais tourner ensemble A et B
 

Qu'est ce que tu veux dire par "et tu fais tourner ensemble A et B " ?
Quelle commande veux tu que j'exécute ?
Quand tu dis "cela va durer", on est plus proche des 2H, 4h, 10H ?

Sinon, juste pour info, j'ai 2 autres disques vides de 2to à la maison si besoin pour reconstruire ou dupliquer. Je devrais pouvoir copier tout ce qu'il y a à récupérer (un peu plus de 5to), si tout ce passe pas trop mal, sur un autre nas. Enfin je me débrouillerai pour trouver de la place.

Dernière modification par jmvau54 (Le 24/01/2017, à 13:51)

Hors ligne

#11 Le 24/01/2017, à 19:40

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

Bonsoir.
On va essayer de faire un plan de travail avec plusieurs  options.
C'est une question que j'allais poser mais j'ai probablement la réponse dans cette phrase
"Je n'écris pas beaucoup dessus mais la dernière fois, c'était il y a 2 mois environ. Il me sert surtout pour lire les photos et vidéos qu'il y a dessus"
J'en déduis qu'il  n'y a pas de plan comptage clôturé au 31 décembre 2016.   Ni de données sous forme texte vitales

Choix A     Il me semble inutile de faire appel à un expert de récupération de données qui aurait pu récupérer les secteurs fichiers à partir des autres disques.
Choix B      Nous non plus, on ne va pas essayer de récupérer les secteurs illisibles à partir des autres disques
                  Cela tombe bien car je ne sais pas faire. Il est de plus possible que personne ne sache faire avec certitude.  Car jamais entendu parler d'un tel script.
      Je viens de regarder la documentation de ton NAS http://www.dlink.com/fr/fr/home-solutio … -enclosure
   C'est écrit "RAID 5 combine l'espace de trois disques durs et utilise le quatrième comme disque de parité"

                   Rappel    en RAIDS1      si le secteur n° N  d'un disque est fichu, son double est le n° N de l'autre disque.
                                  en RAIDS5      si le secteur n° N d'un disque est fichu, son double est sur l'un des autres disques en position N à 1 près.
                                                        Je ne suis pas du tout sur que la programmation soit identique pour tous les développements de RAIDS5.
Choix C       Le disque SDC est-il à niveau sachant qu'il s'est arrêté en septembre.   Vu ce que tu dis, la réponse est non

Choix D.      Si tu es très pressé de récupérer, tes fichiers,  on va essayer de faire au plus vite.    Très globalement:
                    Tu montes le RAIDS avec les partitions SDA SDB SDD   (reste à savoir si cela va se monter avec 1000 secteurs illisibles sur SDD
                    Tu démontes SDC et tu y mets un autre disque après avoir fait un smartctl pour savoir son état.
                     Tu ajoutes  le nouveau disque SDCprime au raids et tu synchronises.
                     Tu retires SDD du RAIDS.
                     Tu démontes SDD et tu y mets un autre disque après avoir fait un smartctl pour savoir son état.
                     Tu ajoutes  le nouveau disque SDDprime au raids et tu synchronises.
                      On s'occupe des disques SDC et SDD en les testant sérieusement
                                   ==> C'est là qu'on risque de découvrir qu'ils vont devenir tous des deux Hors  Service car la réserve des secteurs de remplacement est épuisée.
                                           ===> Si tel est le cas, je pense qu'un formatage usine sur ces deux disques est justifié car la mécanique est en très bon état.
Pour info,   Pour tes deux premiers disques, la mécanique a de l'âge mais le magnétisme des pistes est correct. Donc cela s'use tranquillement.
                       Mais les deux derniers disques ont un problème de magnétisme qui pourrait passer inaperçu si les disques étaient utilisés pour faire uniquement des écritures qu'on relit le lendemain!!!
                   

Choix E, Si tu es un peu moins pressé.
             -  On fait la liste des secteurs illisibles des disques SDC et SDD               On peut faire tourner en même temps la recherche sur SDC et SDD
             - Avec cette liste je tente de te retrouver les noms des fichiers qui sont impacté.    Je n'ai jamais fait la commande en RAIDS mais cela sera l'occasion.
             - Avec la liste du disque SDC, On tente d'écrire   les 1300 secteurs illisibles
                           Un certain nombre va bien s'écrire au même endroit, un certain nombre ne va pas pouvoir se réécrire et va justifier l'utilisation d'un secteur de remplacement.
                        Il y a un script à récupérer  et peut-être un peu à modifier.
                                Mon idée est d'en faire des paquets de 400 séparés par un smartctl pour voir l'évolution des secteurs de remplacement.
            - Lorsque ce scénario est  au point, on fait la même chose pour SDD.
            - Puis on monte le RAIDS avec sda sdb sdd   pour que tu puisses l'utiliser.
            - Puis on s'occupe de SDC en lui balançant un test sérieux par (smartctl ou un autre outil).
                      A l'issue de ce test, trois possibilités
                              - Il est à mettre à la poubelle
                              - il est apte
                              - Il doit recevoir un formatage USINE pour une nouvelle vie.   => Cela fera diminuer sa taille utilisateur.
           - Puis SDC est soit conservé soit remplacé par un autre et remis dans le RAIDS.
           - Puis  probablement le même  scénario  de test pour SDD.

Au fait pour les durées, il faut compter  en jours.

Dernière modification par Bougron (Le 25/01/2017, à 10:10)

Hors ligne

#12 Le 24/01/2017, à 19:53

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Je ne suis pas spécialement pressé. Je préfère que ca soit plus long et avoir un meilleur taux de récupération.
J'ai lancé la commande sur SDC il y a une bonne heure et je viens de la lancer sur SDD.
Ok pour les plusieurs jours. J'aurais du commencer par déplacer le pc, il est dans le salon, ouvert avec le retour des mini nous demain soir.
Eventuellement, si j'arrete la commande badblocks avec un controle+C, ca ne pose pas de soucis, hormis le fait qu'il faille recommencer depuis le début ?
Je lance SDA et SDB aussi en parallèle ?

Hors ligne

#13 Le 24/01/2017, à 19:58

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

jmvau54 a écrit :

Quand tu dis "cela va durer", on est plus proche des 2H, 4h, 10H ?

Quel que soit le scénario retenu, on aura certainement besoin de la liste des badblocks.
Je pense qu'en 24 heures cela aura bien avancé.

jmvau54 a écrit :

Sinon, juste pour info, j'ai 2 autres disques vides de 2to à la maison si besoin pour reconstruire ou dupliquer. Je devrais pouvoir copier tout ce qu'il y a à récupérer (un peu plus de 5to), si tout ce passe pas trop mal, sur un autre nas. Enfin je me débrouillerai pour trouver de la place.

Je note l'existence des deux disques de 2 TO.
Si j'ai un doute au moment de corriger SDD, je saurais m'en souvenir.On dupliquera avant.

Dernière modification par Bougron (Le 25/01/2017, à 08:13)

Hors ligne

#14 Le 24/01/2017, à 21:20

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

jmvau54 a écrit :

Je ne suis pas spécialement pressé. Je préfère que ca soit plus long et avoir un meilleur taux de récupération.
J'ai lancé la commande sur SDC il y a une bonne heure et je viens de la lancer sur SDD.
Ok pour les plusieurs jours. J'aurais du commencer par déplacer le pc, il est dans le salon, ouvert avec le retour des mini nous demain soir.
Eventuellement, si j'arrete la commande badblocks avec un controle+C, ca ne pose pas de soucis, hormis le fait qu'il faille recommencer depuis le début ?
Je lance SDA et SDB aussi en parallèle ?

Tu peux arrêter les commandes exécutées. Il faudra simplement les recommencer.
Je n'ai pas proposé sur SDA et SDB car le smartctl indique qu'il n'y a absolument aucun secteur défectueux.
Je te retrouverais une discussion pour les quelques lignes à surveiller dans smartctl


AJOUT   Tu peux lire tous les échanges de cette discussion https://forum.ubuntu-fr.org/viewtopic.php?id=1999082   qui ressemble à ton problème.
Il est possible que jamesbad000 intervienne au moment des manips RAIDS car je n'ai pas la pratique. Mais je sais qu'il est actuellement pris par un sacré problème de récupération  de données.


Mon aide-mémoire pour la suite
Lecture des blocs défectueux
sudo -s
for block in $(cat ~/sdb2.badblocks); do hdparm --read-sector $(($block*8)) /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214 | grep 'reading sector'; done;

sudo  -s   ### afin de passer en root sans le mot de passe à refrapper
MAX=5; i=1;for block in $(cat ~/sdc2.badblocks); do
if [ $i -le $MAX ]
then
sudo hdparm --read-sector $(($block*1)) /dev/sdc2 | grep 'reading sector'
let $[ i+=1 ]
fi
done

ecriture sur un bloc illisible
sudo hdparm --yes-i-know-what-i-am-doing --write-sector 3883610920 /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214

Connaître le fichier qui est impacté.   Voici en ligne de commandes  ce qu'il faut faire.          Si je dois fabriquer le script, cela va prendre du temps

https://wiki.archlinux.org/index.php/Identify_damaged_files a écrit :

https://wiki.archlinux.org/index.php/Id … aged_files
sudo umount /dev/sda16
sudo debugfs
debugfs 1.42.13 (17-May-2015)
debugfs:  open /dev/sda16
debugfs:  testb 2000
Block 2000 marked in use
debugfs:  icheck 2000
Block    Inode number
2000    <block not found>             ===> donc pas un fichier utilisateur,       on passe à la suite
debugfs:  testb 20000
Block 20000 marked in use
debugfs:  icheck 20000
Block    Inode number
20000    393220                       ====> on a bien un Inode
debugfs:  ncheck 393220
Inode    Pathname
[393220    /Rugby/France-NouvelleZélande-1ere-Mi-temps.avi]

Voici une proposition de codification

### Faire la commande testb
sed 's|^|testb |' sdd2.badblocks > sdd2.testb.in
sudo debugfs   -f sdd2.testb.in  /dev/sdd2 > sdd2.testb.out

#### Faire la commande icheck
grep "marked in use" sdd2.testb.out |cut -d  ' ' -f 2 |sed 's|^|icheck |' > sdd2.icheck.in
sudo debugfs  -f sdd2.icheck.in  /dev/sdd2 > sdd2.icheck.out

#### Faire  la commande ncheck
sed '/ck/d' sdd2.icheck.out |cut -d  $'\t' -f 2 |sed 's|^|ncheck |' > sdd2.ncheck.in
sudo debugfs  -f sdd2.ncheck.in  /dev/sdd2 > sdd2.ncheck.out

#### Selection des fichiers
grep "/" sdd2.ncheck.out| cut -d  $'\t' -f 2 |sort|uniq >sdd2.files
cat sdd2.files
wc sdd2.files

Dernière modification par Bougron (Le 25/01/2017, à 19:33)

Hors ligne

#15 Le 25/01/2017, à 00:06

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Les tests sont toujours en cours lancés avec l'option -s
Voici les données actuelles :
SDA : 66% effectué, 2H56, 0 erreur
SDB : 65% effectué, 2h56, 0 erreur
SDC : 6,46%, 3H, 1686/0/0 erreurs
SDD : 30%, 3H, 94/0/0 erreurs

Je ne sais pas à quoi correspondent les différents chiffres des erreurs.

Hors ligne

#16 Le 25/01/2017, à 00:16

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

Premier  chiffre: nombre d'erreurs en lecture
Second chiffre; nombre d'erreurs  en écriture     => Mais je n'ai pas mis l'option. Car je ne tiens pas actuellement a tester en me trompant.
Troisième chiffre ; data- corruptions     ?????

Faire man badblocks   pour les explications détaillées

Je constate que pour des deux bons disques, il répondent 10 fois plus vite!

Pour SDC 6% en 3 heures: C'est parti pour 2 jours?

Bonne idée l'option -s , je viens de la rajouter pour le cas où plus tard, il y aurait des copier/coller

Dernière modification par Bougron (Le 25/01/2017, à 00:22)

Hors ligne

#17 Le 25/01/2017, à 06:47

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Voici les premiers résultats pour sda et sdb

jm@jm-P35C-DS3R:~$ sudo badblocks -b 512 -o ~/SDA4.badblocks   /dev/sda4
jm@jm-P35C-DS3R:~$ cat ~/SDA4.badblocks
jm@jm-P35C-DS3R:~$ sudo badblocks -b 512 -o ~/SDA1.badblocks   /dev/sda1
jm@jm-P35C-DS3R:~$ cat ~/SDA1.badblocks
jm@jm-P35C-DS3R:~$ sudo badblocks -s -b 512 -o ~/SDA2.badblocks   /dev/sda2
Vérification des blocs défectueux (test en mode lecture seule) :   0.00% effectucomplété                                             
jm@jm-P35C-DS3R:~$ cat ~/SDA2.badblocks
jm@jm-P35C-DS3R:~$ wc ~/SDA4.badblocks
0 0 0 /home/jm/SDA4.badblocks
jm@jm-P35C-DS3R:~$ wc ~/SDA1.badblocks
0 0 0 /home/jm/SDA1.badblocks
jm@jm-P35C-DS3R:~$ wc ~/SDA2.badblocks
0 0 0 /home/jm/SDA2.badblocks
jm@jm-P35C-DS3R:~$ sudo smartctl -a /dev/sda
[sudo] Mot de passe de jm : 
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda Green (AF)
Device Model:     ST2000DL003-9VT166
Serial Number:    5YD0XFK9
LU WWN Device Id: 5 000c50 02f0302ea
Firmware Version: CC32
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    5900 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Wed Jan 25 06:41:35 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  623) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 336) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x30b7)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       186154208
  3 Spin_Up_Time            0x0003   092   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       412
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4101625
  9 Power_On_Hours          0x0032   083   080   000    Old_age   Always       -       15347
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       360
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   072   058   045    Old_age   Always       -       28 (Min/Max 27/30)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       351
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       537
194 Temperature_Celsius     0x0022   028   042   000    Old_age   Always       -       28 (0 9 0 0 0)
195 Hardware_ECC_Recovered  0x001a   031   009   000    Old_age   Always       -       186154208
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       722 (133 169 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2891332494
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       2040082804

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     15328         -
# 2  Short offline       Completed without error       00%     15325         -
# 3  Short offline       Completed without error       00%     15325         -
# 4  Short offline       Completed without error       00%       561         -
# 5  Short offline       Completed without error       00%       513         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

jm@jm-P35C-DS3R:~$ 
jm@jm-P35C-DS3R:~$ sudo badblocks -b 512 -o ~/SDB4.badblocks   /dev/sdb4
jm@jm-P35C-DS3R:~$ cat ~/SDB4.badblocks
jm@jm-P35C-DS3R:~$ sudo badblocks -b 512 -o ~/SDB1.badblocks   /dev/sdb1
jm@jm-P35C-DS3R:~$ cat ~/SDB1.badblocks
jm@jm-P35C-DS3R:~$ sudo badblocks -s -b 512 -o ~/SDB2.badblocks   /dev/sdb2
Vérification des blocs défectueux (test en mode lecture seule) :   0.00% effectucomplété                                             
jm@jm-P35C-DS3R:~$ cat ~/SDB2.badblocks
jm@jm-P35C-DS3R:~$ wc ~/SDB4.badblocks
0 0 0 /home/jm/SDB4.badblocks
jm@jm-P35C-DS3R:~$ wc ~/SDB1.badblocks
0 0 0 /home/jm/SDB1.badblocks
jm@jm-P35C-DS3R:~$ wc ~/SDB2.badblocks
0 0 0 /home/jm/SDB2.badblocks
jm@jm-P35C-DS3R:~$ sudo smartctl -a /dev/sdb
[sudo] Mot de passe de jm : 
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda Green (AF)
Device Model:     ST2000DL003-9VT166
Serial Number:    5YD0Y2H4
LU WWN Device Id: 5 000c50 02eff7c50
Firmware Version: CC32
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    5900 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Wed Jan 25 06:39:44 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  612) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 342) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x30b7)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       176581984
  3 Spin_Up_Time            0x0003   092   091   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       420
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4190564
  9 Power_On_Hours          0x0032   084   080   000    Old_age   Always       -       14462
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       368
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       4295032833
189 High_Fly_Writes         0x003a   097   097   000    Old_age   Always       -       3
190 Airflow_Temperature_Cel 0x0022   065   056   045    Old_age   Always       -       35 (Min/Max 27/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       355
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       553
194 Temperature_Celsius     0x0022   035   044   000    Old_age   Always       -       35 (0 9 0 0 0)
195 Hardware_ECC_Recovered  0x001a   031   009   000    Old_age   Always       -       176581984
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       1
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       757 (74 173 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       552959493
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1558371632

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     14443         -
# 2  Short offline       Completed without error       00%     14440         -
# 3  Short offline       Completed without error       00%     14440         -
# 4  Short offline       Completed without error       00%       593         -
# 5  Short offline       Completed without error       00%       545         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

jm@jm-P35C-DS3R:~$ 

L'avancement pour
SDC 58%, 9h42, 760 erreurs
SDD 6,7% 9h42, 5977 erreurs

Ca se rythme, il n'aura pas fini pour le week end

Hors ligne

#18 Le 25/01/2017, à 07:56

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

Bonjour

Pour le suivi des données smartctl des disques
1) En premier, je regarde ce compteur.

SMART Error Log Version: 1
No Errors Logged

Si des erreurs sont notées: Leur nombre ,     si plus de 10.000 cela inquiète mais si la dernière a eu lieu il y a longtemps, cela rassure.
En fait ce n'est qu'indicatif car on doit retrouver ce problème dans les compteurs.

2) en second,  je regarde les compteurs

1 Raw_Read_Error_Rate     0x000f   118   099   006    Pre-fail  Always       -       176581984
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4190564
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0

Bien sur, les valeurs de droites.   Mais suivant les disques, une valeur élevée  peut ne pas être inquiétante.  Pour les compteurs 1 et 7,  c'est une valeur qui fluctue.
Les fabricants se sont mis d'accord pour normaliser sur une base 100   qui veut dire c'est parfait. avec décrémentation . une valeur 0 voulant dire disque HS. Cela c'est la  théorie . C'est le premier chiffre
Pour ces 4 compteurs   on trouve    118!   100 066 et 100
Donc le compteur seek  est a 66% bon

3) en troisième, je regarde les compteurs

183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       4295032833
195 Hardware_ECC_Recovered  0x001a   031   009   000    Old_age   Always       -       176581984
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       1

C'est la même logique
     Ici on va voir que le compteur 199  n'a pas une base de 100 mais de 200
          on voit que le compteur 188    malgré une énorme valeur   est resté à 100        synonyme de mauvaise gestion du compteur
          on voit que le compteur 195  avec sa grosse valeur a maintenant une valeur de 31. => Donc au deux-tiers de sa vie.
                 C'es ce compteur qui m'avait fait dire que le disque s'use tranquillement .   il n'est pas encore à 0!!

4) en quatrième , je regarde d'autres indicateurs

  9 Power_On_Hours          0x0032   084   080   000    Old_age   Always       -       14462
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       368
189 High_Fly_Writes         0x003a   097   097   000    Old_age   Always       -       3
190 Airflow_Temperature_Cel 0x0022   065   056   045    Old_age   Always       -       35 (Min/Max 27/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       355
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       553
194 Temperature_Celsius     0x0022   035   044   000    Old_age   Always       -       35 (0 9 0 0 0)
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       1
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       757 (74 173 0)

on voit ici le compteur 189  qui avec une valeur de 3   a déjà une valeur normalisée de 97      .j'ai envie de dire qu'on a le droit au maxi à 100.
On voit ici le compteur 190 certainement mal géré        065+35 =100
On voit ici le compteur 195 certainement mal géré        035 =   la température  actuelle
On voit le compteur 9 qui avec 14462 heures indique que c'est bon à 084% .   Je te laisse faire la règle de trois
                          Il devrait tourner 90000 heures sauf si un autre compteur se scratche avant
Puis après les autres compteurs dont les deux derniers

241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       552959493
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1558371632

Ma culture vient de https://fr.wikipedia.org/wiki/Self-Moni … Technology
     Je viens aussi de regarder http://superuser.com/questions/477111/w … fly-writes
                       

Réponse à
SDC 58%, 9h42, 760 erreurs
SDD 6,7% 9h42, 5977 erreurs

Je suis un peu inquiet de la tournure que prend SDD.....  dans mon souvenir  SDC et SDD avaient  environ  1300 erreurs.   Pour SDC on reste dans la bonne fourchette. Mais pas pour SDD.

Peux-tu déjà refaire un smartctl de ces deux disques.
Pour un peu, je serais tenté de dire qu'il y a un faux-contact dans le branchement du câble de SDD.

Dernière modification par Bougron (Le 25/01/2017, à 09:48)

Hors ligne

#19 Le 25/01/2017, à 12:13

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Je te dirai ce soir où en est la commande badblocks.
J'ai bon espoir que ce soit fini sur SDC.
On verra pour SDD.
Je veux bien réessayer avec un autre cable sata. On en reparle quand c'est terminé.

Je refais un smartctl dès que la commande badblocks est terminée.

Sinon, j'ai lancé un smartctl sur 3 autres disques pour voir leur état.
Je sais qu'on dérive un peu du sujet initial, mais est ce que je peux te mettre le résultat et me dire si tu es d'accord avec mon analyse, ou sinon un mp si ca ne te dérange pas.

Hors ligne

#20 Le 25/01/2017, à 12:33

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

Aucun problème pour regarder tes autres disques.

Fais quand même malgré tout rapidement le smartctl sur les disques SDC et SDD sans attendre que la recherche badblocks soit finie.

PS. Je viens de modifier mon post #14 pour identifier les noms de fichiers.         Si je ne trouve pas un script tout fait,  Cela va prendre du temps à fabriquer car ce n'est pas ma tasse de thé.

Dernière modification par Bougron (Le 25/01/2017, à 12:35)

Hors ligne

#21 Le 25/01/2017, à 16:35

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

Pour le smartctl, je relance juste

sudo smartctl -a /dev/sdc

ou je refais

sudo smartctl -t short /dev/sdX

?
Merci

Le premier, pour moi, il est en bonne santé

ubuntu@ubuntu:~$  sudo smartctl -a /dev/sda
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     SAMSUNG SpinPoint F1 DT
Device Model:     SAMSUNG HD753LJ
Serial Number:    S13UJDWQB24762
LU WWN Device Id: 5 0000f0 000ad1cbc
Firmware Version: 1AA01113
User Capacity:    750 155 292 160 bytes [750 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7, ATA8-ACS T13/1699-D revision 3b
Local Time is:    Wed Jan 25 05:57:58 2017 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:         (10006) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 168) minutes.
Conveyance self-test routine
recommended polling time:      (  18) minutes.
SCT capabilities:            (0x003f)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   077   077   011    Pre-fail  Always       -       7760
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       918
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10087
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       3565
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       900
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   070   062   000    Old_age   Always       -       30 (Min/Max 29/30)
194 Temperature_Celsius     0x0022   068   058   000    Old_age   Always       -       32 (Min/Max 29/32)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       3782
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   099   000    Old_age   Always       -       70
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 1
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 4a 00 60 e0  Error: ICRC, ABRT at LBA = 0x0060004a = 6291530

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 02 49 00 60 e0 08      00:00:09.080  READ DMA
  c8 00 08 d7 0a 00 e0 08      00:00:09.080  READ DMA
  c8 00 02 49 00 60 e0 08      00:00:09.080  READ DMA
  c8 00 02 4c 09 06 ef 08      00:00:09.080  READ DMA
  c8 00 02 4c 09 06 ef 08      00:00:09.080  READ DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      3558         -
# 2  Extended offline    Completed without error       00%      3540         -
# 3  Conveyance offline  Aborted by host               90%      3537         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Son frère :
Par contre, pour celui là, il n'a pas l'air en mauvaise santé mais il y a des erreurs. Est ce qu'il faut faire un formatage d'usine ?

ubuntu@ubuntu:~$  sudo smartctl -a /dev/sdc
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     SAMSUNG SpinPoint F1 DT
Device Model:     SAMSUNG HD753LJ
Serial Number:    462112CQ385879
LU WWN Device Id: 5 0000f0 018838597
Firmware Version: 1AA01113
User Capacity:    750 156 374 016 bytes [750 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7, ATA8-ACS T13/1699-D revision 3b
Local Time is:    Wed Jan 25 06:01:17 2017 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 114)    The previous self-test completed having
                    the read element of the test failed.
Total time to complete Offline 
data collection:         (10853) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 182) minutes.
Conveyance self-test routine
recommended polling time:      (  20) minutes.
SCT capabilities:            (0x003f)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   099   099   051    Pre-fail  Always       -       586
  3 Spin_Up_Time            0x0007   077   077   011    Pre-fail  Always       -       7680
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       583
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       9988
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       2957
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       561
 13 Read_Soft_Error_Rate    0x000e   099   099   000    Old_age   Always       -       524
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       1
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       524
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   069   001   000    Old_age   Always       -       31 (Min/Max 30/31)
194 Temperature_Celsius     0x0022   067   055   000    Old_age   Always       -       33 (Min/Max 30/33)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       587
196 Reallocated_Event_Count 0x0032   096   096   000    Old_age   Always       -       156
197 Current_Pending_Sector  0x0012   092   088   000    Old_age   Always       -       340
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x000a   099   099   000    Old_age   Always       -       4229
201 Soft_Read_Error_Rate    0x000a   253   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       20%      2947         81522123
# 2  Extended offline    Completed: read failure       90%      2947         81523627
# 3  Short offline       Completed: read failure       20%      2946         81522123
# 4  Extended offline    Completed: read failure       90%      2946         81522123

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ubuntu@ubuntu:~$ 

Et le dernier :
Pareil, son cas n'a pas l'air désespéré mais il a un taux d'erreurs de lecture brut assez élevé.
Son frère a rendu l'ame. Il essaie de démarrer mais il fait un bruit cyclique au démarrage (je suppose la tête de lecteur) puis s'arrete et se met en erreur.

ubuntu@ubuntu:~$  sudo smartctl -a /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.11
Device Model:     ST31500341AS
Serial Number:    9VS2ABXT
LU WWN Device Id: 5 000c50 0152cdfd1
Firmware Version: CC1H
User Capacity:    1 500 300 828 160 bytes [1,50 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Wed Jan 25 06:00:24 2017 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:         (  617) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   1) minutes.
Extended self-test routine
recommended polling time:      ( 293) minutes.
Conveyance self-test routine
recommended polling time:      (   2) minutes.
SCT capabilities:            (0x103f)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   115   099   006    Pre-fail  Always       -       98958899
  3 Spin_Up_Time            0x0003   099   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       707
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   077   060   030    Pre-fail  Always       -       53628079
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       3521
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   037   020    Old_age   Always       -       687
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   097   000    Old_age   Always       -       65587
189 High_Fly_Writes         0x003a   046   046   000    Old_age   Always       -       54
190 Airflow_Temperature_Cel 0x0022   069   043   045    Old_age   Always   In_the_past 31 (0 46 31 30 0)
194 Temperature_Celsius     0x0022   031   057   000    Old_age   Always       -       31 (0 5 0 0 0)
195 Hardware_ECC_Recovered  0x001a   038   027   000    Old_age   Always       -       98958899
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       2
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       3418 (18 242 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       875419853
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       2375880767

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      3497         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ubuntu@ubuntu:~$ 

Dernière modification par jmvau54 (Le 25/01/2017, à 17:15)

Hors ligne

#22 Le 25/01/2017, à 18:03

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

Réponse pour les trois disques
Le premier est en bonne santé.
Le second a des problèmes de qualité  de la surface disque

183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       20%      2947         81522123
# 2  Extended offline    Completed: read failure       90%      2947         81523627
# 3  Short offline       Completed: read failure       20%      2946         81522123
# 4  Extended offline    Completed: read failure       90%      2946         81522123

Les tests ne se sont pas finis. Il n'est pas encore marqué failing-now...... donc pas encore le formatage disque d'usine souvent appelé de bas niveau.
On va essayer de lui faire continuer les tests avec smartctl après après avoir pris note des deux erreurs

1) On  va vérifier que ce n'est toujours pas lisible et contrôler que je ne me trompe pas en valeur.
 

     sudo   dd    if=/dev/sdc  of=/dev/null   bs=512 skip= 81522123  count=1

  Si c'est lisible , tu ne continues pas.
S'il y a une erreur d'entrée-sortie, on est sur le bon secteur. Je tente d'écrire avec le même outil. Dans certains cas, cela marche.
   

     sudo   dd    of=/dev/sdc  if=/dev/zero   bs=512 seek= 81522123  count=1

S'il y a  encore une erreur d'entrée-sortie, on prend l'outil spécialisé
   

sudo  hdparm --read-sector 81522123  /dev/sdc 

S'il y a une erreur d'entrée-sortie, on est sur le bon secteur. On va écrire avec le même outil. Cela marchera.

 sudo hdparm --yes-i-know-what-i-am-doing --write-sector 81522123 /dev/sdc

Tu fais alors la même chose  en remplaçant 81522123 par 81523627    sachant que si tu as du utiliser hdparm, tu peux directement commencer par lui.
Puis tu finis par

sudo smartctl  -A /dev/sdc

je suis curieux de savoir s'il va incrémenter les secteurs réutilisés
Puis tu peux relancer les tests

sudo smartctl -t long /dev/sdc

Pour le troisième cela sent l'usure mécanique

195 Hardware_ECC_Recovered  0x001a   038   027   000    Old_age   Always       -       98958899

sur 100 litres d'essence dans le réservoir, il en resterait 038 si la jauge fonctionne bien.
et pour l'huile, ce n'est pas beaucoup mieux

189 High_Fly_Writes         0x003a   046   046   000    Old_age   Always       -       54

De mon point de vue, sii tu n'entends pas de bruit lorsque tu l'utilises, tu peux continuer à t'en servir.
Avec la précision suivante:  Tous les trois mois, tu refais un smarctctl et tu compares afin de voir l'évolution. C'est rarement en mieux.

Dernière modification par Bougron (Le 25/01/2017, à 18:48)

Hors ligne

#23 Le 25/01/2017, à 18:17

jmvau54

Re : Récupération données Raid 5 provenant d'un NAS

ok merci pour les précisions, je prendrai plus le temps de regarder tout à l'heure

Voilà pour les 2 disques
SDC en est à 68% pour 6954 erreurs

jm@jm-P35C-DS3R:~$ sudo smartctl -a /dev/sdc
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Green (AF)
Device Model:     WDC WD20EARS-00MVWB0
Serial Number:    WD-WMAZA0775988
LU WWN Device Id: 5 0014ee 6006d7948
Firmware Version: 51.0AB51
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Wed Jan 25 18:13:49 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x84)	Offline data collection activity
					was suspended by an interrupting command from host.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(36960) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 357) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x3035)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   001   001   051    Pre-fail  Always   FAILING_NOW 59742
  3 Spin_Up_Time            0x0027   167   162   021    Pre-fail  Always       -       6650
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       535
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       2856
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       445
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       53
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       5757
194 Temperature_Celsius     0x0022   124   104   000    Old_age   Always       -       26
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   196   196   000    Old_age   Always       -       1335
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       63
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       6
200 Multi_Zone_Error_Rate   0x0008   152   088   000    Old_age   Offline      -       12940

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       70%      2828         1077400968
# 2  Short offline       Completed: read failure       10%      2826         1195727008
# 3  Short offline       Completed: read failure       10%      2824         1195731968
# 4  Short offline       Completed: read failure       10%      2824         1195726792
# 5  Short offline       Completed: read failure       10%      2823         1195732176
# 6  Short offline       Completed: read failure       90%      1040         1079687313
# 7  Short offline       Completed without error       00%       836         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

jm@jm-P35C-DS3R:~$ 

et sdd

jm@jm-P35C-DS3R:~$ wc ~/SDD4.badblocks
0 0 0 /home/jm/SDD4.badblocks
jm@jm-P35C-DS3R:~$ wc ~/SDD1.badblocks
0 0 0 /home/jm/SDD1.badblocks
jm@jm-P35C-DS3R:~$ wc ~/SDD2.badblocks
 6954  6954 69565 /home/jm/SDD2.badblocks
jm@jm-P35C-DS3R:~$ sudo smartctl -a /dev/sdd
[sudo] Mot de passe de jm : 
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Green (AF)
Device Model:     WDC WD20EARS-00MVWB0
Serial Number:    WD-WMAZA0733372
LU WWN Device Id: 5 0014ee 0026a39df
Firmware Version: 51.0AB51
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Wed Jan 25 18:13:26 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(35880) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 346) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x3035)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   170   169   051    Pre-fail  Always       -       10388
  3 Spin_Up_Time            0x0027   162   158   021    Pre-fail  Always       -       6891
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       631
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       4180
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       437
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       47
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       9514
194 Temperature_Celsius     0x0022   124   106   000    Old_age   Always       -       26
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   196   001   000    Old_age   Always       -       1367
198 Offline_Uncorrectable   0x0030   198   197   000    Old_age   Offline      -       969
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   184   182   000    Old_age   Offline      -       4507

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      4150         199883076
# 2  Short offline       Completed: read failure       90%      4150         199883072
# 3  Short offline       Completed: read failure       90%      4147         199883077
# 4  Short offline       Completed: read failure       90%      1071         199883077
# 5  Short offline       Completed without error       00%       953         -
# 6  Extended offline    Completed: read failure       90%       868         559851886
# 7  Short offline       Completed: read failure       90%       868         559851885

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Dernière modification par jmvau54 (Le 25/01/2017, à 18:18)

Hors ligne

#24 Le 25/01/2017, à 18:52

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

sdc nous  lâche!!!!
  1 Raw_Read_Error_Rate     0x002f   001   001   051    Pre-fail  Always   FAILING_NOW 59742

Plus qu'un litre d'essence...

Je n'avais pas noté que les tests martctl étaient en cours sur ce disque

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       70%      2828         1077400968
# 2  Short offline       Completed: read failure       10%      2826         1195727008
# 3  Short offline       Completed: read failure       10%      2824         1195731968
# 4  Short offline       Completed: read failure       10%      2824         1195726792
# 5  Short offline       Completed: read failure       10%      2823         1195732176
# 6  Short offline       Completed: read failure       90%      1040         1079687313

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

Dernière modification par Bougron (Le 25/01/2017, à 18:59)

Hors ligne

#25 Le 25/01/2017, à 19:12

Bougron

Re : Récupération données Raid 5 provenant d'un NAS

Je te propose d'essayer ma procédure pour tenter d'identifier les fichiers qui  sont impactés.
C'est celle du post14.    Je l'ai testée en environnement standard (hors raids) et sur partition sans aucun problème.  Cela sera son épreuve du feu.
Il y a encore pas mal de choses en dur. Mais tu devrais pouvoir utiliser voir rectifier s'il y a des erreurs de frappe.

### Faire la commande testb
sed 's|^|testb |' sdd2.badblocks > sdd2.testb.in
sudo debugfs   -f sdd2.testb.in  /dev/sdd2 > sdd2.testb.out

#### Faire la commande icheck
grep "marked in use" sdd2.testb.out |cut -d  ' ' -f 2 |sed 's|^|icheck |' > sdd2.icheck.in
sudo debugfs  -f sdd2.icheck.in  /dev/sdd2 > sdd2.icheck.out

#### Faire  la commande ncheck
sed '/ck/d' sdd2.icheck.out |cut -d  $'\t' -f 2 |sed 's|^|ncheck |' > sdd2.ncheck.in
sudo debugfs  -f sdd2.ncheck.in  /dev/sdd2 > sdd2.ncheck.out

#### Selection des fichiers
grep "/" sdd2.ncheck.out| cut -d  $'\t' -f 2 |sort|uniq >sdd2.files
cat sdd2.files
wc sdd2.files

On va aussi vérifier que les secteurs illisibles le sont toujours.   On peut avoir des surprises.
B) Un petit test. A faire en copier/coller

sudo  -s   ### afin de passer en root sans le mot de passe à refrapper
MAX=5; i=1;for block in $(cat ~/sdd2.badblocks); do
if [ $i -le $MAX ]
then
sudo hdparm --read-sector $(($block*1)) /dev/sdd2 | grep 'reading sector'
let $[ i+=1 ]
fi
done

Tu donneras le résultat.

Dernière modification par Bougron (Le 25/01/2017, à 19:32)

Hors ligne