OVH Community, your new community space.

Disque dur "instable"


Mwyann
27/02/2015, 15h13
Citation Envoyé par janus57
Bonjour,

tu regardera mais normalement c'est même un HGST si ce que @oles avait dit est juste.

Cordialement, janus57
Exact :

Code:
=== START OF INFORMATION SECTION ===
Device Model:     HGST HUS724020ALA640
Serial Number:    PN1134P6KVHLBW
LU WWN Device Id: 5 000cca 22df652b1
Firmware Version: MF6OAA70
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Fri Feb 27 15:12:34 2015 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

janus57
27/02/2015, 00h53
Bonjour,

tu regardera mais normalement c'est même un HGST si ce que @oles avait dit est juste.

Cordialement, janus57

Mwyann
26/02/2015, 23h47
Citation Envoyé par SD90078-OVH
version courte: NON

version longue, ovh refuse de changer des disques en préventif, il faut attendre que ça lâche.
sachant que sur KS/sys, tu peux récupérer des disques avec quelques années de fonctionnement, alors que la gamme OVH, les disques sont systématiquement NEUFS.
Désolé mais la constatation que je fais c'est que : non seulement OVH a remplacé le disque simplement à cause des erreurs SMART (le bios de la machine avertissant de la mort imminente du disque), mais en plus :

Code:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   054    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0007   100   100   024    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       3
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   020    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       3
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       3
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       3
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       3
194 Temperature_Celsius     0x0002   206   206   000    Old_age   Always       -       29 (Min/Max 20/32)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0
J'ai obtenu un disque neuf.

Mwyann
26/02/2015, 19h20
Bon, au final, comme je l'ai déjà fait précédemment sur un autre KS, la solution a finalement été de redémarrer le serveur sur le disque vide, évidemment ça a tout cassé, OVH a donc pu constater qu'un disque était HS et a planifié le remplacement. Ca va beaucoup plus vite qu'un diagnostic + ticket + attente du traitement du ticket... Désormais je ferai ça à chaque fois, c'est quand même plus efficace !

Mwyann
25/02/2015, 14h47
Re,

Il n'y a qu'un disque dans la machine, et c'est pas un KS-1, c'est un ancien KS BonPlan à 25.99 € HT/mois avec 2 To de DD (indiqué d'ailleurs dans le SMART : User Capacity: 2,000,398,934,016 bytes [2.00 TB]). Gros avantage (c'est ce pourquoi je cherchais une machine comme ça) : il supporte les FailOver OVH donc je peux le faire booter sur les backups (machines virtuelles) et switcher les FO, le temps de remettre le serveur principal en état de marche.

Cela dit j'ai quand même backupé la backup car il y a des machines virtuelles qui assurent la fameuse backup dedans , et ça m'aurait vraiment embêté d'avoir à tout reconfigurer.

Yann

janus57
25/02/2015, 14h37
Citation Envoyé par nowwhat
Il est trop tôt de parer des backups. Il s'agit d'un KS, donc les backups est un sujet pour le "après changement de disque dur"

(désolé ... je sais, ce n'est pas vendredi encore)
Bonjour,

ici on s'en fou ici vu que d'après le premier message ce KS est lui même un serveur de backup (en même c'est qu'un qu'un KS-1 ça fait +/- 500Go de backup pour 5,99€ TTC).

Cordialement, janus57

nowwhat
25/02/2015, 14h24
Citation Envoyé par janus57
..... fou que le HDD soit plein ou vide vu que de toute façons c'est au client de faire les backups.
Il est trop tôt de parer des backups. Il s'agit d'un KS, donc les backups est un sujet pour le "après changement de disque dur"

(désolé ... je sais, ce n'est pas vendredi encore)

janus57
25/02/2015, 13h28
Bonjour,

le fdisk il le faut quand même au support pour vérifier si tu as 1 ou 2 HDD.

Sinon vu qu'il y a ceci : SMART Error Log Version: 1

Le support va te le changer car le SMART indique un défaut, donc @nicobilaine avait vu juste.

P.S. les commande donné plus haut doivent être fait en intégralité et donné en intégralité au support sinon tu risque de perdre de précieux jours/heures, car le support s'en fou que le HDD soit plein ou vide vu que de toute façons c'est au client de faire les backups.

Cordialement, janus57

Mwyann
25/02/2015, 12h36
Merci de ta réponse ! Voici le résultat complet du smart :

Code:
root@rescue:~# smartctl -a -d ata /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.14.32-xxxx-std-ipv6-64-rescue] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda XT
Device Model:     ST32000641AS
Serial Number:    9WM6BR4C
LU WWN Device Id: 5 000c50 0356b3cc6
Firmware Version: CC13
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Wed Feb 25 12:00:53 2015 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (  609) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   111   099   006    Pre-fail  Always       -       34569325
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       63
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   081   060   030    Pre-fail  Always       -       119438650
  9 Power_On_Hours          0x0032   065   065   000    Old_age   Always       -       30880
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       63
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   067   067   000    Old_age   Always       -       33
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       1
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   069   051   045    Old_age   Always       -       31 (Min/Max 28/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       2
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       62
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       63
194 Temperature_Celsius     0x0022   031   049   000    Old_age   Always       -       31 (0 18 0 0)
195 Hardware_ECC_Recovered  0x001a   055   015   000    Old_age   Always       -       34569325
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       5510443071778
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       3542437233
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1820723385

SMART Error Log Version: 1
ATA Error Count: 33 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 33 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:18.397  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:18.397  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:18.395  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:18.395  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:18.395  READ NATIVE MAX ADDRESS EXT

Error 32 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:15.258  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:15.258  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:15.256  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:15.256  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:15.256  READ NATIVE MAX ADDRESS EXT

Error 31 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:12.135  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:12.135  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:12.133  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:12.133  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:12.133  READ NATIVE MAX ADDRESS EXT

Error 30 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:09.005  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:09.004  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:09.003  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:09.002  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:09.002  READ NATIVE MAX ADDRESS EXT

Error 29 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:05.865  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:05.865  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:05.863  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:05.863  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:05.863  READ NATIVE MAX ADDRESS EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     11573         -
# 2  Short offline       Completed without error       00%     11562         -
# 3  Short offline       Completed without error       00%     11562         -
# 4  Short offline       Completed without error       00%      2653         -
# 5  Short offline       Completed without error       00%      2641         -
# 6  Short offline       Completed without error       00%      2641         -
# 7  Short offline       Completed without error       00%       199         -
# 8  Short offline       Completed without error       00%       197         -
# 9  Short offline       Completed without error       00%       197         -
#10  Short offline       Completed without error       00%       187         -
#11  Short offline       Completed without error       00%       187         -
#12  Short offline       Completed without error       00%       185         -
#13  Short offline       Completed without error       00%       185         -
#14  Short offline       Completed without error       00%       166         -
#15  Short offline       Completed without error       00%       166         -
#16  Short offline       Completed without error       00%       157         -
#17  Short offline       Completed without error       00%       157         -
#18  Short offline       Completed without error       00%       134         -
#19  Short offline       Completed without error       00%       134         -
#20  Short offline       Completed without error       00%       106         -
#21  Short offline       Completed without error       00%       106         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Pas de fdisk -l car j'ai totalement blanchi la surface du disque.

J'ai envoyé ceci au support avec en plus la fin du dmesg pour voir les erreurs ATA.

Yann

janus57
25/02/2015, 12h26
Bonjour,

tu peu montrer ton smart au complet (pour confirmation) ?

Mais ici si dans le smart y a des "Error XX occurred at disk..." le support va le changer à partir du moment ou le SMART sort une erreur il remplace car c'est plus du préventif.

Donc ici je dirais que c'est @nicobilaine, mais tu souhaite qu'on soit sûre à 95% il faut montrer le résultat complet de :
Tester un Disque :

fdisk -l
smartctl -a -d ata /dev/sda

Si votre serveur contient plus d’un disque :

fdisk -l
smartctl -a -d ata /dev/sda
smartctl -a -d ata /dev/sdXX for all drives
Et si cela est confirmé faudra donner exactement les même détails au support (ne leur parle surtout pas de logs de ton serveur pour des question de matériel HS).

Cordialement, janus57

Mwyann
25/02/2015, 12h10
Support contacté, on verra bien... c'est "juste" un dédié de backup, donc c'est moins méchant, mais j'aime pas travailler sans filet ^^

BBR
25/02/2015, 11h58
Les seuls qui pourront te donner une réponse fiable ce sont les membres du support ks, donc tu leur envoies tous les tests en version longue et tu attends le verdict ^^

SD90078-OVH
25/02/2015, 11h57
ce qui était le cas il y a quelques mois (quand le support était ici):
Reallocated_Sector_Ct > 0, disque changé
les autres erreurs, => pas grave, ça marche encore.

mais oui, tu peux toujours demander, ça va te couter du temps (support pas vraiment réactif)

Mwyann
25/02/2015, 11h53
Mettez-vous d'accord les gars... C'est oui ou c'est non ? (Au pire ça coute rien de demander, je m'en fous d'avoir un disque qui a déjà des heures de vol, j'en veux un qui va pas me lâcher probablement dans les doigts d'ici quelques semaines, voire jours...)

SD90078-OVH
25/02/2015, 11h50
version courte: NON

version longue, ovh refuse de changer des disques en préventif, il faut attendre que ça lâche.
sachant que sur KS/sys, tu peux récupérer des disques avec quelques années de fonctionnement, alors que la gamme OVH, les disques sont systématiquement NEUFS.

nicobilaine
25/02/2015, 11h48
A partir du moment où il y a des erreurs smart, ils font le remplacement du disque. Il faut contacter le support avec le résultat complet des commandes cf : http://forum.kimsufi.com/showthread....ter-le-support

Mwyann
25/02/2015, 11h40
Bonjour à tous,

Version courte :
Mon KS (ks380507) a eu des erreurs I/O sur le disque, des secteurs en attente d'être réalloués, et après formatage complet (pour finaliser la réallocation) finalement plus rien... Je ne fais plus confiance à ce disque, cependant il m'est difficile de prouver que celui-ci a des problèmes, mis à part l'historique des erreurs SMART. Est-il possible d'en changer quand même ?

Version longue (avec les détails) :
Mon KS a eu de gros soucis de disque dur il y a quelques jours, erreurs I/O, machine bloquée, obligé de rebooter, en rescue pour voir ce qui se passe. SMART indiquait Reallocated_Sector_Ct 0 mais Current_Pending_Sector 1. J'ai donc monté et transféré toutes mes données sur d'autres machines (avec des erreurs de lecture en prime, voir plus bas) et entrepris d'écrire des zéros sur tout le disque afin de réallouer ce secteur définitivement et ensuite faire changer le disque. Problème, à la fin du formatage, le secteur défectueux a disparu : Reallocated_Sector_Ct 0 et Current_Pending_Sector 0 ! Il ne me reste plus que quelques logs et quelques erreurs SMART pour prouver ma bonne foi :

Code:
Error 33 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:18.397  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:18.397  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:18.395  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:18.395  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:18.395  READ NATIVE MAX ADDRESS EXT

Error 32 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:15.258  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:15.258  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:15.256  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:15.256  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:15.256  READ NATIVE MAX ADDRESS EXT

Error 31 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:12.135  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:12.135  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:12.133  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:12.133  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:12.133  READ NATIVE MAX ADDRESS EXT

Error 30 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:09.005  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:09.004  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:09.003  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:09.002  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:09.002  READ NATIVE MAX ADDRESS EXT

Error 29 occurred at disk power-on lifetime: 30835 hours (1284 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:44:05.865  READ FPDMA QUEUED
  27 00 00 00 00 00 e0 00      04:44:05.865  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      04:44:05.863  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      04:44:05.863  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      04:44:05.863  READ NATIVE MAX ADDRESS EXT
Code:
ata1.00: exception Emask 0x0 SAct 0x1000 SErr 0x0 action 0x0
ata1.00: irq_stat 0x40000008
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/08:60:90:ad:b0/00:00:e8:00:00/40 tag 12 ncq 4096 in
         res 41/40:08:93:ad:b0/00:00:e8:00:00/00 Emask 0x409 (media error) 
ata1.00: status: { DRDY ERR }
ata1.00: error: { UNC }
ata1.00: configured for UDMA/133
sd 0:0:0:0: [sda] Unhandled sense code
sd 0:0:0:0: [sda]
Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 0:0:0:0: [sda]
Sense Key : Medium Error [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
        72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
        e8 b0 ad 93
sd 0:0:0:0: [sda]
Add. Sense: Unrecovered read error - auto reallocate failed
sd 0:0:0:0: [sda] CDB:
Read(10): 28 00 e8 b0 ad 90 00 00 08 00
end_request: I/O error, dev sda, sector 3903892883
ata1: EH complete
ata1.00: exception Emask 0x0 SAct 0x2000 SErr 0x0 action 0x0
ata1.00: irq_stat 0x40000008
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/08:68:90:ad:b0/00:00:e8:00:00/40 tag 13 ncq 4096 in
         res 41/40:08:93:ad:b0/00:00:e8:00:00/00 Emask 0x409 (media error) 
ata1.00: status: { DRDY ERR }
ata1.00: error: { UNC }
ata1.00: configured for UDMA/133
sd 0:0:0:0: [sda] Unhandled sense code
sd 0:0:0:0: [sda]
Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 0:0:0:0: [sda]
Sense Key : Medium Error [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
        72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
        e8 b0 ad 93
sd 0:0:0:0: [sda]
Add. Sense: Unrecovered read error - auto reallocate failed
sd 0:0:0:0: [sda] CDB:
Read(10): 28 00 e8 b0 ad 90 00 00 08 00
end_request: I/O error, dev sda, sector 3903892883
ata1: EH complete
ata1.00: exception Emask 0x0 SAct 0x4000 SErr 0x0 action 0x0
ata1.00: irq_stat 0x40000008
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/08:70:90:ad:b0/00:00:e8:00:00/40 tag 14 ncq 4096 in
         res 41/40:08:93:ad:b0/00:00:e8:00:00/00 Emask 0x409 (media error) 
ata1.00: status: { DRDY ERR }
ata1.00: error: { UNC }
ata1.00: configured for UDMA/133
sd 0:0:0:0: [sda] Unhandled sense code
sd 0:0:0:0: [sda]
Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 0:0:0:0: [sda]
Sense Key : Medium Error [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
        72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
        e8 b0 ad 93
sd 0:0:0:0: [sda]
Add. Sense: Unrecovered read error - auto reallocate failed
sd 0:0:0:0: [sda] CDB:
Read(10): 28 00 e8 b0 ad 90 00 00 08 00
end_request: I/O error, dev sda, sector 3903892883
ata1: EH complete
Est-ce suffisant pour demander un remplacement de disque ? Je suis en train de le formater à nouveau avec /dev/urandom cette fois-ci afin de voir si il réagit différemment avec des données aléatoires mais j'en doute... mais je n'ai pas envie de tout rebasculer sur ce disque maintenant qu'il m'a fait un coup comme ça.

Merci d'avance !

Yann