OVH Community, your new community space.

Crash BDD MYSQL sur un kimsufi/monter le disque raid


buddy
11/04/2015, 21h31
SDB commence à mourrir ... il faut que tu contactes le support via le site. avec le smartctl de SDA aussi.

nb_support
11/04/2015, 20h25
Ci-dessous la vérification de l'état de SDB

root@rescue:~# smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.14.32-xxxx-std-ipv6-64-rescue] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family: Toshiba 3.5" HDD DT01ACA...
Device Model: TOSHIBA DT01ACA100
Serial Number: 53BJZPGNS
LU WWN Device Id: 5 000039 ff6d5d0a8
Firmware Version: MS2OA750
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Fri Apr 10 22:35:19 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 7458) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 125) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 096 096 016 Pre-fail Always - 9
2 Throughput_Performance 0x0005 142 142 054 Pre-fail Offline - 71
3 Spin_Up_Time 0x0007 127 127 024 Pre-fail Always - 182 (Average 178)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 30
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 28
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 110 110 020 Pre-fail Offline - 36
9 Power_On_Hours 0x0012 098 098 000 Old_age Always - 14301
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 30
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 281
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 281
194 Temperature_Celsius 0x0002 206 206 000 Old_age Always - 29 (Min/Max 18/40)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 31
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 8
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0

SMART Error Log Version: 1
ATA Error Count: 10 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 10 occurred at disk power-on lifetime: 14301 hours (595 days + 21 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 08 f0 90 47 03 Error: UNC at LBA = 0x034790f0 = 55021808

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 00 f0 90 47 40 00 02:01:51.976 READ FPDMA QUEUED
60 08 00 e8 90 47 40 00 02:01:51.976 READ FPDMA QUEUED
60 08 00 e0 90 47 40 00 02:01:51.976 READ FPDMA QUEUED
60 08 00 d8 90 47 40 00 02:01:51.976 READ FPDMA QUEUED
60 08 00 d0 90 47 40 00 02:01:51.976 READ FPDMA QUEUED

Error 9 occurred at disk power-on lifetime: 14301 hours (595 days + 21 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 10 f0 90 47 03 Error: UNC at LBA = 0x034790f0 = 55021808

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 00 00 90 47 40 00 02:01:48.630 READ FPDMA QUEUED
60 08 00 38 09 72 40 00 02:01:48.629 READ FPDMA QUEUED
60 08 00 08 09 72 40 00 02:01:48.614 READ FPDMA QUEUED
60 08 00 30 09 72 40 00 02:01:48.614 READ FPDMA QUEUED
60 08 00 00 09 b2 40 00 02:01:48.611 READ FPDMA QUEUED

Error 8 occurred at disk power-on lifetime: 14298 hours (595 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 08 f0 90 47 03 Error: UNC at LBA = 0x034790f0 = 55021808

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 00 f0 90 47 40 00 00:01:25.448 READ FPDMA QUEUED
60 10 00 70 69 48 40 00 00:01:25.204 READ FPDMA QUEUED
ea 00 00 00 00 00 a0 00 00:01:24.342 FLUSH CACHE EXT
61 08 00 80 57 60 40 00 00:01:24.342 WRITE FPDMA QUEUED
ea 00 00 00 00 00 a0 00 00:01:24.342 FLUSH CACHE EXT

Error 7 occurred at disk power-on lifetime: 14298 hours (595 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 08 f0 90 47 03 Error: UNC at LBA = 0x034790f0 = 55021808

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 00 f0 90 47 40 00 00:00:42.006 READ FPDMA QUEUED
60 08 00 e8 90 47 40 00 00:00:42.006 READ FPDMA QUEUED
60 08 00 e0 90 47 40 00 00:00:42.006 READ FPDMA QUEUED
60 08 00 d8 90 47 40 00 00:00:42.006 READ FPDMA QUEUED
60 08 00 d0 90 47 40 00 00:00:42.006 READ FPDMA QUEUED

Error 6 occurred at disk power-on lifetime: 14298 hours (595 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 10 f0 90 47 03 Error: UNC at LBA = 0x034790f0 = 55021808

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 00 00 90 47 40 00 00:00:38.657 READ FPDMA QUEUED
60 08 00 38 09 72 40 00 00:00:38.656 READ FPDMA QUEUED
60 08 00 08 09 72 40 00 00:00:38.650 READ FPDMA QUEUED
60 08 00 30 09 72 40 00 00:00:38.649 READ FPDMA QUEUED
60 08 00 00 09 b2 40 00 00:00:38.638 READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 2995 -
# 2 Short offline Completed without error 00% 2994 -
# 3 Short offline Completed without error 00% 2994 -
# 4 Short offline Completed without error 00% 2941 -
# 5 Short offline Interrupted (host reset) 90% 1004 -
# 6 Short offline Completed without error 00% 1000 -
# 7 Short offline Completed without error 00% 13 -
# 8 Short offline Completed without error 00% 8 -
# 9 Short offline Completed without error 00% 8 -
#10 Short offline Completed without error 00% 1 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

janus57
11/04/2015, 18h04
Bonjour,

heu vu comment il voit le RAID, je pense que son backup c'est sont RAID, donc là il est un peu beaucoup dans la merde vu qu'il pensait que le RAID c'était du backup (voilà pourquoi il cherche un "disque RAID").

Après il a pas posté les 2 smartctl, donc peut être que juste sdb est HS (donc sda a peut être les donnée non corrompu car sdb c'est fait retiré avant du group RAID) ou peut être les 2.

Dans tout les cas il devrait sans plus tarder d'essayer de faire un dump vite fait bien fait pour éviter la mort totale puis faire une demande de changement au support avec les 2smartctl (sinon perte de temps).

Cordialement, janus57

buddy
11/04/2015, 17h35
Je crois que je viens de comprendre ...
ton disque SDA est hors RAID (surement suite à une panne et là http://forum.kimsufi.com/showthread....l=1#post191168 tu dis que c'est SDB qui a des erreurs, donc à mon avis tes 2 disques sont HS/mourrants ... et chaque minute qui passe il se rapproche de la tombe / casse définitive ... mais tu as bien des sauvegardes quelque part non ?? du coup tu pourras tout réinstaller sans soucis. sinon, çà sent le roussi là.

BBR
11/04/2015, 17h28
et si le serveur est en mode rescue, tu remets hd sur le manager, puis un reboot (en ssh)
si c'est le cas et que tu ne peux pas sortir de rescue :
http://www.how-to.ovh/viewtopic.php?f=19&t=59 pour récupérer tes bdd

buddy
11/04/2015, 17h25
le disque RAID ce n'est pas un disque en plus hein ... c'est le disque / le groupe de disque mirroir sur lequel démarre ton serveur.

pour y accéder en SSH tu fais cd / et tu es dessus.

BBR
11/04/2015, 17h12
encore une fois : ce n'est pas un disque spécial et il est en théorie opérationnel, alors fais tes sauvegardes comme tu les fais d'habitude !

nb_support
11/04/2015, 16h44
MErci BBR & Buddy. j'ai bien compris que tout est propagé sur le disque raid.
je souhaite comme même vérifier l'état de différents fichiers sur le disque en raid.
comment y accéder .?
Thanks

BBR
11/04/2015, 16h37
ce n'est pas "un disque raid" mais 2 disques durs mis en raid, lorsqu'un seul est mort, l'autre fonctionne toujours et tout continue d'être accessible : sites, bdd, ssh etc.
Dans l'exemple de buddy, si tu perds la 1ere feuille, tout est encore sur l'autre

nb_support
11/04/2015, 15h38
Merci pour votre support.
sinon comment accéder les données sur le disque raid ?
THanks for helps

buddy
11/04/2015, 14h33
Citation Envoyé par nb_support
Sinon je veux vérifier accéder au disque en raid pour voir ce qui'il contient pour récupérer quelque choses ???

merci de votre aide
Pour le changement de disque, le support c'est ici : http://www.kimsufi.com/fr/support/

Je maintiens ce que j'ai dit sur le reste ...
Ton disque RAID est déjà monté, tu vois déjà les données... un RAID c'est juste un "mirroir en temps réel" pas un backup à H-1 ou H-24 ou autre ...
Tu n'as que mes commandes mysqlcheck pour t'aider.

buddy
11/04/2015, 14h32
le RAID1 c'est comme une feuille + du papier carbone en dessous, si tu "fais une erreur" sur la feuille, beh elle est immédiatement aussi sur la feuille carbone...
là c'est pareil.

ce n'est pas la meilleure définition, mais çà t'aidera à y voir plus clair : http://fr.wikipedia.org/wiki/RAID_%2...ques_en_miroir

chaque disque de la grappe contenant à tout moment exactement les mêmes données

nb_support
11/04/2015, 14h30
effectivement le test avec smartctl sur sdb a donné des erreurs ce qui prouve qu'il a crashé, il faudra que le support le confirme pour remplacer ce disque

Sinon je veux vérifier accéder au disque en raid pour voir ce qui'il contient pour récupérer quelque choses ???

merci de votre aide

buddy
11/04/2015, 14h27
tes disques sont déjà montés ... dès que tu démarres le serveur, les 2 disques se montent ..

RAID 1 avec 2 disques= Données répliquées en temps réel sur 2 disques durs ...
De toute façon un de tes disques durs et "Hors Raid" donc, à part les commandes que je t'ai donné plus haut, il n'y a rien à faire ...

nb_support
11/04/2015, 14h25
Merci à vous tous.
Je vais essayer de faire la recuperation avec ces commandes.

Mais je veux monter les disque Raids pour voir si je pourrai récuperer quelques choses

Merci d'avance pour vos retour

janus57
11/04/2015, 14h23
Bonjour,

du coup faudrait faire les test smartctl sur sda + sdb aussi et le cas échéant contacter le support et préparer un backup surtout.

Cordialement, janus57

buddy
11/04/2015, 14h18
et pour info un disque du raid semble HS ...

Sinon il est possible de tenter en ligne de commande (en mode normal pas rescue)

mysqlcheck -c -u root -p --all-databases
puis
mysqlcheck -r -u root -p --all-databases
puis
mysqlcheck -a -u root -p --all-databases
puis
mysqlcheck -o -u root -p --all-databases

et çà remarchera peut être

janus57
11/04/2015, 14h00
Bonjour,

vous savez que le RAID n'est pas un backup ??

Si vous faite une action X sur votre BDD cette action sera répliqué à l'identique et en simultané (pratiquement à quelques ms prêt) sur les 2disques.

Donc si la table est crashé/effacé sur le disque 1 elle l'est également sur le disque 2.

Maintenant une table MySQL peu crash sans perte de donnée, il est possible de la récupérer via une réparation, mai pour ça faut re-lancer MySQL et faire une réparation si c'est une BDD en MyISAM.

MyISAM car ce moteur de stockage a un système de réparation contrairement à une InnoDB que MySQL va tenter de réparer a son démarrage et si sa fail on pourra pas faire grand chose (il me semble...)

Bref dans tous les cas il faut un backup pour prévenir ce genre de situation et non un RAID qui est fait pour le continuité de service.

Cordialement, janus57

nb_support
11/04/2015, 13h51
Bonjour,

Je suis sur un serveur Kimsuffi.j'ai perdu la base de donnée MYSQL suite à crash serveur.
J'ai un RAID sur ce serveur je souhaite savoir si je peux récupérer ma BDD avant le crash du serveur et comment faire si c'est possible.

Voici un état de lieu des mes disques et l'état du RAID

root@server:/mnt# fdisk -l

Disk /dev/sda: 1000.2 GB, 1000204886016 bytes
255 heads, 63 sectors/track, 121601 cylinders, total 1953525168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00016528

Device Boot Start End Blocks Id System
/dev/sda1 * 4096 40962047 20478976 fd Linux raid autodetect
/dev/sda2 40962048 1952471039 955754496 fd Linux raid autodetect
/dev/sda3 1952471040 1953517567 523264 82 Linux swap / Solaris

Disk /dev/sdb: 1000.2 GB, 1000204886016 bytes
255 heads, 63 sectors/track, 121601 cylinders, total 1953525168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00088750

Device Boot Start End Blocks Id System
/dev/sdb1 * 4096 40962047 20478976 fd Linux raid autodetect
/dev/sdb2 40962048 1952471039 955754496 fd Linux raid autodetect
/dev/sdb3 1952471040 1953517567 523264 82 Linux swap / Solaris

Disk /dev/md2: 978.7 GB, 978692538368 bytes
2 heads, 4 sectors/track, 238938608 cylinders, total 1911508864 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

Disk /dev/md2 doesn't contain a valid partition table

Disk /dev/md1: 21.0 GB, 20970405888 bytes
2 heads, 4 sectors/track, 5119728 cylinders, total 40957824 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

Disk /dev/md1 doesn't contain a valid partition table
root@server:/mnt# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md1 : active raid1 sdb1[1]
20478912 blocks [2/1] [_U]

md2 : active raid1 sdb2[1]
955754432 blocks [2/1] [_U]

unused devices:


root@server:/mnt# cat /etc/fstab
#
/dev/md1 / ext4 errors=remount-ro,relatime 0 1
/dev/md2 /home ext4 defaults,relatime 1 2
/dev/sda3 swap swap defaults 0 0
/dev/sdb3 swap swap defaults 0 0
proc /proc proc defaults 0 0
sysfs /sys sysfs defaults 0 0
tmpfs /dev/shm tmpfs defaults 0 0
devpts /dev/pts devpts defaults 0 0
root@server:/mnt# df -h
Sys. fich. Taille Util. Dispo Uti% Monté sur
rootfs 20G 5,0G 14G 28% /
/dev/root 20G 5,0G 14G 28% /
devtmpfs 7,8G 0 7,8G 0% /dev
tmpfs 1,6G 244K 1,6G 1% /run
tmpfs 5,0M 0 5,0M 0% /run/lock
tmpfs 3,4G 0 3,4G 0% /dev/shm
/dev/md2 898G 9,9G 842G 2% /home
root@server:/mnt#

SVP aidez moi comment monter le disque qui était en raid , le but c'est de récupérer les données MYSQL

URGENT MERCI