Quando uma máquina tem uma falha de disco (por exemplo,
um panic
devido a erros de leitura, etc.),
devemos executar os seguintes procedimentos:
Anote o tempo e o tipo de falha
(por exemplo, colea saída do console que for relevante) no
/var/portbuild/${arch}/reboots
Para os clientes gohan i386, limpe o disco
criando o arquivo /SCRUB
no
nfsroot
(por exemplo,
/a/nfs/8.dir1/SCRUB
) e reinicie. Isso
vai executar um dd if=/dev/zero of=/dev/ad0
e forçar a unidade a remapear todos os setores defeituosos que
encontrar, isto se ela ainda tiver setores suficientes
sobrando. Esta é uma medida temporária para estender o tempo
de vida de uma unidade de disco que em breve irá tornar-se
inutilizável.
Para os sistemas blade
i386,
outro sinal de falha nos discos é quando a
blade
fica em espera e não responde a
qualquer comando pelo console, ou mesmo pelo
NMI.
Para os outros sistemas de compilação que não executam um newfs nos seus discos no momento da inicialização (por exemplo, os sistemas amd64) este procedimento deve ser ignorado.
Se o problema persistir, então provavelmente o
disco está inutilizado. Remova a máquina do
mlist
e (para discos ATA) execute o
smartctl
na unidade:
smartctl -t long /dev/ad0
Isso vai levar cerca de 30 minutos:
gohan51# smartctl -t long /dev/ad0 smartctl version 5.38 [i386-portbld-freebsd8.0] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION === Sending command: "Execute SMART Extended self-test routine immediately in off-line mode". Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 31 minutes for test to complete. Test will complete after Fri Jul 4 03:59:56 2008 Use smartctl -X to abort test.
Quando o comando acima finalizar, execute o comando
smartctl -a /dev/ad0
para verificar o
estado da unidade:
# SMART Self-test log structure revision number 1 # Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 80% 15252 319286
Ele também exibirá outros dados, incluindo um
log
dos erros anteriores da unidade. É
possível que a unidade mostre erros de
DMA embora não apresente falhas no
auto-teste (por conta do remapeamento de
setores).
Quando um disco falhar, por favor, informe os
administradores do cluster
, para que possamos
substituí-lo.
Este, e outros documentos, podem ser obtidos em ftp://ftp.FreeBSD.org/pub/FreeBSD/doc/
Para perguntas sobre FreeBSD, leia a
documentação antes de contatar
<questions@FreeBSD.org>.
Para perguntas sobre esta documentação, envie e-mail para
<doc@FreeBSD.org>.