%================================================================= % 地球惑星専攻サーバ トラブルカルテ % 日付 : 2000/07/31 % サーバ : メール % 文責 : やまだ %----------------------------------------------------------------- ■ 症状 全学停電後, サーバ群を起動したところ mail サーバをシャットダウンした日の明朝から シャットダウン直前までに受け取ったメールが消えてしまった. ■ 原因 メールサーバのホームディレクトリ用メインハードディスクの故障. ■ 対応 - ホームディレクトリ用バックアップハードディスクをメインとして接続. - 新たなバックアップ用ハードディスクを増設し 従来のファイルシステムに復帰 ■ 対策 1) シャットダウン前にホームディレクトリ用ハードデスクと バックアップ用ハードディスクの同期をとる. (/etc/cron.daily/rsync を起動させる等) 2) 電源ケーブルを外しておく. (全学停電中の検査による??影響を防ぐため) ■ 判定方法 df コマンドでマウントされているハードディスクを確認する. 以下の様に表示される場合, 上記原因のトラブルの可能性がある. blue$ df /dev/hda1 1981000 349564 1529025 19% / /dev/sda1 17066300 1327876 14849630 8% /home ■ 解説 mail サーバではメイン/バックアップ用 SCSI ハードディスクが 取り付けてあり, それぞれ sda/sdb として OS では認識されている (以後ハードウェアを指す場合メイン HD,バックアップ HD と記述). 本来 sda として認識されるべきハードディスク (メイン HD) が故障し、 BIOS レベルでの認識されない場合, 故障前まで sdb として 認識されていたバックアップ HD が sba に割り当てられる. /etc/fstab (注1) では sda1 を /home に, sb1 を /home.bk に マウントするよう記述しているので, 本来 /home.bk にマウントされるべき ハードディスクが /home にマウントされる. 今回メイン HD の内容とバックアップ HD の内容の同期がとれていない状態, つまり最終バックアップ後メイン HD に書き込みがあった状態で, システムを停止した. その後, メイン HD 故障, 再起動という経過をたどったため, システム停止直前のメールの内容を持たないバックアップ HD が /home ディレクトリにマウントされ, あたかも メイン HD の ある期間の内容が失われたかのような症状に見えてしまった. 本トラブルを避けるには, システムを落す前に 同期をとることが非常に有効である. 注1) /etc/fstab : ファイルシステムに付いての情報が記述されたファイル. 2000/08/01 mail サーバの /etc/fstab は以下の通り. -<ここから>--------------------------------------------------------------- # /etc/fstab: static file system information. # # /dev/hda1 / ext2 defaults,errors=remount-ro 0 1 proc /proc proc defaults 0 0 /dev/sda1 /home ext2 defaults,usrquota 0 0 /dev/sdb1 /home.bk ext2 defaults 0 0 -<ここまで>--------------------------------------------------------------- ■ 本トラブルと対応の経過 07月29日 06:25 cron によってバックアップ用プログラム(/etc/cron.daily/rsync)を起動. /home (sda1 ; SCSI ID = 0 : メイン HD) の内容を /home.bk (sdb1 ; SCSI ID = 1 : バックアップ HD) にコピー. 07月29日 19:52 まで /home (sda1 : SCSI ID =0 ) 以下にメール配送等の ファイル書き込みがなされる. 注: この段階でメイン HD の内容とバックアップ HD の内容が異なる. 07月29日 19:52 全学停電のに備えサーバをシャットダウン 07月30日 19:06 全学停電日程終了後専攻サーバを起動 SCSI ID = 0 → 故障 認識されず SCSI ID = 1 → sda が割り振られる. この結果以下のようなファイル構成となってしまった. /home (sda1 : SCSI ID = 1) /home.bk (hda1 : EIED) 07月30日 ??:?? - 前述の原因判明. - 壊れたハードディスクの変わりに今までバックアップ HD としていたものを メインに使うことに決定. /home にマウント. - 新たなバックアップ HD を準備し /home.bk にマウント. (今回予備の HD は無かったが, メールサーバを重視し FTP サーバ用 HD をあてがう) - 専攻ネットワーク委員会に状況報告, 専攻全体への通知を依頼.