% 表題: www サーバのトラブルシューティング % % 履歴: 2011/07/29 渡辺 健介 作成 % 本ドキュメントは, 2013/08/06 に発生した www サーバ のネットワークトラブルに関する作業メモである. ■ 症状 08/06 11:38, 増田君の報告からwww サーバへのping が返ってこないことが発覚. epcore-ml : 10954 参照 ■ 原因 orange 搭載のNIC の故障. ■ 作業方針 □ 08/06 応急処置: 作業内容 1--5 + 現状の把握 + 故障個所の特定 - NIC のリンクランプが光っていない. + orange を落とし,NIC を入れ替える. + うまくいかないため,orange での作業をあきらめ, 予備機材のsango にorange のHDD を搭載し, しばらく稼働させる. □ 08/08-22 本格的に作業する前の準備: 作業内容 6 + 直し方の方針の決定 + 新NIC の導入 + accountholder への連絡(教員) □ 08/23 本格的な作業: 作業内容 7-11 + orange の機材にHDD を戻す. + NIC の入れ替え + 設定の変更 ■ 作業内容 ○ 2013/08/06 (火) : 応急処置 1. www にアクセスできなない (06 日 11:38 , [epcore-ml : 10954]) - apache に不自然な挙動はなかった - /var/log/syslog にもI/O エラーなどもない - プロセス過多な様子もない - apache のlog を見てみると06:40 までは,リクエストに応えていた - 毎朝のcron.daily のエラーもちゃんと配信されていた. 2. 現管理者の渡辺がサーバ室に入り確認したところNIC のリンクランプが光っていなかった. - NIC の故障が原因と判断 3. 停電時対応マニュアルをもとにwww サーバをシャットダウン - http://www.ep.sci.hokudai.ac.jp/~epcore/manage/shutdown.html - 今回ネットワークがつながっていなかったため,wall でのlogin しているユーザへの連絡はしていない. 4. NIC の入れ替え作業 - 情報実験の余り物品や,CPS 関係の余り物品から適当にNIC を見繕って差してみる. - CPS の余り機材のNIC をorange に入れた. - orange が新しいNIC を認識しなかった. - 新しいドライバが必要と考え,USB でドライバを持ってきた. - ドライバがうまく入らない. - karnel の更新が必要といわれた. - しかし,karnel を入れるには,gcc などが必要なので,断念. - このNIC の導入をあきらめる - サーバ室にある余り物品のNIC も試してみたが,どれも認識しなかった. - ソフトウェア面の問題も? 5. 応急処置として,現行のwww サーバorange のHDD を予備機材のsango に移し替え稼働させることに. - sango での作業 - 既存のsango の構成にorange のHDD を移し替えた. - NIC は認識されず. - 設定を変更する. - syslog でどのeth がつながっているか確認をする. - eth5 - 空のeth0 を立ち上げる - # ifconfig eth0 up - interfaces のeth ところをeth0 に書き換える. - eth5 を落とす. - ifconfig eth5 down - # eth0 を立ち上げる. - ifup eth0 - blue にping を打ってみたところ成功 - しかし,上の階層以上にはつながらなかった. - ping www.sci.hokudai.ac.jp 失敗 - とりあえず,reboot - 再起動後 - 外付けHDD が認識されない. - マウントしなおしたが,うまくいかない. - ata を差しなおす. - マウントする - # df ! ディスクの表示 - # umount /dev/sda1 - # df ! マウントがされていないのを確認 - # mount /dev/sda1 /home - ユーザのホーム領域が出来ているのを確認 ○ 2013/08/08 (木) - 22 (木) : 事前準備 6. 5. で行ったソフトウェア内での作業をすれば,orange でもつながるのではないかと考えられる. - しかしNIC は完璧に壊れていたので,新しいNIC を用意 - 今回は同じIntel 製のものを用意した - NIC の動作確認 - joho04 で確認(リンクランプを確認) - ついでに,MAC アドレスの確認もする - accountholder への連絡を教員にしてもらう. - HINES へのMAC アドレスの申請のため, サーバのIP アドレス,変更前後のMAC アドレスを教員に伝える. ○ 2013/08/23 (金) : 本格的な作業 7. サーバの停電時マニュアルを元にシャットダウンを行う. - login しているユーザの確認 - # w (who) - 自分の他に一人しかいなかったため,直接logout するように言いに行き wall でのアナウンスは行っていない. - サーバで提供しているサービスを停止する. - # /etc/init.d/apache2 stop - ネットワーク線をぬく - バックアップをとる - # /etc/cron.daily/rsync - メモリバッファーをディスクと同期させる - # sync (数回実行) - シャットダウンする. - # shutdown -h now (halt) 8. 入れ替え作業 - sango にあるorange のHDD を取り出し,元の機材に入れ替える. - orange に新しいNIC カードを追加 9. orange での作業 - orange を起動させる. - NIC の動作確認 - リンクランプは光っている - 起動したがブートローダまで行き着かない - HDD に指しているsata の順番が逆 - 若い番号の方にsystem がインストールされているものを接続する - OS の起動を確認 - root になり,まずNIC がeth の何番で認識されているか確認する. - # lv /var/log/syslog |grep eth - eth6 - /etc/network/interfaces を編集し,eth6 に書き換える - ネットワークインターフェースの再起動を行う. - # ifdown eth6 - # ifup eth6 - 確認 - # ifconfig - eth6 が認識されている. - ping 133.87.45.70 (blue) - 通信を確認 9. 自分の計算機からssh してみる - 成功 10. 他に異常が見られなければ復旧宣言そして作業ログをepcore-ml に投げる. 11. sango はもうすぐ入れ替えるため,起動せず放置. - しかし,いつでも動かせる状態にしてある.