% % 表題: news トラブルシューティング % % % 履歴: 2003/05/21 塚原 大輔 % 2003/06/01 塚原 大輔 本ドキュメントは, 2003/05/21 に発生した, ニュースサービス停止にともなう復旧作業メモである. ■履歴 2003/05/20 20:00 -- ニュースサービス停止 2003/05/30 22:00 以下の対策を行い, サービス一時再開. 様子を見る. 2003/06:01 00:00 特に異常が見られないため, サービス正式再開 ■症状 - newsサービスが停止した. 管理代理者(山田由貴子氏)によるとinn自体は上がっていた模様. サービス停止前後のlogを見ると =========================================== May 20 03:41:34 white innd: tradspool: could not open /var/spool/news/articles/alt/hack/3 File exists =========================================== というメッセージが大量に存在し, 最後のメッセージと同時刻に. =========================================== Syslog critical messages: May 20 19:54:32 white innd: SERVER throttle File exists writing SMstore file -- throttling =========================================== というメッセージが吐き出され, サービスが停止した模様. サービスが停止した直接の原因は昨年同様不明. (http://www.ep.sci.hokudai.ac.jp/~epnews/dvlop/trouble.txt 参照) ■ 対策, 作業log 1. news サーバ再開 news$ rc.news 2. ps でプロセスが正しく走っているか確認 news$ ps aux |grep news ============================================== news 32425 0.3 3.0 17876 15800 ? S May31 3:52 /usr/local/news/bin/innd -p4 news 12081 0.0 0.2 2196 1224 pts/0 S 14:15 0:00 /bin/bash news 12177 0.0 0.3 3572 1608 pts/0 R 14:43 0:00 ps aux news 12178 0.0 0.2 2196 1224 pts/0 R 14:43 0:00 grep news ============================================== 3. 20時間ほど放置. 異常が見られないため, サービス正式再開を告知. ■ 予想される原因 今のところ下記のいずれかが原因と思われる. 1. overviewファイルが壊れた. これは昨年と同ケース. 記事データベースが壊れたことでサービスが停止した. しかしデータベースファイルを作り直さなくともサービスは正常再開したことので違う? 時間が経つと自動的に再生されるのだろうか? 2. expire が swap を食いつぶした. 停止の数日前から, comp.binaries.apple2, alt.binaries. というnewsグループへ流入する記事のデータ量が異常に増加しており, swap領域を食いつぶしたのではないかという推測による. だが確証は無い. ■ 参考文献 http://www.imel.kyoto-u.ac.jp/imel/tebiki/rvsettei/settei/node183.html#SECTION021362000000000000000 http://www.isc.org/ml-archives/inn-workers/2001/10/msg00032.html http://m7.st/INN/fiction/ ■メモ - 停止する数日前からコントロールメッセージ(newsグループの作成, 削除等) の量が増加していた. - comp/binaries および alt/binaries に投稿されるデータ量が異常に大きい. # du -s /var/spool/news/articles/comp/* news@white:~$ du -s /var/spool/news/articles/comp/binaries/* 1400522 /var/spool/news/articles/comp/binaries/apple2 1 /var/spool/news/articles/comp/binaries/cbm 23 /var/spool/news/articles/comp/binaries/ibm 1 /var/spool/news/articles/comp/binaries/mac 1 /var/spool/news/articles/comp/binaries/ms-windows 1 /var/spool/news/articles/comp/binaries/os2 news@white:~$ du -s /var/spool/news/articles/comp/ 1498555 /var/spool/news/articles/comp - サービス停止前後のlogを見ると以下のメッセージが大量に吐かれている. =========================================== May 20 03:41:34 white innd: tradspool: could not open /var/spool/news/articles/alt/hack/3 File exists ... May 20 19:54:32 white innd: tradspool: could not open /var/spool/news/articles/alt/pl/binaries/nfo/19 File exists =========================================== 最後のメッセージと同時にサービス停止. =========================================== Syslog critical messages: May 20 19:54:32 white innd: SERVER throttle File exists writing SMstore file -- throttling ===========================================