Top / サーバ関連 / 2日間のサーバとの戦いの記録

« FFA+変更数件 | メイン | 数日振りの日記 »

2日間のサーバとの戦いの記録

ゲームの缶詰トップページにて告知している通り、07/11/28 10:00~07/11/29 23:55までメインサーバがダウンしていました。
この2日間ほぼ食わず寝ずの状態だったのですが、何が起こって、どう対処したのかを書いてみます。

まず事前告知していた通りメインサーバのメンテナンスの為、一旦サーバを終了しました。
目的:1年以上連続稼動している為の点検
ケース・電源・ファンの交換、他各種パーツのチェック、内部の掃除を行う予定でした。
上記作業完了後(1時間30分ほど)起動をしたのですが、起動途中で100%フリーズ(同じ場所:1秒程度の幅)したため問題箇所を探りました。
電源を戻す→NG(元々別PCで動作確認済み)

HDDをメイン用のみにする→NG

メモリを交換する→NG

HDDを全てはずしてCDブートを試みる→NG

各種パーツをはずす→NG

CPUを1つはずす→OK

この結果からCPUソケット、又はCPUコアが故障しており、故障側のCPUが処理し始めるタイミングでフリーズしていた事が考えられます。
という事でCPUを1つはずして動かしたのですがカーネルパニック発生。
フリーズを繰り返していたことでファイルシステムが壊れてしまった?ようです。
reiserfsck --check ~でチェックしてみるとHDD交換したほうがいいよ!的なメッセージが英語で表示されたので諦めて適当なHDDにデータを移動。
dd_rhelp ~→reiserfsck --check ~でチェックしてみると --rebuild-treeした方がいいよ!的なメッセージが英語で表示されたので実行するとデータが移行できました。
すると今度はGRUB Error17で起動不可。
OSを無理やりインストールし直しても修復しても直らず、(何故かブートローダーを上書きできない)
良い対処方法がイマイチわからなかったので以下の作業

(メインサーバのHDDは3台、それぞれ1番(故障)、2番、3番とする。一時HDDを4番、移行予定HDDを5番とする)
HDD5番と4番を接続。rhelpでHDD5番のデータをHDD4番にコピー

HDD5番を一旦全て消し、パーティションを切って普通にOSをインストール

fdiskで少しいじってから起動し、HDD4番の/etc/fstabを修正←不要?

dd_rhelpで先ほどOSをインストールしたHDD5番のパーティションにコピー

HDD4番をはずし、HDD2番と3番を接続。起動しようとするとデータが無いよと怒られる。
見てみると、OSを入れているパーティションの直前のswapパーティションが上手く認識されていない

swapパーティションをフォーマット→変わらずだったのでOSを入れたパーティションの後ろを削除(不要?)、swapパーティションを一旦削除し再度作成(不要?)

カーネルパニック発生したのでOSを無理やりアップデート(上書き)

無事起動。/etc/fstabを修正して以前の状態に戻す。

という事で復旧完了しました。いくつかのアプリケーションが壊れていたのを確認、ゲームのデータに関しては特に問題なし?日記が書き込めない状態だったので修復。
と、初めての経験の連続だったので混乱しながらも何とか完了しました。
その間に数え切れないくらいの失敗・・・上記手順だけ行えば数時間で完了していたような気がします。

作業の間ほとんど食わず寝ずの状態で、完了後に緊張が解けたせいか凄まじい吐き気に襲われていました(死
なかなかの胸の痛みで、眠いのに眠れずの状態でした。
CPUを1つ(2コア)減らし、HDDもSCSI(15000rpm)→使い古したSATA(10000rpm)に変更したのでパフォーマンスに不安があります。
監視してみても平均待ち時間が少し長くなっているようです。
HDDに関しては以前投売りされていた2.5インチSCSI(10000rpm)を5台(@3980円)で購入していたので変換ケーブルを購入し、近々移行します。

CPU、マザーボードは費用の問題からそのままにしたいと思います。
現在の価格はCPU1個5万、マザーボード6万とかなり厳しいので、、
保守パーツ等を本日1.5万円分注文、明日2.5万円分注文予定。痛い出費です。

1日半もの間一部ゲームがプレイできない状態になってしまっていた事を深くお詫び申し上げます。
今後バックアップ体制を見直していく必要がありそうです。趣味といってももう少し早く復旧出来るように、、

以上
誰も見そうにない報告をとりあえずだらだら長々と書いてみました。

トラックバック

このエントリーのトラックバックURL:
http://blog.game-can.com/mt/mt-tb.cgi/114

コメント (5)

anonymous:

何事にせよ、初めての体験ってすごくつらいですよね。お疲れ様でした!

投稿者 : anonymous 日時 : 2007年11月30日 22:24
TOWN管理スタッフ:

お疲れ様でした。
もし不具合等があれば報告いたします。

投稿者 : TOWN管理スタッフ 日時 : 2007年12月01日 00:13
土気:

おつかれさまでした~

一時的に退避してくださったおかげでWoRは支障なくできましたm(_ _"m)

なにかあれば報告しますね♪

お体お気をつけて。

投稿者 : 土気 日時 : 2007年12月01日 08:32
レン:

いろいろ大変だったみたいですね。
これからも楽しくやらせてもらいます^^
大変お疲れさまでしたotz

投稿者 : レン 日時 : 2007年12月01日 19:48
ダイズ:

よく分かりませんが
復旧お疲れさまでした_(._.)_
趣味でまかなえているのがすごいです!

投稿者 : ダイズ 日時 : 2007年12月11日 22:28

コメントを投稿


ここはサポートの場ではありません。関係の無い書込みはご遠慮願います。

About 2日間のサーバとの戦いの記録

2007年11月30日 19:31に投稿されたエントリーのページです。

ひとつ前の投稿は「FFA+変更数件」です。

次の投稿は「数日振りの日記」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

このブログのフィードを取得
[フィードとは]