サーバのブルースクリーン問題、解決する

10/7 にブルースクリーンで飛んだサーバだが、 10/16 にまた飛んだ。
で、そのエラー画面を見て原因はメモリだと確信を得たので、上位アドレスのメモリ 2 枚を抜いて運用してみた。amatsukami.jp サーバは DDR3 の 4GB が 4 枚ささっていて、合計 16GB。2 枚抜くと 8GB になってしまう。

amatsukami.jp サーバは仮想サーバが 4 台も動いており、常時 9GB ~ 12GB 使っている。
となると当然、8GB ではメモリ不足なわけで……。案の定、重すぎて話にならんレベルに……orz
しかし会社にも行かなくちゃいけないし、そもそも予備のメモリは会社だ。
とりあえず会社に行く。

ところで何故上位アドレスと推測したか? それは、ブルースクリーンに陥るまでの時間が長いからである。常時使われている、より下位のアドレスならばもっと頻発するだろうと推理した。数日稼働し続けられると言うことは、①滅多に使われない領域②壊れている箇所は常に異常というわけではなく、正常に動くこともある、という二つの仮説を立てた。
なので、上位アドレスのメモリを抜いてみたわけである。

それから日付の変わる頃に会社から戻ってきて、メモリを増設した。とはいえ会社で余っていたメモリは DDR3 の 2GB が 2 枚。なので搭載メモリは 12GB で運用ギリギリ(^^;

買い換えるまではこれでなんとか持たせたいところ。今更 DDR3 を買いたくないし(今は DDR4 の時代なのだ)。

ちなみにページ ファイルを SSD のドライブに作るようにしたら、だいぶ速くなった。

1610161889

amatsukami.jp サーバー、死す?

amatsukami.jp サーバがブルースクリーンを出して、落ちた(爆)。
うひぃ。
今は代替機がないので、コイツに死なれるといろいろと困る。
ただまぁ、今年中にリプレースはしたいとおもってるんだけどねぇ。Windows Server 2016 にしたいし(今は Windows Server 2008 R2 で運用中)。

で、エラーの内容見ても、これがまたこう原因が複数あるタイプのヤツなのよね……。
とりあえずこのサーバは 6 回の夏をエアコンなしで過ごしてきたので、いろいろダメになっているんだろうなぁというのは何となく解る。一番疑わしいのはマザーボードとメモリである。メモリなら交換がきくが、マザーボードとなると、同じものは用意できないだろう。なにせ 6 年前だからなぁ……。

あと不思議なのが、ブルースクリーンが出たあと再起動すると、しばらく使えるのよね。三日間とか。短くても丸一日持つ。
まずやるべきはメモリチェックなんだけど、厳密なメモリチェックは一日作業だ。その間、サーバを停止させるわけにもいかない。なので搭載メモリを MAX まで使うような処理をしてみているんだけど、それでも飛ばない……。

で、いろいろ検索した結果、こんなページを見つけた。

ただねー、ボクの心はこれじゃない、って騒いでるw
絶対ハードウェアの何かが壊れてるって、もう頭の中じゃ解ってる。
けど一縷の望みをかけて、当ててみた。

すると、これがまたしばらくサーバは動き続けるんだよなー(汗
というわけで、このサーバ対応、別の日に続きます(つまり上のでは解決はしなかったということだw

1610071849

目が覚めたらブルースクリーンだったでござる

ふと朝、目が覚めて、なんとなーく枕元のノート PC でネット見ようと思ったら、なんか見られない。んー? Wi-Fi がおかしくなったか? とか思いつつも、右下の Skype のアイコンを見たらオンラインだ。あれー? ネットは死んでないみたいだぞ?

で、すぐに DNS かなって思って、サーバに ping を飛ばすと反応がない。
なんだこれ……と思ってサーバのモニタを見てみると……なんか真っ黒い画面にワケわからぬ一文が……。しかしまだ寝ぼけていたせいもあってそれをメモるの忘れたのよね……orz

で、再起動したら、ブルースクリーンが……!!

ぎょえー! まだ代替サーバ買ってないよ??

エラーコード 0x1A はあってないようなもの。なんつーか、よく解らないけどなんかヤバいよ的な? ドライバの可能性もあるし、ハードウェアの可能性もあるしという非常に漠然としたヤツなのだ。ただ、メモリかなーなんてちょっと思った。あと画面が壊れかけているから、ビデオカードの可能性も。ただビデオはオンボードなので、ビデオ周りが故障してた場合はマザーボードの故障と言うことになり、非常に厄介だが……(大汗)。
とりあえずサーバを長時間落として置くわけには行かないので、メモリチェックはやめて(凄い時間がかかるので)、強硬手段に出た。それはメモリを MAX まで使ってやること。
というわけでサーバが起動したら、全ストレージに Chkdsk というコマンドを実行する。このコマンド、裏で何をやっているのかよく解らないが、メモリをすげー食うんだよね。とくにでかいサイズのディスクをやると、あっという間に 16GiB 使っちゃう。

が……飛ばない。アレー?
その後、ログをみるも、朝の 5:30 頃にぴたっと記録が止まっているだけで、何が原因かサッパリ解らない。

とりあえず 2 時間ほど様子を見たが、特に飛ぶ気配もないし、サービスは全部動いている。
なんだったんだー??
熱暴走?? それともたまたまメモリからのデータが壊れたとか??

1608181091

で、まぁ、秋葉に着いたのが 13:00 頃だったので、ついでに秋葉で飯食おうとなった。実は前日、ウチの会社の別の開発室のハブが壊れて、秋葉に買いに来ないといけなかったのだ(一応会社のネットワーク管理をサブでやっている)。
というわけで、万豚記(ぁ
なんか秋葉というとここでしか食べてないよな、最近(汗

なんかフワッとした卵料理が食べたかったので、キクラゲと卵と豚肉の炒めを頼む。
ほとんど望み通りだったんだけど、味付けがけっこうあんかけ的なヤツだった。ボクはもうちょっと野菜炒め的な? 味付けも塩ベースか醤ベースを期待していたんだけど……違った。
でも美味しく食えた。しかしあんだから熱い(汗)。冷房効いてるのに汗かいてしまった。

1608181092 1608181094