謎の障害


えぇ~昨日と一昨日、この日記を書きながら落ちていました。今日やっとアップです。
昨日(というかもう数日前)、会社で仕事をしてると突然パソコンがネットにつながらなくなりました。メールも見れない。他の人たちは問題なさそうなので、どうやら自分の環境が問題らしい。ちなみに自分だけ社内に個人用のプロキシとDNSサーバを構築してそれを使ってる(検証とかPPTP接続時に便利)ので、それを調べてみる。
とどうやらプロキシサーバの動作がおかしいくさい。というわけでプロキシ再起動。それでも現象収まらず。もう少し調べるとDNSサーバの応答がおかしいことに気づく。何故か再起問い合わせができなくなってる。社内においてるので再起問い合わせも特に制限してないし、最近設定は変えてないのになぁ…しかも他の社員の人達が使ってる上位ルータに備わってるDNS機能は特に問題なく動いているみたい。なぜ…。
ログに変なものが残ってるわけでもないし、お手上げ状態。そういや最近ルートネームサーバにAAAAレコード追加してるとか聞いたので、それが悪さしている?いや、それだったら今頃世界中で問題になってるはず。でも、特定のルートサーバだけ変な状態になってるとか。んーそれも考えづらいし…と、悩んだ挙句出した結論。
よくわからんのでとりあえずbindのパージョンを最新にしよう。
一人で黙々と使ってるDNSサーバだったので、まだバージョンは古い9.3。うん、この古いのがいけないんだ。と、急遽bindのバージョンアップ開始。
bindのconfigureでopensslのバージョンが低いと文句言われるが、「しったことか!俺は急いでるんだ!どうせssl使わないし。」というわけで無視してmake。……エラーで止まる_| ̄|○
じゃぁ仕方ない、opensslの最新ソースを取ってきて、こちらを先にバージョンアップ。すんなり終了。
再度bindのconfigure開始。またopensslのバージョンが低いとか言ってきやがる。 新しいバージョン入れたのに意味わかんねー。config.log追っかけるとどうやらopensslの存在確認をするときにrpmで入っている古いopensslを見てるみたい。違う、見て欲しいのは新しく/usr/local/sslに入れたopensslだ。
configureで「--with-openssl=/usr/local/ssl」とかするけど、一向に新しいopensslは認識してくれない。それじゃ引数の意味がないような。
というわけで

./configure --with-oepnssl=/usr/local/ssl LIBS=-L/usr/local/ssl/lib/ CPPFLAGS=-I/usr/local/ssl/include

こんな感じでconfigureする。これでmakeしてコンパイルも無事に通った。
次にIPv6も使わねぇだろうとOSのIPv6周りは無効にする。
で、なんとかバージョンアップも終わり、やっとDNSで名前解決…できねぇ!現象変わらず_| ̄|○
でも時々名前解決に成功してるっぽい。同じドメインをしつこく問い合わせたら1分くらいたって解決できるようになったり。…んー、こいつは本格的に原因がわからない。こんな現象見たことないぜぃ。
次の手段としてtcpdumpでDNSのパケットを拾ってみる。どうやら上位のDNSに問い合わせに行ったパケットの戻りがあったりなかったりする様子。そして戻ってこない確立が非常に高い。もしかして問題が起きてるのはこのマシンじゃなくてもっと上位のネットワーク?と疑うようになったが、他の人は問題なくネット使えてるし、別の社内のDNSも問題なさそう。
もうこの時点でお手上げ。この日は対応をあきらめる。マシン内のbindが動かないので、ルータに付属しているDNS機能を使うように修正。これでとりあえずProxyも動くようになったし、メールも見れるようになった。

そして翌日、朝から確認したけどやっぱりだめ。もしかしたOSがクラックされて調子が悪くなってるのかと心配になって、色々調べるも別に異常はなさそう。しかし別の社員から社内のWebサーバが見れたり見れなかったりとネットワークが不安定になっていると連絡を受ける。なんか翌日になって自分のPC以外でも似たような問題がでているっぽい。
と、いうわけで怪しむべきは上位ルータ。いくつかのサーバを調べているうちに一番上位のルータが問題っぽい。そのまま一度ルータの再起動してもよかったんだけど、新しいファームも出ていたのでついでにファームをアップしてみた(WindowsVistaが配下にいると挙動がおかしくなるバグがあったみたい…でもなんでVista限定なんだろう?)。
で、ルータの再起動後、自分のPCのbindも何事もなかったかのように動きは始めた。おぉーこいつか原因だったのか_| ̄|○
昨日は自分のPC以外のPCは問題なかったので、ルータは大丈夫と思ってたのに…盲点だった。

ほんと、ネットワークの問題は思いもよらないところが原因だったりするので困りモノです(昔、友達の経験ではケーブルの長さが違うだけで障害が起こったこともあったと言ってたな…)。

まぁbindやsslもこれを機にバージョンアップできたからいいのかなと。そのうちやろうと思ってたbindのルートネームサーバも新しくしたし。自分しか使ってないけど。

作成日:2008/03/20 14:05:25
トラックバック  ※トラックバックは承認後に表示されます。
TrackbackURL:このページのトラックバックの受付は終了しています。

トラックバックはありません。
コメント
名前:

タイトル:

コメント: