ネット不通の原因

一昨日の日曜日朝(21日)にはじまったネットワーク障害の原因は、まだ中央からレポートがないのでわからない。大学が回復したあと、部局は延々と回復しなかった。
結局、部局の場合は基幹ネットから部局のサブネットの間の光ケーブル接続に問題があったためである。光ケーブルは1本が1Gbpsで、これを2本使って帯域を2Gbpsとして運用している。つまり負荷分散で見かけ上のスピードを上げているのだ。この分散装置の動作不良で、同じネットワークにある m, e などのサーバは問題がなく、k だけがおかしいという症状になったのだ。何故かはわからん。Proxy server である t ちゃんは k のDNSに依存しているので t も動かないということになったのだ。
一部から、部局のネットワークは障害が多すぎるとのクレームがあった。そうだろうか?
現在のシステムになった平成16年1月から、予告のあったネットワーク器機交換や点検のための停電などの場合を除いたネット全体が事故で落ちたケースを拾ってみた。研究室内とかセグメント内で終止しているローカルな事故は含まない。 メール送受信以外の、一部のWebページが見えないなどのサービスの一部が出来なかった場合も除く。
平成16年11月8日早朝 2時間 全学基幹器機の障害
平成16年11月1 0日昼頃 30分 全学基幹器機の障害
平成17年1月24日朝  3時間 全学基幹器機動作不良
平成17年1月28日昼 不明 部局外の末端器機の故障・ウイルス? 接続しにくくなった
平成17年5月2日深夜から早朝 9時間 全学基幹器機の故障
平成17年9月 1日朝 1時間 部DHCPサーバ電源故障
平成17年10月16日 不明 電源定期点検後、全学基幹器機一部不調
平成18年 5月16-17日 断続 局部DHCPサーバ不調
平成18年10月16日夕方 20分 全学基幹器機故障
平成19年1月15日―16日 断続 局部DHCPサーバ故障
平成19年8月20日 30分 全学過負荷による停電事故
平成19年10月21日―22日 全学基幹器機故障
こうやって見ると、局部情報基盤室管理下の器機が原因なのは年1回あるな。DHCPサーバが原因だ。担当者がDHCPがいやだというのもわかるな。
この他に、予告があるものの、ネットワーク器機の交換・リセットとかが、部局、全学基幹部、SINETで短時間だけどあることと、研究室内あるいは特定のセグメント内だけのトラブルとかがあるので、どれをとってもユーザはネットが使えないことに変わりがないから、部局はネットが安定していないとかいうことになるんだろうな。