一昨日の日曜日朝(21日)にはじまったネットワーク障害の原因は、まだ中央からレポートがないのでわからない。大学が回復したあと、部局は延々と回復しなかった。
結局、部局の場合は基幹ネットから部局のサブネットの間の光ケーブル接続に問題があったためである。光ケーブルは1本が1Gbpsで、これを2本使って帯域を2Gbpsとして運用している。つまり負荷分散で見かけ上のスピードを上げているのだ。この分散装置の動作不良で、同じネットワークにある m, e などのサーバは問題がなく、k だけがおかしいという症状になったのだ。何故かはわからん。Proxy server である t ちゃんは k のDNSに依存しているので t も動かないということになったのだ。
一部から、部局のネットワークは障害が多すぎるとのクレームがあった。そうだろうか?
現在のシステムになった平成16年1月から、予告のあったネットワーク器機交換や点検のための停電などの場合を除いたネット全体が事故で落ちたケースを拾ってみた。研究室内とかセグメント内で終止しているローカルな事故は含まない。 メール送受信以外の、一部のWebページが見えないなどのサービスの一部が出来なかった場合も除く。
平成16年11月8日早朝 2時間 全学基幹器機の障害
平成16年11月1 0日昼頃 30分 全学基幹器機の障害
平成17年1月24日朝 3時間 全学基幹器機動作不良
平成17年1月28日昼 不明 部局外の末端器機の故障・ウイルス? 接続しにくくなった
平成17年5月2日深夜から早朝 9時間 全学基幹器機の故障
平成17年9月 1日朝 1時間 局部DHCPサーバ電源故障
平成17年10月16日 不明 電源定期点検後、全学基幹器機一部不調
平成18年 5月16-17日 断続 局部DHCPサーバ不調
平成18年10月16日夕方 20分 全学基幹器機故障
平成19年1月15日―16日 断続 局部DHCPサーバ故障
平成19年8月20日 30分 全学過負荷による停電事故
平成19年10月21日―22日 全学基幹器機故障
こうやって見ると、局部情報基盤室管理下の器機が原因なのは年1回あるな。DHCPサーバが原因だ。担当者がDHCPがいやだというのもわかるな。
この他に、予告があるものの、ネットワーク器機の交換・リセットとかが、部局、全学基幹部、SINETで短時間だけどあることと、研究室内あるいは特定のセグメント内だけのトラブルとかがあるので、どれをとってもユーザはネットが使えないことに変わりがないから、部局はネットが安定していないとかいうことになるんだろうな。
ため息 のすべての投稿
大学のDNSが混乱している
昨日の日曜日(21日)06時を最後に、管理者自宅サーバからの3時間毎の定期メールが、現在(22日午前7時半)まで来ていない。通常だと、月曜日に大量のスパムを処理しないといけないんだけど、それが少ないのでらくちんだ。て、あとで、どっとくるんだろうけど。このサーバ ちゃんの Spamassassin は好調で打率7割5分だった。
医学の生理のサブネット内から、Tサーバ をプロキシに設定すると学内のサイトも含めてアクセスできない。time out になる。プロキシを使わないと接続できる。k にも接続できない。
学外からこのサーバ へのアクセスは、昨日、朝はできなかったが、昼頃から可能になった。
k のDNSが機能していない。しかし、k のせいではなさそうだ。大学のルーティングが混乱しているらしい。
科研費
さって、諸君、科研費申請は終わったかね?
齢を重ねると、新しい申請システムは昨年も使ったのに忘れちゃっている、折角色々なサポートが研究支援とかからあるんだけど一切利用しない、 ということになる。
んでもって、近くの若者のサポートがないと申請すら危うい。いやですな。 ![]()
若者がサポートしてくれると、ますます頼っちゃう。出てくるのは、x本先生と同じく、ため息だけですな。
「おい、アレくれ」 と言うのは極力避けているんですけどね。![]()
定期点検の停電からの復帰
日曜日午後5時、定期点検のための停電が復帰する予定。
午後5時前に大学に行ったら、まだ電源は回復していない。17時ちょうどに電源が復帰した。
そんでもってKを起動。問題なし。セキュリティドアのサーバを起動...ん?パスワードがわからん。担当の技術職員の電話番号がわからん...後回しだ。
QR, Z, D, S を起動。む、Z の電源が入らん。電源が潰れた可能性が大だ。担当のxx先生に電話。通じない。月曜日だな。 この前の停電事故では問題なかったんだけどね。
M と T を起動。問題なし。
あちこち、電話してセキュリティサーバの管理技術職員の自宅の電話番号をさがし、電話して、パスワードを聞いて、サーバは無事起動。問題なし。
で結局、小一時間 かかった。帰宅して風呂入って、酒のんで、阪神が中日に負けるTV中継みておしまい。
出張先のホテルのnet
和歌山でサテライトシンポジウムがあり、参加しています。
ホテルは一泊5000円の格安ホテルで、net接続ができるのは期待していませんでした。ですから、メールはホテルのロビーにあるパソコンでG-mailでやっていました。。
部屋にはVOD専用モニターというのが普通のTVセット以外にも壁に取り付けられており、シンポジウムに同行している某助教もVODがなんだか知りませんでした。最近は知らない言葉があるとnetで調べるというのが習慣になっていますが、netに接続できないのでは知りようがありません。
このVODモニターには映像・音声信号ケーブルのほかにLANケーブルも接続されています。LANケーブルはモニタの背面の箱につながっていて、その箱からコネクタのついたケーブルがあり、このコネクタにはLANケーブル接続されていて、ベッドサイドのテーブル背面に入っています。おととい、このホテルに着いたときは、このサイドテーブル背面にあるケーブルがひょっとしてインターネットにつながるのかと思いためしてみましたが、だめでした。
ところが、今朝再度よく見ると、別のLANケーブルが天井からこのVODモニターに接続されているのを発見し、それではサイドテーブル背面からのケーブルはなんだ?ということになって、引っ張ってみましたら、なにも接続されていないということがわかりました。
でこのケーブルをPCにつないだら、DHCPサーバに繋がり、無事こうやってブログに書き込めることになったわけです。
しかし、部屋のホテルの説明書なんかないし、なんの説明もなく、フロントで改めて聞いても下っ端はなんだかわかっていなで「さあー?」というだけです。
ま、安いからしょうがないか。北京や西安のホテルは高いけどnetに接続できないに比べたらましです。
明日、別のサテライトシンポジウムが京都であって 、これに出るので今日一日はフリーです。
和歌山は以外と遠く、大阪から1時間以上かかります。つくばからは6時間みる必要があります。ですから今日筑波にもどるというのは意味がないと決めて、一日ひまになりました。
ちなみみVODとは Video On Demand の略で、要するにカード を購入したらエロ映画をみることができるというもののようです。
D棟からのメール伝導時間
D棟から出したMのアカウントへのメールの所要時間
Yさんの最近のメールの例
Yさんのパソコンが送付した時刻:10時59分17秒
kaのサーバが受け取った時刻:10時59分25秒(多分、Yさんのパソコンの時刻が誤っている。ここでこんなに時間がかかるわけがない)
kaのサーバからkが受け取った時刻:10時59分55秒(kannseiのサーバからkiban まで30秒もかかる)
kからMが受け取った時刻:10時59分55秒(kではほとんど消費していない)
mが処理して受信者のメールフォルダに入れた時刻:11時00分25秒(メーリンの処理に30秒かかった)
というわけで、1分かかる
D棟から出したmのメーリングリストへのメールの所要時間
K君の最近のメールの例
K君のパソコンが送付した時刻:10時14分18秒
kaのサーバが受け取った時刻:10時14分07秒(多分、K君のパソコンの時刻が誤っている)
kaのサーバからkが受け取った時刻:10時14分37秒(kaのサーバからk まで30秒もかかる)
kからmが受け取った時刻:10時14分37秒(kではほとんど消費していない)
mがメーリングリストを処理して26名に配信し受信者のメールフォルダに入れた時刻:10時16分20秒(メーリングリストの処理に1分43秒かかった)
したがって2分強かかる。
結論:
b.k.t.ac.jp というD棟のメールサーバがとろい。サーバの能力か、DNSの解決に時間を要しているのだ。
m がとろい。中古パソコンで能力が低いからだ。
spam-その39
中国交通事情
中国の交通事情報告書です。
停電ー対処できたか?
9月1日(土)午前5時−9時まで、8月20日のトランスがぶっとんだための全学停電の修理のため、停電である。朝5時だぜ!!![]()
ファイルサーバであるbは前日に落とし、月曜日に起動しても問題ない。使うのが生理の人間だけだからな。分散サテライトも前日に落として月曜日起動で問題ないでしょ。利用者は学群学生だし、まだ夏休みだし。これらは担当者が対応するからいいでしょ。
k, m, t , QR はリモートで午前5時直前にシャットダウンすればいいが、セキュリティドアのサーバは、当然ながらインターネットに接続していないのでリモートで落とすことはできない。しかし、このサーバのUPSは1時間以上持つのがわかっているから、朝5時前に起きて、サーバをリモートでシャットダウンして、一眠りして、朝6時ころ大学に出てきてセキュリティドアのサーバを落として、UPS の電源をきって... また9時頃、大学に出てきて、UPSの起動とサーバの起動をすればいい...なんて甘い考えがいけなかった。
目がさめたのが朝6時直前。やば!! この時点では全学停電だからリモートでシャットダウンできない。
大学にきたのが6時10分。
m はUPS で動いていたが、t のUPSはもたなかった。バッテリーがそろそろアウトだからな。k とQR は,別の管理者がやることになっていいたから落ちていたんだろう。 確認する暇もない。
あわてて、セキュリティドアのサーバをシャットダウン。m をシャットダウン 。セキュリティドアのサーバとm, t, QR, b のUPSを落とす。
tだけが、異常修了だったわけで、HD がこけていないことを祈るだけ。でも はproxy の機能だけだから、こけちゃっても再構築は簡単だし、その間、生理グループのネットへの接続は可能だからなんとかなるだろ。
いったん自宅へ。コンビニに寄って朝食を買って、自宅で朝飯食べて、9時に再度大学に来て、全てのUPSを起動。セキュリティドアのサーバを起動。t, m, QR, bを起動。k の担当者はさらに遅れて登場。k 起動。
問題のtama は起動しただけではproxy が動いてくれなかったので、実験室から リモートで再起動。動いた。いがった。![]()
セキュリティドアのサーバがドア開閉情報を記録しているのを確認した。9時頃沢山の大学院学生が来ている。停電時、医学の建物内では、冷凍庫のアラームがあちこち鳴っていた。 冷凍庫がちゃんと動いていることを確認しないとヤバい研究室が一杯あるからね。下っ端が来る事になっていたんだろう。
m, t, k がちゃんと動作している事を確認。 QRの確認は月曜日だな。利用者だけどID, パスワード忘れたし、利用できる環境にないし。で、月曜日朝、動作確認した。
めでたし、めでたし。が、....月曜日の朝、動いていないセグメントがあった。ユーザからのクレームだ。て、クレームがないとわからん。いちいちすべてのセグメントが動作しているかを確認できない。
原因はセグメントを仕切っているスイッチが起動時に設定をちゃんと読まなかったらしい。2度再起動して問題解決。![]()
このスイッチは学情が管理している。これはまずいかも。迅速な対応ができなくなるかもしれない。ただのスイッチングハブで一時的に置換すればいいのだろうか。管理者なのに実務管理者に任せているので、いまいち理解していない、まずいな。 ![]()

