このメッセージは,PEDRIVER が,ローカル・デバイス,介在するネットワーク・デバイス,およびリモート・ノード上のデバイスで構成される LAN パス上で,極端に高い比率でパケットの再送しなければならなかった後に表示されます。このメッセージは,LAN パスの品質が低下し,リモート・ノードと信頼できる通信が使用できなくなるところに近づいているか,または達したことを示します。パケットの損失が続くと,リモート・ノードへの仮想サーキットが切られることがあります。さらに,LAN パケットの損失が大きい状態で動作し続けると,パケット損失検出タイムアウトおよびパケットの再送による通信遅延のため,性能が大幅に低下します。
表 F-5 チャネル時間切れの検出
少なくとも 3 秒に 1 回ずつチャネル上を送信される HELLO データグラム・メッセージを受信する。
|
OpenVMS Cluster 内の各ノードは,各 LAN アダプタで HELLO データグラム・メッセージをマルチキャストして,まだ機能していることを他のノードに通知する。受信側のノードは,ネットワーク接続がまだ機能していることを認識する。
|
HELLO データグラムまたはシーケンス・メッセージが 8〜9 秒間に受信されなかった場合,チャネルを閉じる。
|
HELLO データグラム・メッセージは少なくとも 3 秒に 1 回ずつ送信されるため,少なくとも 2 つの HELLO データグラム・メッセージが紛失し,シーケンス・メッセージ・トラフィックも受信できなかった場合だけ, PEDRIVER はチャネルを時間切れにする。
|
仮想サーキットは以下の場合に閉じられる。
- チャネルを使用できない。
- 使用できるチャネルのパケット・サイズが不十分である。
|
使用できるチャネルのパケット・サイズが,仮想サーキットに対して使用されているチャネルより小さい場合を除き,ノードへの他のチャネルが使用できる場合,仮想サーキットはクローズされない。たとえば,チャネルが FDDI からイーサネットにフェールオーバされた場合,PEDRIVER は仮想サーキットをクローズし,イーサネット・セグメント化にとって必要な小さなパケット・サイズのネゴシエーションが行われた後,仮想サーキットを再びオープンする。
|
チャネルがクローズされても,エラーは報告されない。
|
仮想サーキットがシャットダウンされるまで, OPCOM "Connection loss" エラーや SYSAP メッセージはユーザや他のシステム・アプリケーションに送信されない。このことは重要である。特に,ノードに対して複数のパスが存在し, LAN ハードウェア障害あるいは IP ネットをークの問題が発生した場合は,このことが重要である。この場合,エラー・メッセージが受信されないことがあるため, PEDRIVER は他の使用可能なチャネルを通じて仮想サーキットを引き続き使用する。
|
チャネルが再び使用可能になったときに,仮想サーキットを再び確立する。
|
HELLO データグラム・メッセージが再び受信されると, PEDRIVER はチャネルを再びオープンする。
|
表 F-6 SHOW PORT/VC の表示
(1) Msg Xmt (送信されたメッセージ)
|
シーケンス・メッセージと非シーケンス・メッセージ (チャネル制御),確認応答メッセージも含めて,仮想サーキットを介してリモート・ノードに送信されたパケットの総数を示す (アプリケーション・データはすべて,シーケンス・メッセージで送信される)。シーケンス・メッセージと確認応答メッセージのカウンタは,他の大部分のフィールドより増大する速度が速い。
|
(2) ReXmt (再送)
|
仮想サーキットの再送の数と再送に関連する時間切れの数を示す。
- ReXmt フィールドの右端の数字 (106) は,発生した時間切れの回数を示す。時間切れは以下のいずれかの問題があることを示す。
- リモート・システム NODE11 が UPNVMS から送信されたシーケンス・メッセージを受信できなかった。
- シーケンス・メッセージは到着したが,NODE11 へのトランジットで遅延が発生した。
- ローカル・システム UPNVMS が,リモート・ノード NODE11 に送信されたメッセージへの確認応答メッセージを受信できなかった。
- 確認応答メッセージは到着したが,NODE11 からのトランジットで遅延が発生した。
ネットワーク内またはノードのいずれかでの輻輳により,以下の問題が発生することがある。
- ネットワーク内で輻輳が発生すると,パケットが遅延したり,紛失する可能性がある。ネットワーク・ハードウェアに問題がある場合も,パケットが紛失する可能性がある。
- UPNVMS または NODE11 で輻輳が発生すると,アダプタ内でキューイングが発生するためにパケットが遅延することがあり,バッファ領域が不足するためにパケットが破棄されることもある。
- 左端の数字 (128) は,実際に再送されたパケットの数を示す。たとえば,ネットワークで同時に 2 つのパケットが紛失した場合,時間切れは 1 回だけカウントされるが,2 つのパケットが再送される。あらかじめ決められた時間切れの範囲内で送信されたパケットに対する確認応答メッセージをローカル・ノードが受信しないと,再送が行われる。
特定の数の再送は発生しても仕方がないが (特に負荷の高いネットワークの場合),再送の回数があまり多いと,ネットワークの帯域幅が無駄に使用され,負荷が非常に高いことあるいは断続的にハードウェア障害が発生していることを示している。ReXmt フィールドの左端の値が,Msg Xmt フィールドに示された送信メッセージの総数の約 0.01〜0.05% より大きい場合,おそらく OpenVMS Cluster システムで輻輳によってネットワークの問題やローカル・ロスが発生していると考えられる。
|
(3) Msg Rcv (受信メッセージ)
|
この仮想サーキットを介してローカル・ノード UPNVMS が受信したメッセージの総数を示す。シーケンス・メッセージと確認応答メッセージの値は通常,他の値より急速に増大する。
|
(4) ReRcv (受信)
|
このシステムで重複して受信したパケットの数を表示する。ローカル・ノードがすでに受信している場合でも,リモート・システムがパケットを再送することがある。たとえば,パケットの遅延時間が累積され,リモート・ノードが時間切れの値として使用している見積りラウンド・トリップ時間より長い時間がかかって確認応答メッセージが到着した場合,この状況が発生する。したがって,リモート・ノードは,不要であってもパケットを再送する。
リモート・ノードがラウンド・トリップ遅延時間の見積りを低い値に設定しても,直接的に問題はないが,リモート・ノードで行われる再送とその後の輻輳制御動作によって,データのスループットに悪影響がある。この値が大きい場合,ネットワークまたはアダプタで頻繁に輻輳が発生し,遅延時間が非常に長くなっている可能性がある。 ReRcv フィールドの値が,受信した総メッセージの約 0.01〜0.05% より大きい場合,輻輳またはネットワーク遅延の問題があると考えられる。
|
(5) Topology Change
|
PEDRIVER が FDDI から Ethernet へのフェールオーバを実行した回数を示す。この結果,仮想サーキットのクローズと再オープンが必要になる。
例 F-2 では,フェールオーバは発生していない。しかし,このフィールドに多くのフェールオーバが発生したことが示される場合,問題は FDDI リングにある可能性がある。
|
(6) NPAGEDYN (非ページング動的プール)
|
ローカル・ノードでプール割り当て障害が発生したために,仮想サーキットがクローズされた回数を示す。この値が 0 以外の場合,おそらくローカル・ノードで NPAGEDYN システム・パラメータの値を大きくしなければならない。
|
(7) Congestion Control
|
パイプ・クォータ (確認応答メッセージおよび再送時時間切れを受信する前にリモート・ノードに送信できる ["パイプ" に置くことができる] メッセージの数) を制御するために,仮想サーキットに関する情報を表示する。PEDRIVER は,ネットワークの輻輳を制御するために,パイプ・クォータおよび時間切れの値を変更する。
|
(8) Pipe Quota/Slo/Max
|
パイプ・クォータを監視する現在のしきい値を示す。
- 左端の数字 (31) は,パイプ・クォータの現在の値 (送信ウィンドウ) である。時間切れが発生した後,パイプ・クォータは,輻輳を低下させるために 1 にリセットされ,確認応答メッセージを受信するたびに迅速に増大することが認められる。
- 中央の数字 (7) は,ネットワークで再び輻輳が発生するのを防止するために使用される,ゆるやかに拡大するしきい値 (拡大速度が低下されるときのサイズ) である。
- 右端の数字 (31) は,チャネル制限をもとに,VC に対して現在認められている最大値である。
関連項目: PEDRIVER の輻輳制御とチャネル選択の詳細については,
付録 G を参照。
|
(9) Pipe Quota Reached
|
送信ウィンドウ全体が満杯になった回数を示す。この値が送信されたシーケンス・メッセージの数と比べて小さい場合,ローカル・ノードがリモート・ノードに大きなデータ・バーストを送信していないことを示す。
|
(10) Xmt C/T (送信カウント/ターゲット)
|
最後にパイプ・クォータが増大された後,正常終了した送信の数と,パイプ・クォータの増大が認められているターゲット値を示す。この例では,パイプ・クォータはすでに最大値 (31) になっているため,カウントは 0 であり,正常終了した送信の数はカウントされていない。
|
(11) RndTrp uS (マイクロ秒単位のラウンド・トリップ時間)
|
再送の時間切れをマイクロ秒単位で計算するために使用される値を表示する。左端の数字 (18540) は平均ラウンド・トリップ時間であり,右端の数字 (7764) はラウンド・トリップ時間の平均偏差である。この例では,値は,ラウンド・トリップが約 19 ミリ秒±約 8 ミリ秒であることを示している。
VC ラウンド・トリップ時間は,遅延した ACK あるいは ACKholdoff 遅延,すなわち 100 ms に依存します。 VC トリップ時間はネットワーク・トラフィックにも依存します。
十分なクラスタ・トラフィックがある場合,リモート・ノードの受信ウィンドウ一杯になり,ACK がすぐに送信されます。
トラフィックがなくクラスタがアイドル状態の場合は, ACK を送信するのに 100 ms の遅延が発生する場合があります。このため,トラフィックがなくアイドル状態のクラスタでは VC ラウンド・トリップ値が通常は高くなります。トラフィックが増加するに従い,VC ラウンド・トリップ時間の遅延値が下がります。
偏差/変動: 新しい ACK 遅延が計測されると, ACK 遅延の現在の予測値と比較されます。この差が,遅延予測におけるエラー大きさ (delayError) になります。この delayError は,ACK 遅延の現在の予測を更新するための修正値として使用されます。
予測から間違った値が得られるのを避けるため, 1 つの計測からの修正は一部分に限定されます。
平均からの delayError の絶対値の平均値が,遅延の変動の予測に使用されます。
|
(12) Open and Cls
|
仮想サーキットが最後に大幅に変更されたときの,オープン (Open) とクローズ (Cls) タイムスタンプを表示する。短い時間 (10 分以内) に 1 つ以上の仮想サーキットが繰り返し失われる場合,ネットワークに問題があると考えられる。
|
(13) Cls
|
クラッシュ・ダンプを分析する場合,クラッシュ・ダンプの時刻がチャネル・クローズのタイムスタンプ (Cls) に対応しているかどうか確認しなければならない。
|