B    クラスタ・インストレーションのトラブルシューティング

ここでは,インストレーション中に起こる問題について説明し,その解決方法を示します。

B.1    LAN インターコネクトのトラブルシューティング

この節では,LAN インターコネクトを誤って構成したときに起こる問題について説明し,その解決方法を示します。

B.1.1    省略時の物理クラスタ・インターコネクト IP 名との競合

LAN インターコネクトのあるクラスタでは,省略時の物理クラスタ・インターコネクト IP 名は membermemberID-icstcp0 の形式となります。

clu_create および clu_add_member コマンドは ping を使用して,省略時の名前がすでにネットで使用されているかどうかを確認します。すでにホストが省略時の IP 名を使用していることがわかると,以下のように入力を求められます。

Enter the physical cluster interconnect interface device name []
 

このメッセージが表示された後,コマンドは失敗します。実行していたコマンドによって,以下のメッセージが表示されます。

Error: clu_create: Bad configuration
 
Error: clu_add_member: Bad configuration
 

上記のいずれかのメッセージが表示された場合,/cluster/admin/clu_create.log または /cluster/admin/clu_add_member.log を調べると,以下のようなメッセージが記されています。

Error: A system with the name 'membermemberID-icstcp0' is currently running on your network.
 

このメッセージが記録されている場合は,ネットワーク管理者に問い合わせて,省略時の IP 名を使用している非クラスタ・システムのホスト名を変えてもらう必要があります。clu_create コマンドおよび clu_add_member コマンドでは,省略時の物理クラスタ・インターコネクト IP 名を変更することはできません。

B.1.2    メンバをブートすると,そのメンバはクラスタに加わるが,マルチユーザ・モードになる前にハングしているように見える

新しいメンバがブート時にクラスタに加わった後しばらくしてハングしているように見える場合は,そのメンバが使用している LAN インターコネクト・アダプタの速度または動作モードが,LAN インターコネクトの速度または動作モードに一致していないと考えられます。この現象は,ハードウェアの設定ミスやイーサネット・ハードウェアの障害によって,アダプタが自動折衝に失敗して起こることがあります。そうした問題の有無を確認するために,問題の起こっているブート中のメンバのコンソール・メッセージを注意深く調べてください。調べるメッセージは次のような形式になっています。

ee0: Parallel Detection, 10 Mbps half duplex
ee0: Autonegotiated, 100 Mbps full duplex
 

100 Mb/秒の全二重モードで動作しているクラスタ・インターコネクトで最初に示すメッセージが出ていれば,問題の原因はここにありそうです。2 番目のメッセージが出ていれば,自動折衝が正しく完了しているので,問題の原因はここではありません。

以下に示す注意事項を考慮していなければ,インターコネクトに構成されているイーサネット・アダプタとスイッチの自動折衝の内容によっては,ブート時に予期しないハングを招く可能性があります。

B.1.3    メンバをブートすると,クラスタに加わるときにハングする

新しいメンバがブート中にクラスタへ加わろうとしてハングする場合は,その新しいメンバがクラスタ・インターコネクトから切り離されている可能性があります。切断には,以下の原因が考えられます。

以下のメッセージのいずれかがコンソールに表示されます。

CNX MGR: cannot form: quorum disk is in use.  Unable to establish contact
         with members using disk.
 

CNX MGR: Node pepperoni id 2 incarn 0xa3a71 attempting to form or join cluster deli
 

この問題を解決するには,以下の手順を実行します。

  1. 問題の起こったブート中のメンバを停止します。

  2. アダプタが LAN インターコネクトに正しく接続されていることを確認します。

  3. 新しいメンバのブート・パーティションを他のメンバにマウントします。たとえば次のようなコマンドを実行します。

    # mount root2_domain#root /mnt
     
    

  4. /mnt/etc/sysconfigtab ファイルを調べます。表 C-2 に示されている属性が,メンバの LAN インターコネクト・インタフェースを反映するように正しく設定されていなければなりません。

  5. /mnt/etc/sysconfigtab を適切に編集します。

  6. メンバのブート・パーティションをアンマウントします。

    # umount /mnt
     
    

  7. メンバをリブートします。

B.1.4    メンバをブートすると,"ics_ll_tcp" メッセージが出てパニックが発生する

新しいメンバをブートしてクラスタへ加えようとしたときに "ics_ll_tcp: Unable to configure cluster interconnect network interface" というメッセージが出てパニックが発生した場合は,clu_add_member で,存在しないデバイスをメンバの物理クラスタ・インターコネクト・インタフェースとして指定したか,またはブート・カーネルにクラスタ・インターコネクト・デバイスをサポートするデバイス・ドライバが含まれていない可能性があります。

この問題を解決するには,以下の手順を実行してください。

  1. 問題の起こったブート中のメンバを停止させます。

  2. 新しいメンバのブート・パーティションを他のメンバにマウントします。たとえば,次のようなコマンドを実行します。

    # mount root2_domain#root /mnt
     
    

  3. /mnt/etc/sysconfigtab ファイルを調べます。表 C-2 に示されている ics_ll_tcp 属性が,メンバの LAN インターコネクト・インタフェースを反映するように正しく設定されていなければなりません。

インタフェースが存在しない場合は,以下を実行します。

  1. /mnt/etc/sysconfigtab を適切に編集します。

  2. メンバのブート・パーティションをアンマウントします。

    # umount /mnt
     
    

  3. メンバをリブートします。

インタフェース名が正しい場合は,vmunix カーネルに LAN インターコネクト・デバイスのデバイス・ドライバが含まれていない可能性があります。この問題を解決するには,以下を実行します。

  1. メンバを genvmunix カーネルでブートします。

  2. /sys/conf/HOSTNAME ファイルを編集して,必要なドライバを追加します。

  3. doconfig コマンドで vmunix カーネルを再構築します。

  4. 新しいカーネルをルート (/) ディレクトリにコピーします。

  5. メンバを vmunix カーネルからリブートします。

B.1.5    メンバをブートすると,"ics_ll_tcp: ERROR: Could not create a NetRAIN set with the specified members" というメッセージが表示される

新しいメンバをブートしてクラスタに加えようとしたときに "ics_ll_tcp: ERROR: Could not create a NetRAIN set with the specified members" というメッセージがインストール作業開始直後に表示された場合は,クラスタ・インターコネクトで使われている NetRAIN 仮想インタフェースが誤って構成されていると考えられます。また,NetRAIN セットのメンバが誤って構成されている場合にも,このメッセージが表示されます。

おそらく,/etc/rc.config ファイルを間違って編集し,LAN インターコネクトに従来の NetRAIN 管理を適用するようにしてしまったものと考えられます。この場合,/etc/rc.config ファイルにある NetRAIN 構成は無視され,/etc/sysconfigtab で定義されている NetRAIN インタフェースがクラスタ・インターコネクトとして使われます。

クラスタ・インターコネクトとして使う NetRAIN セットは /etc/rc.config ファイルの中に構成してはなりません。クラスタ・インターコネクトの NetRAIN デバイスは /etc/rc.config ではなく,/etc/sysconfigtab ファイルの ics_ll_tcp カーネル・サブシステム中に構成されています。

この問題を解決するには,以下の手順を実行します。

  1. rcmgr delete コマンドを使って,新しくブートするメンバの /cluster/members/{memb}/etc/rc.config ファイルを編集し,そのデバイスに対応する NRDEV_x, NRCONFIG_x, NETDEV_x, および IFCONFIG_x の各変数を削除します。

  2. rcmgr set コマンドを使って,クラスタ・インターコネクト NetRAIN デバイスを二重に定義している NR_DEVICES 変数と NUM_NETCONFIG 変数の値を減らします。

  3. メンバをリブートします。

B.2    その他の問題への対処

B.2.1    クラスタ・ライセンスなしに新しいメンバをブートすると ATTENTION メッセージが表示される

新しく追加したメンバをブートすると,clu_check_config ユーティリティが一連の構成を検査します。TruCluster Server ライセンスの TCS-UA PAK (product authorization key) をメンバにインストールしていない場合,ブート中に以下のメッセージが表示されます。

Starting Cluster Configuration Check...
The boottime cluster check found a potential problem.
For details search for !!!!!ATTENTION!!!!! in /cluster/admin/clu_check_log_hostname
check_cdsl_config : Boot Mode : Running /usr/sbin/cdslinvchk in the background
check_cdsl_config : Results can be found in : /var/adm/cdsl_check_list
clu_check_config : no configuration errors or warnings were detected
 

以下のメッセージが /cluster/admin/clu_check_log_hostname ファイルに格納されます。

/usr/sbin/caad is NOT_RUNNING !!!!!ATTENTION!!!!!
 

TruCluster Server ライセンスがメンバで設定されていないと,CAA (cluster application availability) デーモン (caad) は自動的に起動されません。 これは通常の期待される動作です。

新しいメンバを追加した際に,(第 5 章で説明しているように),clu_add_member でライセンスを設定しなかった場合,その後 lmf register コマンドを使って設定することができます。ライセンスのインストール後,そのメンバに対して /usr/sbin/caad コマンドを使って CAA デーモンを開始することができます。