Oracle
 sql >> Database >  >> RDS >> Oracle

Errore di polling KGXGN (15)

Quando si tenta di avviare la seconda istanza in un cluster RAC a due nodi, la seconda istanza non verrà avviata. Se l'istanza su node1 è in esecuzione, l'istanza su node2 non verrà avviata. Se l'istanza su node2 è in esecuzione, l'istanza su node1 non verrà avviata. Il registro avvisi mostra quanto segue:

Error: KGXGN polling error (15)
Errors in file /u01/app/oracle/diag/rdbms/bsp/bsp1/trace/bsp1_lmon_9151.trc:
ORA-29702: error occurred in Cluster Group Service operation
LMON (ospid: 9151): terminating the instance due to error 29702

Sfortunatamente, il file di traccia LMON fornisce solo gli stessi messaggi di errore, quindi non c'è niente da fare.

Questo errore si verifica a causa di una configurazione errata per l'interconnessione del cluster. Se guardi l'OCR per vedere l'interconnessione del cluster, puoi vedere che il dispositivo NIC è eth4.1338:

[oracle@myhost bin]$ oifcfg getif -global
eth2 192.168.33.0 global public
eth4.1338 10.0.0.0 global cluster_interconnect

Su un nodo, il dispositivo eth4 è corretto. Tuttavia, sul secondo nodo il dispositivo è eth5.1338 e l'OCR è condiviso tra i nodi. L'OCR prevede che il dispositivo sia eth4.1338. Entrambi i server richiedono che l'interconnessione del cluster si trovi sullo stesso dispositivo di rete. La configurazione di rete del server è stata modificata in modo che entrambi i nodi fossero configurati sul dispositivo eth5.1338. Una volta che i server sono stati configurati in modo identico, abbiamo ridefinito la configurazione OCR:

[oracle@myhost bin]$ ./oifcfg setif -global eth5.1338/10.0.0.0:cluster_interconnect

Osservando la configurazione, possiamo vedere che sia eth4 che eth5 sono ancora in OCR:

[oracle@myhost bin]$ ./oifcfg getif -global
eth2 192.168.33.0 global public
eth4.1338 10.0.0.0 global cluster_interconnect
eth5.1338 10.0.0.0 global cluster_interconnect

Quindi rimuoviamo il dispositivo eth4:

[oracle@myhost bin]$ ./oifcfg delif -global eth4.1338/10.0.0.0

Ora abbiamo l'OCR riconfigurato. Abbiamo riavviato CRS ed entrambe le istanze sono apparse su entrambi i nodi!

Questo era uno di quegli errori in cui i messaggi di errore in realtà non indicavano una causa principale del problema. Invece, ho dovuto curiosare nelle aree che ritenevo fossero le più probabili colpevoli quando ho scoperto piuttosto ciecamente le differenze di configurazione.