01-09-2023 06:45 PM - editado 12-28-2024 06:06 AM
A versão em inglês deste documento se encontra em: ISE - Slow Replication.
Para obter uma cópia off-line ou impressa deste documento, basta escolher ⋮ Opções > Página Amigável para Impressora. Você pode então Imprimir > Imprimir em PDF ou Copiar & Colar em qualquer outro formato de documento de sua preferência. |
Este documento se concentra no ISE Slow Repllication causado por "atores externos" (não no ISE). ele apresenta brevemente o significado do Slow Replication, como lidar com ele e seu impacto num ISE Deployment.
Se o evento Slow Replication ocorrer, recomendo fortemente não ignora lo !!!
A mensagem de Slow Replication é parte da Category: Administrative and Operational Audit Category, Class: Replication e com Message Codes: 60150, 60151 and 60152 (em Administration > System > Logging > Message Catalog) :
Existem 3 Eventos que acionam o Slow Replication em um determinado threshold quando as mensagens para um Node específico são enfileiradas além de um nível seguro. Eles são acionados com base num ISE Node que não consome mensagens replicadas nos últimos 15+ minutos:
O totalPendingMsgCount são as mensagens pendentes do Secondary Node em relação ao Primary Node (o Primary PAN).
O totalTimeDiffInMinutes é a diferença em minutos entre o horário da 1ª mensagem não consumida do Primary e o horário do Secundary.
Você pode verificar o Slow Replication via:
Em ISE > Home você pode verificar o registro do Slow Replication na janela Alarms:
Via o seguinte comando:
ise/admin# show logging application deployment.log
...
2022-10-18 10:24:39,148 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Warn level alarm will be generated for host <PSN HOSTNAME>
message : Node <PSN HOSTNAME> has slow replication since this node is not consuming messages for past 18 minutes. The number of pending messages are 32103
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 799879069
b. Seq No in Secondary : 799846966
c. Current Time : 27768324
d. Primary Seq Time: 27768324
e. Secondary Seq Time: 27768319
f. Time of first unconsumed message in Primary: 27768306
2022-10-18 10:24:39,148 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Inside logAuditMessages to raise slow replication alarm with level [WARN] for node [<PSN HOSTNAME>]
2022-10-18 10:24:39,150 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication alarm is generated successfully for node <PSN HOSTNAME>
...
2022-10-18 10:24:39,181 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Critical level alarm will be generated for host <PSN HOSTNAME>
message : Node <PSN HOSTNAME> has slow replication since this node is not consuming messages for past 23 minutes. The number of pending messages are 44006
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 799879070
b. Seq No in Secondary : 799835064
c. Current Time : 27768324
d. Primary Seq Time: 27768324
e. Secondary Seq Time: 27768322
f. Time of first unconsumed message in Primary: 27768301
2022-10-18 10:24:39,181 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Inside logAuditMessages to raise slow replication alarm with level [CRITICAL] for node [<PSN HOSTNAME>]
2022-10-18 10:24:39,183 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication alarm is generated successfully for node <PSN HOSTNAME>
...
IMPORTANTE: em ISE GUI temos o Slow Replication: Info, Warning e Error ... em ISE CLI temos o Slow Replication: Info, Warn and Critical.
Você tem as seguintes opções para verificar o totalPendingMsgCount & totalTimeDiffInMinutes:
1. você pode facilmente verificar o totalPendingMsgCount em Administration > System > Deployment > em Messages to be Synced:
2. você pode verificar o totalTimeDiffInMinutes em ISE PPAN CLI (no exemplo abaixo: o totalTimeDiffInMinutes = 26, the Time of first unconsumed message in Primary = 27712123 and the Secondary Seq Time = 27712149
ise/admin# show logging application deployment.log
...
2022-09-09 10:09:41,795 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Critical level alarm will be generated for host <PSN Hostname>
message : Node <PSN Hostname> has slow replication since this node is not consuming messages for past 26 minutes. The number of pending messages are 74872
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 775241426
b. Seq No in Secondary : 775166554
c. Current Time : 27712149
d. Primary Seq Time: 27712149
e. Secondary Seq Time: 27712149
f. Time of first unconsumed message in Primary: 27712123
...
3. você também é capaz de verificar o totalPendingMsgCount & totalTimeDiffInMinutes via ISE PPAN CLI:
ise/admin# show logging application deployment.log
...
2022-12-20 10:40:30,284 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Sequence details for host <PSN Hostname> replicationStatus[SYNC COMPLETED] primarySequenceCount[838148783] primaryTimeInMins[27859060] currentTimeInMins[27859060] firstUnconsumedPrimarySeqTime[ 27859031] secondarySequenceCount[838107650] secondaryTimeInMins[27859060] totalPendingMsgCount[41133] totalTimeDiffInMinutes [29]
...
Exemplos e possíveis efeitos do Slow Replication:
o evento de Slow Replication Error is muito prejudicial para o ISE Deployment (principalmente quando ocorre repetidamente, pois o Node pode não consumir Mensagens por horas, no exemplo abaixo: 86 min as 10:07AM
Durante o problema de Slow Replication evite gerar:
Reservation num VMWare VM é FUNDAMENTAL para mitigar o Slow Replication, claro que sua infraestrutura precisa ter capacidade suficiente para suportar essas reservas, pois esses recursos NÃO SERÃO MAIS COMPARTILHADOS (ou seja, você DEVE especificar um Reservation para garantir que as quantidades mínimas necessárias de CPU ou Memory estejam sempre disponíveis para a VM).
Em VMWare Host Summary verifique novamente as informações de CPU Cores (por exemplo: 80 CPUs com 2.39GHz cada) e o Processor Type:
Em Performance and Scalability Guide for Cisco ISE verifique novamente:
1. em Cisco ISE Hardware Appliance, se o Processor Type é compatível com o Processor Specification:
2. em Cisco ISE on Virtual Appliance, se o CPU & Memory é compatível com o vCPU & Memory Specification:
Em VMWare VM Summary clique no botão Edit Settings:
e verifique novamente a informação de Reservation:
IMPORTANTE 1: neste exemplo, temos 24x CPU, cada uma com um clock de 2.39GHz, num total de 57.36 GHz (24x 2.39 GHz).
IMPORTANTE 2: quando você executa um Power On numa VM, o sistema verifica a quantidade de CPU e Memory Resources que ainda não foram reservados. Com base nos recursos disponíveis e não reservados, o sistema determina se pode garantir a reserva para a qual a VM está configurada (se houver). Este processo é chamado de Admission Control.
IMPORTANTE 3: VMWare DRS e VMWare HA "impactam" o CPU & Memory Reservation (veja em: Using vSphere HA and DRS Together) !!!
Nota 1: você é capaz de verificar as informações de CPU & Memory e Processor Type via ISE CLI:
ise/admin# show inventory
NAME: "ISE-VM-K9 chassis", DESCR: "ISE-VM-K9 chassis"
PID: ISE-VM-K9 , VID: V01 , SN: <Serial Number>
Total RAM Memory: 263972560 kB
CPU Core Count: 24
CPU 0: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
CPU 1: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
....
CPU 22: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
CPU 23: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
Hard Disk Count(*): 1
Disk 0: Device Name: /dev/sda
Disk 0: Capacity: 644.20 GB
NIC Count: 1
NIC 0: Device Name: eth0:
NIC 0: HW Address: <MAC Addr>
NIC 0: Driver Descr: VMware vmxnet3 virtual NIC driver
(*) Hard Disk Count may be Logical.
Nota 2: para maiores detallhes sobre informações de CPU:
ise/admin# show tech-support
...
*****************************************
Displaying /proc/cpuinfo...
*****************************************
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 47
model name : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
stepping : 2
microcode : 0x3b
cpu MHz : 2394.000
cache size : 30720 KB
...
ou
ise/admin# show cpu
processor : 0
model : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
speed(MHz): 2394.000
cache size: 30720 KB
...
processor : 23
model : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
speed(MHz): 2394.000
cache size: 30720 KB
Nota 3: para verificar o Reservation via ISE CLI:
ise/admin# show tech-support
...
*****************************************
Displaying UDI (Unique Device Identifier) information...
*****************************************
UDI PID: ISE-VM-K9
UDI SN: <Serial Number>
UDI VID: V01
UDI Platform type: VM
VM Memory Reservation: 262144 MB
VM CPU Reservation: 57360 MHz
VM Memory Limit: 4294967295 MB
VM CPU Limit: 4294967295 MHz
VM Swap Utilization: 0 MB
VM Memory Balloon Size: 0 MB
VM Session ID: 0x6ddb3ead2740836a
VM CPU Speed: 2394 MHz
VM Host Time: 20 Dec 2022 12:20:33
...
CPU Ready Time é uma métrica do vSphere que registra a quantidade de tempo que uma VM está pronta para usar a CPU, mas não conseguiu porque TODOS os CPU Resources (no ESX Host) estão ocupados.
Como regra geral, o CPU Ready Time:
Nota 1: as métricas de VM's CPU Usage e CPU Ready não estão diretamente correlacionadas. Uma VM pode ter um problema sério com CPU Ready mesmo quando o CPU Usage não parecer estar tão alto. Para se ter uma visão completa do CPU Performance, você precisa olhar para CPU Ready e CPU Usage.
Note 2: por favor dê uma olhada em:
Um Load Average alto geralmente significa que o sistema está sendo muito utilizado e o tempo de resposta é correspondentemente lento !!!
Verifique o Load Average nos últimos 5 min e identifique as Threads que estão gastando mais recursos de CPU é um passo importante, para fazer isto, use o comando ISE PPAN CLI > tech top, com o P (para classificar por CPU Usage) e H (para listar as Threads), por exemplo:
IMPORTANTE 1: você DEVE usar o comando tech top durante o problema de Slow Replication !!! : )
IMPORTANTE 2: esta informação DEVE ser compartilhada com o TAC !!!
ISE Live Logs (em Operations > RADIUS > Live Logs) possui dois importantes painéis:
Clique em Misconfigured NAS, e verifique e solucione os Failure Reason dos NAS com a maior quantidade de Failed Attempts:
Nota: em Operations > Reports > Reports > Diagnostics > Misconfigured NAS, é possível verificar maiores detalhes sobre o Misconfigured NAS que pode auxilia lo a solucionar o problema:
Clique em Repeat Counter, verifique o Identity/Endpoint ID com a maior quantidade de Repeat Count:
Nota 1: em Live Logs é possivel utilizar um Advanced Filter para filtrar por "Repeat Count greater than a Value", o seguinte enhancement foi criado para lidar com esta situação: CSCwb57956 Repeated Successful attempts counter on ISE, live logs tab Filter.
De posse do Identity/Endpoint ID, vá para o Live Logs (em Operations > RADIUS > Live Logs > filtrar por Identity/Endpoint ID) para confirmar as informações e em RADIUS Accounting (em Operations > Reports > Reports > Endpoint and Users > filtrar por Identity/Endpoint ID) observe a coluna Account Terminate Cause, por exemplo:
Nota 2: neste ponto, trabalhar com a sua Equipe de R&S sobre o Account Terminate Cause é OBRIGATÓRIO !!!
Nota 3: resultados do Account Terminate Cause: (veja em RFC 2866 - Acct-Terminate-Cause)
Em Operations > Reports > Reports > Endpoints and Users > Authentication Summary > verificar o Authentication by Failure Reason (você também poderá verificar isto em Operations > Reports > Reports > Endpoints and Users > Top N Authentication by Failure Reason), tente resolver ou minimizar os top Failure Reason, por exemplo:
Em Operations > Reports > Reports > Diagnostics > RADIUS Error > filtrar por Failure Reason = 5440 (Endpoint abandoned EAP Session and started new) e Export To = Repository (CSV) para verificar o Endpoints com a maior quantidade de 5440 Failure Reason:
Nota: neste ponto, trabalhar com a sua Equipe de R&S e a sua Equipe responsável pelo Supplicant é OBRIGATÓRIO !!!
IMPORTANTE: se você filtrar por Failure Reason = 5440 em Operations > Reports > Reports > Endpoint and Users > RADIUS Authentication ou Operations > Reports > Reports > Endpoint and Users > Authentication Summary seu resultado será No Data Found, é por isto que você deve verificar isso em RADIUS Error. O seguinte enhancement foi criado para lidar com esta situação: CSCwd35786 ENH: ISE: 5440 Endpoint abandoned EAP session events need to have visibility in ISE reports.
O Slow Replication pode ser causado pelo "flapping" do Application Server (de running para initializing), verifique novamente a configuração do Active Directory Diagnostic Tool - Schedule Tests (em Administration > Identity Management > External Identity Sources > Active Directory > Advanced Tools > Diagnostic Tools > janela Run Schedule Tests
verifique por favor os Bug IDs:
Atenção para os Bug IDs abaixo::
Solucionar ou minimizar o problema Slow Replication é longe de ser uma tarefa fácil : )
Tralabalhar com o TAC é altamente recomendável e coletar todas estas informações de troubleshooting durante o problema de Slow Replication é OBRIGATÓRIO !!!
Espero que este documento te ajude a "passar pelo tempos sombrios" do Slow Replication !!! : )
Boa @Marcelo Morais . Parabéns.
Obrigado @jonas.resende ,
este é um assunto sem fim : ) que irei atualizar com o tempo ... espero que ajude !!!
Encontre respostas, faça perguntas e conecte-se com nossa comunidade de especialistas da Cisco de todo o mundo.
Estamos felizes por você estar aqui! Participe de conversas e conecte-se com sua comunidade.
Navegue pelos links rápidos da Comunidade e usufrua de um conteúdo personalizado e em seu idioma nativo: