01-09-2023 06:45 PM - editado 03-26-2025 08:08 AM
A versão em Inglês deste Artigo se encontra em: ISE - Slow Replication.
Para obter uma cópia off-line ou impressa deste documento, basta escolher ⋮ Opções > Página Amigável para Impressora. Você pode então Imprimir > Imprimir em PDF ou Copiar & Colar em qualquer outro formato de documento de sua preferência. |
Este documento se concentra no ISE Slow Repllication causado por "atores externos" (não no ISE). ele apresenta brevemente o significado do Slow Replication, como lidar com ele e seu impacto num ISE Deployment.
Se o evento Slow Replication ocorrer, recomendo fortemente não ignora lo !!!
A mensagem de Slow Replication é parte da Category: Administrative and Operational Audit Category, Class: Replication e com Message Codes: 60150, 60151 and 60152 (em Administration > System > Logging > Message Catalog) :
Existem 3 Eventos que acionam o Slow Replication em um determinado threshold quando as mensagens para um Node específico são enfileiradas além de um nível seguro. Eles são acionados com base num ISE Node que não consome mensagens replicadas nos últimos 15+ minutos:
O totalPendingMsgCount são as mensagens pendentes do Secondary Node em relação ao Primary Node (o Primary PAN).
O totalTimeDiffInMinutes é a diferença em minutos entre o horário da 1ª mensagem não consumida do Primary e o horário do Secundary.
Você pode verificar o Slow Replication via:
Em ISE > Home você pode verificar o registro do Slow Replication na janela Alarms:
Via o seguinte comando:
ise/admin# show logging application deployment.log
...
2022-10-18 10:24:39,148 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Warn level alarm will be generated for host <PSN HOSTNAME>
message : Node <PSN HOSTNAME> has slow replication since this node is not consuming messages for past 18 minutes. The number of pending messages are 32103
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 799879069
b. Seq No in Secondary : 799846966
c. Current Time : 27768324
d. Primary Seq Time: 27768324
e. Secondary Seq Time: 27768319
f. Time of first unconsumed message in Primary: 27768306
2022-10-18 10:24:39,148 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Inside logAuditMessages to raise slow replication alarm with level [WARN] for node [<PSN HOSTNAME>]
2022-10-18 10:24:39,150 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication alarm is generated successfully for node <PSN HOSTNAME>
...
2022-10-18 10:24:39,181 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Critical level alarm will be generated for host <PSN HOSTNAME>
message : Node <PSN HOSTNAME> has slow replication since this node is not consuming messages for past 23 minutes. The number of pending messages are 44006
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 799879070
b. Seq No in Secondary : 799835064
c. Current Time : 27768324
d. Primary Seq Time: 27768324
e. Secondary Seq Time: 27768322
f. Time of first unconsumed message in Primary: 27768301
2022-10-18 10:24:39,181 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Inside logAuditMessages to raise slow replication alarm with level [CRITICAL] for node [<PSN HOSTNAME>]
2022-10-18 10:24:39,183 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication alarm is generated successfully for node <PSN HOSTNAME>
...
IMPORTANTE: em ISE GUI temos o Slow Replication: Info, Warning e Error ... em ISE CLI temos o Slow Replication: Info, Warn and Critical.
Você tem as seguintes opções para verificar o totalPendingMsgCount & totalTimeDiffInMinutes:
1. você pode facilmente verificar o totalPendingMsgCount em Administration > System > Deployment > em Messages to be Synced:
2. você pode verificar o totalTimeDiffInMinutes em ISE PPAN CLI (no exemplo abaixo: o totalTimeDiffInMinutes = 26, the Time of first unconsumed message in Primary = 27712123 and the Secondary Seq Time = 27712149
ise/admin# show logging application deployment.log
...
2022-09-09 10:09:41,795 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Critical level alarm will be generated for host <PSN Hostname>
message : Node <PSN Hostname> has slow replication since this node is not consuming messages for past 26 minutes. The number of pending messages are 74872
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 775241426
b. Seq No in Secondary : 775166554
c. Current Time : 27712149
d. Primary Seq Time: 27712149
e. Secondary Seq Time: 27712149
f. Time of first unconsumed message in Primary: 27712123
...
3. você também é capaz de verificar o totalPendingMsgCount & totalTimeDiffInMinutes via ISE PPAN CLI:
ise/admin# show logging application deployment.log
...
2022-12-20 10:40:30,284 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Sequence details for host <PSN Hostname> replicationStatus[SYNC COMPLETED] primarySequenceCount[838148783] primaryTimeInMins[27859060] currentTimeInMins[27859060] firstUnconsumedPrimarySeqTime[ 27859031] secondarySequenceCount[838107650] secondaryTimeInMins[27859060] totalPendingMsgCount[41133] totalTimeDiffInMinutes [29]
...
Exemplos e possíveis efeitos do Slow Replication:
o evento de Slow Replication Error is muito prejudicial para o ISE Deployment (principalmente quando ocorre repetidamente, pois o Node pode não consumir Mensagens por horas, no exemplo abaixo: 86 min as 10:07AM
Durante o problema de Slow Replication evite gerar:
Reservation num VMWare VM é FUNDAMENTAL para mitigar o Slow Replication, claro que sua infraestrutura precisa ter capacidade suficiente para suportar essas reservas, pois esses recursos NÃO SERÃO MAIS COMPARTILHADOS (ou seja, você DEVE especificar um Reservation para garantir que as quantidades mínimas necessárias de CPU ou Memory estejam sempre disponíveis para a VM).
Em VMWare Host Summary verifique novamente as informações de CPU Cores (por exemplo: 80 CPUs com 2.39GHz cada) e o Processor Type:
Em Performance and Scalability Guide for Cisco ISE verifique novamente:
1. em Cisco ISE Hardware Appliance, se o Processor Type é compatível com o Processor Specification:
2. em Cisco ISE on Virtual Appliance, se o CPU & Memory é compatível com o vCPU & Memory Specification:
Em VMWare VM Summary clique no botão Edit Settings:
e verifique novamente a informação de Reservation:
IMPORTANTE 1: neste exemplo, temos 24x CPU, cada uma com um clock de 2.39GHz, num total de 57.36 GHz (24x 2.39 GHz).
IMPORTANTE 2: quando você executa um Power On numa VM, o sistema verifica a quantidade de CPU e Memory Resources que ainda não foram reservados. Com base nos recursos disponíveis e não reservados, o sistema determina se pode garantir a reserva para a qual a VM está configurada (se houver). Este processo é chamado de Admission Control.
IMPORTANTE 3: VMWare DRS e VMWare HA "impactam" o CPU & Memory Reservation (veja em: Using vSphere HA and DRS Together) !!!
Nota 1: você é capaz de verificar as informações de CPU & Memory e Processor Type via ISE CLI:
ise/admin# show inventory
NAME: "ISE-VM-K9 chassis", DESCR: "ISE-VM-K9 chassis"
PID: ISE-VM-K9 , VID: V01 , SN: <Serial Number>
Total RAM Memory: 263972560 kB
CPU Core Count: 24
CPU 0: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
CPU 1: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
....
CPU 22: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
CPU 23: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
Hard Disk Count(*): 1
Disk 0: Device Name: /dev/sda
Disk 0: Capacity: 644.20 GB
NIC Count: 1
NIC 0: Device Name: eth0:
NIC 0: HW Address: <MAC Addr>
NIC 0: Driver Descr: VMware vmxnet3 virtual NIC driver
(*) Hard Disk Count may be Logical.
Nota 2: para maiores detallhes sobre informações de CPU:
ise/admin# show tech-support
...
*****************************************
Displaying /proc/cpuinfo...
*****************************************
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 47
model name : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
stepping : 2
microcode : 0x3b
cpu MHz : 2394.000
cache size : 30720 KB
...
ou
ise/admin# show cpu
processor : 0
model : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
speed(MHz): 2394.000
cache size: 30720 KB
...
processor : 23
model : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
speed(MHz): 2394.000
cache size: 30720 KB
Nota 3: para verificar o Reservation via ISE CLI:
ise/admin# show tech-support
...
*****************************************
Displaying UDI (Unique Device Identifier) information...
*****************************************
UDI PID: ISE-VM-K9
UDI SN: <Serial Number>
UDI VID: V01
UDI Platform type: VM
VM Memory Reservation: 262144 MB
VM CPU Reservation: 57360 MHz
VM Memory Limit: 4294967295 MB
VM CPU Limit: 4294967295 MHz
VM Swap Utilization: 0 MB
VM Memory Balloon Size: 0 MB
VM Session ID: 0x6ddb3ead2740836a
VM CPU Speed: 2394 MHz
VM Host Time: 20 Dec 2022 12:20:33
...
Hyper-Threading permite que mais de um Thread seja executado em cada Core.
Quando o Hyper-Threading está ativo, um Physical Core funciona como "dois Logical Cores" que podem trabalhar em tarefas de forma mais eficiente aproveitado o Idle Time quando o Core antes estaria esperando outras tarefas serem concluídas.
IMPORTANTE 1: o Hyper-Threading melhora o throughput da CPU em até 30%.
IMPORTANTE 2: se você estiver planejando usar o Hyper-Threading, lembre-se do "throughput de até 30%" e evite problemas de CPU Ready !!!
IMPORTANTE 3: mais informações em: What is Hyper-Threading?.
CPU Ready Time é uma métrica do vSphere que registra a quantidade de tempo que uma VM está pronta para usar a CPU, mas não conseguiu porque TODOS os CPU Resources (no ESX Host) estão ocupados.
Como regra geral, o CPU Ready Time:
Nota 1: as métricas de VM's CPU Usage e CPU Ready não estão diretamente correlacionadas. Uma VM pode ter um problema sério com CPU Ready mesmo quando o CPU Usage não parecer estar tão alto. Para se ter uma visão completa do CPU Performance, você precisa olhar para CPU Ready e CPU Usage.
Note 2: por favor dê uma olhada em:
Um Load Average alto geralmente significa que o sistema está sendo muito utilizado e o tempo de resposta é correspondentemente lento !!!
Verifique o Load Average nos últimos 5 min e identifique as Threads que estão gastando mais recursos de CPU é um passo importante, para fazer isto, use o comando ISE PPAN CLI > tech top, com o P (para classificar por CPU Usage) e H (para listar as Threads), por exemplo:
IMPORTANTE 1: você DEVE usar o comando tech top durante o problema de Slow Replication !!! : )
IMPORTANTE 2: esta informação DEVE ser compartilhada com o TAC !!!
ISE Live Logs (em Operations > RADIUS > Live Logs) possui dois importantes painéis:
Clique em Misconfigured NAS, e verifique e solucione os Failure Reason dos NAS com a maior quantidade de Failed Attempts:
Nota: em Operations > Reports > Reports > Diagnostics > Misconfigured NAS, é possível verificar maiores detalhes sobre o Misconfigured NAS que pode auxilia lo a solucionar o problema:
Clique em Repeat Counter, verifique o Identity/Endpoint ID com a maior quantidade de Repeat Count:
Nota 1: em Live Logs é possivel utilizar um Advanced Filter para filtrar por "Repeat Count greater than a Value", o seguinte enhancement foi criado para lidar com esta situação:
De posse do Identity/Endpoint ID, vá para o Live Logs (em Operations > RADIUS > Live Logs > filtrar por Identity/Endpoint ID) para confirmar as informações e em RADIUS Accounting (em Operations > Reports > Reports > Endpoint and Users > filtrar por Identity/Endpoint ID) observe a coluna Account Terminate Cause, por exemplo:
Nota 2: neste ponto, trabalhar com a sua Equipe de R&S sobre o Account Terminate Cause é OBRIGATÓRIO !!!
Nota 3: resultados do Account Terminate Cause: (veja em RFC 2866 - Acct-Terminate-Cause)
Em Operations > Reports > Reports > Endpoints and Users > Authentication Summary > verificar o Authentication by Failure Reason (você também poderá verificar isto em Operations > Reports > Reports > Endpoints and Users > Top N Authentication by Failure Reason), tente resolver ou minimizar os top Failure Reason, por exemplo:
Em Operations > Reports > Reports > Diagnostics > RADIUS Error > filtrar por Failure Reason = 5440 (Endpoint abandoned EAP Session and started new) e Export To = Repository (CSV) para verificar o Endpoints com a maior quantidade de 5440 Failure Reason:
Nota: neste ponto, trabalhar com a sua Equipe de R&S e a sua Equipe responsável pelo Supplicant é OBRIGATÓRIO !!!
IMPORTANTE: se você filtrar por Failure Reason = 5440 em Operations > Reports > Reports > Endpoint and Users > RADIUS Authentication ou Operations > Reports > Reports > Endpoint and Users > Authentication Summary seu resultado será No Data Found, é por isto que você deve verificar isso em RADIUS Error. O seguinte enhancement foi criado para lidar com esta situação: CSCwd35786 ENH: ISE: 5440 Endpoint abandoned EAP session events need to have visibility in ISE reports.
O Slow Replication pode ser causado pelo "flapping" do Application Server (de running para initializing), verifique novamente a configuração do Active Directory Diagnostic Tool - Schedule Tests (em Administration > Identity Management > External Identity Sources > Active Directory > Advanced Tools > Diagnostic Tools > janela Run Schedule Tests
verifique por favor os Bug IDs:
Atenção para os Bug IDs abaixo::
IMPORTANTE: é sempre uma prática recomendada verificar novamente se seu ambiente está atualizado ou se você não estiver usando uma Deferred Release, por favor verifique em: ISE Software Download.
Este é um que eu gostaria de explicar com mais detalhes, pois foi o que me deu "mais dor de cabeça". : )
Dê uma olhada em: CSCwb29140 Threads getting exhaust post moving to latest patches were nss rpm is updated (Only 3.0p5&2.7p7,3.1P1).
Sintoma: " ... você começa a ter problemas de desempenho em HTTPS Portals como: Guest Portal, Posture Portal. Exemplos disto são: o Portal leva mais tempo do que o normal para carregar. Outro sintoma pe o Application Server indo para o initializing state ... "
Fixed Release Conhecidos: " ... 2.6 P11, 2.7 P8, 3.0 P6, 3.1 P3, 3.2 ... "
Antes da Fixed Release você pode verificar o problema em Operations > Reports > Reports > Audit > Operations Audit, dê uma olhada em Request = Maximum Resource Limit Reached.
IMPORTANTE: o HP-2.7P7-CSCwb29140 Hot Patch resolve o problema de initializing state, mas não o problema de Maximum Resource Limit Reached.
Este é outro que eu gostaria de explicar em mais detalhes, pois é um dos Support Cases com maior número de casos.
Dê uma olhada em: CSCwd45843 Auth Step latency for policy evaluation due to Garbage Collection activity.
Sintoma: " ... incluem, mas não estão limitados ao seguinte:
- Authentication Step Latency em várias etapas de avaliação de Policy.
- High Average Request Latency durante períodos de pico de carga.
- Authentication Request Latency não se recupera até o reload do Sistema.
- Profiler Queue Full Alarms ... "
Fixed Releases Conhecidos: " ... 2.7 P8, 3.0 P7, 3.1 P5, 3.2 P1 ... "
A ÚNICA alternativa sem aplicar patches ou atualização do Sistema é reduzir o volume do tráfego enviado para os Nodes individualmente ou distribuir o tráfego entre ISE Nodes adicionais. Um reboot do Sistema pode aliviar temporariamente o problema mas ele pode retornar minutos após a reinicialização.
Dê uma olhada em: CSCwf38076 Block Posture port TCP/8905 and CPP port (default is TCP/8443) for Non-Postured connections .
Sintoma: " ...
- Relatório de "Maximum resource limit reached" para eventos de "Portal service thread pool reached threshold value". Navegue até Operations > Reports > Reports > Audit > Operations Audit para ver os relatórios.Affected Releases Conhecidos: " ... 2.7, 3.0, 3.1 and 3.2 ... "
A ÚNICA solução alternativa " ... bloquear o tráfego dos Endpoints para todos os ISE PSNs para TCP/8905 e Client Provisioning Portal port (o padrão é TCP/8443). Esta ação é recomendada para Posture com redirection e redirectionless. ...".
Este é um FN muito importante, dê uma olhada em:
Este problema começa com o ISE 2.7 P2 e o reloading do Sistema pode aliviar temporariamente o problema ... atualizar o ISE é recomendado !!!
Solucionar ou minimizar o problema Slow Replication é longe de ser uma tarefa fácil : )
Tralabalhar com o TAC é altamente recomendável e coletar todas estas informações de troubleshooting durante o problema de Slow Replication é OBRIGATÓRIO !!!
Espero que este documento te ajude a "passar pelo tempos sombrios" do Slow Replication !!! : )
Boa @Marcelo Morais . Parabéns.
Obrigado @jonas.resende ,
este é um assunto sem fim : ) que irei atualizar com o tempo ... espero que ajude !!!
Parabéns pelo trabalho
Encontre respostas, faça perguntas e conecte-se com nossa comunidade de especialistas da Cisco de todo o mundo.
Estamos felizes por você estar aqui! Participe de conversas e conecte-se com sua comunidade.
Navegue pelos links rápidos da Comunidade e usufrua de um conteúdo personalizado e em seu idioma nativo: