cancelar
Mostrar resultados para 
Pesquisar em vez de 
Queria dizer: 
cancel
1456
Apresentações
19
Útil
3
Comentários

 

A versão em Inglês deste Artigo se encontra em: ISE - Slow Replication.

 

MarceloMorais_0-1654436644727.png Para obter uma cópia off-line ou impressa deste documento, basta escolher ⋮ Opções > Página Amigável para Impressora. Você pode então Imprimir > Imprimir em PDF ou Copiar & Colar em qualquer outro formato de documento de sua preferência.

 

Introdução

Este documento se concentra no ISE Slow Repllication causado por "atores externos" (não no ISE). ele apresenta brevemente o significado do Slow Replication, como lidar com ele e seu impacto num ISE Deployment.

Se o evento Slow Replication ocorrer, recomendo fortemente não ignora lo !!!

 

O que é o Slow Replication ?

A mensagem de Slow Replication é parte da Category: Administrative and Operational Audit Category, Class: Replication e com Message Codes: 60150, 60151 and 60152 (em Administration > System > Logging > Message Catalog) :

Message Catalog.png

Existem 3 Eventos que acionam o Slow Replication em um determinado threshold quando as mensagens para um Node específico são enfileiradas além de um nível seguro. Eles são acionados com base num ISE Node que não consome mensagens replicadas nos últimos 15+ minutos:

  • INFO pelo menos 15K totalPendingMsgCount & pelo menos 15 min totalTimeDiffInMinutes
  • WARNING pelo menos 20K totalPendingMsgCount & pelo menos 15 min totalTimeDiffInMinutes
  • ERROR pelo menos 40K totalPendingMsgCount & pelo menos 15 min totalTimeDiffInMinutes

totalPendingMsgCount são as mensagens pendentes do Secondary Node em relação ao Primary Node (o Primary PAN).

totalTimeDiffInMinutes é a diferença em minutos entre o horário da 1ª mensagem não consumida do Primary e o horário do Secundary.

 

Como verificar ?

Slow Replication

Você pode verificar o Slow Replication via:

1. ISE GUI

Em ISE > Home você pode verificar o registro do Slow Replication na janela Alarms:

Dashboard Alarms.png

2. ISE CLI

Via o seguinte comando:

ise/admin# show logging application deployment.log
...
2022-10-18 10:24:39,148 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Warn level alarm will be generated for host <PSN HOSTNAME>
message : Node <PSN HOSTNAME> has slow replication since this node is not consuming messages for past 18 minutes. The number of pending messages are 32103
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 799879069
b. Seq No in Secondary : 799846966
c. Current Time : 27768324
d. Primary Seq Time: 27768324
e. Secondary Seq Time: 27768319
f. Time of first unconsumed message in Primary: 27768306
2022-10-18 10:24:39,148 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Inside logAuditMessages to raise slow replication alarm with level [WARN] for node [<PSN HOSTNAME>]
2022-10-18 10:24:39,150 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication alarm is generated successfully for node <PSN HOSTNAME>
...
2022-10-18 10:24:39,181 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Critical level alarm will be generated for host <PSN HOSTNAME>
message : Node <PSN HOSTNAME> has slow replication since this node is not consuming messages for past 23 minutes. The number of pending messages are 44006
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 799879070
b. Seq No in Secondary : 799835064
c. Current Time : 27768324
d. Primary Seq Time: 27768324
e. Secondary Seq Time: 27768322
f. Time of first unconsumed message in Primary: 27768301
2022-10-18 10:24:39,181 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Inside logAuditMessages to raise slow replication alarm with level [CRITICAL] for node [<PSN HOSTNAME>]
2022-10-18 10:24:39,183 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication alarm is generated successfully for node <PSN HOSTNAME>
...

IMPORTANTE: em ISE GUI temos o Slow Replication: Info, Warning e Error ... em ISE CLI temos o Slow Replication: Info, Warn and Critical.

 

totalPendingMsgCound & totalTimeDiffInMinutes

Você tem as seguintes opções para verificar o totalPendingMsgCount & totalTimeDiffInMinutes:

1. você pode facilmente verificar o totalPendingMsgCount em Administration > System > Deployment > em Messages to be Synced:  

Deployment.png

2. você pode verificar o totalTimeDiffInMinutes em ISE PPAN CLI (no exemplo abaixo: o totalTimeDiffInMinutes = 26, the Time of first unconsumed message in Primary = 27712123 and the Secondary Seq Time = 27712149

ise/admin# show logging application deployment.log
...
2022-09-09 10:09:41,795 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Critical level alarm will be generated for host <PSN Hostname>
message : Node <PSN Hostname> has slow replication since this node is not consuming messages for past 26 minutes. The number of pending messages are 74872
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 775241426
b. Seq No in Secondary : 775166554
c. Current Time : 27712149
d. Primary Seq Time: 27712149
e. Secondary Seq Time: 27712149
f. Time of first unconsumed message in Primary: 27712123
...

3. você também é capaz de verificar o totalPendingMsgCount & totalTimeDiffInMinutes via ISE PPAN CLI:

ise/admin# show logging application deployment.log
...
2022-12-20 10:40:30,284 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Sequence details for host <PSN Hostname> replicationStatus[SYNC COMPLETED] primarySequenceCount[838148783] primaryTimeInMins[27859060] currentTimeInMins[27859060] firstUnconsumedPrimarySeqTime[ 27859031] secondarySequenceCount[838107650] secondaryTimeInMins[27859060] totalPendingMsgCount[41133] totalTimeDiffInMinutes [29]
...

 

Efeitos do Slow Replication !!!

Exemplos e possíveis efeitos do Slow Replication:

  • quando o contador de mensagens não publicadas ultrapassar 2.000.000,  então TODOS os Nodes serão marcados como Out of Sync (veja em: CSCvv10712 Sec_txnlog_master table should be truncated post 2M record count)
  • se o acúmulo de replicação atingir 1.000.000 Mensagens, o Node será disconectado e exigirá um resync manual, em ISE > Administration > System > Deployment > selecionar o Node > clicar no botão Syncup:

Syncup.png

  • o evento de Slow Replication Error is muito prejudicial para o ISE Deployment (principalmente quando ocorre repetidamente, pois o Node pode não consumir Mensagens por horas, no exemplo abaixo: 86 min as 10:07AM

    Slow Replication Error.png

  • incapacidade de entrar no ISE GUI (neste cenário, é possível entrar no ISE via CLI)
  • ISE GUI muito lento !!!
  • alterações de configuração levam muito tempo para serem propagadas para os PSNs.

 

Recomendações durante o problema de Slow Replication !!!

Durante o problema de Slow Replication evite gerar:

  • Support Bundle
  • Backup
  • grandes Reports (por exemplo: Last 7 days & Last 30 days)

 

Troubleshooting - Slow Replication ("atores externos")

CPU & RAM Reservation

Reservation num VMWare VM é FUNDAMENTAL para mitigar o Slow Replication, claro que sua infraestrutura precisa ter capacidade suficiente para suportar essas reservas, pois esses recursos NÃO SERÃO MAIS COMPARTILHADOS (ou seja, você DEVE especificar um Reservation para garantir que as quantidades mínimas necessárias de CPU ou Memory estejam sempre disponíveis para a VM).

Em VMWare Host Summary verifique novamente as informações de CPU Cores (por exemplo: 80 CPUs com 2.39GHz cada) e o Processor Type:

VMWare Host Summary.png

 Em Performance and Scalability Guide for Cisco ISE verifique novamente:

1. em Cisco ISE Hardware Appliance, se o Processor Type é compatível com o Processor Specification:

Processor Specification.png

2. em Cisco ISE on Virtual Appliance, se o CPU & Memory é compatível com o vCPU & Memory Specification:

Processor Specification - Virtual Appliances.png

 Em VMWare VM Summary clique no botão Edit Settings:

VMWare VM Edit Settings - 00.png

e verifique novamente a informação de Reservation

VMWare VM Edit Settings - 01.png

IMPORTANTE 1: neste exemplo, temos 24x CPU, cada uma com um clock de 2.39GHz, num total de 57.36 GHz (24x 2.39 GHz).

IMPORTANTE 2: quando você executa um Power On numa VM, o sistema verifica a quantidade de CPUMemory Resources que ainda não foram reservados. Com base nos recursos disponíveis e não reservados, o sistema determina se pode garantir a reserva para a qual a VM está configurada (se houver). Este processo é chamado de Admission Control.

IMPORTANTE 3: VMWare DRS e VMWare HA "impactam" o CPU & Memory Reservation (veja em: Using vSphere HA and DRS Together) !!!

Nota 1: você é capaz de verificar as informações de CPU & Memory e Processor Type via ISE CLI:

ise/admin# show inventory
NAME: "ISE-VM-K9 chassis", DESCR: "ISE-VM-K9 chassis"
PID: ISE-VM-K9 , VID: V01 , SN: <Serial Number>
Total RAM Memory: 263972560 kB
CPU Core Count: 24
CPU 0: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
CPU 1: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
....
CPU 22: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
CPU 23: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
Hard Disk Count(*): 1
Disk 0: Device Name: /dev/sda
Disk 0: Capacity: 644.20 GB
NIC Count: 1
NIC 0: Device Name: eth0:
NIC 0: HW Address: <MAC Addr>
NIC 0: Driver Descr: VMware vmxnet3 virtual NIC driver

(*) Hard Disk Count may be Logical.

Nota 2: para maiores detallhes sobre informações de CPU:

ise/admin# show tech-support 
...
*****************************************
Displaying /proc/cpuinfo...
*****************************************
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 47
model name : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
stepping : 2
microcode : 0x3b
cpu MHz : 2394.000
cache size : 30720 KB
...

ou

ise/admin# show cpu
processor : 0
model : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
speed(MHz): 2394.000
cache size: 30720 KB
...
processor : 23
model : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
speed(MHz): 2394.000
cache size: 30720 KB

Nota 3: para verificar o Reservation via ISE CLI:

ise/admin# show tech-support 
...
*****************************************
Displaying UDI (Unique Device Identifier) information...
*****************************************
UDI PID: ISE-VM-K9
UDI SN: <Serial Number>
UDI VID: V01
UDI Platform type: VM
VM Memory Reservation: 262144 MB
VM CPU Reservation: 57360 MHz
VM Memory Limit: 4294967295 MB
VM CPU Limit: 4294967295 MHz
VM Swap Utilization: 0 MB
VM Memory Balloon Size: 0 MB
VM Session ID: 0x6ddb3ead2740836a
VM CPU Speed: 2394 MHz
VM Host Time: 20 Dec 2022 12:20:33
...

 

Hyper-Threading

Hyper-Threading permite que mais de um Thread seja executado em cada Core.

Quando o Hyper-Threading está ativo, um Physical Core funciona como "dois Logical Cores" que podem trabalhar em tarefas de forma mais eficiente aproveitado o Idle Time quando o Core antes estaria esperando outras tarefas serem concluídas.

IMPORTANTE 1: o Hyper-Threading melhora o throughput  da CPU em até 30%.

IMPORTANTE 2: se você estiver planejando usar o Hyper-Threading, lembre-se do "throughput de até 30%" e evite problemas de CPU Ready !!!

IMPORTANTE 3: mais informações em: What is Hyper-Threading?.

 

CPU Ready

CPU Ready Time é uma métrica do vSphere que registra a quantidade de tempo que uma VM está pronta para usarCPU, mas não conseguiu porque TODOS os CPU Resources (no ESX Host) estão ocupados

Como regra geral, o CPU Ready Time:

  • < 5%: geralmente nenhum problema
  • 5% - 10%: contenção mínima que deve ser monitorada durante os horários de pico
  • > 10%: contenção a ser investigada e abordada onde a experiência do usuário final está sendo impactada

Nota 1: as métricas de VM's CPU Usage e CPU Ready não estão diretamente correlacionadas. Uma VM pode ter um problema sério com CPU Ready mesmo quando o CPU Usage não parecer estar tão alto. Para se ter uma visão completa do CPU Performance, você precisa olhar para CPU Ready e CPU Usage.

Note 2: por favor dê uma olhada em:

 

tech top command

Um Load Average alto geralmente significa que o sistema está sendo muito utilizado e o tempo de resposta é correspondentemente lento !!!

Verifique o Load Average nos últimos 5 min e identifique as  Threads que estão gastando mais recursos de CPU é um passo importante, para fazer isto, use o comando ISE PPAN CLI > tech top, com o P (para classificar por CPU Usage) e H (para listar as Threads), por exemplo:

tech top.png

IMPORTANTE 1: você DEVE usar o comando tech top durante o problema de Slow Replication !!!  : )

IMPORTANTE 2: esta informação DEVE ser compartilhada com o TAC !!!

 

Live Logs

ISE Live Logs (em Operations > RADIUS > Live Logs) possui dois importantes painéis:

ISE Live Logs.png

 

1. Misconfigured Network Devices

Clique em Misconfigured NAS, e verifique e solucione os Failure Reason dos NAS com a maior quantidade de Failed Attempts:

Misconfigured NAS.png

Nota: em Operations > Reports > Reports > Diagnostics > Misconfigured NAS, é possível verificar maiores detalhes sobre o Misconfigured NAS que pode auxilia lo a solucionar o problema:

Misconfigured NAS - Diagnostics.png

 

 2. Repeat Counter

Clique em Repeat Counter, verifique o Identity/Endpoint ID com a maior quantidade de Repeat Count:

Repeat Count Details.png

Nota 1: em Live Logs é possivel utilizar um Advanced Filter para filtrar por "Repeat Count greater than a Value", o seguinte enhancement foi criado para lidar com esta situação:

De posse do Identity/Endpoint ID, vá para o Live Logs (em Operations > RADIUS > Live Logs > filtrar por Identity/Endpoint ID) para confirmar as informações e em RADIUS Accounting (em Operations > Reports > Reports > Endpoint and Users > filtrar por Identity/Endpoint ID) observe a coluna Account Terminate Cause, por exemplo:

RADIUS Accounting.png

Nota 2: neste ponto, trabalhar com a sua Equipe de R&S sobre o Account Terminate Cause é OBRIGATÓRIO !!!

Nota 3: resultados do Account Terminate Cause: (veja em RFC 2866 - Acct-Terminate-Cause)

  • User Request: user requested termination of service.
  • Lost CarrierDCD was dropped on the port.
  • Lost Service: service can no longer be provided; for example, user's connection to a host was interrupted.
  • Idle Timeout: idle timer expired.
  • Session Timeout: maximum session length timer expired.
  • Admin Reset: administrator reset the port or session.
  • Admin Reboot: administrator is ending service on the NAS, for example prior to rebooting the NAS
  • Port Error: NAS detected an error on the port which required ending the session.
  • NAS Error: NAS detected some error (other than on the port) which required ending the session.
  • NAS Request: NAS ended session for a non-error reason NOT defined for other values of Terminate-Cause.
  • NAS Reboot: the NAS ended the session in order to reboot non-administratively ("crash").
  • Port UnneededNAS ended session because resource usage fell below low-water mark (for example, if a bandwidth-on-demand algorithm decided that the port was no longer needed).
  • Port Preempted: NAS ended session in order to allocate the port to a higher priority use.
  • Port SuspendedNAS ended session to suspend a virtual session.
  • Service UnavailableNAS was unable to provide requested service.
  • Call BackNAS is terminating current session in order to perform callback for a new session.
  • User Error: input from user is in error, causing termination of session.
  • Host RequestLogin Host terminated session normally.

 

Authentication Summary

Em Operations > Reports > Reports > Endpoints and Users > Authentication Summary > verificar o Authentication by Failure Reason (você também poderá verificar isto em Operations > Reports > Reports > Endpoints and Users > Top N Authentication by Failure Reason), tente resolver ou minimizar os top Failure Reason, por exemplo:

AuthC Summary.png

TOP N AuthC by Failure Reason.png

 

RADIUS Error

Em Operations > Reports > Reports > Diagnostics > RADIUS Error > filtrar por Failure Reason = 5440 (Endpoint abandoned EAP Session and started new) e Export To = Repository (CSV) para verificar o Endpoints com a maior quantidade de 5440 Failure Reason:

RADIUS Error.png

Nota: neste ponto, trabalhar com a sua Equipe de R&S e a sua Equipe responsável pelo Supplicant é OBRIGATÓRIO !!!

IMPORTANTE: se você filtrar por Failure Reason = 5440 em Operations > Reports > Reports > Endpoint and Users > RADIUS Authentication ou Operations > Reports > Reports > Endpoint and Users > Authentication Summary seu resultado será No Data Found, é por isto que você deve verificar isso em RADIUS Error. O seguinte enhancement foi criado para lidar com esta situação: CSCwd35786 ENH: ISE: 5440 Endpoint abandoned EAP session events need to have visibility in ISE reports.

 

Active Directory Diagnostic Tool

O Slow Replication pode ser causado pelo "flapping" do Application Server (de running para initializing), verifique novamente a configuração do Active Directory Diagnostic Tool - Schedule Tests (em Administration > Identity Management > External Identity Sources > Active Directory > Advanced Tools > Diagnostic Tools > janela Run Schedule Tests

AD Diagnostic Tooll.png

verifique por favor os Bug IDs:

 

Bug IDs

Lista

Atenção para os Bug IDs abaixo::

 

IMPORTANTE: é sempre uma prática recomendada verificar novamente se seu ambiente está atualizado ou se você não estiver usando uma Deferred Release, por favor verifique em: ISE Software Download.

 

CSCwb29140 Threads Getting Exhaust

Este é um que eu gostaria de explicar com mais detalhes, pois foi o que me deu "mais dor de cabeça".   : )

Dê uma olhada em: CSCwb29140 Threads getting exhaust post moving to latest patches were nss rpm is updated (Only 3.0p5&2.7p7,3.1P1).  

Sintoma: " ... você começa a ter problemas de desempenho em HTTPS Portals como: Guest PortalPosture Portal. Exemplos disto são: o Portal leva mais tempo do que o normal para carregar. Outro sintoma pe o Application Server indo para o initializing state ... "

Fixed Release Conhecidos: " ... 2.6 P112.7 P83.0 P63.1 P33.2  ... "

Antes da Fixed Release você pode verificar o problema em Operations > Reports > Reports > Audit > Operations Audit, dê uma olhada em Request = Maximum Resource Limit Reached.

Operations Audit.png

 

IMPORTANTE: o HP-2.7P7-CSCwb29140 Hot Patch resolve o problema de initializing state, mas não o problema de Maximum Resource Limit Reached.

 

CSCwd45843 Auth Step Latency

Este é outro que eu gostaria de explicar em mais detalhes, pois é um dos Support Cases com maior número de casos.

Dê uma olhada em: CSCwd45843 Auth Step latency for policy evaluation due to Garbage Collection activity.  

Sintoma: " ... incluem, mas não estão limitados ao seguinte:
- Authentication Step Latency em várias etapas de avaliação de Policy.
- High Average Request Latency durante períodos de pico de carga.
- Authentication Request Latency não se recupera até o reload do Sistema.
- Profiler Queue Full Alarms ... "

Fixed Releases Conhecidos: " ... 2.7 P83.0 P73.1 P53.2 P1  ... "

A ÚNICA alternativa sem aplicar patches ou atualização do Sistema é reduzir o volume do tráfego enviado para os Nodes individualmente ou distribuir o tráfego entre ISE Nodes adicionais. Um reboot do Sistema pode aliviar temporariamente o problema mas ele pode retornar minutos após a reinicialização.

 

CSCwf38076 Block Posture port TCP/8905 and CPP port TCP/8443 for Non-Postured connections

Dê uma olhada em: CSCwf38076 Block Posture port TCP/8905 and CPP port (default is TCP/8443) for Non-Postured connections .

Sintoma: " ...

 - Relatório de "Maximum resource limit reached" para eventos de "Portal service thread pool reached threshold value". Navegue até Operations > Reports > Reports > Audit > Operations Audit para ver os relatórios.
- Erros aleatórios ou intermitentes de No Policy Server detectado no Cisco Secure Client
- Alarmes de "Posture Query to MNT lookup is high". Estes alarmes são gerados apenas no ISE 3.1 e versões superiores.
- Faça uma captura de pacote no PSN que está enviando o alarme, e em seguida, verifique-o. O número de pacotes com destination port TCP/8905 e CPP port (o padrão é TCP/8443) deve ser enorme (mais de 5000 em um período de 3 minutes)
Sintomas mais genéricos que podem estar relacionados:
- High load average
High CPU ... "

Affected Releases Conhecidos: " ... 2.73.03.1 and 3.2 ... "

A ÚNICA solução alternativa " ... bloquear o tráfego dos Endpoints para todos os ISE PSNs para TCP/8905 e Client Provisioning Portal port (o padrão é TCP/8443). Esta ação é recomendada para Posture com redirection e redirectionless. ...".

 

Field Notice

FN74005 - ISE: Java Heap Size May Significantly Impact System Performance

Este é um FN muito importante, dê uma olhada em:

Este problema começa com o ISE 2.7 P2 e o reloading do Sistema pode aliviar temporariamente o problema ... atualizar o ISE é recomendado !!!

FN 74005.png

 

Conclusão

Solucionar ou minimizar o problema Slow Replication é longe de ser uma tarefa fácil   : ) 

Tralabalhar com o TAC é altamente recomendável e coletar todas estas informações de troubleshooting durante o problema de Slow Replication é OBRIGATÓRIO !!!

Espero que este documento te ajude a "passar pelo tempos sombrios" do Slow Replication !!!  : )

 

Comentários
jonas.resende
VIP Alumni
VIP Alumni

Boa @Marcelo Morais . Parabéns.

Obrigado @jonas.resende ,

 este é um assunto sem fim : )  que irei atualizar com o tempo ... espero que ajude !!!

Parabéns pelo trabalho 

Primeiros Passos

Encontre respostas, faça perguntas e conecte-se com nossa comunidade de especialistas da Cisco de todo o mundo.

Estamos felizes por você estar aqui! Participe de conversas e conecte-se com sua comunidade.