cancelar
Mostrar resultados para 
Pesquisar em vez de 
Queria dizer: 
cancel
1164
Apresentações
6
Útil
2
Comentários

 

A versão em inglês deste documento se encontra em: ISE - Slow Replication.

 

MarceloMorais_0-1654436644727.png Para obter uma cópia off-line ou impressa deste documento, basta escolher ⋮ Opções > Página Amigável para Impressora. Você pode então Imprimir > Imprimir em PDF ou Copiar & Colar em qualquer outro formato de documento de sua preferência.

 

Introdução

Este documento se concentra no ISE Slow Repllication causado por "atores externos" (não no ISE). ele apresenta brevemente o significado do Slow Replication, como lidar com ele e seu impacto num ISE Deployment.

Se o evento Slow Replication ocorrer, recomendo fortemente não ignora lo !!!

 

O que é o Slow Replication ?

A mensagem de Slow Replication é parte da Category: Administrative and Operational Audit Category, Class: Replication e com Message Codes: 60150, 60151 and 60152 (em Administration > System > Logging > Message Catalog) :

Message Catalog.png

Existem 3 Eventos que acionam o Slow Replication em um determinado threshold quando as mensagens para um Node específico são enfileiradas além de um nível seguro. Eles são acionados com base num ISE Node que não consome mensagens replicadas nos últimos 15+ minutos:

  • INFO pelo menos 15K totalPendingMsgCount & pelo menos 15 min totalTimeDiffInMinutes
  • WARNING pelo menos 20K totalPendingMsgCount & pelo menos 15 min totalTimeDiffInMinutes
  • ERROR pelo menos 40K totalPendingMsgCount & pelo menos 15 min totalTimeDiffInMinutes

totalPendingMsgCount são as mensagens pendentes do Secondary Node em relação ao Primary Node (o Primary PAN).

totalTimeDiffInMinutes é a diferença em minutos entre o horário da 1ª mensagem não consumida do Primary e o horário do Secundary.

 

Como verificar ?

Slow Replication

Você pode verificar o Slow Replication via:

1. ISE GUI

Em ISE > Home você pode verificar o registro do Slow Replication na janela Alarms:

Dashboard Alarms.png

2. ISE CLI

Via o seguinte comando:

ise/admin# show logging application deployment.log
...
2022-10-18 10:24:39,148 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Warn level alarm will be generated for host <PSN HOSTNAME>
message : Node <PSN HOSTNAME> has slow replication since this node is not consuming messages for past 18 minutes. The number of pending messages are 32103
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 799879069
b. Seq No in Secondary : 799846966
c. Current Time : 27768324
d. Primary Seq Time: 27768324
e. Secondary Seq Time: 27768319
f. Time of first unconsumed message in Primary: 27768306
2022-10-18 10:24:39,148 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Inside logAuditMessages to raise slow replication alarm with level [WARN] for node [<PSN HOSTNAME>]
2022-10-18 10:24:39,150 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication alarm is generated successfully for node <PSN HOSTNAME>
...
2022-10-18 10:24:39,181 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Critical level alarm will be generated for host <PSN HOSTNAME>
message : Node <PSN HOSTNAME> has slow replication since this node is not consuming messages for past 23 minutes. The number of pending messages are 44006
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 799879070
b. Seq No in Secondary : 799835064
c. Current Time : 27768324
d. Primary Seq Time: 27768324
e. Secondary Seq Time: 27768322
f. Time of first unconsumed message in Primary: 27768301
2022-10-18 10:24:39,181 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Inside logAuditMessages to raise slow replication alarm with level [CRITICAL] for node [<PSN HOSTNAME>]
2022-10-18 10:24:39,183 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication alarm is generated successfully for node <PSN HOSTNAME>
...

IMPORTANTE: em ISE GUI temos o Slow Replication: Info, Warning e Error ... em ISE CLI temos o Slow Replication: Info, Warn and Critical.

 

totalPendingMsgCound & totalTimeDiffInMinutes

Você tem as seguintes opções para verificar o totalPendingMsgCount & totalTimeDiffInMinutes:

1. você pode facilmente verificar o totalPendingMsgCount em Administration > System > Deployment > em Messages to be Synced:  

Deployment.png

2. você pode verificar o totalTimeDiffInMinutes em ISE PPAN CLI (no exemplo abaixo: o totalTimeDiffInMinutes = 26, the Time of first unconsumed message in Primary = 27712123 and the Secondary Seq Time = 27712149

ise/admin# show logging application deployment.log
...
2022-09-09 10:09:41,795 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Slow replication Critical level alarm will be generated for host <PSN Hostname>
message : Node <PSN Hostname> has slow replication since this node is not consuming messages for past 26 minutes. The number of pending messages are 74872
Status of this node is SYNC COMPLETED
Below are the overrall details of the nodes
a. Seq No in Primary : 775241426
b. Seq No in Secondary : 775166554
c. Current Time : 27712149
d. Primary Seq Time: 27712149
e. Secondary Seq Time: 27712149
f. Time of first unconsumed message in Primary: 27712123
...

3. você também é capaz de verificar o totalPendingMsgCount & totalTimeDiffInMinutes via ISE PPAN CLI:

ise/admin# show logging application deployment.log
...
2022-12-20 10:40:30,284 INFO [Deployment-RegistrationPoller][] cpm.infrastructure.deployment.notifier.NodeChangeLogger -::::- Sequence details for host <PSN Hostname> replicationStatus[SYNC COMPLETED] primarySequenceCount[838148783] primaryTimeInMins[27859060] currentTimeInMins[27859060] firstUnconsumedPrimarySeqTime[ 27859031] secondarySequenceCount[838107650] secondaryTimeInMins[27859060] totalPendingMsgCount[41133] totalTimeDiffInMinutes [29]
...

 

Efeitos do Slow Replication !!!

Exemplos e possíveis efeitos do Slow Replication:

  • quando o contador de mensagens não publicadas ultrapassar 2.000.000,  então TODOS os Nodes serão marcados como Out of Sync (veja em: CSCvv10712 Sec_txnlog_master table should be truncated post 2M record count)
  • se o acúmulo de replicação atingir 1.000.000 Mensagens, o Node será disconectado e exigirá um resync manual, em ISE > Administration > System > Deployment > selecionar o Node > clicar no botão Syncup:

Syncup.png

  • o evento de Slow Replication Error is muito prejudicial para o ISE Deployment (principalmente quando ocorre repetidamente, pois o Node pode não consumir Mensagens por horas, no exemplo abaixo: 86 min as 10:07AM

    Slow Replication Error.png

  • incapacidade de entrar no ISE GUI (neste cenário, é possível entrar no ISE via CLI)
  • ISE GUI muito lento !!!
  • alterações de configuração levam muito tempo para serem propagadas para os PSNs.

 

Recomendações durante o problema de Slow Replication !!!

Durante o problema de Slow Replication evite gerar:

  • Support Bundle
  • Backup
  • grandes Reports (por exemplo: Last 7 days & Last 30 days)

 

Troubleshooting - Slow Replication

CPU & RAM Reservation

Reservation num VMWare VM é FUNDAMENTAL para mitigar o Slow Replication, claro que sua infraestrutura precisa ter capacidade suficiente para suportar essas reservas, pois esses recursos NÃO SERÃO MAIS COMPARTILHADOS (ou seja, você DEVE especificar um Reservation para garantir que as quantidades mínimas necessárias de CPU ou Memory estejam sempre disponíveis para a VM).

Em VMWare Host Summary verifique novamente as informações de CPU Cores (por exemplo: 80 CPUs com 2.39GHz cada) e o Processor Type:

VMWare Host Summary.png

 Em Performance and Scalability Guide for Cisco ISE verifique novamente:

1. em Cisco ISE Hardware Appliance, se o Processor Type é compatível com o Processor Specification:

Processor Specification.png

2. em Cisco ISE on Virtual Appliance, se o CPU & Memory é compatível com o vCPU & Memory Specification:

Processor Specification - Virtual Appliances.png

 Em VMWare VM Summary clique no botão Edit Settings:

VMWare VM Edit Settings - 00.png

e verifique novamente a informação de Reservation

VMWare VM Edit Settings - 01.png

IMPORTANTE 1: neste exemplo, temos 24x CPU, cada uma com um clock de 2.39GHz, num total de 57.36 GHz (24x 2.39 GHz).

IMPORTANTE 2: quando você executa um Power On numa VM, o sistema verifica a quantidade de CPUMemory Resources que ainda não foram reservados. Com base nos recursos disponíveis e não reservados, o sistema determina se pode garantir a reserva para a qual a VM está configurada (se houver). Este processo é chamado de Admission Control.

IMPORTANTE 3: VMWare DRS e VMWare HA "impactam" o CPU & Memory Reservation (veja em: Using vSphere HA and DRS Together) !!!

Nota 1: você é capaz de verificar as informações de CPU & Memory e Processor Type via ISE CLI:

ise/admin# show inventory
NAME: "ISE-VM-K9 chassis", DESCR: "ISE-VM-K9 chassis"
PID: ISE-VM-K9 , VID: V01 , SN: <Serial Number>
Total RAM Memory: 263972560 kB
CPU Core Count: 24
CPU 0: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
CPU 1: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
....
CPU 22: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
CPU 23: Model Info: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
Hard Disk Count(*): 1
Disk 0: Device Name: /dev/sda
Disk 0: Capacity: 644.20 GB
NIC Count: 1
NIC 0: Device Name: eth0:
NIC 0: HW Address: <MAC Addr>
NIC 0: Driver Descr: VMware vmxnet3 virtual NIC driver

(*) Hard Disk Count may be Logical.

Nota 2: para maiores detallhes sobre informações de CPU:

ise/admin# show tech-support 
...
*****************************************
Displaying /proc/cpuinfo...
*****************************************
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 47
model name : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
stepping : 2
microcode : 0x3b
cpu MHz : 2394.000
cache size : 30720 KB
...

ou

ise/admin# show cpu
processor : 0
model : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
speed(MHz): 2394.000
cache size: 30720 KB
...
processor : 23
model : Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz
speed(MHz): 2394.000
cache size: 30720 KB

Nota 3: para verificar o Reservation via ISE CLI:

ise/admin# show tech-support 
...
*****************************************
Displaying UDI (Unique Device Identifier) information...
*****************************************
UDI PID: ISE-VM-K9
UDI SN: <Serial Number>
UDI VID: V01
UDI Platform type: VM
VM Memory Reservation: 262144 MB
VM CPU Reservation: 57360 MHz
VM Memory Limit: 4294967295 MB
VM CPU Limit: 4294967295 MHz
VM Swap Utilization: 0 MB
VM Memory Balloon Size: 0 MB
VM Session ID: 0x6ddb3ead2740836a
VM CPU Speed: 2394 MHz
VM Host Time: 20 Dec 2022 12:20:33
...

 

CPU Ready

CPU Ready Time é uma métrica do vSphere que registra a quantidade de tempo que uma VM está pronta para usarCPU, mas não conseguiu porque TODOS os CPU Resources (no ESX Host) estão ocupados

Como regra geral, o CPU Ready Time:

  • < 5%: geralmente nenhum problema
  • 5% - 10%: contenção mínima que deve ser monitorada durante os horários de pico
  • > 10%: contenção a ser investigada e abordada onde a experiência do usuário final está sendo impactada

Nota 1: as métricas de VM's CPU Usage e CPU Ready não estão diretamente correlacionadas. Uma VM pode ter um problema sério com CPU Ready mesmo quando o CPU Usage não parecer estar tão alto. Para se ter uma visão completa do CPU Performance, você precisa olhar para CPU Ready e CPU Usage.

Note 2: por favor dê uma olhada em:

 

tech top command

Um Load Average alto geralmente significa que o sistema está sendo muito utilizado e o tempo de resposta é correspondentemente lento !!!

Verifique o Load Average nos últimos 5 min e identifique as  Threads que estão gastando mais recursos de CPU é um passo importante, para fazer isto, use o comando ISE PPAN CLI > tech top, com o P (para classificar por CPU Usage) e H (para listar as Threads), por exemplo:

tech top.png

IMPORTANTE 1: você DEVE usar o comando tech top durante o problema de Slow Replication !!!  : )

IMPORTANTE 2: esta informação DEVE ser compartilhada com o TAC !!!

 

Live Logs

ISE Live Logs (em Operations > RADIUS > Live Logs) possui dois importantes painéis:

ISE Live Logs.png

 

1. Misconfigured Network Devices

Clique em Misconfigured NAS, e verifique e solucione os Failure Reason dos NAS com a maior quantidade de Failed Attempts:

Misconfigured NAS.png

Nota: em Operations > Reports > Reports > Diagnostics > Misconfigured NAS, é possível verificar maiores detalhes sobre o Misconfigured NAS que pode auxilia lo a solucionar o problema:

Misconfigured NAS - Diagnostics.png

 

 2. Repeat Counter

Clique em Repeat Counter, verifique o Identity/Endpoint ID com a maior quantidade de Repeat Count:

Repeat Count Details.png

Nota 1: em Live Logs é possivel utilizar um Advanced Filter para filtrar por "Repeat Count greater than a Value", o seguinte enhancement foi criado para lidar com esta situação: CSCwb57956 Repeated Successful attempts counter on ISE, live logs tab Filter.

De posse do Identity/Endpoint ID, vá para o Live Logs (em Operations > RADIUS > Live Logs > filtrar por Identity/Endpoint ID) para confirmar as informações e em RADIUS Accounting (em Operations > Reports > Reports > Endpoint and Users > filtrar por Identity/Endpoint ID) observe a coluna Account Terminate Cause, por exemplo:

RADIUS Accounting.png

Nota 2: neste ponto, trabalhar com a sua Equipe de R&S sobre o Account Terminate Cause é OBRIGATÓRIO !!!

Nota 3: resultados do Account Terminate Cause: (veja em RFC 2866 - Acct-Terminate-Cause)

  • User Request: user requested termination of service.
  • Lost CarrierDCD was dropped on the port.
  • Lost Service: service can no longer be provided; for example, user's connection to a host was interrupted.
  • Idle Timeout: idle timer expired.
  • Session Timeout: maximum session length timer expired.
  • Admin Reset: administrator reset the port or session.
  • Admin Reboot: administrator is ending service on the NAS, for example prior to rebooting the NAS
  • Port Error: NAS detected an error on the port which required ending the session.
  • NAS Error: NAS detected some error (other than on the port) which required ending the session.
  • NAS Request: NAS ended session for a non-error reason NOT defined for other values of Terminate-Cause.
  • NAS Reboot: the NAS ended the session in order to reboot non-administratively ("crash").
  • Port UnneededNAS ended session because resource usage fell below low-water mark (for example, if a bandwidth-on-demand algorithm decided that the port was no longer needed).
  • Port Preempted: NAS ended session in order to allocate the port to a higher priority use.
  • Port SuspendedNAS ended session to suspend a virtual session.
  • Service UnavailableNAS was unable to provide requested service.
  • Call BackNAS is terminating current session in order to perform callback for a new session.
  • User Error: input from user is in error, causing termination of session.
  • Host RequestLogin Host terminated session normally.

 

Authentication Summary

Em Operations > Reports > Reports > Endpoints and Users > Authentication Summary > verificar o Authentication by Failure Reason (você também poderá verificar isto em Operations > Reports > Reports > Endpoints and Users > Top N Authentication by Failure Reason), tente resolver ou minimizar os top Failure Reason, por exemplo:

AuthC Summary.png

TOP N AuthC by Failure Reason.png

 

RADIUS Error

Em Operations > Reports > Reports > Diagnostics > RADIUS Error > filtrar por Failure Reason = 5440 (Endpoint abandoned EAP Session and started new) e Export To = Repository (CSV) para verificar o Endpoints com a maior quantidade de 5440 Failure Reason:

RADIUS Error.png

Nota: neste ponto, trabalhar com a sua Equipe de R&S e a sua Equipe responsável pelo Supplicant é OBRIGATÓRIO !!!

IMPORTANTE: se você filtrar por Failure Reason = 5440 em Operations > Reports > Reports > Endpoint and Users > RADIUS Authentication ou Operations > Reports > Reports > Endpoint and Users > Authentication Summary seu resultado será No Data Found, é por isto que você deve verificar isso em RADIUS Error. O seguinte enhancement foi criado para lidar com esta situação: CSCwd35786 ENH: ISE: 5440 Endpoint abandoned EAP session events need to have visibility in ISE reports.

 

Active Directory Diagnostic Tool

O Slow Replication pode ser causado pelo "flapping" do Application Server (de running para initializing), verifique novamente a configuração do Active Directory Diagnostic Tool - Schedule Tests (em Administration > Identity Management > External Identity Sources > Active Directory > Advanced Tools > Diagnostic Tools > janela Run Schedule Tests

AD Diagnostic Tooll.png

verifique por favor os Bug IDs:

 

Bug IDs

Atenção para os Bug IDs abaixo::

 

Conclusão

Solucionar ou minimizar o problema Slow Replication é longe de ser uma tarefa fácil   : ) 

Tralabalhar com o TAC é altamente recomendável e coletar todas estas informações de troubleshooting durante o problema de Slow Replication é OBRIGATÓRIO !!!

Espero que este documento te ajude a "passar pelo tempos sombrios" do Slow Replication !!!  : )

 

Comentários
jonas.resende
VIP Alumni
VIP Alumni

Boa @Marcelo Morais . Parabéns.

Obrigado @jonas.resende ,

 este é um assunto sem fim : )  que irei atualizar com o tempo ... espero que ajude !!!

Primeiros Passos

Encontre respostas, faça perguntas e conecte-se com nossa comunidade de especialistas da Cisco de todo o mundo.

Estamos felizes por você estar aqui! Participe de conversas e conecte-se com sua comunidade.