Indisponibilidade de acesso Løst
Prioritet - Kritisk

[18/12/2020 09:43] Identificado instabilidade no ambiente Hyper-V, ocasionando inacessibilidade de acesso no clx-1.spo.platon.net.br

[18/12/2020 09:44] Em investigação

[18/12/2020 10:11] Em processo de mitigação / subindo serviços

[18/12/2020 10:17] Problema mitigado e serviços normalizados

Indisponibilidade de acesso Løst
Prioritet - Kritisk

[03/11 13:18] Identificado problema. Investigando...

[03/11 13:36] Iniciando instância e serviços...

[03/11 13:53] Serviços iniciados e acesso normalizado.

Lentidão de acesso Løst
Prioritet - Kritisk

[14:35] Notado lentidão de acesso no servidor. Em investigação.
[14:45] Problema mitigado, porém continua em investigação.

Lentidão no acesso Løst
Prioritet - Høy

[30/08/2020 22:40] Identificado via monitoramento lentidão no acesso aos serviços do servidor de hospedagem compartilhada clx-1.
[31/08/2020 00:36] Identificado que problema de lentidão estava ocorrendo no storage, acionado fornecedor para solução.
[31/08/2020 02:47] Problema corrigido e performance normalizada.

Dificuldade de acesso web e email Løst
Prioritet - Kritisk

[16:15] Identificado problema no ambiente de hospedagem compartilhada clx-1.
[16:20] Problema está sendo investigado, ainda não havendo previsão exata de retorno devido a investigação estar em andamento.
[17:30] Previsão de retorno de 15 minutos
[17:36] Serviços restabelecidos.

Manutenção preventiva Storage clx-1 Løst
Prioritet - Lav

Agendado atividade de manutenção preventiva impactando ambiente de hospedagem compartilhada clx-1.spo.platon.net.br.

Dificuldade de acesso web e email Løst
Prioritet - Kritisk

[22/07 23:40] Identificado clx-1 como inoperante
[22/07 23:41] Iniciado investigação do problema
[23/07 00:48] Iniciado procedimento de inicialização do servidor...
[23/07 00:49] Servidor iniciado, porém não conclui a inicialização dos serviços.
[23/07 01:00] Investigando junto ao fornecedor possibilidade de problema de conectividade entre equipamentos da nuvem.
[23/07 05:04] Serviços restabelecidos.

Identificado problema em nó do storage. Mitigado e agendado manutenção preventiva para a próxima madrugada.

Dificuldade de acesso a web e email Løst
Prioritet - Kritisk

[15:51] Identificado falha de conectividade com o servidor clx-1.

Indisponibilidade de acesso httpd Løst
Prioritet - Kritisk Berører System - Apache do servidor clx-1.spo.platon.net.br

  • [13:53] Alguns clientes informaram não estar acessível as páginas neste servidor, incluindo Webmail;
  • [13:55] Identificado que o problema se refere apenas ao Apache (os demais serviços estavam normalizados);
  • [13:55] Nos testes realizados foi percebido que em alguns momentos estava acessível, em outros não;
  • [14:24] Foi recompilado o serviço do Apache para mitigar o problema;
  • [14:30] Iniciado processo de investigação do problema;
  • [15:36] Identificado que houve falha de conectividade com o servidor ocsp.comodoca.com, fazendo com que alguns sites que utilizam ssl tivessem resultassem em Timeout, outros entretanto acessavam com lentidão;
  • [15:40] Feito contato com fornecedor para entender a causa raíz do problema e a probabilidade de novos problemas, assim como criado plano de contingência para evitar este servidor durante o processo de SSLStapling caso falhas ocorram novamente;

Conclusão:
 Relatado instabilidade de acesso por alguns clientes, entretanto serviços no servidor relacionado permaneciam ativos e sem aparente problema. Após análise mais apronfundada foi notado que o problema afetava apenas o acesso a sites, mais especificamente com SSL. Concluindo análise dos logs foi identificado uma falha entre 13:52 até 14:20h onde o servidor ocsp.comodoca.com da Agente Certificadora parceira estava tendo problemas na conexão, fazendo com que o processo de SSLStapling não funcionasse em nosso servidor, deixando alguns acessos lentos e em outros casos inacessíveis devido a dificuldade de confirmar a origem do certificado. Para resolver completamente o problema, foi acionado a equipe da Comodo e adicionado o servidor ocsp.comodoca.com no NOC da Platon para identificar futuros problemas. Caso ocorra novos problemas no servidor do fornecedor, será desabilitado o SSLStapling temporariamente, evitando que o problema seja sentido no cliente final.

Pico de processamento Løst
Prioritet - Kritisk Berører Server - bkp-1

Pico de processamento que tornou o servidor inacessível e necessitou reboot para restabelecer os serviços.

Pico de processamento Løst
Prioritet - Kritisk

Pico de processamento que tornou o servidor inacessível e necessitou reboot para restabelecer os serviços.

Falha de conectividade Løst
Prioritet - Kritisk Berører Annet - Rede

- [10/09 07:07] Identificada falha em um dos servidores (nós) que compõem o nosso cluster;
- [10/09 07:08] Inicialização da migração automática dos servidores virtuais dos clientes para os demais servidores do nosso cluster;
- [10/09 07:15] Identificada uma falha no serviço de H.A (High Availability) do nosso ambiente ocasionando alertas de “falso positivo”. Por conta do tempo de propagação do falso alerta, alguns servidores virtuais levaram um tempo maior para estabilizar em nosso cluster;
- [10/09 08:05] Finalizado o processo de migração com o restabelecimento do ambiente;
- [10/09 10:55] Problema identificado na conectividade interna da nuvem, não sendo possível acessar os servidores;
- [10/09 10:56] Inicialização da migração automática dos servidores virtuais para os demais servidores do cluster; 
- [10/09 11:15] Identificamos erros no processo de migração automática dos servidores virtuais por conta de uma sobrecarga gerada no ambiente. Essa sobrecarga ocasionou o “congelamento” de alguns volumes do nosso storage impedindo o acesso aos “hosts hypervisor”. Esse congelamento dos volumes impediu que os servidores virtuais fossem inicializados;
- [10/09 11:50] Realizada uma parada dos serviços de virtualização e acessos aos volumes de discos para que fossem aplicadas as correções em conjunto com nosso fornecedor;
- [10/09 12:15] Inicialização dos serviços de virtualização e acessos aos volumes de discos;
- [10/09 12:25] Iniciado processo de inicialização dos servidores virtuais;
- [10/09 12:55] Serviços completamente restabelecidos;

Conclusão:

Conforme análise feita em conjunto com nosso fornecedor, identificamos uma falha crítica no serviço de H.A (High Availability), causando um falso positivo, no qual gerou uma movimentação massiva das máquinas virtuais dentro do ambiente do cluster. Durante o processo ocorreram “locks” nos volumes, impossibilitando a estabilização das máquinas virtuais no processo automático de migração entre os servidores (nós). Por este motivo, foi necessário à intervenção da equipe técnica em conjunto ao fornecedor.

Foram aplicadas as correções no sistema de H.A(High Availability) do ambiente para que não sejam registrados novos incidentes de falso positivo. Com essa correção não devemos ter novas ocorrências dessa natureza dentro do nosso ambiente

Pico de processamento Løst
Prioritet - Kritisk

[14/09 11:25] Identificado pico de processamento que causava lentidão nas contas do servidor clx-1;
[14/09 11:40] Processamento continuou subindo e ocasionou inacessibilidade dos serviços do servidor clx-1;
[14/09 13:20] Restabelecido serviço de emails para recebimento de emails no servidor clx-1;
[14/09 13:50] Iniciado investigação a nível de Sistema Operacional, devido a suspeita em possível falha na integração do módulo CageFS com Apache;
[14/09 16:30] Iniciado investigação paralela a nível de balanceamento de carga entre os nós da nuvem;
[14/09 19:20] Serviço normalizado e picos de processamentos com todos os serviços ativos devidamente controlado;
[14/09 19:40] Concluída atualização de kernel e revisão de configurações relacionadas ao CageFS, LVE e Apache;
[14/09 21:30] Feito troca de nós no balanceamento de carga da nuvem, com intuito de forçar instância a não utilizar nó em que estava quando ocorreu a instabilidade;
[14/09 21:30] Iniciado monitoramento intensivo para detectar processos que possam elevar processamento;
[15/09 08:40] Identificado novo pico de processamento sem impactar contas de clientes;
[15/09 08:50] Processamento normalizado sem afetar nenhuma conta;
[16/09 00:00] Nenhum pico de processamento identificado no decorrer do dia; 
[17/09 09:50] Identificado novo pico de processamento, causando lentidão de acesso em algumas contas de clientes;
[17/09 11:00] Processamento contido e desempenho retomado a normalidade;
[18/09 05:00] Iniciado procedimento de ampliação de processadores no servidor clx-1 com reinicialização do servidor concluída as 5:10 h;
[18/09 05:20] Novos picos de processamentos identificados após upgrade de estrutura;
[18/09 11:12] Concluída nova atualização de kernel com patch fornecido pela CloudLinux;
[18/09 11:20] Picos de processamento permaneceram após conclusão da atualização do kernel;
[18/09 01:20] Concluída nova atualização de kernel com novo patch de correção fornecido pela CloudLinux;
[18/09 01:30] Confirmada solução definitiva do problema após reboot com atualização de kernel;
[19/09 15:46] Concluído todo processo de investigação e documentação da falha;

Conclusão:
Após início dos picos de processamento e primeira análise no dia 14/09, duas frentes de trabalho foram montadas para contornar o problema, uma para análise de estrutura (nuvem) junto ao datacenter e outra para análise de sistema operacional junto ao fornecedor do mesmo. Após diversos testes, investigações, ficou-se constatado ser um problema no tratamento dos processos de sistema relacionados ao kernel do Linux, onde não ocorria a devida limitação de consumo de hardware e todos os processos buscavam utilizar o máximo de processamento possível, mesmo após aumento de núcleos dentro da instância; consequentemente, entendeu-se ser um problema com o kernel do sistema operacional, mesmo estando em uma versão stable. Dois novos patches foram fornecidos pela fornecedora do Sistema Operacional, e após aplicação do segundo patch, o servidor voltou a normalidade.

Após utilizarmos apenas versões estáveis de todos os softwares em nossa estrutura de hospedagem de sites compartilhadas, novas medidas de prevenção serão tomadas para evitar que problemas similares possam ocorrer, entretanto destacamos que o Sistema Operacional CloudLinux baseado no kernel da RedHat é um dos sistemas operacionais mais utilizados no mundo, e a probabilidade de conflitos e/ou bugs que possam ocasionar esse tipo de problema são pequenas. Nossa equipe permanece trabalhando em conjunto com a desenvolvedora do Sistema Operacional para lançar a correção aplicada em sua versão stable para inclusive evitar que outras estruturas similares a da Platon possam sofrer com este incidente.

Por fim, destacamos que o problema foi completamente mitigado e nenhuma degradação na estrutura foi detectada, voltando por completo em sua normalidade.

Instabilidade Geral Løst
Prioritet - Kritisk

- Instabilidade nos serviços de email e http [15:45]
- Identificado alto processamento no servidor. Feito reboot para obter acesso novamente [16:00]
- Serviço completamente normalizado, entretanto permanece em investigação [16:20]

Instabilidade de rede Løst
Prioritet - Høy Berører Annet - Rede

- Identificado instabilidade no link Algar [09:10]
- Alterado rota de tráfego para evitar instabilidade [09:33]

Pico de processamento Løst
Prioritet - Kritisk

  • Identificado pico de processamento no servidor, onde houve necessidade de reboot;
  • Servidor está normalizado, mas permanece em investigação.

Falha na conectividade Løst
Prioritet - Kritisk Berører Annet - Rede Platonic Cloud

  • Identificado falha de conectividade interna na rede Platonic Cloud.
  • Problema resolvido as 16:33h.
  • Investigação permanece ativa...


Conclusão:

Ocorreu a comutação dos volumes e conexões em uma controladora de uma unidade de storage que suporta o ambiente do Platonic Cloud, onde a controladora passiva recebeu os volumes e conexões, porém houve perda das conexões neste processo, afetando parte do ambiente atendido por este equipamento. Todos os fabricantes foram acionados afim de certificarmos que a causa raiz fosse mapeada para evitar novas ocorrências do mesmo problema. Será agendada janela emergencial, no dia 22/06/2018 à partir das 23h59, com duração esperada de 1h, que não prevê indisponibilidade, para aplicação de nova versão/atualização da unidade de storage, bem como foi recomendado pelo fornecedor do sistema utilizado em nosso cloud a alteração de parâmetros de reconexão, para evitar o comportamento inesperado.

Falha na conectividade Løst
Prioritet - Kritisk Berører Annet - Rede Platonic Cloud

  • Falha resolvida as 18:43, porém, alguns servidores precisaram ser reiniciados.
  • Todos os servidores e serviços foram restabelecidos as 19:00h.

Brute Force Distributed Attack Løst
Prioritet - Høy

Foi identificado um possível ataque de força bruta no servidor clx-1.spo.platon.net.br.

  • Está sob investigação [14:12]
  • FTP temporariamente desabilitado para investigação mais aprofundada [15:20]
  • FTP reabilitado, porém, permanece em monitoramento [16:30]

Manutenção preventiva Løst
Prioritet - Medium

Será realizada manutenção preventiva no servidor clx-1.spo.platon.net.br, onde poderá ocorrer instabilidades de acesso a este servidor nos 20 minutos programados de manutenção.

Roteamento de internet Løst
Prioritet - Kritisk Berører Annet - Internet

Detectado instabilidade na comunicação do Datacenter com a internet.

A razão disso parece estar relacionada a múltiplos circuitos gerando erros pelos provedores de link. Nós re-roteamos o tráfego para outros provedores e a partir disso a conectividade foi normalizada para nossos clientes.

Nós ainda estamos trabalhando na causa primária do problema neste momento. Mais informações serão fornecida quando estiver tudo normalizado.

Perda de pacotes na rota com o servidor Løst
Prioritet - Høy

  • Detectado lentidão na conexão com o servidor.
  • Problema com backbone Verizon em verificação.
  • Problema com backbone Verizon confirmado. Utilizado pelas operadoras GVT e Unifique na região Sul do Brasil.
  • Rota com GVT modificada, resolvido parcialmente.

Instabilidade MySQL Løst
Prioritet - Høy Berører System - mysqld

Identificado problemas com o MySQL, resultando no uso elevado de processamento e consequentemente na instabilidade do serviço.

Localizado a conta que estava causando o excesso de uso de processamento e realizado a suspensão da mesma, normalizando o serviço.

Falha no serviço de autenticação de emails Løst
Prioritet - Høy Berører System - Dovecot/cpHulkd

Ocorreu um problema no serviço de autenticação de emails (Dovecot-auth) devido a um bug na versão instalada do cpHulkd.

O cpHulkd foi atualizado para a nova versão e o problema foi consequentemente normalizado.

Não houve problemas no recebimento de emails durante o período aqui listado.

Rompimento de fibra ótica Løst
Prioritet - Kritisk

Ocorreu um incidente que resultou no rompimento em 3 pontos da fibra ótica fornecida pela Gvt ao nosso datacenter.