Status da Rede

Ver

Indisponibilidade de acesso Resolvido

Prioridade - Crítico

[18/12/2020 09:43] Identificado instabilidade no ambiente Hyper-V, ocasionando inacessibilidade de acesso no clx-1.spo.platon.net.br

[18/12/2020 09:44] Em investigação

[18/12/2020 10:11] Em processo de mitigação / subindo serviços

[18/12/2020 10:17] Problema mitigado e serviços normalizados

Data - 18/12/2020 09:43 - 19/04/2021 08:33

Última Atualização- 18/12/2020 10:20

Indisponibilidade de acesso Resolvido

Prioridade - Crítico

[03/11 13:18] Identificado problema. Investigando...

[03/11 13:36] Iniciando instância e serviços...

[03/11 13:53] Serviços iniciados e acesso normalizado.

Data - 03/11/2020 13:18 - 18/12/2020 09:49

Última Atualização- 03/11/2020 13:55

Lentidão de acesso Resolvido

Prioridade - Crítico

[14:35] Notado lentidão de acesso no servidor. Em investigação.
[14:45] Problema mitigado, porém continua em investigação.

Data - 04/09/2020 14:35 - 03/11/2020 13:31

Última Atualização- 04/09/2020 14:46

Lentidão no acesso Resolvido

Prioridade - Alto

[30/08/2020 22:40] Identificado via monitoramento lentidão no acesso aos serviços do servidor de hospedagem compartilhada clx-1.
[31/08/2020 00:36] Identificado que problema de lentidão estava ocorrendo no storage, acionado fornecedor para solução.
[31/08/2020 02:47] Problema corrigido e performance normalizada.

Data - 30/08/2020 22:40 - 31/08/2020 02:47

Última Atualização- 31/08/2020 10:59

Dificuldade de acesso web e email Resolvido

Prioridade - Crítico

[16:15] Identificado problema no ambiente de hospedagem compartilhada clx-1.
[16:20] Problema está sendo investigado, ainda não havendo previsão exata de retorno devido a investigação estar em andamento.
[17:30] Previsão de retorno de 15 minutos
[17:36] Serviços restabelecidos.

Data - 24/07/2020 16:15 - 30/08/2020 23:42

Última Atualização- 24/07/2020 17:36

Manutenção preventiva Storage clx-1 Resolvido

Prioridade - Baixo

Agendado atividade de manutenção preventiva impactando ambiente de hospedagem compartilhada clx-1.spo.platon.net.br.

Data - 24/07/2020 00:30 - 24/07/2020 17:13

Última Atualização- 23/07/2020 15:54

Dificuldade de acesso web e email Resolvido

Prioridade - Crítico

[22/07 23:40] Identificado clx-1 como inoperante
[22/07 23:41] Iniciado investigação do problema
[23/07 00:48] Iniciado procedimento de inicialização do servidor...
[23/07 00:49] Servidor iniciado, porém não conclui a inicialização dos serviços.
[23/07 01:00] Investigando junto ao fornecedor possibilidade de problema de conectividade entre equipamentos da nuvem.
[23/07 05:04] Serviços restabelecidos.

Identificado problema em nó do storage. Mitigado e agendado manutenção preventiva para a próxima madrugada.

Data - 22/07/2020 23:40 - 23/07/2020 05:04

Última Atualização- 23/07/2020 15:53

Dificuldade de acesso a web e email Resolvido

Prioridade - Crítico

[15:51] Identificado falha de conectividade com o servidor clx-1.

Data - 27/06/2019 15:51 - 23/07/2020 00:38

Última Atualização- 27/06/2019 17:48

Indisponibilidade de acesso httpd Resolvido

Prioridade - Crítico Afetando Sistema - Apache do servidor clx-1.spo.platon.net.br

[13:53] Alguns clientes informaram não estar acessível as páginas neste servidor, incluindo Webmail;
[13:55] Identificado que o problema se refere apenas ao Apache (os demais serviços estavam normalizados);
[13:55] Nos testes realizados foi percebido que em alguns momentos estava acessível, em outros não;
[14:24] Foi recompilado o serviço do Apache para mitigar o problema;
[14:30] Iniciado processo de investigação do problema;
[15:36] Identificado que houve falha de conectividade com o servidor ocsp.comodoca.com, fazendo com que alguns sites que utilizam ssl tivessem resultassem em Timeout, outros entretanto acessavam com lentidão;
[15:40] Feito contato com fornecedor para entender a causa raíz do problema e a probabilidade de novos problemas, assim como criado plano de contingência para evitar este servidor durante o processo de SSLStapling caso falhas ocorram novamente;

Conclusão: Relatado instabilidade de acesso por alguns clientes, entretanto serviços no servidor relacionado permaneciam ativos e sem aparente problema. Após análise mais apronfundada foi notado que o problema afetava apenas o acesso a sites, mais especificamente com SSL. Concluindo análise dos logs foi identificado uma falha entre 13:52 até 14:20h onde o servidor ocsp.comodoca.com da Agente Certificadora parceira estava tendo problemas na conexão, fazendo com que o processo de SSLStapling não funcionasse em nosso servidor, deixando alguns acessos lentos e em outros casos inacessíveis devido a dificuldade de confirmar a origem do certificado. Para resolver completamente o problema, foi acionado a equipe da Comodo e adicionado o servidor ocsp.comodoca.com no NOC da Platon para identificar futuros problemas. Caso ocorra novos problemas no servidor do fornecedor, será desabilitado o SSLStapling temporariamente, evitando que o problema seja sentido no cliente final.

Data - 26/02/2019 13:53 - 26/02/2019 16:47

Última Atualização- 26/02/2019 15:59

Pico de processamento Resolvido

Prioridade - Crítico Afetando Servidor - bkp-1

Pico de processamento que tornou o servidor inacessível e necessitou reboot para restabelecer os serviços.

Data - 27/11/2018 09:19 - 26/02/2019 14:35

Última Atualização- 27/11/2018 11:46

Pico de processamento Resolvido

Prioridade - Crítico

Pico de processamento que tornou o servidor inacessível e necessitou reboot para restabelecer os serviços.

Data - 23/11/2018 10:33 - 23/11/2018 10:53

Última Atualização- 27/11/2018 11:46

Falha de conectividade Resolvido

Prioridade - Crítico Afetando Outros - Rede

- [10/09 07:07] Identificada falha em um dos servidores (nós) que compõem o nosso cluster;
- [10/09 07:08] Inicialização da migração automática dos servidores virtuais dos clientes para os demais servidores do nosso cluster;
- [10/09 07:15] Identificada uma falha no serviço de H.A (High Availability) do nosso ambiente ocasionando alertas de “falso positivo”. Por conta do tempo de propagação do falso alerta, alguns servidores virtuais levaram um tempo maior para estabilizar em nosso cluster;
- [10/09 08:05] Finalizado o processo de migração com o restabelecimento do ambiente;
- [10/09 10:55] Problema identificado na conectividade interna da nuvem, não sendo possível acessar os servidores;
- [10/09 10:56] Inicialização da migração automática dos servidores virtuais para os demais servidores do cluster;
- [10/09 11:15] Identificamos erros no processo de migração automática dos servidores virtuais por conta de uma sobrecarga gerada no ambiente. Essa sobrecarga ocasionou o “congelamento” de alguns volumes do nosso storage impedindo o acesso aos “hosts hypervisor”. Esse congelamento dos volumes impediu que os servidores virtuais fossem inicializados;
- [10/09 11:50] Realizada uma parada dos serviços de virtualização e acessos aos volumes de discos para que fossem aplicadas as correções em conjunto com nosso fornecedor;
- [10/09 12:15] Inicialização dos serviços de virtualização e acessos aos volumes de discos;
- [10/09 12:25] Iniciado processo de inicialização dos servidores virtuais;
- [10/09 12:55] Serviços completamente restabelecidos;

Conclusão:

Conforme análise feita em conjunto com nosso fornecedor, identificamos uma falha crítica no serviço de H.A (High Availability), causando um falso positivo, no qual gerou uma movimentação massiva das máquinas virtuais dentro do ambiente do cluster. Durante o processo ocorreram “locks” nos volumes, impossibilitando a estabilização das máquinas virtuais no processo automático de migração entre os servidores (nós). Por este motivo, foi necessário à intervenção da equipe técnica em conjunto ao fornecedor.

Foram aplicadas as correções no sistema de H.A(High Availability) do ambiente para que não sejam registrados novos incidentes de falso positivo. Com essa correção não devemos ter novas ocorrências dessa natureza dentro do nosso ambiente

Data - 10/09/2018 07:07 - 10/09/2018 12:55

Última Atualização- 19/09/2018 17:12

Pico de processamento Resolvido

Prioridade - Crítico

[14/09 11:25] Identificado pico de processamento que causava lentidão nas contas do servidor clx-1;
[14/09 11:40] Processamento continuou subindo e ocasionou inacessibilidade dos serviços do servidor clx-1;
[14/09 13:20] Restabelecido serviço de emails para recebimento de emails no servidor clx-1;
[14/09 13:50] Iniciado investigação a nível de Sistema Operacional, devido a suspeita em possível falha na integração do módulo CageFS com Apache;
[14/09 16:30] Iniciado investigação paralela a nível de balanceamento de carga entre os nós da nuvem;
[14/09 19:20] Serviço normalizado e picos de processamentos com todos os serviços ativos devidamente controlado;
[14/09 19:40] Concluída atualização de kernel e revisão de configurações relacionadas ao CageFS, LVE e Apache;
[14/09 21:30] Feito troca de nós no balanceamento de carga da nuvem, com intuito de forçar instância a não utilizar nó em que estava quando ocorreu a instabilidade;
[14/09 21:30] Iniciado monitoramento intensivo para detectar processos que possam elevar processamento;
[15/09 08:40] Identificado novo pico de processamento sem impactar contas de clientes;
[15/09 08:50] Processamento normalizado sem afetar nenhuma conta;
[16/09 00:00] Nenhum pico de processamento identificado no decorrer do dia;
[17/09 09:50] Identificado novo pico de processamento, causando lentidão de acesso em algumas contas de clientes;
[17/09 11:00] Processamento contido e desempenho retomado a normalidade;
[18/09 05:00] Iniciado procedimento de ampliação de processadores no servidor clx-1 com reinicialização do servidor concluída as 5:10 h;
[18/09 05:20] Novos picos de processamentos identificados após upgrade de estrutura;
[18/09 11:12] Concluída nova atualização de kernel com patch fornecido pela CloudLinux;
[18/09 11:20] Picos de processamento permaneceram após conclusão da atualização do kernel;
[18/09 01:20] Concluída nova atualização de kernel com novo patch de correção fornecido pela CloudLinux;
[18/09 01:30] Confirmada solução definitiva do problema após reboot com atualização de kernel;
[19/09 15:46] Concluído todo processo de investigação e documentação da falha;

Conclusão:
Após início dos picos de processamento e primeira análise no dia 14/09, duas frentes de trabalho foram montadas para contornar o problema, uma para análise de estrutura (nuvem) junto ao datacenter e outra para análise de sistema operacional junto ao fornecedor do mesmo. Após diversos testes, investigações, ficou-se constatado ser um problema no tratamento dos processos de sistema relacionados ao kernel do Linux, onde não ocorria a devida limitação de consumo de hardware e todos os processos buscavam utilizar o máximo de processamento possível, mesmo após aumento de núcleos dentro da instância; consequentemente, entendeu-se ser um problema com o kernel do sistema operacional, mesmo estando em uma versão stable. Dois novos patches foram fornecidos pela fornecedora do Sistema Operacional, e após aplicação do segundo patch, o servidor voltou a normalidade.

Após utilizarmos apenas versões estáveis de todos os softwares em nossa estrutura de hospedagem de sites compartilhadas, novas medidas de prevenção serão tomadas para evitar que problemas similares possam ocorrer, entretanto destacamos que o Sistema Operacional CloudLinux baseado no kernel da RedHat é um dos sistemas operacionais mais utilizados no mundo, e a probabilidade de conflitos e/ou bugs que possam ocasionar esse tipo de problema são pequenas. Nossa equipe permanece trabalhando em conjunto com a desenvolvedora do Sistema Operacional para lançar a correção aplicada em sua versão stable para inclusive evitar que outras estruturas similares a da Platon possam sofrer com este incidente.

Por fim, destacamos que o problema foi completamente mitigado e nenhuma degradação na estrutura foi detectada, voltando por completo em sua normalidade.

Data - 14/09/2018 11:25 - 19/09/2018 15:56

Última Atualização- 19/09/2018 15:56

Instabilidade Geral Resolvido

Prioridade - Crítico

- Instabilidade nos serviços de email e http [15:45]
- Identificado alto processamento no servidor. Feito reboot para obter acesso novamente [16:00]
- Serviço completamente normalizado, entretanto permanece em investigação [16:20]

Data - 30/07/2018 15:45 - 30/07/2018 16:20

Última Atualização- 10/09/2018 14:59

Instabilidade de rede Resolvido

Prioridade - Alto Afetando Outros - Rede

- Identificado instabilidade no link Algar [09:10]
- Alterado rota de tráfego para evitar instabilidade [09:33]

Data - 30/07/2018 09:10 - 30/07/2018 09:33

Última Atualização- 10/09/2018 14:59

Pico de processamento Resolvido

Prioridade - Crítico

Identificado pico de processamento no servidor, onde houve necessidade de reboot;
Servidor está normalizado, mas permanece em investigação.

Data - 27/06/2018 23:01 - 27/06/2018 23:24

Última Atualização- 27/06/2018 23:42

Falha na conectividade Resolvido

Prioridade - Crítico Afetando Outros - Rede Platonic Cloud

Identificado falha de conectividade interna na rede Platonic Cloud.
Problema resolvido as 16:33h.
Investigação permanece ativa...

Conclusão:

Ocorreu a comutação dos volumes e conexões em uma controladora de uma unidade de storage que suporta o ambiente do Platonic Cloud, onde a controladora passiva recebeu os volumes e conexões, porém houve perda das conexões neste processo, afetando parte do ambiente atendido por este equipamento. Todos os fabricantes foram acionados afim de certificarmos que a causa raiz fosse mapeada para evitar novas ocorrências do mesmo problema. Será agendada janela emergencial, no dia 22/06/2018 à partir das 23h59, com duração esperada de 1h, que não prevê indisponibilidade, para aplicação de nova versão/atualização da unidade de storage, bem como foi recomendado pelo fornecedor do sistema utilizado em nosso cloud a alteração de parâmetros de reconexão, para evitar o comportamento inesperado.

Data - 19/06/2018 15:20 - 27/06/2018 16:33

Última Atualização- 27/06/2018 23:42

Falha na conectividade Resolvido

Prioridade - Crítico Afetando Outros - Rede Platonic Cloud

Falha resolvida as 18:43, porém, alguns servidores precisaram ser reiniciados.
Todos os servidores e serviços foram restabelecidos as 19:00h.

Data - 30/05/2018 18:13 - 30/05/2018 19:00

Última Atualização- 30/05/2018 19:12

Brute Force Distributed Attack Resolvido

Prioridade - Alto

Foi identificado um possível ataque de força bruta no servidor clx-1.spo.platon.net.br.

Está sob investigação [14:12]
FTP temporariamente desabilitado para investigação mais aprofundada [15:20]
FTP reabilitado, porém, permanece em monitoramento [16:30]

Data - 08/05/2018 14:06 - 08/05/2018 16:39

Última Atualização- 30/05/2018 19:08

Manutenção preventiva Resolvido

Prioridade - Médio

Será realizada manutenção preventiva no servidor clx-1.spo.platon.net.br, onde poderá ocorrer instabilidades de acesso a este servidor nos 20 minutos programados de manutenção.

Data - 23/02/2018 04:20 - 08/05/2018 16:43

Última Atualização- 22/02/2018 14:39

Roteamento de internet Resolvido

Prioridade - Crítico Afetando Outros - Internet

Detectado instabilidade na comunicação do Datacenter com a internet.

A razão disso parece estar relacionada a múltiplos circuitos gerando erros pelos provedores de link. Nós re-roteamos o tráfego para outros provedores e a partir disso a conectividade foi normalizada para nossos clientes.

Nós ainda estamos trabalhando na causa primária do problema neste momento. Mais informações serão fornecida quando estiver tudo normalizado.

Data - 27/04/2016 11:56 - 27/04/2016 12:11

Última Atualização- 27/04/2016 16:02

Perda de pacotes na rota com o servidor Resolvido

Prioridade - Alto

Detectado lentidão na conexão com o servidor.
Problema com backbone Verizon em verificação.
Problema com backbone Verizon confirmado. Utilizado pelas operadoras GVT e Unifique na região Sul do Brasil.
Rota com GVT modificada, resolvido parcialmente.

Data - 22/07/2015 15:10 - 22/07/2015 18:07

Última Atualização- 22/07/2015 17:00

Instabilidade MySQL Resolvido

Prioridade - Alto Afetando Sistema - mysqld

Identificado problemas com o MySQL, resultando no uso elevado de processamento e consequentemente na instabilidade do serviço.

Localizado a conta que estava causando o excesso de uso de processamento e realizado a suspensão da mesma, normalizando o serviço.

Data - 28/08/2013 11:02 - 28/08/2013 11:32

Última Atualização- 28/08/2013 11:34

Falha no serviço de autenticação de emails Resolvido

Prioridade - Alto Afetando Sistema - Dovecot/cpHulkd

Ocorreu um problema no serviço de autenticação de emails (Dovecot-auth) devido a um bug na versão instalada do cpHulkd.

O cpHulkd foi atualizado para a nova versão e o problema foi consequentemente normalizado.

Não houve problemas no recebimento de emails durante o período aqui listado.

Data - 14/01/2013 18:41 - 14/01/2013 19:05

Última Atualização- 24/01/2013 21:40

Rompimento de fibra ótica Resolvido

Prioridade - Crítico

Ocorreu um incidente que resultou no rompimento em 3 pontos da fibra ótica fornecida pela Gvt ao nosso datacenter.

Data - 24/01/2013 11:13 - 24/01/2013 21:17

Última Atualização- 24/01/2013 21:40

Página Anterior

Próxima Página

Status da Rede

Suporte

Gerar Senha