Instabilidade em nossos serviços

Incident Report for Nuvemshop

Resolved

O problema foi gerado porque alguns dos servidores de cache da Nuvemshop deixaram de funcionar. Quando um de seus clientes acessa a sua loja, se utiliza a base de dados para obter a informação da sua loja e vários servidores para construir a loja que o cliente vê. Esse processo, geralmente, demora mais tempo do que uma pessoa quer esperar, por isso, uma vez que construímos o que o seu cliente quer ver, guardamos esses dados para não ser preciso construí-lo para cada cliente; esses dados são guardados nos servidores chamados de "cache". Na próxima vez que alguém quer ver a sua loja, em vez de precisar consultar a base de dados e vários servidores, puxamos a loja já construída que estava guardada no cache, fazendo com que a resposta seja extremamente rápida.

Na Nuvemshop temos muitos servidores de cache redundantes para que, ainda que vários deixem de funcionar, hajam outros de substituição prontos para que sua loja não seja afetada. O que aconteceu neste caso foi que todos os servidores de cache deixaram de funcionar ao mesmo tempo por um erro que ainda estamos entendendo mais a fundo com o nosso provedor de servidores (Amazon).

Como os servidores de cache deixaram de funcionar, cada vez que alguém entrava na loja, tínhamos que buscar a informação da base de dados e utilizar vários servidores para construir a loja. Esse processo já é demorado naturalmente, mas com milhões de clientes entrando nas lojas da Nuvemshop, isso fez a infraestrutura colapsar levando à impossibilidade de acesso a qualquer loja.

Assim que conseguimos substituir os servidores de cache que estavam falhando, a Nuvemshop voltou a funcionar normalmente.
Posted Mar 18, 2021 - 21:42 GMT-03:00

Update

Todas as lojas estão funcionando corretamente. Na próxima mensagem vamos falar sobre o que aconteceu mais detalhadamente.
Posted Mar 18, 2021 - 21:36 GMT-03:00

Monitoring

Começamos a aplicar a solução a todas as lojas. Este processo não é instantâneo e requer aplicação de loja a loja. Algumas lojas passarão a funcionar antes do que outras.
Posted Mar 18, 2021 - 19:46 GMT-03:00

Update

Notamos alguns problemas na solução anterior, os resolvemos e estamos testando em algumas lojas de teste para assegurar que tudo está funcionando corretamente, e assim começar a aplicar a mudança para todas as lojas.
Posted Mar 18, 2021 - 19:22 GMT-03:00

Update

Completamos os preparativos para que Nuvemshop esteja pronta para trabalhar com o novo cache. Estamos testando em lojas de teste antes de aplicar a solução a todas as lojas.
Posted Mar 18, 2021 - 18:54 GMT-03:00

Identified

A nova infraestrutura do cache está disponível para uso. Começamos a preparar a Nuvemshop para poder trabalhar com este novo cache.
Posted Mar 18, 2021 - 17:40 GMT-03:00

Update

O processo de substituição está demorando mais do que o esperado, por isso optamos por substituir todos os servidores de cache.
Posted Mar 18, 2021 - 17:32 GMT-03:00

Update

Começamos o processo de substituição dos servidores falhos.
Posted Mar 18, 2021 - 16:59 GMT-03:00

Update

Suspeitamos a possível origem do problema: alguns dos nossos servidores de cache deixaram de funcionar. Estamos trabalhando na solução, que consiste em gerar novos servidores de cache.
Posted Mar 18, 2021 - 15:50 GMT-03:00

Investigating

Notamos que algumas lojas estavam mais lentas do que de costume, incluindo impossibilidade de acesso total em algumas. Toda nossa equipe de tecnologia está trabalhando para entender o problema
Posted Mar 18, 2021 - 15:23 GMT-03:00
This incident affected: Vendas, Administrador Nuvemshop, and Nuvemshop API (para parceiros).