Eu estava enviando um áudio para o CFO da empresa, às 12h39, quando notei que o upload não havia completado. Como havia enviado um outro áudio 1 minuto antes, acessei rapidamente o site downdetector a fim de checar se era apenas comigo, mas logo vi as reclamações se iniciando.
Absolutamente tudo caiu. Instagram web e app, Facebook web e app, Whatsapp app e web e até mesmo as APIs. Muitos sites, inclusive, estavam com a API do Facebook em modo síncrono, permitindo uma demora no carregamento e logo tiveram de mudar para assíncrono. Sendo verdadeiro, isso ocorreu até mesmo conosco, no site do Gran Questões.
Pinguei o time sobre o problema no Discord às 3h32 e, às 3h49, já tinham feito o deploy. Time rápido é outra história, né? :>
Mas Rodrigo, o que você acha que ocorreu para uma empresa que tem o valor de mercado de 919,79 bilhões de dólares, estar fora do ar há tanto tempo?
Acompanho alguns CTOs de grandes companhias e a opinião mais sensata até o momento, a meu ver, é a da Cloudflare.
Cerca de cinco minutos antes de o DNS do Facebook parar de funcionar, foi percebido por eles um grande número de alterações no BGP (principalmente retiradas de rota) para o ASN do Facebook.
Isso significa que, ou por erro ou de forma intencional, alguém basicamente alterou entradas do ASN do Facebook no BGP, o que gerou um colapso global.
Importante ressaltar que ontem, o programa 60 Minutes exibiu uma entrevista com Frances Haugen. Responsável por vazar documentos internos do Facebook para o Wall Street Journal, a ex-gerente de produtos da empresa fez várias denúncias sobre a plataforma.
Em destaque, a ex-funcionária citou que a companhia é tão comprometida com a otimização dos produtos que adotou algoritmos que amplificam o discurso de ódio. Uma medida que visava apenas os lucros, segundo ela.
E o qué é o BGP, conforme explicação acima sobre a queda?
BGP significa Border Gateway Protocol e é o protocolo de roteamento da Internet. Em outras palavras, ele fornece instruções para que o tráfego viaje de um endereço IP para outro da forma mais eficiente possível. Um endereço IP é o endereço da web real de um determinado site. Quando um usuário digita o nome de um site e o navegador o encontra e carrega, as solicitações e respostas vão e voltam entre o endereço IP do usuário e o endereço IP do site. Os servidores DNS (sistema de nome de domínio) fornecem o endereço IP, mas o BGP fornece a maneira mais eficiente de alcançar esse endereço IP. A grosso modo, se DNS é o catálogo de endereços da Internet, então o BGP é o mapa rodoviário da Internet (gosto dessa definição da Cloudflare)
Cada roteador BGP armazena uma tabela de roteamento com as melhores rotas entre sistemas autônomos. Eles são atualizados quase continuamente à medida que cada AS * – geralmente um provedor de serviços de Internet (ISP) – transmite novos prefixos IP de sua propriedade. O BGP sempre favorece o caminho mais curto e direto do AS para o AS, a fim de alcançar os endereços IP por meio do menor número possível de saltos nas redes.
E agora, quando os sistemas voltarão a funcionar?
Ainda não se sabe ao certo, mas acredito que até o final do dia de hoje e, quando voltar, espero um longo período de instabilidade. Reinicializar um sistema distribuído desse tamanho é difícil. Eles terão caches frios e sistemas que precisam de outros sistemas para inicializar.
O Facebook perderá os e-mails que são enviados a eles?
Entendo que se você enviar um e-mail para alguém no Facebook, provavelmente o seu e-mail chegará ao destino, embora com atraso. Seu servidor de e-mail (o meu é Gmail) irá colocar o e-mail na fila com uma falha temporária e tentará novamente no dia seguinte. O SMTP ainda é um protocolo muito bom para comunicação assíncrona. Agora, às 18h02, eu fui resolver o nome facebook.com dentro de uma instância ec2 da AWS em São Paulo e obtive o seguinte resultado:
Veja o resultado na minha própria máquina:
A requisição é feita e não há retorno. Além disso, não faz muito sentido o resultado do MTR abaixo.
Com se pode verificar, o comando mtr fornece estatísticas relativas à perda de pacotes e tempos de trânsito em cada segmento de rede. Não é muito inteligente, nos EUA, você passar por 19 pontos de rota. Vamos torcer para que o mapa de rotas do Facebook seja corretamente aplicado ao BGP, a fim de que tudo volte à normalidade ainda hoje.
Update às 19h26
Agora estou vendo o DNS sendo resolvido e os serviços voltando ao normal. Como havia mencionado, vai demorar muito até estabilizar, por conta dos caches frios sendo carregados.
Referências: Cloudflare e The Academy.
1 Comment
Pingback: TeleGRAM: o mundo dos concursos na sua mão!