distributed failure Profissões Tech & Mercado reliability Sergey Bykov agosto 9, 2025 0 Comentários

Por que os principais desenvolvedores priorizam o gerenciamento de falhas

Há um ditado: “Os amadores estudam táticas, enquanto os profissionais estudam logística”. No software, isso se traduz em: “Os amadores se concentram em algoritmos, enquanto os profissionais se concentram em falhas”. No J na praia, levei tempo na minha palestra para expandir esse ditado e explicar que os sistemas do mundo real não precisam apenas de código que funcione no “caminho feliz”-eles precisam de uma rede de segurança para quando as coisas dão errado. O desenvolvimento moderno de software tem camadas de complexidade. Você não está apenas escrevendo código; Você está conectando sistemas ao longo do tempo e do espaço, lidando com dados que não dormem e garantindo um desempenho impecável em escala. O que diferencia os principais desenvolvedores é como eles gerenciam falhas. A construção de resiliência se concentra em garantir a confiabilidade quando as coisas inevitavelmente dão errado, não apenas mantendo o tempo de atividade. Neste post, passaremos por três abordagens comuns para lidar com falhas em software, cada uma com seus próprios pontos fortes e fracos. Em seguida, introduziremos a abordagem do temporal, o fluxo de trabalho como código, o que facilita a criação de confiabilidade em seus sistemas desde o primeiro dia. Três maneiras de lidar com falhas nas falhas do seu software são inevitáveis em seus sistemas distribuídos. Quando um link de rede falha, um servidor se aproxima ou um serviço falha, os sistemas precisam de estratégias para responder corretamente e garantir que suas operações permaneçam confiáveis. Abaixo, exploraremos três abordagens comuns para coordenação entre sistemas – chamadas de procedimento remoto (RPCs), filas persistentes e fluxos de trabalho – e sua relação com o gerenciamento de falhas. 1. Solicitação-resposta (RPC) A resposta-resposta, ou modelo RPC, é uma abordagem clássica. Um cliente faz uma solicitação, o servidor o processa e envia de volta uma resposta. No melhor cenário-o “caminho feliz”-tudo funciona bem. Imagine uma solicitação de transferência de dinheiro: um serviço debita o remetente enquanto outro credita o receptor. Se tudo correr conforme o planejado, a transferência será concluída sem problemas. Pros da simplicidade do modelo RPC: a conexão direta do cliente-servidor facilita a implementação deste modelo para fluxos de trabalho diretos. Contras do modelo RPC Limitada resiliência para falhas parciais: se a solicitação do cliente for bem-sucedida, mas uma resposta não é recebida ou uma etapa no processo falha, o RPC geralmente requer um código extensivo de manipulação de erros no lado do cliente. No entanto, para resiliência, fica aquém, colocando o ônus sobre os desenvolvedores dos RPCs e aqueles que os consomem para gerenciar todos os cenários de falha – e isso não é uma questão trivial. 2. Filas persistentes em filas persistentes adicionam um grau de flexibilidade ao dissociar o cliente do servidor. As mensagens são colocadas em uma fila e o sistema as processa de maneira assíncrona. As filas ajudam a distribuir cargas de trabalho: elas suportam tentativas automáticas e processamento assíncrono, o que pode suavizar picos de demanda. PROS das filas persistentes de tentativas automáticas: filas persistentes geralmente suportam tentativas automáticas, tentando tarefas várias vezes se elas falharem inicialmente. Distribuição: Filas Smootes processamento sob cargas pesadas, distribuindo solicitações ao longo do tempo, para melhorar a confiabilidade do sistema. Contras de filas persistentes Perda de ordenação: Como as mensagens de processo de processo de forma independente, as tarefas podem ser executadas fora de ordem, causando problemas inesperados para operações dependentes. e infraestrutura. As aqueles funcionam bem quando você precisa de flexibilidade e desacoplamento, mas eles não têm o controle e a visibilidade necessários para o gerenciamento abrangente de falhas. 3. Os fluxos de trabalho dos fluxos de trabalho fornecem uma solução robusta para orquestrar processos complexos em sistemas distribuídos. Ao contrário dos modelos baseados em RPC ou na fila, os fluxos de trabalho gerenciam tentativas, estado e manuseio de erros automaticamente, tornando-os ideais para processos de longa duração ou várias etapas. Pros of Workflows Built-in resilience: Workflows handle retries, recovery, and compensation steps automatically, reducing the need for custom error-handling code.Support for long-running processes: Workflows accommodate processes that span minutes, hours, or even days, making them well-suited for complex tasks.Enhanced visibility: Workflow systems enable real-time tracking and querying, so both clients and developers can see exactly where each process stands. Contras dos fluxos de trabalho Requisitos de infraestrutura: Os fluxos de trabalho exigem uma infraestrutura sólida para gerenciar estados, tentativas e rastreamento, que algumas equipes podem não ter. Complexidade: Sistemas de fluxo de trabalho podem ser complexos para configurar, especialmente quando a criação de soluções personalizadas para gerenciar os fluxos de trabalho. Para processos complexos que exigem confiabilidade e transparência de trabalho, a solução mais abrangente. Resiliência Sem despesas gerais extras no Time, abordamos esses desafios projetando uma plataforma que lida com resiliência, manipulação de erros e gerenciamento de estado para que você não precise. Com o TEMPO, você escreve fluxos de trabalho como código – nenhum XML extra, JSON ou YAML Definição de lógica de fluxo de trabalho que é difícil de entender e depurar a linha. Defina suas etapas no código regular e o TEMPERAL faz o resto, gerenciando tentativas, mantendo o estado e garantindo que seus fluxos de trabalho sejam confiáveis e simples de criar. Empresas como o ANZ Bank, um dos maiores bancos da região da Ásia-Pacífico, dependem do temporal para fortalecer a resiliência e a confiabilidade dos processos financeiros críticos. Com o TEMPO, o ANZ orquestra e gerencia operações complexas em sistemas distribuídos, garantindo que as tarefas sejam recontratadas automaticamente, as falhas são manipuladas e os processos de longa duração são rastreados perfeitamente. Isso permitiu à ANZ aumentar a confiabilidade do sistema, reduzir a complexidade operacional e defender padrões estritos de conformidade em seu ambiente FinServ de alto risco. O gerenciamento de falhas é uma estratégia, não um revés, qualquer sistema complexo encontrará falhas. Mas como você lida com essas falhas faz toda a diferença. Para os desenvolvedores, concentrando -se no gerenciamento de falhas a partir do início, distinguiu equipes excepcionais da média. Construir a resiliência em seu sistema define seu projeto para o sucesso a longo prazo.

Fonte

Techloop

Por que os principais desenvolvedores priorizam o gerenciamento de falhas

Publicar comentário Cancelar resposta

Você pode ter perdido

Rivian processa para vender seus EVs diretamente em Ohio

Amazon nega o relatório que está fechando o Wearky Podcast Studio

Mobilidade do TechCrunch: Gambit de Holding de Tesla

Perplexidade acusada de raspar sites que bloquearam explicitamente a REI raspando

Conversação de chatgpt vazada mostra o usuário identificado como advogado perguntando como “deslocar uma pequena comunidade indígena amazônica de seus territórios para construir uma barragem e uma planta hidrelétrica”

OpenAI diz que o ChatGPT está a caminho de chegar a 700m de usuários semanais

A verdade sobre invadir a tecnologia agora

Rod Stewart revive Ozzy Osbourne, que empunhava o bastão de selfie em um vídeo nojento da AI

Elon Musk diz que está trazendo de volta o arquivo de Vine

Retornos mensuráveis encontrados para grandes telecomunicações além da economia de custos

Related Posts

Publicar comentário Cancelar resposta

Você pode ter perdido