Construindo um pipeline de processamento de telco cdr escalável com as tabelas LIVE Delta Delta – Parte 1 [Databricks Free Edition]
Nesta série de várias partes, exploraremos como construir um pipeline moderno e escalável para o processamento de CDRs (CHETS RECORDS Detalhes de chamadas de telecomunicações) usando tabelas Delta Delta Delta. A Parte 1 se concentra na fundação: geração de dados e implementação da camada de bronze. Introdução As empresas de telecomunicações processam bilhões de registros de detalhes (CDRs) diariamente. Esses registros capturam todas as interações com a rede – chamadas de voice, mensagens de texto, sessões de dados e muito mais. O processamento desses dados com eficiência é fundamental para cobrança, otimização de rede, detecção de fraude e gerenciamento de experiência do cliente. Nesta série, criaremos um pipeline de processamento de Telco CDR completo usando o Databricks Delta Live Tables (DLT). Seguiremos o padrão de arquitetura do Medallion, com camadas de bronze, prata e ouro que refinam progressivamente dados brutos em insights de negócios valiosos. Os dados de telecomunicações de desafio apresentam vários desafios exclusivos: volume: bilhões de registros Gerados Variedade diária: vários tipos de CDR com diferentes esquemas de velocidade: requisitos de processamento em tempo real Complexidade: relacionamentos complexos entre usuários, dispositivos e elementos de rede Conformidade: requisitos regulamentares estritas para retenção de dados e privacidade abordagens tradicionais de processamento em lote lutam com esses desafios. Precisamos de uma arquitetura moderna e de streaming que possa lidar com a escala e a complexidade dos dados de telecomunicações. Nossa solução estamos construindo uma solução com dois componentes principais: gerador de dados: um gerador sintético de CDR que produz DLT de dados de telecomunicações realistas: um pipeline de tabelas LIVE Delta que processa os dados através de camadas de arquitetura de medalhão na Parte 1, focaremos no gerador de dados e na implementação da camada de bronze. Gerador de dados: Criando dados sintéticos realistas para desenvolvimento e teste, precisamos de uma maneira de gerar dados realistas de CDR. Our generator creates: User Profiles: Synthetic subscriber data with identifiers (MSISDN, IMSI, IMEI), plan details, and location information Multiple CDR Types: Voice, data, SMS, VoIP, and IMS records with appropriate attributes Kafka Integration: Direct streaming to Kafka topics for real-time ingestion The generator ensures referential integrity between users and CDRs, making it possible to perform realistic joins and aggregations in processamento a jusante. User Profile Generation Our user generator creates profiles with realistic telecom attributes: # Sample user profile structure { “user_id”: “user_42”, “msisdn”: “1234567890”, “imsi”: “310150123456789”, “imei”: “490154203237518”, “plan_name”: “Premium Unlimited”, “data_limit_gb”: 50, “voice_minutes”: 1000, “sms_count”: 500, “registration_date”: “2023-05-15”, “active”: true, “location”: { “city”: “Seattle”, “state”: “WA” } } Enter fullscreen mode Exit fullscreen mode CDR Generation The CDR generator produces five types of records, each with appropriate attributes: Voice CDRs: Call duration, calling/called numbers, cell tower IDs Data CDRs: Session duration, uplink/downlink volumes, APN information SMS CDRs: Message size, sender/receiver information VoIP CDRs: SIP endpoints, codec information, quality metrics IMS CDRs: Service type, session details, network elements Kafka Integration The generator streams data to dedicated Kafka topics: Telco-usuários: Perfil do usuário Dados de dados de telecomunicações de telecomunicações: registros de chamadas de voz registros de telco-dados: Uso de dados registra telco-sms-cdrs: SMS Message Registra registros de telco-VOIP-CDRS: VoIP CHAMADA REGISTROS TELCO-IMS-CDRS: IMS Registros de sessões de fluxo de retransmissão do mundo real TelcoMs. Camada de bronze: ingestão de dados brutos com mesas vivas Delta A camada de bronze é a base da nossa arquitetura de medalhão. Ele ingere dados brutos de Kafka com transformação mínima, preservando o conteúdo original para conformidade e auditabilidade. Key Features Our bronze layer implementation provides: Streaming Ingestion: Real-time data processing from Kafka Schema Preservation: Maintains original message structure Metadata Tracking: Captures Kafka metadata (timestamp, topic, key) Security: Secure credential management via Databricks secrets Scalability: Serverless Delta Live Tables for auto-scaling Bronze Tables Structure Our bronze layer includes 7 tables total: Table Name Source Topic Description Bronze_Users Telco-Users Raw Perfil de perfil de usuário com JSON Bronze_voice_CDRS Telco-Voice-CDRS Detalhes de chamadas de voz registra Bronze_Data_CDRS Telco-Data-CDRS CDRS Bronze registros Bronze_sms_cdrs Telco-sms-CDRS SMS SMS Bron_vOs Bronze_IMS_CDRS TELCO-IMS-CDRS IMS Sessão registra Bronze_all_CDRS Todos os tópicos CDR Multiplexed View de todos os tipos de CDR cada tabela preserva os metadados Kafka originais (chave, registro de data e hora) ao lado dos dados brutos, permitindo que o reprocessamento, se necessário. Esquema de tabela Todas
api_key = kafka_settings[“api_key”]
api_secret = kafka_settings[“api_secret”]
Digite o modo de saída do modo de tela completa Esta abordagem garante que as credenciais confidenciais nunca sejam codificadas em nosso código de pipeline. Automação de implantação Nós usamos feixes de ativos de banco de dados para automação de implantação: # Implante para desenvolvimento CD DLT_TELCO Databricks Pacote Implante -Target dev # Implante para produção de dados de pacote de manutenção de pacote de manutenção -O MODEMENT SCURNOMENT SCELEMENT SCELEMENT SCELEMENTO SCELIMENTO SUMPLEMENTO DE SUMPORENTO DE SUMPORENTO DE SUMPORENTO DE SUMPORENTO DE SUMPORENTO DE SUMPORENTO DE SUMPORENTO DE SUMPORENTO DE SUMPORENTO DE SUMPORENTO SUSTEMENTO ANSOTIMENTO ANSOTIME Resultados e benefícios com nossa implementação da camada de bronze: ingestão de streaming: os CDRs estão disponíveis para análise segundos após a preservação de dados da geração: os registros originais são preservados para a conformidade e a auditabilidade escalabilidade: o computação sem servidor lida com milhões de registros por minuto de segurança: todas as credenciais gerenciadas por meio de dados de scopes? Na parte 2 desta série, construiremos a camada de prata da nossa arquitetura de medalhão. Vamos nos concentrar: a validação de dados e a padronização do esquema de aplicação da qualidade nos tipos de CDR enriquecendo com os padrões de manuseio de erros de usuário e dados de referência e de recuperação de dados permanecem atentos à medida que continuamos construindo nosso pipeline de processamento de Telco CDR! Esta postagem do blog faz parte de uma série sobre a criação de pipelines de processamento de dados para telecomunicações usando as tabelas Live Delta Delta Delta. Acompanhe à medida que progredimos da ingestão de dados brutos a análises avançadas e aprendizado de máquina.
Fonte