Apache Iceberg Dev Mailing List – Weekly Digest (9 a 15 de agosto de 2025)
Esclarecimentos de refrescamento SparkTable A semana começou com uma pergunta de esclarecimento sobre a opção de atualização na SparkTable. Limin Ma perguntou se a ativação da atualização buscaria automaticamente alterações no catálogo remoto e atualizaria o esquema de Spark. Szehon Ho esclareceu que apenas refresca apenas os metadados da tabela local; Não busca alterações remotas. Para garantir que o Spark veja o instantâneo mais recente, os chamadores devem ligar para a tabela.Refresh () que força uma busca remota. Não há controle de simultaneidade em torno da atualização (); portanto, se vários threads chamarem o método, apenas uma atualização ocorre realmente e os outros poderão ver instantâneos obsoletos. Esta troca é capturada no tópico da lista de correspondência “[QUESTION] Sparktable Refresheagerly ”. Eventos e encontros acionados pela comunidade Vários eventos da comunidade foram anunciados ou atualizados durante a semana: Meet -Ups em Tel Aviv e Japão. Yossi Reitblat anunciou que o time da comunidade de Tel Aviv retornará em 1025. O terceiro encontro da comunidade japonesa ocorrerá em 22 de setembro de 2025 e forneceu um link de registro em um tópico de mensagem curta.[DISCUSS] Ativando mais encontros ”Tópico.[Invitation: V4 Single File Commits Sync]Tópico.[DISCUSS] V4 – Estatísticas da coluna aprimoradas ”Tópico. Discussão: Biblioteca de acelerador de análise para a Amazon S3 Kevin Liu e Michael Stubbs propuseram a adoção da biblioteca do Analytics Accelerator como o fluxo de entrada padrão para o SUMAT SUMAL. o “[Discuss] Analítica Biblioteca do Acelerador para Amazon S3 como padrão S3 S3 Stream ”Thread. Respostas subsequentes indicaram que houve interesse em uma sessão especial; os detalhes foram prometidos em uma mensagem de acompanhamento. Discussão: as mensagens de erro RCK devem ser padronizadas, e a Anastácio não levanta as preocupações e as mensagens de referência que o Kit (RCK) são padronizadas. Mensagens diferentes, dificultando a redação de testes de largura cruzada.[DISCUSS] Clientes de RCK e Iceberg – Devemos padronizar as mensagens de erro? ”](Reuniu várias opiniões. Daniel Weeks sugeriu pressionar por alguma padronização, permitindo flexibilidade, e Steve Loughran propôs usando códigos de erro numéricos em vez de corresponder a strings completos. são tratados da mesma forma que o HTTP 500/502/504 – Signal Commite State Desconhecido e Prevenindo Betas Automáticas.[DISCUSS] Marque 503 Código de erro como não retriciável para atualização ”. Retorna os arquivos de dados sem uma propriedade de metadatalocação, embora as varreduras locais incluam.[QUESTION] Rest Catalog Tablescows Response Data_File da API não possui ‘metadatalocação’]”Thread. V4 Metadados propostas A comunidade continuou a discutir propostas para o formato de iceberg V4, que visa reduzir o número de arquivos escritos durante as comissões e melhorar os metadados: um filtro. Listas com manifestos de manifestação de manifestação de manifestação A discussão inicial aparece no “[DISCUSS] v4 – um arquivo cometms ”thread, e outras atualizações foram prometidas durante as estatísticas recorrentes da coluna V4 V4.[DISCUSS] V4 – Estatísticas aprimoradas da coluna]”A Thread continuou a refinar as propostas para atribuir IDs de campo a estatísticas e reservar intervalos de ID. Os colaboradores debateram como lidar com colunas reservadas, se os escritores devem compartilhar um único espaço de estatísticas e o que se limita a colocar 19 estatísticas. O status da API da FileFormat após uma sincronização da comunidade.[DISCUSS] Proposta de API de FileFormat]”Tópico. Perguntas e discussões diversas Promoção do tipo em parquet. Nicolae Vartolomei perguntou como a promoção do tipo (por exemplo, int → longa ou flutuante → dupla) funciona ao escrever arquivos de parquet.[QUESTION] Que tipo de promoção realmente significa]”Thread. Commitem conflitos na substituição da tabela. Guy Gadon reabriu uma discussão sobre permitir conflitos cometer ao substituir uma tabela. Ele argumentou que o comportamento atual ignora os conflitos em potencial e pode relatar instantâneos expirados ou substituir as propriedades da tabela.[DISCUSS] Permitir conflitos de comprometimento em substituir transações de tabela]”Thread. Fechando os pensamentos das conversas de dev -list da semana passada exibiram uma comunidade que equilibrava novos recursos (v4 cometidos de arquivo único, estatísticas aprimoradas, API de formação de arquivo) com preocupações práticas, como lidar com erros, em busca de uma eficiência de varredura. Algumas questões de signos e signos. Mas a participação ativa reflete uma comunidade saudável e colaborativa.
Fonte
Publicar comentário