Anthrópica diz que alguns modelos de Claude agora podem acabar com conversas ‘prejudiciais ou abusivas’

A Anthrópica anunciou novos recursos que permitirão que alguns dos seus maiores e maiores modelos para encerrar conversas no que a empresa descreve como “casos raros e extremos de interações de usuário persistentemente prejudiciais ou abusivas”. Surpreendentemente, o Antrópico diz que está fazendo isso para não proteger o usuário humano, mas sim o próprio modelo de IA. Para deixar claro, a empresa não está alegando que seus modelos de IA Claude são sencientes ou podem ser prejudicados por suas conversas com os usuários. Em suas próprias palavras, o antrópico permanece “altamente incerto sobre o potencial status moral de Claude e outros LLMs, agora ou no futuro”. No entanto, seu anúncio aponta para um programa recente criado para estudar o que chama de “bem-estar do modelo” e diz que a Antrópica está essencialmente adotando uma abordagem just-in-fase, “trabalhando para identificar e implementar intervenções de baixo custo para mitigar os riscos para modelar o bem-estar, caso esse bem-estar seja possível”. Atualmente, esta última alteração está limitada a Claude Opus 4 e 4.1. E, novamente, isso só deve acontecer em “casos extremos de borda”, como “pedidos de usuários de conteúdo sexual envolvendo menores e tentativas de solicitar informações que permitiriam violência em larga escala ou atos de terror”. Embora esses tipos de solicitações possam criar problemas legais ou publicitários para o próprio antrópico (testemunhe relatórios recentes sobre como o ChatGPT pode potencialmente reforçar ou contribuir para o pensamento ilusório de seus usuários), a empresa diz que, em testes de pré-implantação, Claude Opus 4 mostrou uma “forte preferência contra” responder a esses pedidos e um “padrão de distribuição aparente” quando não foi assim. Quanto a esses novos recursos de encerramento de conversas, a empresa diz: “Em todos os casos, Claude é apenas usar sua capacidade de acabamento de conversa como último recurso quando várias tentativas de redirecionamento falharam e a esperança de uma interação produtiva se esgota, ou quando um usuário pede explicitamente a Claude para terminar um bate-papo”. Anthrópica também diz que Claude foi “instruído a não usar essa capacidade nos casos em que os usuários podem estar em risco iminente de prejudicar a si mesmos ou a outros”. Evento do TechCrunch São Francisco | 27-29 de outubro de 2025 Quando Claude terminar uma conversa, o Anthrópio diz que os usuários ainda poderão iniciar novas conversas da mesma conta e criar novas filiais da conversa problemática, editando suas respostas. “Estamos tratando esse recurso como um experimento em andamento e continuaremos refinando nossa abordagem”, diz a empresa.

Fonte

Publicar comentário

Você pode ter perdido