AI Anthropic claude Ferramentas & Plataformas Startups Anthony Ha agosto 16, 2025 0 Comentários

Anthrópica diz que alguns modelos de Claude agora podem acabar com conversas ‘prejudiciais ou abusivas’

A Anthrópica anunciou novos recursos que permitirão que alguns dos seus maiores e maiores modelos para encerrar conversas no que a empresa descreve como “casos raros e extremos de interações de usuário persistentemente prejudiciais ou abusivas”. Surpreendentemente, o Antrópico diz que está fazendo isso para não proteger o usuário humano, mas sim o próprio modelo de IA. Para deixar claro, a empresa não está alegando que seus modelos de IA Claude são sencientes ou podem ser prejudicados por suas conversas com os usuários. Em suas próprias palavras, o antrópico permanece “altamente incerto sobre o potencial status moral de Claude e outros LLMs, agora ou no futuro”. No entanto, seu anúncio aponta para um programa recente criado para estudar o que chama de “bem-estar do modelo” e diz que a Antrópica está essencialmente adotando uma abordagem just-in-fase, “trabalhando para identificar e implementar intervenções de baixo custo para mitigar os riscos para modelar o bem-estar, caso esse bem-estar seja possível”. Atualmente, esta última alteração está limitada a Claude Opus 4 e 4.1. E, novamente, isso só deve acontecer em “casos extremos de borda”, como “pedidos de usuários de conteúdo sexual envolvendo menores e tentativas de solicitar informações que permitiriam violência em larga escala ou atos de terror”. Embora esses tipos de solicitações possam criar problemas legais ou publicitários para o próprio antrópico (testemunhe relatórios recentes sobre como o ChatGPT pode potencialmente reforçar ou contribuir para o pensamento ilusório de seus usuários), a empresa diz que, em testes de pré-implantação, Claude Opus 4 mostrou uma “forte preferência contra” responder a esses pedidos e um “padrão de distribuição aparente” quando não foi assim. Quanto a esses novos recursos de encerramento de conversas, a empresa diz: “Em todos os casos, Claude é apenas usar sua capacidade de acabamento de conversa como último recurso quando várias tentativas de redirecionamento falharam e a esperança de uma interação produtiva se esgota, ou quando um usuário pede explicitamente a Claude para terminar um bate-papo”. Anthrópica também diz que Claude foi “instruído a não usar essa capacidade nos casos em que os usuários podem estar em risco iminente de prejudicar a si mesmos ou a outros”. Evento do TechCrunch São Francisco | 27-29 de outubro de 2025 Quando Claude terminar uma conversa, o Anthrópio diz que os usuários ainda poderão iniciar novas conversas da mesma conta e criar novas filiais da conversa problemática, editando suas respostas. “Estamos tratando esse recurso como um experimento em andamento e continuaremos refinando nossa abordagem”, diz a empresa.

Fonte

Techloop

Anthrópica diz que alguns modelos de Claude agora podem acabar com conversas ‘prejudiciais ou abusivas’

Publicar comentário Cancelar resposta

Você pode ter perdido

Rivian processa para vender seus EVs diretamente em Ohio

Amazon nega o relatório que está fechando o Wearky Podcast Studio

Mobilidade do TechCrunch: Gambit de Holding de Tesla

Perplexidade acusada de raspar sites que bloquearam explicitamente a REI raspando

Conversação de chatgpt vazada mostra o usuário identificado como advogado perguntando como “deslocar uma pequena comunidade indígena amazônica de seus territórios para construir uma barragem e uma planta hidrelétrica”

OpenAI diz que o ChatGPT está a caminho de chegar a 700m de usuários semanais

A verdade sobre invadir a tecnologia agora

Rod Stewart revive Ozzy Osbourne, que empunhava o bastão de selfie em um vídeo nojento da AI

Elon Musk diz que está trazendo de volta o arquivo de Vine

Retornos mensuráveis encontrados para grandes telecomunicações além da economia de custos

Related Posts

Publicar comentário Cancelar resposta

Você pode ter perdido