A IA de troca de culpa tornou mais cooperativa em um novo estudo
À medida que a IA fica cada vez mais poderosa, há esforços crescentes para garantir que a tecnologia funcione com humanos e não contra nós. Novas pesquisas sugerem que dar aos modelos uma sensação de culpa pode torná -los mais cooperativos. Embora grande parte da indústria de IA esteja cobrando a todo vapor à frente em uma tentativa de obter inteligência geral artificial, uma minoria vocal está defendendo a cautela. Os apoiadores da segurança da IA dizem que, se vamos introduzir outra classe de inteligência no mundo, é importante garantir que esteja na mesma página que nós. No entanto, técnicas emergentes para o “alinhamento da IA” são projetadas para garantir que os modelos sejam parceiros úteis, em vez de adversários enganosos. Em um novo artigo no Journal of the Royal Society Interface, os pesquisadores testaram se a mesma abordagem poderia funcionar com a IA e descobrir que, nas circunstâncias certas, poderia: “Construir máquinas éticas pode envolver conceder-lhes a capacidade emocional de se autoavaliar e se arrepender de suas ações”, escrevem os autores. “Se os agentes estiverem equipados com a capacidade da sensação de culpa, mesmo que isso possa levar a uma desvantagem dispendiosa, isso pode levar o sistema a um resultado geral mais cooperativo, onde eles estão dispostos a tomar ações reparadoras após irregularidades.” É importante observar que os pesquisadores não estavam experimentando o tipo de modelos de grandes idiomas sofisticados agora interagirem com uma base diária. Os testes foram realizados com agentes simples de software encarregados de reproduzir uma versão de um teste clássico da teoria de jogos chamado “dilema do prisioneiro”. A cada turno, os jogadores devem decidir se devem cooperar ou defeito. Se os dois jogadores cooperarem, compartilham uma recompensa e, se ambos desertam, compartilham uma punição. No entanto, se um coopera e os outros defeitos, o desertor recebe uma recompensa ainda maior e o cooperador recebe uma punição ainda maior. O jogo é configurado de modo que o resultado ideal em termos de recompensa geral vem dos jogadores que cooperam, mas no nível individual, a abordagem mais racional é sempre deserto. No entanto, se um jogador defende repetidamente, é provável que o outro faça o mesmo, levando a um resultado abaixo do ideal. Os autores dizem que pesquisas sobre seres humanos jogam o jogo mostram que induzir a culpa ajuda a aumentar a cooperação de jogadores não cotados, para que eles tentassem a mesma coisa com seus agentes. Cada agente também recebeu um limiar de ações não cooperativas que ele poderia se safar antes de se sentir culpado e ter que amenizar sua culpa, desistindo de alguns de seus pontos. Os pesquisadores modelaram dois tipos diferentes de culpa-social e não social. No primeiro, os agentes só se sentiram culpados se soubessem que seu oponente também se sentiria culpado se cometer a mesma ofensa. Neste último, os agentes se sentiram culpados, independentemente de seu oponente. Eles então fizeram populações de agentes programados com abordagens ligeiramente diferentes da culpa para brincar muitas vezes. Os agentes também foram programados para evoluir com o tempo, com aqueles que ganham pontuações baixas alternando sua abordagem para imitar aqueles que estão indo bem. Isso significa que as melhores estratégias se tornaram mais prevalecentes ao longo do tempo. Os pesquisadores descobriram que a forma social de culpa era muito mais eficaz para empurrar os agentes para o comportamento cooperativo, sugerindo que a culpa é um regulador social mais bem -sucedido quando sabemos que todos estão jogando pelas mesmas regras. Intesteramente, eles descobriram que a estrutura social das populações teve um impacto significativo no resultado. Em grupos em que todos os jogadores interagem entre si, a culpa era menos eficaz e a culpa não social foi rapidamente eliminada. Mas em populações mais estruturadas, onde os agentes só podiam interagir com um subconjunto de outros agentes, o que não imita a dinâmica do sinâmico de sinâmicas, o que é o sinâmico, o que se manifestou, o que é o que se manifestou, o que não é o sinisteiro, o que não se pode ser o que não é o sinisteiro. de agentes de IA muito mais complexos alimentados por grandes modelos de linguagem. Não está claro como seria a “culpa” em IA mais avançada ou se isso afetaria o comportamento desses modelos de maneiras semelhantes a esse experimento. No entanto, a pesquisa fornece dicas tentadoras de que imbuir máquinas com emoções pode ajudar a moderado e direcionar sua decisão à medida que suas capacidades continuam a crescer.
Fonte
Publicar comentário