Clonagem de Voz em AI: Uma Jornada entre Oportunidades e Desafios

A Microsoft lançou recentemente uma atualização significativa no Azure AI Speech, permitindo que os usuários gerem cópias de vozes em apenas alguns segundos a partir de amostras de áudio. Esta nova capacidade, denominada 'Personal Voice', tornou-se disponível geralmente em 21 de maio de 2024 e impressionou muitos pela sua precisão, embora tenha necessitado de treinamento inicial para alcançar seu potencial máximo.

Segundo a Microsoft, essa funcionalidade foi atualizada para um novo modelo de 'zero shot text-to-speech', batizado de 'DragonV2.1Neural'. Este modelo promete vozes mais naturais e expressivas, além de suportar mais de 100 línguas diferentes. A empresa destaca que esta evolução trouxe melhorias significativas na fluência do discurso, na estabilidade da prosódia e na precisão fonética.

Enquanto o sistema já era impressionante, a nova versão é ainda mais assustadoramente precisa. Microsoft afirma que essa tecnologia abre um leque de aplicações, desde personalizar vozes de chatbots até dublar conteúdo audiovisual em多种语言，mantendo a voz original do ator. No entanto, como mencionado pelo The Register, esta mesma tecnologia pode ser explorada para fins maliciosos ou enganosos.

Para mitigar riscos, a Microsoft introduziu marcas d'água nos áudios gerados, embora estas sejam inauditíveis para humanos. A empresa também insiste que todos os clientes concordem com suas políticas de uso, incluindo o consentimento explícito da pessoa cuja voz está sendo clonada e a divulgação do caráter sintético do conteúdo criado. Além disso, proibiu a imitação de qualquer pessoa ou enganação usando a função de voz personalizada.

Embora não seja pioneira nesta área, a Microsoft juntou-se a empresas como a Zyphra, que já lançaram modelos abertos de texto para fala. Testes mostraram que cerca de 30 segundos de áudio amostra são necessários para criar uma cópia assustadoramente precisa.

A clonagem de voz por meio de IA tornou-se um problema sério nos últimos anos, com a tecnologia ultrapassando as proteções existentes. Em março, o Consumer Reports criticou quatro empresas que oferecem softwares de clonagem vocal por falhar em fornecer proteções significativas. Além disso, o FBI alertou que fraudadores estão usando vozes deepfaked de altas figuras do governo dos Estados Unidos para promover esquemas fraudulentos.

Clonagem de Voz em AI: Uma Jornada entre Oportunidades e Desafios

📌 Posts recomendados

Primavera conquista Paulista e mantém invencibilidade na Copa Paulista

Athletico x Paysandu: O Duelo dos Extremos na Série B 2025

Tragédia na Vila Suíca: Acidente deixa vítima ferida e reflete problemas do trânsito brasileiro

Café brasileiro: como o setor se mantém resiliente diante do tarifaço?

Técnico brasileiro multicampeão no vôlei assume seleção adormecida para voltar às Olimpíadas

Acidente de motocicleta em Indaiatuba: um alerta para o trânsito perigoso