Esqueça os Tradutores Tradicionais: A Meta Acaba de Lançar a Solução Definitiva em IA

esqueca-tradutores-tradicionais-meta-solucao-definitiva-ia

A Meta anunciou o lançamento do modelo de IA chamado SeamlessM4T, que é capaz de traduzir até 100 idiomas por meio de fala ou texto. Esse modelo neural tem a capacidade de realizar traduções de texto para fala, fala para texto, fala para fala e texto para texto, com o objetivo de ajudar pessoas que falam diferentes idiomas a se comunicarem de maneira mais eficaz.

A abordagem aberta da Meta em relação à IA é evidente, já que o SeamlessM4T será disponibilizado sob uma licença de pesquisa que permitirá que desenvolvedores explorem e construam em cima desse trabalho.

Além disso, a empresa também está lançando o SeamlessAlign, que é considerado o maior conjunto de dados abertos de tradução multimodal até o momento. A Meta busca criar um tradutor universal semelhante ao “Babel Fish” do livro “Guia do Mochileiro das Galáxias”.

Meta lança modelo de IA ‘SeamlessM4T’

A Meta anunciou nesta terça-feira o lançamento do SeamlessM4T, um modelo de IA multimodal para tradução de fala e texto. Como uma rede neural capaz de processar tanto texto quanto áudio, ele pode fazer traduções de texto para fala, fala para texto, fala para fala e texto para texto em “até 100 idiomas”, de acordo com a Meta.

Seu objetivo é ajudar pessoas que falam diferentes idiomas a se comunicarem de forma mais eficaz. Continuando com a abordagem relativamente aberta da Meta em relação à IA, eles estão lançando o SeamlessM4T sob uma licença de pesquisa (CC BY-NC 4.0) que permite que os desenvolvedores construam sobre o trabalho.

Eles também estão lançando o SeamlessAlign, que a Meta chama de “o maior conjunto aberto de dados de tradução multimodal até o momento, totalizando 270.000 horas de alinhamentos de fala e texto coletados.” Isso provavelmente impulsionará o treinamento de futuros modelos de IA de tradução por outros pesquisadores.

quais-sao-os-3-tipos-de-inteligencia-artificial-ia

Descrição do modelo SeamlessM4T

O SeamlessM4T é um modelo de IA desenvolvido pela Meta para realizar traduções em até 100 idiomas, tanto de textos como de fala. Ele possui capacidade de processamento multimodal, permitindo a tradução de texto para fala, fala para texto, fala para fala e texto para texto. Com recursos avançados de tradução e várias opções de idioma, o SeamlessM4T visa fornecer uma solução eficiente e precisa para a comunicação em diferentes línguas.

Objetivo do modelo

O objetivo principal do modelo SeamlessM4T é facilitar a comunicação efetiva entre pessoas que falam diferentes idiomas. Por meio de sua capacidade de traduzir escrita e fala de forma precisa e rápida, o modelo busca reduzir as barreiras linguísticas e promover uma maior compreensão e colaboração entre culturas.

Liberdade de uso para desenvolvedores

A Meta adotou uma postura de abertura em relação à sua IA e está permitindo que os desenvolvedores utilizem o SeamlessM4T em seus projetos. Lançado sob uma licença de pesquisa (CC BY-NC 4.0), o modelo pode ser usado como base para o desenvolvimento de novas aplicações e soluções de tradução, impulsionando a inovação na área de inteligência artificial multilíngue.

Lançamento do conjunto de dados SeamlessAlign

Além do modelo de IA, a Meta também anunciou o lançamento do SeamlessAlign, que é descrito como o maior conjunto de dados abertos de tradução multimodal até o momento. Com um total de 270.000 horas de alinhamentos de fala e texto coletados, o SeamlessAlign será uma fonte valiosa de dados para os pesquisadores treinarem novos modelos de IA de tradução no futuro.

meta-tradutor-seamlessm4t

Recursos do modelo SeamlessM4T

O Modelo SeamlessM4T possui recursos avançados de tradução de fala e texto. Ele é capaz de realizar reconhecimento de fala, tradução de fala para texto, tradução de fala para fala, tradução de texto para texto e tradução de texto para fala. Cada uma das funções de tradução de texto suporta aproximadamente 100 idiomas, enquanto as funções de saída de fala suportam cerca de 36 idiomas. Com uma ampla gama de idiomas suportados, o SeamlessM4T busca fornecer uma solução abrangente de tradução para atender às necessidades globais de comunicação.

Referência ao Babel Fish

No anúncio do SeamlessM4T, a Meta faz referência ao Babel Fish, um peixe fictício da série de ficção científica de Douglas Adams, “O Guia do Mochileiro das Galáxias”. No enredo, o Babel Fish é colocado no ouvido de uma pessoa e é capaz de traduzir instantaneamente qualquer idioma falado. A Meta reconhece o desafio de criar um tradutor universal de idiomas, mas acredita que o trabalho realizado com o SeamlessM4T representa um avanço significativo nessa jornada.

Meta lança modelo de IA massivamente multilíngue que traduz até 100 idiomas através de fala ou texto

Processo de treinamento do modelo

De acordo com o artigo de pesquisa do Seamless4MT, os pesquisadores da Meta criaram um corpus multimodal de traduções automáticas de fala alinhadas com mais de 470.000 horas, chamado SeamlessAlign. Em seguida, eles “filtraram um subconjunto desse corpus com dados rotulados por humanos e pseudo-rotulados, totalizando 406.000 horas”. A Meta não revelou explicitamente a origem dos dados de treinamento, mas mencionou que os dados de texto foram retirados “do mesmo conjunto de dados implantado na NLLB” e os dados de fala vieram de “4 milhões de horas de áudio bruto provenientes de um repositório publicamente disponível de dados da web”, sendo 1 milhão dessas horas em inglês.

Comparação com outras ferramentas de tradução

A Meta não é a primeira empresa de IA a oferecer ferramentas de tradução por aprendizado de máquina. O Google Translate utiliza técnicas de aprendizado de máquina desde 2006, e modelos de linguagem grandes (como o GPT-4) são conhecidos por sua capacidade de traduzir entre idiomas. No entanto, uma tendência recente é o aquecimento do processamento de áudio nessa área. Em setembro, a OpenAI lançou seu próprio modelo de tradução de fala para texto de código aberto, chamado Whisper, que possui alta precisão na transcrição de fala em áudio. Com o SeamlessM4T, a Meta expande a tradução multimodal para um número ainda maior de idiomas. Além disso, a abordagem do SeamlessM4T com um único sistema, em vez de modelos encadeados, reduz erros e aumenta a eficiência do processo de tradução.

Recomendados:

Detalhes técnicos do funcionamento do modelo

O modelo SeamlessM4T utiliza uma abordagem multimodal para processar áudio e texto, permitindo a tradução entre diferentes idiomas. Ele é baseado em uma rede neural treinada com um grande conjunto de dados que inclui alinhamentos automáticos de fala e texto. Com uma arquitetura avançada e recursos especializados de processamento de linguagem natural, o SeamlessM4T é capaz de realizar traduções precisas e rápidas em tempo real.

Disponibilidade do código do modelo

A Meta disponibilizou o código e os pesos do modelo SeamlessM4T no Hugging Face, permitindo que desenvolvedores e pesquisadores acessem e utilizem o modelo em suas próprias aplicações e projetos. Essa disponibilidade do código do modelo promove a colaboração e o avanço contínuo no campo da IA multilíngue, incentivando o desenvolvimento de novas soluções e abordagens inovadoras na área de tradução de idiomas.

Posts Similares