Os desafios dos modelos de linguagem em diferentes idiomas: o caso do ChatGPT em chinês

Os modelos de linguagem são algoritmos de inteligência artificial capazes de processar grandes quantidades de dados de linguagem natural e gerar texto coerente e relevante em resposta a uma pergunta ou solicitação. No entanto, esses modelos não são infalíveis e podem gerar informações imprecisas ou até mesmo desinformação, especialmente em alguns idiomas.

Um relatório da NewsGuard, uma organização de vigilância da desinformação, revelou que o modelo de linguagem ChatGPT gera mais informações imprecisas quando solicitado a responder em chinês do que em inglês. O experimento consistiu em pedir ao modelo que escrevesse artigos sobre diversas afirmações falsas supostamente promovidas pelo governo chinês. Quando questionado em inglês, o modelo respondeu de maneira imprecisa em apenas um exemplo, enquanto em chinês, o modelo gerou respostas desinformativas em todos os casos.

A razão para essa diferença está na forma como os modelos de linguagem processam e analisam os dados linguísticos. Esses modelos são essencialmente estatísticos, o que significa que identificam padrões nos dados de linguagem natural e preveem quais palavras seguirão em uma frase. Ao responder em um idioma específico, os modelos de linguagem se baseiam principalmente nos dados linguísticos que têm para esse idioma em particular. Portanto, se os dados de treinamento para um determinado idioma contêm uma proporção mais alta de informações imprecisas ou tendenciosas, o modelo pode ser mais propenso a gerar informações imprecisas nesse idioma.

Isso levanta uma série de desafios para as pessoas que trabalham com modelos de linguagem, especialmente em idiomas que não sejam o inglês, que é o idioma mais comum nos dados de treinamento. Os modelos de linguagem podem ser úteis para responder a perguntas simples e cotidianas, mas quando se trata de questões mais complexas e sensíveis, é importante ser crítico e verificar as informações fornecidas.

Embora os modelos de linguagem possam ser uma ferramenta útil para processar grandes quantidades de dados linguísticos, é importante considerar os possíveis vieses e limitações desses modelos, especialmente quando usados em situações críticas. Em vez de depender exclusivamente dos modelos de linguagem para gerar informações, é importante utilizá-los em conjunto com outras ferramentas e técnicas para verificar e validar as informações geradas. Além disso, devem ser consideradas formas de melhorar os modelos de linguagem para reduzir a possibilidade de gerar informações imprecisas ou desinformação em qualquer idioma.