Pesquisadores das universidades de Berkeley e Stanford, juntamente com um CTO da DataBricks, mediram o desempenho do modelo de linguagem natural GPT 3.5 e 4, usado pelo ChatGPT, e descobriram que a qualidade dos modelos flutua ao longo do tempo, mesmo com atualizações contínuas.
A OpenAI não anuncia muitas das mudanças que faz em seus modelos, o que dificulta a compreensão dos usuários sobre as alterações na performance.
Os pesquisadores argumentam que é importante monitorar o comportamento do desempenho ao longo do tempo, já que as mudanças nos resultados tornam mais difícil a integração em um fluxo de trabalho e afetam a capacidade de reproduzir um resultado repetidamente dentro desse fluxo.
O benchmarking também é importante para entender se as atualizações melhoram algumas áreas do modelo de linguagem, mas afetam negativamente o desempenho em outras partes.
Fora do artigo de pesquisa, alguns teorizam no Twitter que as mudanças feitas para acelerar o serviço e, assim, reduzir os custos, podem ser a causa da degradação na qualidade do ChatGPT.