Primeiro LLM Português, AMÁLIA, é Lançado

Depois de quase dois anos de espera, AMÁLIA está finalmente disponível no huggingface e facilmente acessível ao público. Este é o primeiro LLM português! Um LLM que, supostamente, fala português europeu bem! No entanto, por muito que valorize o esforço feito, um investimento total de 5,5M€ e quase 2 anos de desenvolvimento é absurdo para o que foi feito aqui na minha opinião.

AMÁLIA não foi criada do zero. É uma expansão¹¹O termo técnico é continued pretraining. Seguido por uma fase de post-training. Já vi algumas pessoas chamar isto "fine-tune", o que não é o termo mais correto, mas percebe-se o que querem dizer. do LLM EuroLLM, criado em 2024 e que é mais ou menos comparado ao GPT-4. Não querendo desvalorizar um trabalho destes, porque sei, por experiência própria, que não é uma tarefa simples, a maneira como esta expansão foi feita deixa imenso a desejar. De acordo com o artigo²²https://arxiv.org/pdf/2603.26511 publicado, foram utilizados dois datasets. Durante a fase de pré-treino usaram o Arquivo.pt. E durante as fases posteriores de SFT a equipa sintetizou dados em português. A fase de pré-treino consistiu em 107B de tokens no total, com apenas 5.8B tokens sendo confirmados em português europeu. Isto resulta em ~5.5%, o que, podemos argumentar, não é nada. Na fase posterior de SFT o número é mais elevado, cerca de 17%. Isto deixa-nos a questão: Esta quantidade de dados é suficiente para o modelo ser fluente em pt-PT? Esta quantidade de dados justifica o investimento e o tempo gasto?

Existem outros detalhes técnicos que merecem ser notados. A expansão do tamanho de contexto de 4.000 para 32.000 tokens é excelente, apesar de nem chegar perto de outros modelos open-source com mais de 256.000. O facto de ser multimodal e conseguir analisar imagens também é uma excelente adição.

Se algum de vocês estiver curioso para correr o modelo localmente e têm pelo menos 16GB de RAM no vosso computador, aqui está o meu repositório onde quantizei o modelo: https://huggingface.co/dgomes03/AMALIA-9B-0626-SFT-mixed-6-4bit-MLX

Dito isto, acho que isto é um bom começo para o desenvolvimento de LLMs em português. Mal posso esperar para o que aí vem, porque isto certamente é só o início. Com um dataset maior, mais investimento, compute e tempo, acredito que até podemos ter LLMs 100% portugueses um dia.

Primeiro LLM Português, AMÁLIA, é Lançado

Comentários