Nos últimos dias surgiu o DeepSeek como algo melhor que o ChatGPT.
O problema não é o DeepSeek ser melhor que o ChatGPT, é ter sido anunciado pelos inventores de que usa muito menos cálculo do que os modelos americanos.
O problema dos modelos está na sua dimensão.
Quando estudamos Introdução à Programação de Computadores, um dos exercícios iniciais é implementar o algoritmo que multiplica duas matriz quadradas.
É importante compreendermos o comportamento doa multiplicação de matrizes porque os modelos de AI usam redes neuronais que, por sua vez, são resolvidas usando multiplicação matricial. Para quem quiser aprofundar o assunto, recomendo este texto:
Artificial Intelligence - Statistical Inference, Rules, Neural Networks, and GPU
Vou apresentar o modelo implementado pelo chatGPT sem explicações porque pretendo apenas mostrar que o algoritmo tem poucas linhas.
Agora, vamos à dimensão da matriz.
Se multiplicar duas matrizes de dimensão 20x20, vou precisar de 0.0041 segundos; se a dimensão for 100x100, já preciso de 0.468 segundos e com 500x500 vou precisar de 59.9 segundos. O aumento de 5 vezes na dimensão, obriga a cerca de 120 vezes mais cálculo.
Vou fazer um gráfico que me mostra a evolução do tempo necessário para multiplicar duas matrizes em função do seu tamanho.
Agora, vou ver como o tempo que demora a inverter uma matriz em função da sua dimensão.
Todo o chatGPT são multiplicações e somas de matrizes usando um algoritmo conhecido.
Pode estar em vários sítios.
1) Têm muito poder de cálculo mas não revelam porque compraram os processadores no mercado negro.
2) Treinaram o modelo durante muito mais tempo (desde que saiu o chatGPT) do que anunciam.
3) Alguém, em troca de uns milhões, copiou os parâmetros já estimados do chatGPT que passou aos chineses.
É que o pintainho não cresce de um dia para o outro.
Dizem os chineses que conseguiram com 5 milhões o que o chatGPT precisou de 5000 milhões, um milhão de 1000 vezes.
O problema é que, da mesma forma que os algoritmos de multiplicação de matrizes são totalmente conhecidos, os modelos de AI são totalmente conhecidos, qualquer pessoa tem acesso a quase tudo o que está no chatGPT.
Não é possível aparecer um chinês a dizer "Tenho um algoritmo que multiplica num segundo uma matriz que demora à chatGPT 1000 segundos a calcular."
Esses algoritmos têm como fundamento a matemática e a estatística e não houve nenhuma inovação na matemática nem na estatística que justifique, de um momento para o outro, esse salto de mil vezes.
Talvez daqui a dois anos...
A capacidade dos processadores duplica a cada 2 anos mas um aumento de 1000 vezes de um dia para o outro?
Não acredito.
A destilação é uma banhada.
Consiste me, depois de estimado o modelo, cortar os parâmetros que são próximos de zero. Em AI clássica é um processo conhecido por "poda" ou "generalização".
Mas temos sempre o problema de apensa ser feito "depois de estimado o modelo" que precisa de uma imensidão de cálculo que os chineses dizem nunca terem usado.
0 comentários:
Enviar um comentário