12 ia

Google cria IA que aprende a criar parâmetros para algoritmos

Aprender a aprender. Um novo artigo da Google publicado no arXiv descreve um novo tipo de algoritmo chamado “hipernetwork”, que promete revolucionar o mundoda inteligência artificial. A hiper-rede no estudo aprendeu as conexões internas (ou parâmetros) de um milhão de algoritmos para poder pré-configurar os parâmetros de algoritmos novos e não treinados. Tudo tem uma estrutura, até o humor. Se percebermos o modelo tornar-se muito mais fácil fazer de novo.

A IA, chamada GHN-2, pode prever e definir os parâmetros de uma rede neural não treinada em apenas uma fração de segundo. Na maioria dos casos, os algoritmos, que usam os parâmetros do GHN-2, tiveram um desempenho tão bom quanto os algoritmos que passaram por milhares de horas de treino.

Embora a aprendizagem da máquina seja parcialmente automatizada – ou seja, ninguém diz a um algoritmo de aprendizado de máquina exatamente como realizar sua tarefa – na verdade, construir os algoritmos requer muita habilidade e experiência.

Em 2018, uma equipa do Google Brain e da Universidade de Toronto construiu um algoritmo chamado hiper-rede gráfica. Usaram a hiper-rede para prever os parâmetros das arquiteturas candidatas, executá-las numa tarefa e depois classificá-las para ver qual tinha o melhor desempenho.

A nova pesquisa baseia-se nessa ideia. Mas, em vez de usar uma hiper-rede para classificar arquiteturas, a equipa concentrou-se na previsão dos parâmetros. Ao construir uma hiper-rede que é especialista em prever os valores dos parâmetros, eles pensaram que a pudessem aplicar a qualquer novo algoritmo.

Para criar um seletor de parâmetros de IA útil, a equipa fez uma seleção de um milhão de arquiteturas algorítmicas possíveis para treinar o GHN-2. Como o conjunto de dados é tão grande e diversificado, a equipa descobriu que o GHN-2 pode generalizar bem para arquiteturas nunca vistas. “Eles podem, por exemplo, dar conta de todas as arquiteturas típicas de última geração que as pessoas usam”, disse à Quanta Thomas Kipf, do Brain Team do Google Research em Amesterdão.

Após o treino, a equipa testou o GHN-2 e comparou algoritmos usando suas previsões com algoritmos tradicionalmente treinados. Os resultados foram impressionantes. Tradicionalmente, os algoritmos usam um processo chamado de descida de gradiente estocástico (SGD) para ajustar gradualmente as conexões de uma rede neural. Cada vez que o algoritmo executa uma tarefa, a saída real é comparada com a saída desejada (é uma imagem de um gato ou um cachorro?), e os parâmetros da rede são ajustados. Ao longo de milhares ou milhões de iterações, o treino leva um algoritmo a um estado ideal onde os erros são minimizados.

Algoritmos usando as previsões do GHN-2 – ou seja, sem nenhum treino – corresponderam à precisão dos algoritmos que foram treinados com SGD em milhares de iterações. Crucialmente, no entanto, o GHN-2 levou menos de um segundo para prever os parâmetros de um modelo, enquanto os algoritmos tradicionalmente treinados levaram cerca de 10,000 vezes mais para atingir o mesmo nível.

Crédito da imagem: Leni Johnston / Unsplash

VIDEOS

Comments are closed.