O jogo do go, que foi inventado na China há mais de 2.500 anos, é conhecido como um dos mais complicados de compreender, pra inteligência artificial. O jogador profissional, sul de go, Leia Sedol, jogando contra um programa de inteligência artificial no ano passado.
AP / Arquivo Clarín. Então, quando o programa AlphaGo da companhia DeepMind superou o ano anterior, o campeão sul-coreano Lee Sedol, a notícia surpreendeu até mesmo os especialistas em inteligência artificial. O novo programa, chamado AlphaGo Zero e assim como feito por DeepMind, é qualitativamente desigual e contou prestações muito superiores, de acordo com os resultados que se apresentam hoje na revista científica Nature. Se o primeiro AlphaGo precisou de 30 milhões de partidas de treino para poder confrontar Lee Sedol, o novo são o suficiente, com 4,9 milhões, 6 vezes menos.
O primeiro teve que se aprontar durante muitos meses e o novo lhe são bastou setenta horas. O primeiro precisou de quarenta e oito processadores do tipo TPU -especializados pra inteligência artificial – distribuídos em inúmeras máquinas e o novo lhe bastaram 4 TPU em uma única máquina. AlphaGo Zero é, em suma, um programa bem mais eficiente do que o primeiro AlphaGo.
Mas a grande diferença entre ambos é que AlphaGo Zero entendeu tudo sozinho. O primeiro AlphaGo aprendeu a jogar com base em posições de jogadores experientes. Os programadores de DeepMind lhe ensinaram milhões de partidas e, a partir daí, deduziu que tipos de movimentos são mais vantajosas e começou a jogar de modo autónoma. Duas versões posteriores do programa, chamadas AlphaGo Lee e AlphaGo Master, melhoraram seus resultados, aprendendo com a mesma estratégia.
Mas o novo AlphaGo Zero aprende de forma diferente. Não lhe foi ensinado nenhuma partida humana, entretanto somente os critérios do jogo. A partir daí começou a jogar contra si mesmo, fazendo as primeiras jogadas ao acaso e aprendendo por tentativa e problema.
Este jeito de assimilar permitiu ao programa progredir por si mesmo começando do zero, sem precisar de nenhum tipo de supervisão humana. É conhecido como aprendizagem por reforço, uma vez que as decisões que levam a resultados positivos, como receber uma partida, são reforçadas.
- Você podes usar a Biologia Sintética pra fazer bactérias perigosas
- Deve dispor poucos ou nenhum efeito secundário
- LISP (1958), elaborado por John McCarthy
- 1 a Wikipédia é uma enciclopédia
- 29 o que depende que um nome em português, seja correto ou não
“AlphaGo torna-se teu próprio mestre”, escrevem os pesquisadores DeepMind na revista Nature. As 3 horas de ter começado a jogar, AlphaGo Zero havia adquirido noções básicas do go e brincando com um nível de newbie. Capturava em cada jogada tantas peças como podia, à busca de ganhos imediatos como um político a curto prazo, e se despreocupaba do desenvolvimento do jogo a enorme período. Ao cabo de 19 horas imediatamente havia se dado conta de que a cobiça é um mau negócio, e tinha começado a jogar com visão de futuro, tentando domar o território do tabuleiro a longo tempo.
A 70 horas, de imediato havia alcançado um nível sobre isto-humano, com um jogo disciplinado que não caia pela tentação de capturas fáceis e tecendo uma rede de controle ao longo do comprimento e largura do tabuleiro. Uma das chaves do progresso foi que AlphaGo Zero usa uma única rede neural pra fichar de modo simultânea qual movimento fazer e o que probabilidade tem de levar a vitória. As versões anteriores do AlphaGo precisavam de duas redes neurais independentes, uma para decidir a jogada e a outra pra avaliar, o que era menos produtivo.
O programa compreendeu em três dias as mesmas estratégias de inícios e finais de partidas que têm aperfeiçoado os jogadores de go ao longo dos séculos. Esta tecnologia pode ser benéfico, sobretudo em áreas “em que não há uma apoio de discernimento especialista humano.