Anexo Machine Learning II

A penalização de Lasso foi o modelo com o segundo melhor desempenho em termos de erro total (6,7% de erro de previsão). Para essa análise, maior peso e importância estão distribuídos em Renda per capita máxima do primeiro quintil mais pobre da população; Taxa de densidade demográfica; Taxa de domicílios com acesso a água encanada.

Esse tipo de modelo estabelece uma penalidade para algumas variáveis que podem estar muito vinculadas a um determinado cenário para que o algoritmo seja capaz de prever o comportamento do IDH eixo Educação em diferentes cenários. Nesse caso, ele não só penalizou, como anulou, o IDH-Renda eixo e a População Total mantendo 21 variáveis, dando maior peso para sobrevida aos 60 anos.

Gráfico 65 | Fonte: Eight Data Intelligence

A matriz de confusão mostra que o modelo acertou 2.250 casos em que ele afirmou que o IDH estava abaixo de 0,5, de modo que o modelo errou apenas 124 casos.

Em termos de verdadeiros positivos, o modelo teve 865 municípios em que ele classificou como acima de 0,501 e acertou, enquanto errou apenas 100. A probabilidade de acertos total foi de 94%.

  Bad Good
Bad 2250 124
Good 100 865

Árvore de regressão

Nem a árvore nem mesmo a poda dela obtiveram os melhores resultados de predição, mas elas apresentaram um erro total baixo e são mais simples de compreender como o algoritmo entende o que pode causar ou influenciar um bom desenvolvimento educacional.

Para a Árvore, se um município tiver a Taxa de Frequência Bruta do Ensino Superior acima de 12% e, ao mesmo tempo, a Taxa de Mortalidade Infantil (de crianças até 1 ano) for menor ou igual a 19%, há 91,7% de probabilidade de esse município ter IDH-E acima de 0,501.

Do mesmo jeito que se a cidade tiver Frequência Bruta no ensino superior menor que 12% e a taxa de alunos fora da escola entre 6 e 14 anos for maior ou igual a 3,8%, a cidade tem 91,7% de probabilidade de apresentar um IDH-E baixo, menor ou igual a 0,499.

Gráfico 66 | Fonte: Eight Data Intelligence

Já no caso da Árvore podada, o algoritmo entende que se a Taxa de Frequência Bruta do Ensino Superior do município for maior que 12%, ele afirma que o IDH-Educação vai ser acima de 0,501, patamar considerado como moderado.

Gráfico 68 | Fonte: Eight Data Intelligence
Gráfico 67 | Fonte: Eight Data Intelligence

A matriz de confusão da árvore evidencia que ela acertou 2228 municípios que ela disse que estariam abaixo (verdadeiros negativos) de 0,500 e estavam acertando mais do que a Árvore podada (menor). E Errou apenas 146.

Do mesmo modo o algoritmo da árvore acertou 832 pessoas que classificou como acima de 0,501 (verdadeiros positivos) e erro 133, também com melhor resultado do que a árvore podada.

  Bad Good
Bad 2228 146
Good 133 832

pre_poda

  Bad Good
Bad 2153 221
Good 148 817

8.1.4 Bagging

Bagging foi o algoritmo com melhor desempenho, com erro de apenas 6,6%. Para isso ele construiu 500 árvores, testando todas as melhores possibilidades dentre as dezenas de variáveis testadas de previsão do IDH-Educação em cada um dos galhos. Ele extrai uma média dessas árvores e traz o melhor desempenho.

Gráfico 69 | Fonte: Eight Data Intelligence

Dos municípios que o algoritmo classificou como IDH-E abaixo de 0,5, errou apenas 104. Das cidades classificadas acima de 0,501, errou apenas 118.

  Bad Good
Bad 2270 104
Good 118 847

8.1.4 Random Forest

Random Forest é um algoritmo semelhante ao Bagging. A diferença é que trabalha aleatoriamente com apenas algumas árvores, não com todas. Apresentou erro total de apenas 6,9%.

Gráfico 71 | Fonte: Eight Data Intelligence
Gráfico 70 | Fonte: Eight Data Intelligence