Anexo Machine Learning I

Abaixo, parte dos processos técnicos de regularização e hiperparâmetros para se identificar o resultado. Vale ressaltar que para avaliar a predição são usadas formas de teste e validação, nas quais a fórmula encontrada é testada em dados novos para se ter a certeza de que o algoritmo aprendeu os padrões necessários para fazer previsões em outros conjuntos de dados, como, por exemplo, naqueles que ainda serão levantados nos próximos anos.

Análise

A premissa da Inteligência Artificial é o treinamento do algoritmo para que possa identificar informações – mesmo quando não são padronizadas – a ponto de predizer, de prever cenários com base nessas combinações. Portanto, para analisar a qualidade das predições, a base de dados é dividida em duas partes: treino (80%) e teste (20%), geradas de forma aleatória.

n<-nrow(ibge) aleatorio_l<-sample(1:n,round(.8*n)) treino_l<-ibge[aleatorio_l,] teste_l<-ibge[-aleatorio_l,]

Toda análise e as fórmulas foram construídas utilizando a parte da base de dados (80%) destinada ao treino do algoritmo. Logo após a construção, esse mesmo modelo é também aplicado sobre os 20% da base de dados destinados ao teste. A acurácia, que é a proporção de casos que foram corretamente previstos, é avaliada pelo algoritmo que apresentar o menor EQM (Erro Quadrático Médio), quando a fórmula é aplicada na base de teste.

Como nesses modelos mais complexos a explicação é mais limitada, optou-se pela descrição em ordem da análise.

Em primeiro lugar foi construído modelo linear com as 30 variáveis anteriormente descritas.

## Residual standard error: 1.369 on 13326 degrees of freedom

## Multiple R-squared: 0.8041, Adjusted R-squared: 0.8037

## F-statistic: 1886 on 29 and 13326 DF, p-value: < 2.2e-16

Em seguida foram trabalhados os hiperparâmetros e penalizações com regressões de Ridge e de Lasso (least absolute shrinkage and selection operator).

Para Ridge (à esquerda), as variáveis que haviam ‘estourado’ ou ficado muito presas ao padrão estabelecido na base de treino são: Anos de Estudo, Frequência nos Ensinos Superior e Fundamental, Taxa de Envelhecimento e os Auto-correlacionados IDHM e IDHM eixo Educação. Isso significa que sem uma penalização (valor de lambda) dada complexidade do modelo com 30 variáveis, a fórmula criada não seria eficaz para a predição.

Já a penalização de Lasso (à direita) pode fazer com que algumas variáveis sejam iguais a zero e, portanto, eliminadas do modelo. Nesse caso observa-se que Gini, densidade demográfica, taxa de fecundidade, IDHM eixos longevidade e renda, frequência bruta do ensino superior e renda média do quintil populacional mais pobre precisaram ser regularizadas.

Validação Cruzada

Em seguida, foi utilizada técnica de validação cruzada para descobrir o melhor valor para a penalização (lambda), um Desvio Padrão a frente daquele que apresenta o menor erro.

Gráfico 57 | Fonte: Eight Data Intelligence

• ridge_cv$lambda.min
## [1] 0.2546966

Gráfico 58 | Fonte: Eight Data Intelligence

• lasso_cv$lambda.min
## [1] 0.0008536417

Dentre os parâmetros então utilizados, ainda que tenham sido feitas as regularizações, o modelo linear foi o que apresentou menor erro de teste com pouca diferença de desempenho entre o linear e o Lasso.

  E_treino E_teste
Linear 1.957499 1.884763
Ridge 2.143041 1.994976
Lasso 1.960913 1.881026

Gradiente Boosting Machine

O GBM já é um algoritmo que, ao ser testado para prever a T_SUPERIOR25M, apresenta um menor erro de predição do que os demais e dá maior peso para a variação da Mortalidade Infantil até o primeiro Ano, Taxa de Envelhecimento, Renda Per capita e o Índice de Desenvolvimento Municipal Eixo Longevidade para realizara predição da taxa nacional de conclusão do ensino superior.

Gráfico 59 | Fonte: Eight Data Intelligence

Abaixo, o comportamento de algumas das variáveis mais importantes para predição da taxa nacional de conclusão do ensino superior dentre as pessoas com 25 anos ou mais.

O Índice de Desenvolvimento Humano eixo educação se estabiliza em 0,8 (considerado de alto desenvolvimento educacional) quando a taxa de concluintes se aproxima de 10%. Já a renda se estabiliza em cerca de R$ 2.000 reais (não deflacionados) quando a taxa de nacional de concluintes se aproxima de 12%.

E a taxa de municípios com acesso a água encanada exerce influência na taxa de conclusão, mas sua variação não é linear, depende da faixa de acesso.

Gráfico 61 | Fonte: Eight Data Intelligence
Gráfico 60 | Fonte: Eight Data Intelligence
Gráfico 62 | Fonte: Eight Data Intelligence

O desempenho do modelo aplicado aos dados de Teste é bom. Acurácia testada com 5 mil árvores.

pred_bst <- predict(boosting, newdata = ibge[-tr, ], n.trees = 5000) plot(pred_bst, ibge$T_SUPER25M[-tr], xlab = “Previsão”, ylab = “Observado”, pch = 19, col = “blue”) abline(a = 0, b = 1, lty = 2, lwd =2, col = “red”)

Gráfico 63 | Fonte: Eight Data Intelligence

O erro quadrático médio é menor do que o dos modelos anteriormente testados:

mean((ibge$T_SUPER25M[-tr] – pred_bst)^2

 ## [1] 1.432594

Para o GBM, que utiliza diversas árvores de regressão, foi feita uma validação cruzada de 10 folds para compreender o número ideal de árvores. O corte pode ser feito a partir das 2,5 mil análises para encontrar a melhor predição.

Extreme Gradient Boosting (XGBOOST)

Esse algoritmo deu peso diferenciado a outras variáveis. Subindo o peso da População Urbana e da Frequência Bruta do Ensino Superior como preditores. Mas a renda Per capita acaba sendo o principal preditor.

Gráfico 64 | Fonte: Eight Data Intelligence

d_test <- as.matrix(ibge_test[, -which(colnames(ibge_test) == “T_SUPER25M”)]) pred_xgb <- predict(T25_xgb, d_test) mean((pred_xgb – ibge_test$T_SUPER25M)^2)

O erro quadrático médio desse modelo é muito menor que o dos demais:

## [1] 1.347708