8. Desenvolvimento e Educação

O Desenvolvimento Humano analisa a qualidade de vida em uma sociedade, observando três grandes pilares: a Saúde, por meio da Longevidade; a Educação; e a Pobreza, através da Renda.

Com IDH de 0,686, o Brasil está no mesmo cluster ou grupo dos países com desempenho entre 0,628 e 0,787 – que estão entre a mediana e o terceiro quartil – como é o caso do Peru, Equador e Colômbia, economias em desenvolvimento.

Para um país pobre, não se trata de um resultado ruim. No entanto, os também sul-americanos Argentina e Chile estão no grupo de países mais ricos como os Estados Unidos, Canadá, Austrália e boa parte da Europa, representados pela cor laranja (que indica o limite superior do boxmap).

Mapa 14 | Fonte: Eight Data Intelligence com dados da ONU

Um indício importante, é que, ao fazer um cruzamento das informações atuais entre a variação do IDH e o percentual de investimentos em Educação (em relação ao PIB) dos países não se pode afirmar, com base nos dados da ONU e do Banco Mundial testados, que essas duas variáveis estejam correlacionadas, ou que explique se: gastando mais ou gastando menos em Educação haja uma relação direta com o aumento ou diminuição do IDH. Cenário diferente da média de anos de estudo, que tende a aumentar quanto mais alto é o IDH.

Gráfico 55 | Fonte: Eight Data Intelligence com dados da ONU e Banco Mundial

8.1 Machine Learning aplicado ao IDH Educação

O Índice de Desenvolvimento Humano mensurado nos mais de 5 mil municípios do País é composto por três outros índices: renda, longevidade e educação. Neste segundo experimento de Machine Learning foi aplicada técnica com a finalidade experimental de entender como os algoritmos conseguiriam prever o Índice de Desenvolvimento Humano, eixo Educação, o IDH-E (Mais detalhes técnicos no Anexo de Machine Learning 2).

Gráfico 56 | Fonte: Eight Data Intelligence com dados do IBGE

No Brasil, mensurado pelo IBGE em cada um dos municípios brasileiros, tanto o IDH quanto seus subíndices variam de 0,001 a 0,999. Sendo que quanto mais alto, melhor. O objetivo desta análise experimental é que o algoritmo tenha aprendido a prever, com bom desempenho, quais municípios tendem a ter IDH_Educação maior e por que isso tende a ocorrer.

Para isso, nesta análise, chama de ‘boas’ as notas acima de 0,501 – que representam 30% da base de dados, com cerca de 16 mil observações do IDHM desde 1991. As notas ‘ruins’ são as que englobam 0,001 a 0,500, tratando-se de um problema de classificação.

Figura 3 | Fonte: Eight Data Intelligence

Entre as mais de 200 variáveis, foram testadas as que apresentaram significância estatística – de pelo menos 95% – com a variável IDH_Educação:

  1. Social (mortalidade infantil com um ano; % de mulheres chefes de família)
  2. Educacionais (Frequência Bruta do Ensino Superior; Frequência Escolar do Ensino Básico; Taxa de Evasão escolar entre os 6 e os 14 anos; Taxa de Analfabetismo entre as pessoas com 18 anos ou mais)
  3. Demográficas (População Urbana; População Rural; Razão de dependência entre Jovens e Idoso; Sobrevida aos 60 anos; Taxa de Envelhecimento; Densidade Demográfica)
  4. Renda (Renda das pessoas ocupadas; Renda per capita, IDH_R; Renda do quintil populacional mais pobre)
  5. Saneamento e Infraestrutura (Taxa de acesso a água e esgoto; Taxa de coleta de lixo)
Figura 4 | Fonte: Eight Data Intelligence
Figura 5: Composição do IDH Municipal | Fonte: Eight Data Intelligence

Composição do IDH Educação

Antes de descrever resultados e processos realizados, é válido observar a composição do IDH-Educação, como aponta a ilustração dos outros seis sub-índices que compõem o Índice. Um deles é o Índice de Escolaridade (analisado nos capítulos iniciais) e os demais são relacionados à frequência escolar (em azul).

Figura 6: Composição do IDH Educação | Fonte: Eight Data Intelligence

8.1. Resultados

Entre os métodos aplicados, os que apresentaram melhor desempenho em termos de erro total foram o Bagging (que dessa vez ganhou até mesmo do Random Forest) e a Regressão Logística penalizada L1 ou de Lasso, com erro de previsão de 6,6% e 6,7%, respectivamente. Isso quer dizer que os algoritmos treinados desse Estudo são capazes de prever o IDH eixo educação em mais de 90% – detalhes técnicos no Anexo Machine Learning II.

Figura 7: Algoritmo Bagging | Fonte: Eight Data Intelligence

Como já descrito (no capítulo de Ensino Superior), os dados foram separados aleatoriamente em treino e teste e foram realizadas técnicas de validação cruzada.

Também foram criadas funções matemáticas para encontrar os valores dos hiperparâmetros, ajustes ou formas pelas quais o algoritmo “aprende” com a finalidade de responder o problema em questão.

8.1 IDH-Educação: Geo Analytics

A influência do espaço geográfico é forte quando se avalia o Desenvolvimento Educacional através do IDH eixo educação. A autocorrelação espacial global (Índice de Moran) é de 70%, o que pode ser explicado da seguinte forma: na metade do país, o IDH_E de um município influencia e é influenciado pelo Índice dos municípios vizinhos (a um nível de confiança entre 95 e 99%).

Do ponto de vista de cluster, como vem se observando no decorrer desta análise, há um padrão no qual nas regiões Norte e Nordeste predominam os índices mais baixos, enquanto Sul e Sudeste concentram os índices mais elevados.

Mapa 15 | Fonte: Eight Data Intelligence

Entre os 5.570 municípios, apenas 547 deles apresentam índice maior que 0.684, considerado alto. Além das variáveis educacionais de frequência (que compõem a mensuração do IDH-E), o desenvolvimento educacional é fortemente correlacionado a variáveis de renda, anos de estudo e à taxa de conclusão do ensino superior entre pessoas com 25 anos ou mais.

Tabela 15 | Fonte: Eight Data Intelligence com dados do IBGE
Mapa 16| Fonte: Eight Data Intelligence com dados do IBGE