Metodologia

Para a elaboração do estudo Educação e Desenvolvimento: a formação do capital humano e a produtividade no Brasil foram empregadas técnicas avançadas de Data Science, que combina a técnica milenar de análise estatística – empregada nas ciências econômicas e naturais (biologia, medicina, biomedicina entre outras) – e linguagens de programação computacional.

Denomina-se de Big Data toda grande massa de dados que demande alta taxa de processamento, uma vez que esse volume de informações excede a capacidade computacional de microcomputadores (PCs e Notebooks).

Respeito à privacidade

O modelo de análise realizado é baseado na coleta de dados secundários, gerados por instituições de relevância mundial, acessíveis em bancos de dados abertos e mantidos por essas entidades. Não foram consultadas ou utilizadas quaisquer informações pessoais em cadastros de pessoas físicas ou sistemas de monitoramento de redes sociais.

Fontes

  • IMF (International Monetary Fund)
  • World Bank Group (Banco Mundial)
  • Heritage Foundation
  • United Nations (ONU)
  • OWID (Our World In Data)
  • OECD (Organisation for Economic Co-operation and Development)
  • IBGE (Instituto Brasileiro de Geografia Estatística)
  • IPEA (Instituto de Pesquisa Econômica Aplicada)
  • Banco Central do Brasil
  • CIA (Central Intelligence Agency)
  • Ministério da Educação (MEC)

Linguagens de programação

Foram utilizadas técnicas de busca de dados via interface de padrão de aplicações (API), utilizando a linguagem Python, no ambiente computacional Jupyter integrado ao Adobe Spark para geração de mapas e gráficos, e ao SQL para organização dos bancos de dados em nuvem.

Fusão de dados

Para a realização da análise foram processados diferentes modelos de arquivos. Todas as informações levantadas foram previamente tratadas e estruturadas para que pudessem ser comparadas, cruzadas e analisadas. Para a dimensão nacional sobre o campo da Educação, a Eight Data Intelligence consolidou 247 indicadores registrados a partir de 1991. Para análise de tópicos gerais e do cenário internacional, a análise considera 70 variáveis e informações que compreendem o período entre 1820 e 2019.

Econometria Espacial (Geo Analytics)

Foram utilizadas técnicas de Geo Analytics, como regressão espacial, ilustrada no mapa a seguir. O eixo Educação do IDH nos municípios apresenta uma autocorrelação espacial de 70% em um nível de confiança que varia entre 95% e 99% de probabilidade em mais de 4 mil municípios brasileiros. Isso significa que, em quase todo o país, o desenvolvimento educacional pode ser explicado pelo espaço geográfico em 70%, ou que o avanço ou retrocesso dos municípios vizinhos exerce forte influência no desempenho educacional do seu município.

Mapa 24 | Fonte: Eight Data Intelligence com dados do IBGE

Inteligência Artificial (Machine Learning)

Para esta análise estatística foi utilizada a linguagem R por meio da IDE R Studio, na qual foram criados modelos inferenciais e modelos preditivos, que são técnicas de Inteligência Artificial (Machine Learning) para entender situações atuais, ou passadas e projetar comportamentos desses dados no futuro. Para isso, as amostras foram separadas entre teste e treino para que simulem a aplicação dos modelos matemáticos em dados novos, de forma que sua acurácia, ou desempenho preditivo, fossem testados.Foram utilizadas regressões lineares, quadráticas, regressões penalizadas de Ridge e Lasso, regressões logísticas tanto simples (com apenas uma preditora), quanto múltiplas (com mais de uma preditora). Também foram utilizadas árvores de regressão e técnicas de Inteligência Artificial através de algoritmos como Bagging, Random Forest, Ada Boost e XGBoost.