BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

Tamanho: px
Começar a partir da página:

Download "BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs"

Transcrição

1 PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL ATLAS BRASIL A Importância e Impacto da Renda e a Longevidade no País. DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS DA PESQUISA EMPÍRICA PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA Fernando Fukunaga 1º SEMESTRE São Paulo SP 2017

2 SUMÁRIO 2 INTRODUÇÃO... 6 CAPÍTULO I. DESENVOLVIMENTO HUMANO NO BRASIL Conceito de Desenvolvimento Humano Índice de Desenvolvimento Humano Índice de Desenvolvimento Humano Municipal Brasileiro CAPÍTULO II. DEFINIÇÕES BÁSICAS DOS OBJETOS ESTATISTICOS População Variáveis Dados CAPÍTULO III. ANÁLISE EXPLORATÓRIA DOS DADOS Variáveis qualitativa ou categórica Variável: Município Variável quantitativa Variável: IDHM (dimensão IDHM) Variável: IDHM_E (dimensão IDHM) Variável: IDHM_L (Dimensão IDHM) Variável: IDHM_R (Dimensão IDHM) Variável: ESPVIDA (Dimensão Demográfica) Variável: SOBRE60 (Dimensão demográfica) Variável: E_ANOSESTUDO (Dimensão educação) Variável: T_FBSUPER (Dimensão educação) Variável: GINI (Dimensão Renda) Variável: RDPC (Dimensão Renda) Variável: P_SERV (Dimensão trabalho) Variável: P_SUPER (Dimensão trabalho) Variável: T_LUZ (Dimensão habitação) Variável: T_LIXO (Dimensão habitação) Variável: T_SLUZ (Dimensão vulnerabilidade) Variável: T_OCUPDESLOC_1 (Dimensão vulnerabilidade) Variável: pesorur (Dimensão população) Variável: pesourb (Dimensão população) Análise Comparativa da Estatística Descritiva CAPÍTULO IV. RELAÇÕES ENTRE VARIÁVEIS Correlação das variáveis... 39

3 4.2 Gráficos de Dispersão Dendrograma CAPÍTULO V. ANÁLISE DE TENDÊNCIAS Variáveis utilizadas pela Séries Históricas do IBGE Variáveis Dados Variável: ESCPOPECOATV15 (Unidade 1000 pessoas) Análise de tendência Previsões Variável: ALFABET15 (Unidade 1000 pessoas) Análise de tendência Previsões Variável: POPRESI (Unidade 1000 pessoas) Análise de tendência Previsões CAPÍTULO VI. REGRESSÃO LINEAR Relações entre variáveis Apresentação de relações entre variáveis Correlação, Regressão, Gráficos de Dispersão e Dendograma Síntese dos resultados CAPÍTULO VII.TESTE DE COMPARAÇÕES Análise de Variância Variável: ESPVIDA Variável: IDHM_L Variável: IDHM_R Variável: IDHM Variável: RDPC Variável: IDHM_E Síntese dos Resultados CAPÍTULO VIII. AMOSTRAGEM Análise Exploratória para Amostra de 400 indivíduos Amostra de 400 Indivíduos para Variável ESPVIDA Amostra de 400 Indivíduos para Variável IDHM_L Amostra de 400 Indivíduos para Variável IDHM_R Amostra de 400 Indivíduos para Variável IDHM Amostra de 400 Indivíduos para Variável RDPC

4 8.1.6 Amostra de 400 Indivíduos para Variável IDHM_E Síntese dos Resultados CAPÍTULO IX. COMPONENTES PRINCIPAIS Normalização e Positivação dos Dados Correlação das Variáveis Análise de Componentes Principais Síntese dos Resultados CAPÍTULO X. TRABALHO VIII - ANÁLISE DE CONGLOMERADOS Seleção de Variáveis Média das Variáveis Selecionadas por Unidade da Federação Análise Exploratória dos Dados Variável: M-IDHM_E-n (dimensão IDHM) Variável: M-IDHM_R-n (dimensão IDHM) Variável: M-ESPVIDA-n (Dimensão Demográfica) Variável: M-SOBRE60-n (Dimensão Demográfica) Variável: M-E_ANOSESTUDO-n (Dimensão Educação) Variável: M-FBSUPER-n (Dimensão Educação) Variável: M-RDPC-n (Dimensão Renda) Variável: M-P_SUPER-n (Dimensão educação) Análise de Observação de Clusters Síntese dos Resultados CAPÍTULO XI. ANÁLISE DISCRIMINANTE Redução do Número de Agrupamentos Análise de Observação de Clusters Análise Discriminante Análise Comparativa entre as Regiões do Brasil versus Novos Conglomerados Síntese dos Resultados CAPÍTULO XII. REGRESSÃO LOGISTICA Médias por Região e Valores de F Regressão Logística Ordinal Análise Discriminante Síntese dos Resultados CAPÍTULO XIII. ANÁLISE DE CORRESPODÊNCIA SIMPLES Organização da Base de Dados Análise de Correspondência Simples para Classificação por Estados Análise de Correspondência Simples para Classificação por Região

5 13.4 Análise de Correspondência Simples para Classificação por Novos Agrupamentos Síntese dos Resultados CAPÍTULO XIV. ARVORES DE CLASSIFICAÇÃO Análise Discriminante Passo a Passo Arvore de Classificação Síntese dos Resultados CAPÍTULO XV. O RANKING DA EDUCAÇÃO NO BRASIL Análise de Componentes Principais Regressão Stepwise Ranking da Educação no Brasil Síntese dos Resultados CONSIDERAÇÕES FINAIS REFERÊNCIAS

6 6 INTRODUÇÃO O avanço da tecnologia e as mudanças cada vez mais rápidas e profundas tem proporcionado um impacto significativo na Economia, na Sociedade, no trabalho e trabalhadores e na administração das organizações. O pesquisador do campo da Administração também está incluído neste tempestuoso cenário. No nosso caso o aluno de doutorado em administração. O pesquisador em administração é dotado de diversas competências que o permite produzir conhecimento sobre temas de interesse do campo, uma delas diz respeito a sua competência informacional, ou seja, organização e análise de informações e a produção de sentido para a criação do conhecimento. Os métodos quantitativos e qualitativos são ferramentas de suporte para o pesquisador organizar e analisar dados para a produção de informações a partir de contextos pré-estabelecidos. O atual estágio das tecnologias nos dias atuais permite ao aprendiz de pesquisador em administração desenvolver seu aprendizado nos diversos procedimentos estatísticos com o suporte dos softwares específicos a este fim. Assim, o Programa de Estudos Pós-Graduados em Administração da PUC São Paulo, oferece aos seus alunos a disciplina de métodos qualitativos e quantitativos como parte do desenvolvimento da competência informacional dos candidatos ao título de Doutor em administração. O método de ensino empregado permite aos estudantes aprender na prática com o uso de bancos reais de dados. No nosso caso, o banco de dados selecionado foi o Atlas do Desenvolvimento Humano no Brasil, para dar sentido ao estudo das ciências sociais e a estatística. Nos próximos tópicos capítulo de introdução descreveremos brevemente os principais conceitos discutidos aqui. O Atlas do Desenvolvimento Humano no Brasil O Atlas do Desenvolvimento Humano no Brasil, democratiza a informação no âmbito municipal e metropolitano. Seu objetivo é instrumentalizar a sociedade. Fortalece as capacidades locais, o aprimoramento da gestão pública e o empoderamento dos cidadãos. É constituído pelo Atlas do Desenvolvimento Humano nos Municípios e o Atlas do Desenvolvimento Humano nas Regiões Metropolitanas. Local de consulta ao Índice de Desenvolvimento Humano Municipal (IDHM) de munícipios brasileiros, 27 Unidades da Federação (UF), 20 Regiões Metropolitanas (RM) e suas respectivas Unidades de Desenvolvimento Humano (UDH). Além disso, fornece mais de 20 indicadores de demografia, educação, renda, trabalho, habitação e vulnerabilidade. Os dados dos Censos Demográficos, dos anos de 1991, 2000 e 2010 (ATLAS BRASIL, 2017). O Atlas consolida um diálogo informado e embasado sobre o desenvolvimento a partir de uma referência utilizada internacionalmente, o Índice do Desenvolvimento Humano (IDH). Desenvolvimento Humano é o processo de ampliação das liberdades das pessoas, com relação às suas capacidades e as suas oportunidades a seu dispor, para que elas possam escolher a vida que desejam ter. Tanto o conceito como sua medida o IDH, foram apresentados em 1990 no Programa das Nações

7 7 Unidades para o Desenvolvimento (PNUD). Idealizado pelo o economista paquistanês Mahbub ul Haq e colaboração do economista Amartya Sen (ATLAS BRASIL, 2017). O Atlas permite transparência aos processos de desenvolvimento em importantes temas sociais. Possibilita o acompanhamento dos caminhos trilhados nos últimos 20 anos e análises para traçar o futuro. A audiência principal está organizada em cinco categorias: (1) gestores estaduais e municiais, uma forma de identificar regiões que necessitam de intervenções, políticas e ações especificas; (2) atores municipais, apoio ao diagnóstico aos principais desafios municipais; (3) pesquisadores, nosso caso, estudo das políticas públicas, identificação de programas bem-sucedidos e mapeamento de desafios e oportunidades; (4) sociedade civil e setor privado, orienta a alocação de recursos e definição de público-alvo para as ações de desenvolvimento; e (5) cidadãos, estimulo a participação social. Objetivos Este estudo tem como principal objetivo o desenvolvimento das competências do pesquisador em métodos qualitativos e quantitativos aplicados as ciências sociais. O objetivo secundário foi encontrar um retrato da educação do Brasil, a partir do banco de dados do Atlas do Desenvolvimento no Brasil, foi selecionado um número significativo de variáveis relacionadas com a dimensão Educação do Atlas. Assim, este trabalho é composto por doze trabalhos individuais de procedimentos estatísticos que permitiram a produção deste retrato e do desenvolvimento da competência do pesquisador em métodos qualitativos e quantitativos. Relevância e Justificativa Hoje no campo do ensino em administração é possível identificarmos diversas metodologias de ensino, algumas tradicionais outras modernas. No nosso caso, podemos perceber que a técnica de simulação de um problema real permitiu não apenas o aprendizado das técnicas estatísticas, mas também o estimulo a cognição, a análise e produção do sentido das informações. Além disso, o desafio experimentado de forma real permitiu o levantamento de espaços para a elaboração ou aplicação de políticas públicas em educação, local ou nacional. Organização do Trabalho Este trabalho está organizado em quinze capítulos. A introdução do trabalho, apresenta o problema e discute aspectos gerais do estudo. O Capitulo 1 traz o conceito do Desenvolvimento Humano e destaca a dimensão da educação. O Capitulo 2 apresenta de forma sucinta os conceitos básicos dos objetos estatísticos, como população, amostra, variável, entre outras.

8 O Capitulo 3 apresenta a análise exploratória dos dados. O Capitulo 4 apresenta as relações entre variáveis. O Capitulo 5 apresenta a análise de tendências. O Capitulo 6 apresenta a regressão linear. O Capitulo 7 apresenta o teste de comparações. O Capitulo 8 demonstra os resultados da amostragem. O Capitulo 9 apresenta a análise dos componentes principais. O Capitulo 10 apresenta a análise de conglomerados. O Capitulo 11 apresenta a análise discriminante. O Capitulo 12 apresenta a regressão logística. O Capitulo 13 apresenta a análise de correspondência. O Capitulo 14 apresenta o procedimento de arvores de classificação. O Capitulo 15 apresenta o ranking entre os estados sobre o retrato da educação no Brasil. E finalmente o Capitulo 16 traz a luz as considerações finais do estudo. 8

9 9 CAPÍTULO I. DESENVOLVIMENTO HUMANO NO BRASIL 1.1 Conceito de Desenvolvimento Humano O processo de expansão das liberdades inclui as dinâmicas sociais, econômicas, políticas e ambientais. Dinâmicas necessárias para garantir oportunidades as pessoas. Além do ambiente propício para que cada uma exerça seu potencial. O desenvolvimento humano deve ser centrado nas pessoas e na ampliação do seu bem-estar. Entendido como a ampliação do escopo das escolhas e da capacidade e da liberdade de escolher. Nesta abordagem, a renda e a riqueza não são meios para que as pessoas possam viver a vida que desejam (ATLAS BRASIL, 2017). O crescimento econômico de uma sociedade não se traduz automaticamente em qualidade de vida. Porém, observa-se em muitas vezes, as desigualdades. Este crescimento necessita ser transformado em conquistas concretas para as pessoas: crianças mais saudáveis, educação universal e de qualidade, ampliação da participação política dos cidadãos, preservação ambiental, equilíbrio da renda e das oportunidades entre todas as pessoas, maior liberdade de expressão, entre outras. Dessa forma as pessoas estão no centro da análise do bem-estar. Redefinindo a maneira como pensamos sobre e lidamos com o desenvolvimento (ATLAS BRASIL, 2017). A popularização da abordagem de desenvolvimento humano se deu com a criação e adoção do IDH como medida do grau de desenvolvimento humano de um país, em alternativa ao Produto Interno Bruto (PIB), hegemônico, à época, como medida de desenvolvimento (ATLAS BRASIL, 2017). 1.2 Índice de Desenvolvimento Humano O IDH reúne três dos requisitos mais importantes para a expansão das liberdades das pessoas: a oportunidade de se levar uma vida longa e saudável (longevidade), de ter acesso ao conhecimento (educação), e de poder desfrutar de um padrão de vida digno (renda), conforme Figura O IDH obteve grande repercussão mundial devido principalmente à sua simplicidade, fácil compreensão e pela forma mais holística e abrangente de mensurar o desenvolvimento. Transformando em um único número a complexidade de três importantes dimensões. A dimensão da longevidade, diz respeito a ampliação das oportunidades que as pessoas têm de evitar a morte prematura, garantias de ambiente saudável, acesso à saúde de qualidade, para que possam atingir o padrão mais elevado possível de saúde física e mental. A dimensão da educação, diz respeito ao acesso ao conhecimento, é um determinante crítico para o bem-estar e é essencial para o exercício das liberdades individuais, da autonomia e da autoestima. E a dimensão da renda, diz respeito ao padrão de vida. Renda é essencial para acessarmos necessidades básicas como água, comida e abrigo. A renda é um meio para uma série de fins, possibilita nossa opção por alternativas disponíveis e sua ausência pode limitar as oportunidades de vida (ATLAS BRASIL, 2017).

10 10 Figura Desenvolvimento Humano: 3 Dimensões Fonte: Atlas Brasil (2017) Em 2012, o PNUD Brasil, o Ipea e a Fundação João Pinheiro assumiram o desafio de adaptar a metodologia do IDH Global para calcular o IDH Municipal (IDHM). Posterior ao IDHM dos municípios brasileiros, as três instituições assumiram o novo desafio de calcular o IDHM a nível intramunicipal das regiões metropolitanas do país (ATLAS BRASIL, 2017). 1.3 Índice de Desenvolvimento Humano Municipal Brasileiro O IDHM brasileiro considera as mesmas três dimensões do IDH Global, mas, adequa a metodologia global ao contexto brasileiro e à disponibilidade de indicadores nacionais. O IDHM (três componentes: IDHM Longevidade; IDHM Educação; e IDHM Renda), conta um pouco da história dos municípios, estados e regiões metropolitanas em três importantes dimensões do desenvolvimento humano durante duas décadas da história brasileira. O IDHM é um número que varia entre 0 e 1. Quanto mais próximo de 1, maior o desenvolvimento humano de uma unidade federativa, município, região metropolitana ou UDH (ATLAS BRASIL, 2017). CAPÍTULO II. DEFINIÇÕES BÁSICAS DOS OBJETOS ESTATISTICOS 2.1 População População é o conjunto formado pelo total de indivíduos que representam pelo menos uma característica comum, qual interessa inferir (analisar). Sendo o objetivo da generalização estatística, comunicar algo em relação as diversas características da população estudada. No nosso caso, os indivíduos são os municípios brasileiros contidos no Censo Demográfico do IBGE O

11 11 critério de seleção foi utilizar o banco de dados o Atlas de Desenvolvimento Humano no Brasil que disponibiliza o IDHM e mais de 200 indicadores de demografia, educação, renda, trabalho, habitação e vulnerabilidade. Os dados analisados de cada município são as variáveis tratadas no próximo tópico. 2.2 Variáveis As variáveis são as características estudas de um determinado fenômeno. As variáveis podem ter tipos diferentes: qualitativas (não numéricas ou categóricas) e quantitativas (numérica). As variáveis quantitativas podem ser discretas, assumem apenas valores inteiros (ex.: número de irmãos, número de filhos, etc.); ou contínuas, assumem qualquer valor no intervalo dos números reais (ex.: peso, altura, etc.). As variáveis qualitativas podem ser nominais, quando as categorias não possuem uma ordem natural (ex.: nomes, cores, sexo, etc.); ou ordinais, quando as categorias podem ser ordenadas (ex.: tamanho pequeno, médio, grande; grau de instrução básico, médio, graduação, entre outros). Nosso estudo selecionou de forma aleatória 20 variáveis, incluindo o nome dos municípios. No Quadro 2.2.1, descrevemos e explicamos cada variável, ressaltamos que os dados desta pesquisa se referem ao ano de Quadro Definição das Variáveis VARIÁVEL SIGNIFICADO TIPO UNIDADE DE MEDIDA MUNICÍPIO Nome do Município Qualitativa N/a UF Unidade da Federação Quantitativa N/a IDHM IDHM_E IDHM_L Índice de desenvolvimento humano municipal. Média geométrica dos índices das dimensões Renda, Educação e Longevidade, com pesos iguais. Índice de Desenvolvimento Humano Municipal - Dimensão Educação. Índice sintético da dimensão Educação que é um dos 3 componentes do IDHM. É obtido através da média geométrica do subíndice de frequência de crianças e jovens à escola, com peso de 2/3, e do subíndice de escolaridade da população adulta, com peso de 1/3. Índice de Desenvolvimento Humano Municipal - Dimensão Longevidade. Índice da dimensão Longevidade que é um dos 3 componentes do IDHM. É obtido a partir do indicador Esperança de vida ao nascer, através da fórmula: [(valor observado do indicador) - (valor mínimo)] / [(valor máximo) - (valor mínimo)], onde os valores mínimo e máximo são 25 e 85 anos, respectivamente. Quantitativa Índice Quantitativo Índice Quantitativo Índice

12 12 Índice de Desenvolvimento Humano Municipal - Dimensão Renda. Índice da dimensão Renda que é um dos 3 IDHM_R componentes do IDHM. É obtido a partir do indicador Renda per capita, através da fórmula: [ln (valor observado do indicador) - Quantitativa Índice ln (valor mínimo)] / [ln (valor máximo) - ln (valor mínimo)], onde os valores mínimo e máximo são R$ 8,00 e R$ 4.033,00 (a preços de agosto de 2010). ESPVIDA Esperança de vida ao nascer. Quantitativa Anos SOBRE60 Probabilidade de sobrevivência até 60 anos Quantitativa Percentual E_ANOSESTUDO Expectativa de anos de estudo Quantitativa Anos T_FBSUPER GINI Taxa de frequência bruta ao ensino superior. Quantitativa Percentual Índice de Gini. Mede o grau de desigualdade existente na distribuição de indivíduos segundo a renda domiciliar per capita. Seu valor varia de 0, quando não há desigualdade (a renda domiciliar per capita de todos os Quantitativa Índice indivíduos tem o mesmo valor), a 1, quando a desigualdade é máxima (apenas um indivíduo detém toda a renda).o universo de indivíduos é limitado àqueles que vivem em domicílios particulares permanentes. RDPC Renda per capita média Quantitativa Absoluto (valor) P_SERV Percentual dos ocupados no setor de serviços 18 anos ou mais Quantitativa Percentual P_SUPER Percentual dos ocupados com superior completo 18 anos ou mais Quantitativa Percentual T_LUZ Percentual da população que vive em domicílios com energia elétrica. Quantitativa Percentual T_LIXO Percentual da população que vive em domicílios urbanos com serviço de coleta de Quantitativa Percentual lixo. T_SLUZ Percentual de pessoas em domicílios sem energia elétrica. Quantitativa Percentual Percentual de pessoas em domicílios T_OCUPDESLOC_1 vulneráveis à pobreza e que gastam mais de Quantitativa Percentual uma hora até o trabalho. pesorur População residente na área rural. Quantitativa Percentual pesourb População residente na área urbana. Quantitativa Percentual Fonte: Atlas Brasil (2017). 2.3 Dados Os dados são as informações de cada variável que caracterizam os indicadores que constituem a população do estudo. Os dados devem ser analisados e interpretados com auxílio de métodos estatísticos. Os dados podem ser observados na Tabela e a Tabela

13 Tabela Tabela do Dados 13 Tabela Tabela dos Dados (Continuação) Fonte: MiniTab (1.5.0) CAPÍTULO III. ANÁLISE EXPLORATÓRIA DOS DADOS A análise exploratória de dados, emprega certa variedade de técnicas gráficas e quantitativas. Consiste em organizar, resumir e apresentar de dados de uma determinada amostra. Antigamente era apenas conhecida como estatística descritiva até que John Wilder Tukey ( ) publicou o livro Exploratory Data Analisys em 1977, popularizando o termo. A AED utiliza-se de tabelas, gráficos e medidas descritivas como ferramentas, utilizadas na etapa inicial da análise para obter informações que indicam possíveis modelos. Numa fase final estes modelos são utilizados na inferência estatística.

14 Variáveis qualitativa ou categórica Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo pie chart e/ou barras Variável: Município A amostra totaliza municípios, que pode ser verificada na distribuição no território nacional de acordo com a Unidade Federal no Gráfico Distribuição de Municípios por Macro-Região Sul ; 1188; 21% Sudeste ; 1668; 30% Norte ; 449; 8% Nordeste ; 1794; 32% Norte Nordeste Centro-Oeste Sudeste Sul Centro-Oeste ; 466; 9% Gráfico Distribuição de Municípios por Região Fonte: Elaborado pelo autor (Atlas, 2016) De acordo com o Gráfico , observa-se que as maiores concentrações de municípios brasileiros estão nas regiões Nordeste (32%) e na região Sudeste (30%). Juntas somam mais de 60% dos municípios pesquisados, totalizando 62%. O Gráfico , apresenta a distribuição dos municípios brasileiros pelas Unidades da Federação do Brasil. Podemos observar no Gráfico , a Unidade Federativa mais populosa em números de municípios é Minas Gerais (15%), seguida por São Paulo (12%) e Rio Grande do Sul (9%). As menos populosas em número de municípios são Acre, Amazonas, Amapá, entre outras.

15 15 SC; 293; 5% RR; 15; 0% RO; 52; 1% RM; 167; 3% Distribuição dos Municípios por Unidade da Federação RJ; 92; 2% RS; 496; 9% TO; 139; 2% SE; 75; 1% SP; 645; 12% PR; 399; 7% PI; 224; 4% PE; 185; 3% AC; 22; 0% AL; 102; 2% AM; 62; 1% AP; 16; 0% PB; 223; 4% BA; 417; 7% MA; 217; 4% MG; 853; 15% MS; 78; 1% CE; 184; 3% DF; 1; 0% ES; 78; 1% MT; 141; 3% PA; 143; 3% GO; 246; 4% Gráfico Distribuição dos Municípios por Unidade da Federação Fonte: Elaborado pelo Autor (Atlas Brasil, 2016) AC AL AM AP BA CE DF ES GO MA MG MS MT PA A Figura apresenta o IDHM dos municípios brasileiros em 1999, 2000 e Com base nesta representação topográfica, observa-se que os índices mais altos de IDHM, estão concentrados na região centro-sul do Brasil. Nota-se também que a região Norte e Nordeste apresentava em 1999 índices muitos abaixo, nos 2000 e 2010 observa-se a significativa evolução dos índices nas regiões.

16 16 Figura Mapa 1: IDHM do Brasil (1991, 2000, 2010) Fonte: Atlas Brasil (2016) 3.2 Variável quantitativa A análise desse tipo de variável permite a utilização de um número maior de ferramentas de análises como histogramas, curvas de densidades e box-plot, além de informações numéricas como média, desvio-padrão, mediana, intervalo de confiança e teste de normalidade de Anderson-Darling Variável: IDHM (dimensão IDHM) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável IDHM.

17 Summary for IDHM 17 Anderson-Darling Normality Test A-Squared 40,51 P-Value < 0,005 Mean 0,65916 StDev 0,07200 Variance 0,00518 Skewness -0, Kurtosis -0, N ,42 0,49 0,56 0,63 0,70 0,77 0,84 Minimum 0, st Quartile 0,59900 Median 0, rd Quartile 0,71800 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,07336 Mean Median 0,658 0,660 0,662 0,664 0,666 0,668 0,670 Figura Estatística Descritiva para IDHM Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do IDHM na faixa de 0,599 a 0,718. O Box-Plot demonstra a concentração na faixa estratificada. A mediana está a direita do referido intervalo. Os outliers estão a esquerda do intervalo. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com o maior índice apresenta 0,862 de IDHM. Centro e Dispersão: A mediana indica que 50% dos municípios possuem IDHM menor ou igual a 0,665 e os demais 50% possuem IDHM maior ou igual a 0,665. O IDHM médio dos municípios é de 0,659, com desvio padrão de 0,071. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre 0,657 e 0,661, e a mediana no intervalo de 0,662 e 0, Variável: IDHM_E (dimensão IDHM) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling ( A-Squared e P-Value), para a variável IDHM_E.

18 Summary for IDHM_E 18 Anderson-Darling Normality Test A-Squared 9,32 P-Value < 0,005 Mean 0,55909 StDev 0,09333 Variance 0,00871 Skewness -0, Kurtosis -0, N ,27 0,36 0,45 0,54 0,63 0,72 0,81 Minimum 0, st Quartile 0,49000 Median 0, rd Quartile 0,63100 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,09509 Mean Median 0,557 0,558 0,559 0,560 0,561 0,562 0,563 Figura Estatística Descritiva para IDHM_E Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do IDHM_E na faixa de 0,490 a 0,631. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está a esquerda do referido intervalo. Os outliers estão a esquerda do intervalo mencionado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com o maior índice apresenta 0,825 de IDHM_E. Centro e Dispersão: A mediana indica que há uma distribuição proporcional de municípios, ou seja, 50% possuem IDHM_E menor ou igual a 0,560 e o restante maior ou igual a 0,560. O IDHM_E médio dos municípios é de 0,559, com desvio padrão de 0,093. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre 0,556 e 0,561, e a mediana no intervalo de 0,557 e 0, Variável: IDHM_L (Dimensão IDHM) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável IDHM_L.

19 Summary for IDHM_L 19 Anderson-Darling Normality Test A-Squared 35,06 P-Value < 0,005 Mean 0,80156 StDev 0,04468 Variance 0,00200 Skewness -0, Kurtosis -0, N ,69 0,72 0,75 0,78 0,81 0,84 0,87 Minimum 0, st Quartile 0,76900 Median 0, rd Quartile 0,83600 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,04553 Mean Median 0,800 0,802 0,804 0,806 0,808 0,810 Figura Estatística Descritiva para IDHM_L Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do IDHM_L na faixa de 0,769 a 0,836. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está a direita do referido intervalo. Não foram identificados outliers. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com o maior índice apresenta 0,894 de IDHM_L. Centro e Dispersão: A mediana indica que 50% dos municípios possuem IDHM_L menor ou igual a 0,808 e os demais 50% maior ou igual a 0,808. O IDHM_L médio dos municípios é de 0,801, com desvio padrão de 0,044. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre 0,800 e 0,802, e a mediana no intervalo de 0,806 e 0, Variável: IDHM_R (Dimensão IDHM) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling ( A-Squared e P-Value), para a variável IDHM_R.

20 Summary for IDHM_R 20 Anderson-Darling Normality Test A-Squared 55,08 P-Value < 0,005 Mean 0,64287 StDev 0,08066 Variance 0,00651 Skewness -0, Kurtosis -0, N ,42 0,49 0,56 0,63 0,70 0,77 0,84 Minimum 0, st Quartile 0,57200 Median 0, rd Quartile 0,70700 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,08219 Mean Median 0,640 0,644 0,648 0,652 0,656 Figura Estatística Descritiva para IDHM_R Fonte: MiniTab ( ) Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do IDHM_R na faixa de 0,572 a 0,707. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do intervalo mencionado. Não foram identificados outliers na análise da variável. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com o maior índice apresenta 0,891 de IDHM_R. Centro e Dispersão: A mediana indica que 50% dos municípios possuem IDHM_R menor ou igual a 0,654, e o restante maior igual ao referido índice. O IDHM_R médio dos municípios é de 0,643, com desvio padrão de 0,081. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre 0,641 e 0,645, e a mediana no intervalo de 0,650 e 0, Variável: ESPVIDA (Dimensão Demográfica) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling ( A-Squared e P-Value), para a variável ESPVIDA.

21 Summary for ESPVIDA 21 Anderson-Darling Normality Test A-Squared 34,95 P-Value < 0,005 Mean 73,089 StDev 2,681 Variance 7,186 Skewness -0, Kurtosis -0, N Minimum 65,300 1st Quartile 71,150 Median 73,470 3rd Quartile 75,160 Maximum 78,640 95% Confidence Interval for Mean 73,019 73,159 95% Confidence Interval for Median 73,380 73,550 95% Confidence Intervals 95% Confidence Interval for StDev 2,632 2,731 Mean Median 73,0 73,1 73,2 73,3 73,4 73,5 73,6 Figura Estatística Descritiva para ESPVIDA Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do ESPVIDA na faixa de 71,15 anos a 75,16 anos. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do intervalo. Não foram identificados outliers na variável analisada. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com o maior indicador apresenta 78,64 anos para a variável ESPVIDA. Centro e Dispersão: A mediana indica que 50% dos municípios possuem indicador de ESPVIDA menor ou igual a 73,47 anos, os 50% restantes possuem indicador maior ou igual a mediana encontrada. ESPVIDA média dos municípios é de 73,09 anos, com desvio padrão de 2,68 anos. Com 95% de confiança podemos afirmar que a média se encontro no intervalo dos índices de 73,02 anos e 73,16 anos, e a mediana no intervalo de 73,38 anos e 73, Variável: SOBRE60 (Dimensão demográfica) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável SOBRE60.

22 Summary for SOBRE60 22 Anderson-Darling Normality Test A-Squared 8,07 P-Value < 0,005 Mean 82,755 StDev 2,754 Variance 7,586 Skewness -0, Kurtosis 0, N Minimum 71,980 1st Quartile 81,040 Median 82,920 3rd Quartile 84,595 Maximum 90,810 95% Confidence Interval for Mean 82,682 82,827 95% Confidence Interval for Median 82,830 83,020 95% Confidence Intervals 95% Confidence Interval for StDev 2,704 2,806 Mean Median 82,70 82,75 82,80 82,85 82,90 82,95 83,00 Figura Estatística Descritiva para SOBRE60 Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada da SOBRE60 na faixa de 81,04% a 84,59% anos. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está a direta do referido intervalo. Os outliers estão à esquerda e também a direita do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior probabilidade apresenta 90,81% para a variável SOBRE60. Centro e Dispersão: A mediana indica que metade dos municípios possuem probabilidade de SOBRE60 menor ou igual a 82,90%, a outra metade maior ou igual a 82,90%. A SOBRE60 média dos municípios é de 82,75%, com desvio padrão de 2,75%. Com 95% de confiança podemos afirmar que a média se encontra no intervalo da probabilidade entre de 82,68% e 82,82%, e a mediana no intervalo entre 82,83% e 83,02% Variável: E_ANOSESTUDO (Dimensão educação) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável E_ANOSESTUDO.

23 Summary for E_ANOSESTUDO 23 Anderson-Darling Normality Test A-Squared 1,38 P-Value < 0,005 Mean 9,4636 StDev 1,0983 Variance 1,2062 Skewness -0, Kurtosis 0, N ,8 6,0 7,2 8,4 9,6 10,8 12,0 Minimum 4,3400 1st Quartile 8,7500 Median 9,4700 3rd Quartile 10,2100 Maximum 12, % Confidence Interval for Mean 9,4348 9, % Confidence Interval for Median 9,4400 9, % Confidence Intervals 95% Confidence Interval for StDev 1,0782 1,1191 Mean Median 9,44 9,45 9,46 9,47 9,48 9,49 9,50 Figura Estatística Descritiva para E_ANOSESTUDO Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada da E_ANOSESTUDO na faixa de 8,75 anos a 10,21 anos. O Box-Plot demonstra a concentração fora faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a esquerda e a direita do intervalo supracitado. O teste de normalidade de Anderson- Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior expectativa apresenta 12,83 anos para a variável E_ANOSESTUDO. Centro e Dispersão: A mediana indica 50% dos municípios apresentam E_ANOSESTUDO menor ou igual 9,47 anos, e os demais 50% maior ou igual ao mesmo indicador. A E_ANOSESTUDO média dos municípios é de 9,46 anos, com desvio padrão de 1,10 anos. Com 95% de confiança podemos afirmar que a média se encontro no intervalo dos índices de 9,43 anos e 9,49 anos, e a mediana no intervalo de 9,44 anos e 9,50 anos Variável: T_FBSUPER (Dimensão educação) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável T_FBSUPER.

24 Summary for T_FBSUPER 24 Anderson-Darling Normality Test A-Squared 73,67 P-Value < 0,005 Mean 19,102 StDev 10,383 Variance 107,802 Skewness 0,96469 Kurtosis 1,08498 N Minimum 0,960 1st Quartile 11,220 Median 17,180 3rd Quartile 25,100 Maximum 76,780 95% Confidence Interval for Mean 18,829 19,375 95% Confidence Interval for Median 16,890 17,520 95% Confidence Intervals 95% Confidence Interval for StDev 10,193 10,579 Mean Median 17,0 17,5 18,0 18,5 19,0 19,5 Figura Estatística Descritiva para T_FBSUPER Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do T_FBSUPER na faixa de 11,22% a 25,10%. O Box-Plot demonstra a concentração dentro faixa estratificada, a mediana está a direita do referido intervalo. Os outliers estão a direta do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior taxa apresenta 76,78% para a variável T_FBSUPER. Centro e Dispersão: A mediana indica que metade dos municípios possuem taxa de T_FBSUPER menor ou igual a 17,18%, e a outra metade apresenta taxa maior ou igual a 17,18%. A T_FBSUPER média dos municípios é de 19,10%, com desvio padrão de 10,38%. Com 95% de confiança podemos afirmar que a média se encontra no intervalo de 18,83% a 19,37 e a mediana no intervalo de 16,89% a 17,52% Variável: GINI (Dimensão Renda) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável GINI.

25 Summary for GINI 25 Anderson-Darling Normality Test A-Squared 8,12 P-Value < 0,005 Mean 0,49438 StDev 0,06607 Variance 0,00437 Skewness 0, Kurtosis 0, N ,32 0,40 0,48 0,56 0,64 0,72 0,80 Minimum 0, st Quartile 0,45000 Median 0, rd Quartile 0,54000 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,06733 Mean Median 0,490 0,492 0,494 0,496 0,498 0,500 Figura Estatística Descritiva para GINI Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do GINI na faixa de 0,450 a 0,540. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a direita e a esquerda do intervalo citado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com o maior índice apresenta 0,800 de GINI. Centro e Dispersão: A mediana indica que 50% dos municípios possuem GINI menor ou igual a 0,490 e os demais 50% maior ou igual a 0,490. O GINI médio dos municípios é de 0,494, com desvio padrão de 0,066. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre 0,492 e 0,496, e a mediana no intervalo de 0,490 e 0, Variável: RDPC (Dimensão Renda) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável GINI.

26 Summary for RDPC 26 Anderson-Darling Normality Test A-Squared 80,55 P-Value < 0,005 Mean 493,61 StDev 243,27 Variance 59179,97 Skewness 0,95965 Kurtosis 1,65248 N Minimum 96,25 1st Quartile 281,09 Median 467,65 3rd Quartile 650,64 Maximum 2043,74 95% Confidence Interval for Mean 487,21 500,00 95% Confidence Interval for Median 456,26 478,34 95% Confidence Intervals 95% Confidence Interval for StDev 238,83 247,88 Mean Median Figura Estatística Descritiva para RDPC Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do RDPC na faixa de R$281,09 a R$650,64. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a direita do intervalo citado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com o maior índice apresenta R$2043,74 de RDPC. Centro e Dispersão: A mediana indica que 50% dos municípios possuem RDPC menor ou igual a R$467,65 e os demais 50% maior ou igual a R$467,65. O RDPC médio dos municípios é de R$493,61, com desvio padrão de R$243,27. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre R$487,21 e R$500,00, e a mediana no intervalo entre R$456,26 e R$478, Variável: P_SERV (Dimensão trabalho) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável P_SERV.

27 Summary for P_SERV 27 Anderson-Darling Normality Test A-Squared 10,76 P-Value < 0,005 Mean 32,458 StDev 8,889 Variance 79,016 Skewness 0, Kurtosis 0, N Minimum 8,500 1st Quartile 26,125 Median 31,890 3rd Quartile 38,010 Maximum 78,230 95% Confidence Interval for Mean 32,224 32,692 95% Confidence Interval for Median 31,600 32,190 95% Confidence Intervals 95% Confidence Interval for StDev 8,727 9,057 Mean Median 31,50 31,75 32,00 32,25 32,50 32,75 Figura Estatística Descritiva para P_SERV Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do P_SERV na faixa de 26,12% a 38,01%. O Box-Plot demonstra a concentração dentro faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a direta do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior taxa apresenta 76,78% para a variável P_SERV. Centro e Dispersão: A mediana indica que metade dos municípios possuem taxa de P_SERV menor ou igual a 31,89%, e a outra metade apresenta taxa maior ou igual a 31,89%. A P_SERV média dos municípios é de 32,46%, com desvio padrão de 8,89%. Com 95% de confiança podemos afirmar que a média se encontra no intervalo de 32,22% a 32,69% e a mediana no intervalo de 31,60% a 32,19% Variável: P_SUPER (Dimensão trabalho) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável P_SUPER.

28 Summary for P_SUPER 28 Anderson-Darling Normality Test A-Squared 84,72 P-Value < 0,005 Mean 7,0356 StDev 3,6051 Variance 12,9967 Skewness 1,53911 Kurtosis 5,31372 N Minimum 0,3200 1st Quartile 4,5600 Median 6,4000 3rd Quartile 8,8150 Maximum 37, % Confidence Interval for Mean 6,9409 7, % Confidence Interval for Median 6,3000 6, % Confidence Intervals 95% Confidence Interval for StDev 3,5393 3,6733 Mean Median 6,2 6,4 6,6 6,8 7,0 7,2 Figura Estatística Descritiva para P_SUPER Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do P_SUPER na faixa de 4,56% a 8,81%. O Box-Plot demonstra a concentração dentro faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a direta do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior taxa apresenta 37,53% para a variável P_SUPER. Centro e Dispersão: A mediana indica que metade dos municípios possuem taxa de P_SUPER menor ou igual a 6,40%, e a outra metade apresenta taxa maior ou igual a 6,40%. A P_SUPER média dos municípios é de 7,03%, com desvio padrão de 3,60%. Com 95% de confiança podemos afirmar que a média se encontra no intervalo de 6,94% a 7,13% e a mediana no intervalo de 6,3% a 6,5% Variável: T_LUZ (Dimensão habitação) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável T_LUZ.

29 Summary for T_LUZ 29 Anderson-Darling Normality Test A-Squared 938,37 P-Value < 0,005 Mean 97,190 StDev 6,024 Variance 36,293 Skewness -4,2167 Kurtosis 23,1543 N Minimum 27,410 1st Quartile 97,645 Median 99,390 3rd Quartile 99,870 Maximum 100,000 95% Confidence Interval for Mean 97,031 97,348 95% Confidence Interval for Median 99,350 99,430 95% Confidence Intervals 95% Confidence Interval for StDev 5,915 6,138 Mean Median 97,0 97,5 98,0 98,5 99,0 99,5 Figura Estatística Descritiva para T_LUZ Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do T_LUZ na faixa de 97,64% a 99,87%. O Box-Plot demonstra a concentração dentro faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a esquerda do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior taxa apresenta 100% para a variável T_LUZ. Centro e Dispersão: A mediana indica que metade dos municípios possuem taxa de T_LUZ menor ou igual a 99,39%, e a outra metade apresenta taxa maior ou igual a 99,39%. A T_LUZ média dos municípios é de 97,19%, com desvio padrão de 6,02%. Com 95% de confiança podemos afirmar que a média se encontra no intervalo de 97,03% a 97,39% e a mediana no intervalo de 99,35% a 99,43% Variável: T_LIXO (Dimensão habitação) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável T_LIXO.

30 Summary for T_LIXO 30 Anderson-Darling Normality Test A-Squared 776,69 P-Value < 0,005 Mean 94,047 StDev 11,050 Variance 122,092 Skewness -3,9658 Kurtosis 20,1407 N Minimum 0,000 1st Quartile 93,720 Median 98,030 3rd Quartile 99,490 Maximum 100,000 95% Confidence Interval for Mean 93,757 94,338 95% Confidence Interval for Median 97,900 98,190 95% Confidence Intervals 95% Confidence Interval for StDev 10,848 11,259 Mean Median Figura Estatística Descritiva para T_LIXO Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do T_LIXO na faixa de 93,72% a 99,49%. O Box-Plot demonstra a concentração dentro faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a esquerda do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior taxa apresenta 100% para a variável T_LIXO. Centro e Dispersão: A mediana indica que metade dos municípios possuem taxa de T_LIXO menor ou igual a 98,03%, e a outra metade apresenta taxa maior ou igual a 98,03%. A T_LIXO média dos municípios é de 94,05%, com desvio padrão de 11,05%. Com 95% de confiança podemos afirmar que a média se encontra no intervalo de 93,76% a 94,34% e a mediana no intervalo de 97,90% a 98,19% Variável: T_SLUZ (Dimensão vulnerabilidade) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável T_SLUZ.

31 Summary for T_SLUZ 31 Anderson-Darling Normality Test A-Squared 938,10 P-Value < 0,005 Mean 2,8104 StDev 6,0244 Variance 36,2931 Skewness 4,2167 Kurtosis 23,1543 N Minimum 0,0000 1st Quartile 0,1300 Median 0,6100 3rd Quartile 2,3550 Maximum 72, % Confidence Interval for Mean 2,6521 2, % Confidence Interval for Median 0,5700 0, % Confidence Intervals 95% Confidence Interval for StDev 5,9145 6,1384 Mean Median 0,5 1,0 1,5 2,0 2,5 3,0 Figura Estatística Descritiva para T_SLUZ Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do T_SLUZ na faixa de 0,13% a 2,35%. O Box-Plot demonstra a concentração dentro faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão à direita do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior taxa apresenta 72,59% para a variável T_SLUZ. Centro e Dispersão: A mediana indica que metade dos municípios possuem taxa de T_SLUZ menor ou igual a 0,61%, e a outra metade apresenta taxa maior ou igual a 0,61%. A T_SLUZ média dos municípios é de 2,81%, com desvio padrão de 6,02%. Com 95% de confiança podemos afirmar que a média se encontra no intervalo de 2,62% a 2,97% e a mediana no intervalo de 0,57% a 0,65% Variável: T_OCUPDESLOC_1 (Dimensão vulnerabilidade) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável T_OCUPDESLOC_1.

32 Summary for T_OCUPDESLOC_1 32 Anderson-Darling Normality Test A-Squared 316,70 P-Value < 0,005 Mean 1,3892 StDev 1,5630 Variance 2,4429 Skewness 2,47083 Kurtosis 9,92903 N ,00 2,25 4,50 6,75 9,00 11,25 13,50 15,75 Minimum 0,0000 1st Quartile 0,3300 Median 0,9000 3rd Quartile 1,9100 Maximum 16, % Confidence Interval for Mean 1,3482 1, % Confidence Interval for Median 0,8700 0, % Confidence Intervals 95% Confidence Interval for StDev 1,5345 1,5926 Mean Median 0,9 1,0 1,1 1,2 1,3 1,4 1,5 Figura Estatística Descritiva para T_OCUPDESLOC_1 Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do T_OCUPDESLOC_1 na faixa de 0,33% a 1,91%. O Box-Plot demonstra a concentração dentro faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão à direita do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior taxa apresenta 16,40% para a variável T_OCUPDESLUC_1. Centro e Dispersão: A mediana indica que metade dos municípios possuem taxa de T_OCUPDESLOC_1 menor ou igual a 0,90%, e a outra metade apresenta taxa maior ou igual a 0,90%. A T_OCUPDESLOC_1 média dos municípios é de 1,39%, com desvio padrão de 1,56%. Com 95% de confiança podemos afirmar que a média se encontra no intervalo de 1,35% a 1,43% e a mediana no intervalo de 0,87% a 0,93% Variável: pesorur (Dimensão população) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável pesorur.

33 Summary for pesorur 33 Anderson-Darling Normality Test A-Squared 457,97 P-Value < 0,005 Mean 5360 StDev 6642 Variance Skewness 4,6970 Kurtosis 45,1552 N Minimum 0 1st Quartile 1599 Median rd Quartile 6769 Maximum % Confidence Interval for Mean % Confidence Interval for Median % Confidence Intervals 95% Confidence Interval for StDev Mean Median Figura Estatística Descritiva para pesorur Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do pesorur na faixa de a pessoas. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a direita do intervalo citado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com o maior população apresenta de pesorur. Centro e Dispersão: A mediana indica que 50% dos municípios possuem pesorur menor ou igual a pessoas e os demais 50% maior ou igual a pessoas. O pesorur médio dos municípios é de pessoas, com desvio padrão de Com 95% de confiança podemos afirmar que a média se encontra no intervalo de população rural entre pessoas e pessoas, e a mediana no intervalo de pessoas e pessoas Variável: pesourb (Dimensão população) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável pesourb.

34 Summary for pesourb 34 Anderson-Darling Normality Test A-Squared 1664,44 P-Value < 0,005 Mean StDev Variance Skewness 37,77 Kurtosis 1858,03 N Minimum 174 1st Quartile 2838 Median rd Quartile Maximum % Confidence Interval for Mean % Confidence Interval for Median % Confidence Intervals 95% Confidence Interval for StDev Mean Median Figura Estatística Descritiva para pesourb Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do pesourb na faixa de a pessoas. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a direita do intervalo citado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O município com a maior população apresenta de pesourb. Centro e Dispersão: A mediana indica que 50% dos municípios possuem pesourb menor ou igual a pessoas e os demais 50% maior ou igual a pessoas. O pesourb médio dos municípios é de pessoas, com desvio padrão de Com 95% de confiança podemos afirmar que a média se encontra no intervalo de população urbana entre pessoas e pessoas, e a mediana no intervalo de pessoas e pessoas. 3.3 Análise Comparativa da Estatística Descritiva Abaixo apresenta-se na Tabela 3.3.1, a comparação do Histograma, Curva de Densidade, Média, Desvio-Padrão, Median e P-Value do teste de normalidade de Anderson-Darling, das variáveis quantitativas analisadas. Tabela Analise Comparativa de variáveis (Dimensões do Desenvolvimento Humano) DESVI VARIA MED O- MEDIA P- GRAFICO VEL IA PADRA NA VALUE O

35 35 Summary for IDHM IDHM Anderson-Darling Normality Test A-Squared 40,51 P-Value < 0,005 Mean 0,65916 Unidade StDev 0,07200 Variance 0,00518 Skewness -0, Kurtosis -0, N 5565 de 0,42 0,49 0,56 0,63 0,70 0,77 0,84 Minimum 0, st Quartile 0,59900 Median 0, rd Quartile 0,71800 Maximum 0, ,659 0,071 0,665 0,005 Medida: 95% Confidence Interval for Mean 0, , % Confidence Interval for Median 0, ,66900 Índice Mean Median 95% Confidence Intervals 95% Confidence Interval for StDev 0, , ,658 0,660 0,662 0,664 0,666 0,668 0,670 Summary for IDHM_E IDHM_E Anderson-Darling Normality Test A-Squared 9,32 P-Value < 0,005 Mean 0,55909 Unidade StDev 0,09333 Variance 0,00871 Skewness -0, Kurtosis -0, N 5565 de 0,27 0,36 0,45 0,54 0,63 0,72 0,81 Minimum 0, st Quartile 0,49000 Median 0, rd Quartile 0,63100 Maximum 0, ,559 0,093 0,560 0,005 Medida: 95% Confidence Interval for Mean 0, , % Confidence Interval for Median 0, ,56300 Índice Mean Median 95% Confidence Intervals 95% Confidence Interval for StDev 0, , ,557 0,558 0,559 0,560 0,561 0,562 0,563 IDHM_L Summary for IDHM_L Anderson-Darling Normality Test A-Squared 35,06 P-Value < 0,005 Mean 0,80156 Unidade StDev 0,04468 Variance 0,00200 Skewness -0, Kurtosis -0, N 5565 de 0,69 0,72 0,75 0,78 0,81 0,84 0,87 Minimum 0, st Quartile 0,76900 Median 0, rd Quartile 0,83600 Maximum 0, ,801 0,044 0,808 0,005 Medida: 95% Confidence Interval for Mean 0, , % Confidence Interval for Median 0, ,80900 Índice Mean Median 95% Confidence Intervals 95% Confidence Interval for StDev 0, , ,800 0,802 0,804 0,806 0,808 0,810 IDHM_ Summary for IDHM_R Anderson-Darling Normality Test R A-Squared 55,08 P-Value < 0,005 Mean 0,64287 StDev 0,08066 Variance 0,00651 Unidade de 0,42 0,49 0,56 0,63 0,70 0,77 0,84 Skewness -0, Kurtosis -0, N 5565 Minimum 0, st Quartile 0,57200 Median 0, rd Quartile 0,70700 Maximum 0, % Confidence Interval for Mean 0, , ,642 0,080 0,654 0,005 Medida: 95% Confidence Intervals 95% Confidence Interval for Median 0, , % Confidence Interval for StDev 0, ,08219 Mean Índice Median 0,640 0,644 0,648 0,652 0,656 ESPVID Summary for ESPVIDA Anderson-Darling Normality Test A A-Squared 34,95 P-Value < 0,005 Mean 73,089 StDev 2,681 Variance 7,186 Unidade de Skewness -0, Kurtosis -0, N 5565 Minimum 65,300 1st Quartile 71,150 Median 73,470 3rd Quartile 75,160 Maximum 78,640 95% Confidence Interval for Mean 73,019 73, , ,005 Medida: 95% Confidence Intervals 95% Confidence Interval for Median 73,380 73,550 95% Confidence Interval for StDev 2,632 2,731 Mean Anos Median 73,0 73,1 73,2 73,3 73,4 73,5 73,6

36 36 SOBRE6 Summary for SOBRE60 Anderson-Darling Normality Test A-Squared 8,07 0 P-Value < 0,005 Mean 82,755 StDev 2,754 Variance 7,586 Skewness -0, Unidade de Kurtosis 0, N 5565 Minimum 71,980 1st Quartile 81,040 Median 82,920 3rd Quartile 84,595 Maximum 90,810 95% Confidence Interval for Mean 82,682 82, , ,005 Medida: 95% Confidence Intervals 95% Confidence Interval for Median 82,830 83,020 95% Confidence Interval for StDev 2,704 2,806 Mean Anos Median 82,70 82,75 82,80 82,85 82,90 82,95 83,00 E_ANO Summary for E_ANOSESTUDO SESTUD Anderson-Darling Normality Test A-Squared 1,38 P-Value < 0,005 Mean 9,4636 O StDev 1,0983 Variance 1,2062 Skewness -0, Kurtosis 0, N 5565 Unidade 4,8 6,0 7,2 8,4 9,6 10,8 12,0 Minimum 4,3400 1st Quartile 8,7500 Median 9,4700 3rd Quartile 10,2100 Maximum 12, ,09 9,47 0,005 de 95% Confidence Interval for Mean 9,4348 9, % Confidence Interval for Median 9,4400 9,5000 Medida: Mean Median 95% Confidence Intervals 95% Confidence Interval for StDev 1,0782 1,1191 Anos 9,44 9,45 9,46 9,47 9,48 9,49 9,50 T_FBSU Summary for T_FBSUPER PER Anderson-Darling Normality Test A-Squared 73,67 P-Value < 0,005 Mean 19,102 Unidade StDev 10,383 Variance 107,802 Skewness 0,96469 Kurtosis 1,08498 N 5565 de Minimum 0,960 1st Quartile 11,220 Median 17,180 3rd Quartile 25,100 Maximum 76, ,005 Medida: 95% Confidence Interval for Mean 18,829 19,375 95% Confidence Interval for Median 16,890 17,520 Percentu Mean Median 95% Confidence Intervals 95% Confidence Interval for StDev 10,193 10,579 al 17,0 17,5 18,0 18,5 19,0 19,5 GINI Unidade Summary for GINI Anderson-Darling Normality Test A-Squared 8,12 P-Value < 0,005 Mean 0,49438 StDev 0,06607 Variance 0,00437 Skewness 0, Kurtosis 0, N 5565 de 0,32 0,40 0,48 0,56 0,64 0,72 0,80 Minimum 0, st Quartile 0,45000 Median 0, rd Quartile 0,54000 Maximum 0, ,494 0,066 0,490 0,005 Medida: 95% Confidence Interval for Mean 0, , % Confidence Interval for Median 0, ,50000 Índice Mean Median 95% Confidence Intervals 95% Confidence Interval for StDev 0, , ,490 0,492 0,494 0,496 0,498 0,500 Summary for RDPC RDPC Anderson-Darling Normality Test A-Squared 80,55 P-Value < 0,005 Mean 493,61 Unidade de Medida: StDev 243,27 Variance 59179,97 Skewness 0,95965 Kurtosis 1,65248 N 5565 Minimum 96,25 1st Quartile 281,09 Median 467,65 3rd Quartile 650,64 Maximum 2043,74 95% Confidence Interval for Mean 487,21 500,00 95% Confidence Interval for Median 456,26 478,34 493, ,27 467,65 0,005 Valor Mean Median 95% Confidence Intervals 95% Confidence Interval for StDev 238,83 247,

37 37 P_SERV Summary for P_SERV Anderson-Darling Normality Test A-Squared 10,76 Unidade P-Value < 0,005 Mean 32,458 StDev 8,889 Variance 79,016 Skewness 0, de Medida: Kurtosis 0, N 5565 Minimum 8,500 1st Quartile 26,125 Median 31,890 3rd Quartile 38,010 Maximum 78,230 95% Confidence Interval for Mean 32,224 32,692 32,45 8 8,889 31,890 0,005 Percentu 95% Confidence Intervals 95% Confidence Interval for Median 31,600 32,190 95% Confidence Interval for StDev 8,727 9,057 Mean al Median 31,50 31,75 32,00 32,25 32,50 32,75 P_SUPE Summary for P_SUPER R Unidade Anderson-Darling Normality Test A-Squared 84,72 P-Value < 0,005 Mean 7,0356 StDev 3,6051 Variance 12,9967 Skewness 1,53911 Kurtosis 5,31372 N 5565 de Minimum 0,3200 1st Quartile 4,5600 Median 6,4000 3rd Quartile 8,8150 Maximum 37,5300 7,036 3,605 6,400 0,005 Medida: 95% Confidence Interval for Mean 6,9409 7, % Confidence Interval for Median 6,3000 6,5000 Percentu Mean 95% Confidence Intervals 95% Confidence Interval for StDev 3,5393 3,6733 Median al 6,2 6,4 6,6 6,8 7,0 7,2 T_LUZ Summary for T_LUZ Anderson-Darling Normality Test A-Squared 938,37 Unidade P-Value < 0,005 Mean 97,190 StDev 6,024 Variance 36,293 Skewness -4,2167 de Medida: Kurtosis 23,1543 N 5565 Minimum 27,410 1st Quartile 97,645 Median 99,390 3rd Quartile 99,870 Maximum 100,000 95% Confidence Interval for Mean 97,031 97,348 97,19 0 6,024 99,390 0,005 Percentu 95% Confidence Intervals 95% Confidence Interval for Median 99,350 99,430 95% Confidence Interval for StDev 5,915 6,138 al Mean Median 97,0 97,5 98,0 98,5 99,0 99,5 T_LIXO Summary for T_LIXO Anderson-Darling Normality Test A-Squared 776,69 Unidade P-Value < 0,005 Mean 94,047 StDev 11,050 Variance 122,092 Skewness -3,9658 de Medida: Kurtosis 20,1407 N 5565 Minimum 0,000 1st Quartile 93,720 Median 98,030 3rd Quartile 99,490 Maximum 100,000 95% Confidence Interval for Mean 93,757 94,338 94, ,050 98,030 0,005 Percentu 95% Confidence Intervals 95% Confidence Interval for Median 97,900 98,190 95% Confidence Interval for StDev 10,848 11,259 Mean al Median T_SLUZ Summary for T_SLUZ Anderson-Darling Normality Test A-Squared 938,10 Unidade P-Value < 0,005 Mean 2,8104 StDev 6,0244 Variance 36,2931 Skewness 4,2167 de Medida: Kurtosis 23,1543 N 5565 Minimum 0,0000 1st Quartile 0,1300 Median 0,6100 3rd Quartile 2,3550 Maximum 72, % Confidence Interval for Mean 2,6521 2,9687 2,810 6,024 0,610 0,005 Percentu 95% Confidence Intervals 95% Confidence Interval for Median 0,5700 0, % Confidence Interval for StDev 5,9145 6,1384 al Mean Median 0,5 1,0 1,5 2,0 2,5 3,0

38 T_OCUP 38 DESLO Summary for T_OCUPDESLOC_1 Anderson-Darling Normality Test A-Squared 316,70 C_1 P-Value < 0,005 Mean 1,3892 StDev 1,5630 Variance 2,4429 Skewness 2,47083 Unidade de 0,00 2,25 4,50 6,75 9,00 11,25 13,50 15,75 Kurtosis 9,92903 N 5565 Minimum 0,0000 1st Quartile 0,3300 Median 0,9000 3rd Quartile 1,9100 Maximum 16, % Confidence Interval for Mean 1,3482 1,4303 1,389 1,563 0,900 0,005 Medida: 95% Confidence Intervals 95% Confidence Interval for Median 0,8700 0, % Confidence Interval for StDev 1,5345 1,5926 Mean Percentu Median 0,9 1,0 1,1 1,2 1,3 1,4 1,5 al pesoru Summary for pesorur Anderson-Darling Normality Test R A-Squared 457,97 P-Value < 0,005 Mean 5360 StDev 6642 Variance Unidade de Skewness 4,6970 Kurtosis 45,1552 N 5565 Minimum 0 1st Quartile 1599 Median rd Quartile 6769 Maximum % Confidence Interval for Mean ,005 Medida: 95% Confidence Intervals 95% Confidence Interval for Median % Confidence Interval for StDev Mean Valor Median pesour Summary for pesourb Anderson-Darling Normality Test B A-Squared 1664,44 P-Value < 0,005 Mean StDev Variance Unidade de Skewness 37,77 Kurtosis 1858,03 N 5565 Minimum 174 1st Quartile 2838 Median rd Quartile Maximum % Confidence Interval for Mean ,005 Medida: Mean 95% Confidence Intervals 95% Confidence Interval for Median % Confidence Interval for StDev Valor Median A Tabela nos mostra uma visão geral das dimensões e variáveis apresentadas e analisadas individualmente nos tópicos anteriores deste trabalho. As variáveis que presentam aspectos relacionados a Educação e demonstram similaridade são: IDHM ; IDHM_E ; E_ANOSESTUDO ; e T_FBSUPER. Vale ressaltar que a simetria ou não das distribuições não necessariamente tem relação com a qualidade ou validade dos dados trabalhados. Distribuições assimétricas podem, por exemplo, nos indicar onde devemos focar ou concentrar esforços para obtenção de resultados esperados de forma mais eficiente. CAPÍTULO IV. RELAÇÕES ENTRE VARIÁVEIS Um coeficiente de correlação mede o grau pelo qual duas variáveis podem mudar juntas. O coeficiente descreve a força e a direção da relação. A análise de correlação de Pearson avalia a relação linear entre duas variáveis contínuas. Uma relação é linear quando a mudança em uma variável é associada a uma mudança proporcional na outra variável.

39 4.1 Correlação das variáveis A Tabela apresenta a correlação entre as variáveis selecionadas, qual realizamos a Análise Exploratória de Dados, nos tópicos anteriores. Tabela Relação entre as variáveis selecionadas para o estudo Correlations: IDHM; IDHM_E; IDHM_L; IDHM_R; ESPVIDA; SOBRE60; E_ANOSESTUDO;... IDHM IDHM_E IDHM_L IDHM_R IDHM_E 0,951 0,000 IDHM_L 0,852 0,704 0,000 0,000 IDHM_R 0,948 0,820 0,834 0,000 0,000 0,000 ESPVIDA 0,852 0,704 1,000 0,834 0,000 0,000 0,000 0,000 SOBRE60 0,453 0,372 0,635 0,406 0,000 0,000 0,000 0,000 E_ANOSESTUDO 0,653 0,710 0,441 0,544 0,000 0,000 0,000 0,000 T_FBSUPER 0,740 0,708 0,582 0,724 0,000 0,000 0,000 0,000 GINI -0,424-0,423-0,379-0,358 0,000 0,000 0,000 0,000 RDPC 0,908 0,791 0,784 0,962 0,000 0,000 0,000 0,000 P_SERV 0,370 0,413 0,236 0,304 0,000 0,000 0,000 0,000 P_SUPER 0,698 0,692 0,543 0,658 0,000 0,000 0,000 0,000 T_LUZ 0,490 0,491 0,341 0,448 0,000 0,000 0,000 0,000 T_LIXO 0,468 0,393 0,416 0,499 0,000 0,000 0,000 0,000 T_SLUZ -0,490-0,491-0,341-0,448 0,000 0,000 0,000 0,000 T_OCUPDESLOC_1-0,547-0,457-0,519-0,577 0,000 0,000 0,000 0,000 39

40 40 pesorur -0,272-0,249-0,245-0,260 0,000 0,000 0,000 0,000 pesourb 0,149 0,147 0,091 0,157 0,000 0,000 0,000 0,000 ESPVIDA SOBRE60 E_ANOSESTUDO T_FBSUPER SOBRE60 0,635 0,000 E_ANOSESTUDO 0,441 0,190 0,000 0,000 T_FBSUPER 0,582 0,337 0,519 0,000 0,000 0,000 GINI -0,380-0,014-0,396-0,227 0,000 0,280 0,000 0,000 RDPC 0,784 0,412 0,512 0,751 0,000 0,000 0,000 0,000 P_SERV 0,236 0,220 0,115 0,343 0,000 0,000 0,000 0,000 P_SUPER 0,543 0,316 0,392 0,710 0,000 0,000 0,000 0,000 T_LUZ 0,341 0,065 0,446 0,311 0,000 0,000 0,000 0,000 T_LIXO 0,416 0,179 0,280 0,315 0,000 0,000 0,000 0,000 T_SLUZ -0,341-0,065-0,446-0,311 0,000 0,000 0,000 0,000 T_OCUPDESLOC_1-0,520-0,278-0,344-0,424 0,000 0,000 0,000 0,000 pesorur -0,245 0,039-0,264-0,184 0,000 0,004 0,000 0,000 pesourb 0,091 0,103 0,034 0,186 0,000 0,000 0,012 0,000 GINI RDPC P_SERV P_SUPER RDPC -0,274 0,000 P_SERV 0,086 0,292

41 0,000 0, P_SUPER -0,047 0,700 0,600 0,000 0,000 0,000 T_LUZ -0,444 0,386 0,145 0,237 0,000 0,000 0,000 0,000 T_LIXO -0,343 0,421 0,159 0,272 0,000 0,000 0,000 0,000 T_SLUZ 0,444-0,386-0,145-0,237 0,000 0,000 0,000 0,000 T_OCUPDESLOC_1 0,318-0,517-0,070-0,354 0,000 0,000 0,000 0,000 pesorur 0,368-0,216-0,086-0,138 0,000 0,000 0,000 0,000 pesourb 0,085 0,217 0,216 0,263 0,000 0,000 0,000 0,000 T_LUZ T_LIXO T_SLUZ T_OCUPDESLOC_1 T_LIXO 0,326 0,000 T_SLUZ -1,000-0,326 * 0,000 T_OCUPDESLOC_1-0,267-0,467 0,267 0,000 0,000 0,000 pesorur -0,193-0,184 0,193 0,209 0,000 0,000 0,000 0,000 pesourb 0,046 0,039-0,046 0,008 0,001 0,004 0,001 0,550 pesorur pesourb 0,220 0,000 Cell Contents: Pearson correlation P-Value Após análise da Tabela conclui-se que nem todas as variáveis possuem correlação significativa. Assim julgou-se necessário produzir a Tabela para evidenciar com mais clareza

42 42 as variáveis que apresentam forte relação. Ressaltamos que, o fato da presença de relação entre variáveis ser notória, não significa que as mesmas apresentam causalidade, ou seja, um sentido direto entre elas. Tabela Correlação das Variáveis Variável (y) Variável (x) Grau de Correlação IDHM_E IDHM 0,951 IDHM_L IDHM 0,852 IDHM_R IDHM_E 0,820 ESPVIDA IDHM 0,852 Fonte: Elaborado pelo Autor (2016) A Tabela apresenta as variáveis que apresentam correlação com grau acima de 0,800. As informações da referida tabela demonstram a correlação das variáveis analisadas, sendo aquelas que apresentam maior valor e P=0, pode-se dizer que são correlações com alto grau de confiabilidade. 4.2 Gráficos de Dispersão Na Figura é apresentado graficamente as correlações entre as variáveis relacionadas na Tabela Inicialmente os gráficos de dispersão devem ser analisados quanto ao seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade: Direção: A análise das correlações acima nos permite perceber que quase todas possuem associações positivas, ou seja, o crescimento de uma variável e acompanhado do crescimento da outra. A evidencia visual sugere que não há nenhuma associação negativa. Intensidade: Os gráficos acima apresentam uma relação linear, mas os gráficos que relacionam IDHM_E e IDHM possui uma relação mais forte que as demais. Forma: Os gráficos apresentam conglomerados que sugerem relações lineares, no entanto vale salientar a relação dos gráficos IDHM_R e IDHM_E; IDHM_L e IDHM que apresentam um agrupamento mais intenso. Valores Atípicos: Os gráficos indicam a existência de valores atípicos, ou seja, municípios que estão localizados longe dos demais. No caso destas variáveis não há exceção.

43 43 Scatterplot of IDHM_E vs IDHM; IDHM_L vs IDHM; IDHM_R vs IDHM_E; ESPVI IDHM_E*IDHM IDHM_L*IDHM 0,90 0,8 0,85 0,6 0,80 0,75 0,4 0,70 0,2 0,4 0,5 0,6 0,7 0,8 0,4 IDHM_R*IDHM_E 0,5 0,6 0,7 0,8 ESPVIDA*IDHM 80 0,8 75 0,6 70 0,4 65 0,2 0,4 0,6 0,8 0,4 0,5 0,6 0,7 0,8 Figura Gráfico de Dispersão das Variáveis 4.3 Dendrograma Um Dendrograma, dentr(o) = arvore, é um tipo especifico de diagrama ou representação icônica que organiza determinados fatores e variáveis. Isto quer dizer que sua representação apresenta um diagrama de similaridade. A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional. Portanto, quanto maior as proximidades entre as medidas relativas às amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo. A Tabela apresenta o resultado da análise do cluster e a Figura apresenta o dendogramaabaixo. Tabela Análise de Clusters das Variáveis Cluster Analysis of Variables: IDHM; IDHM_E; IDHM_L; IDHM_R; ESPVIDA;... Correlation Coefficient Distance, Single Linkage Amalgamation Steps Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,9990 0, ,0832 0, ,5438 0, ,4161 0,

44 Similarity ,6074 0, ,5693 0, ,5206 0, ,4978 0, ,7484 0, ,0240 0, ,9324 0, ,5288 0, ,1986 0, ,4197 0, ,9213 0, ,1733 0, ,9778 0, Dendrogram Single Linkage; Correlation Coefficient Distance 60,98 73,99 86,99 100,00 IDHM IDHM_E IDHM_R RDPC IDHM_L ESPVIDA T_FBSUPER E_A NOSESTUDO P_SUPER SOBRE60 Variables Figura Dendograma das Variáveis P_SERV T_LIXO T_LUZ pesourb GINI T_SLUZ pesorur T_OCUPDESLOC_1 Observa-se no Dendrograma que as variáveis com maior correlação são IDHM_L com ESPVIDA e IDHM_R com RDPC. As demais variáveis relacionam-se entre si confirmando as análises anteriores. CAPÍTULO V. ANÁLISE DE TENDÊNCIAS A análise de tendências ajusta um modelo de tendência geral para dados de séries temporais e fornece previsões. É possível escolher entre os modelos de tendência linear, quadrático, crescimento ou decrescimento exponencial e de curva S. Este procedimento é usado para ajustar uma tendência quando os dados tiverem uma tendência muito consistente e nenhuma sazonalidade.

45 45 Para este procedimento foi necessário buscar um novo banco de dados que nos fornecesse as séries históricas sobre o tema educação, assim, nos apoiamos no banco de dados das séries históricas do Instituto Brasileiro de Geografia e Estatística (IBGE). 5.1 Variáveis utilizadas pela Séries Históricas do IBGE Abaixo, no Quadro 5.1.1, a lista de indicadores utilizados nas séries históricas do IBGE. Os indicadores que contém as variáveis selecionadas para a análise deste estudo estão destacadas em negrito e itálico. Quadro Lista de Indicadores Utilizados nas Séries Históricas do IBGE Nº Indicadores 1 Agropecuária 2 Atividade industrial indústrias extrativa e de transformação 3 Comercio 4 Crianças, adolescentes e jovens 5 Desenvolvimento sustentável indicadores ambientais e sociais 6 Educação 7 Famílias e domicílios 8 Índice de preços 9 Mercado e força de trabalho 10 População e demografia 11 Saúde recursos e cobertura vacinal e mortalidade 12 Sistemas de contas nacionais Fonte: IBGE (2017) 5.2 Variáveis As variáveis são as características estudas de um determinado fenômeno. As variáveis podem ter tipos diferentes: qualitativas (não numéricas ou categóricas) e quantitativas (numérica). As variáveis quantitativas podem ser discretas, assumem apenas valores inteiros (ex.: número de irmãos, número de filhos, etc.); ou contínuas, assumem qualquer valor no intervalo dos números reais (ex.: peso, altura, etc.). As variáveis qualitativas podem ser nominais, quando as categorias não possuem uma ordem natural (ex.: nomes, cores, sexo, etc.); ou ordinais, quando as categorias podem ser ordenadas (ex.: tamanho pequeno, médio, grande; grau de instrução básico, médio, graduação, entre outros). Nosso estudo selecionou de forma aleatória 3 variáveis, incluindo o ano que se refere ao período. No Quadro 5.2.1, descrevemos e explicamos cada variável. Quadro Definição das Variáveis ANO VARIÁVEL SIGNIFICADO TIPO Trata-se do ano a que se refere o dado de cada variável. Qualitativa UNIDADE DE MEDIDA Formato: AAAA

46 ESCPOPECOATV15 ALFABET POPRESI Escolaridade da população economicamente ativa com 10 anos ou mais, que possuem 15 anos ou mais de educação e instrução. É uma variável do indicador mercado e força de trabalho. Alfabetização das pessoas de 10 anos ou mais de idade, com 15 anos ou mais de educação e instrução. A variável refere-se a alfabetização e instrução do indicador de educação. População residente no Brasil. A variável refere-se a características gerais da população do indicador de população e demografia. Fonte: IBGE (2017). Quantitativa Quantitativa Quantitativo 46 Números de Pessoas/anos de estudo Número de Pessoas/anos de estudo Números de pessoas 5.3 Dados Os dados são as informações de cada variável que caracterizam os indicadores que constituem a população do estudo. Os dados devem ser analisados e interpretados com auxílio de métodos estatísticos. Os dados deste estudo foram obtidos da base de dados dos estudos anteriores da própria Séries Históricas do IBGE, não foi necessário atualizar nenhum ano do período definido. As três séries de dados podem ser consideradas satisfatórias para a realização deste estudo, uma vez que todas possuem dados de 10 anos ininterruptos. Abaixo na Tabela 5.3.1, segue a apresentação dos dados das variáveis selecionadas para este estudo. Tabela Série histórica de dados das variáveis selecionadas Período (Ano) ESCPOPECOATV15 (Nº de Pessoas/Anos ALFABET15 (Nº de Pessoas/Anos POPRESI (Número de Pessoas) de estudo) de Estudo) Fonte: Elaborado pelo autor (IBGE, 2017)

47 ESCPOPECOATV15 ESCPOPECOATV15 ESCPOPECOATV15 ESCPOPECOATV Variável: ESCPOPECOATV15 (Unidade 1000 pessoas) Esta variável mede a escolaridade das pessoas economicamente ativa com 10 anos ou mais com 15 anos ou mais de educação e instrução. A unidade de medida é 1000 pessoas, ou seja, multiplica-se por mil o número de pessoas para compreender o valor absoluto Análise de tendência A análise de tendência desta série de dados encontrou a função (linear, quadrática, exponencial e s-curve) e identificou-se aquela que melhor a representa. Para medir a eficiência da função ou da curva de tendência, analisamos os erros: MAPE (Mean Average Percentual Error), MAD (Mean Absolute Deaviation) e MSD (Mean Standard Deviation). Abaixo, na Figura , apresentamos os gráficos qual inclui-se a função, a linha de tendência que representa cada função e os três tipos de erros possíveis Trend Analysis Plot for ESCPOPECOATV15 Linear Trend Model Yt = *t Variable Actual Fits Forecasts Accuracy Measures MAPE 3,4 MAD 252,9 MSD 87580, Trend Analysis Plot for ESCPOPECOATV15 Quadratic Trend Model Yt = 5308, ,3*t + 39,76*t**2 Variable Actual Fits Forecasts Accuracy Measures MAPE 0,85 MAD 59,50 MSD 4121, Index Index Trend Analysis Plot for ESCPOPECOATV15 Growth Curve Model Yt = 4921,46 * (1,07964**t) Variable Actual Fits Forecasts Accuracy Measures MAPE 1,4 MAD 109,8 MSD 20151, Trend Analysis Plot for ESCPOPECOATV15 S-Curve Trend Model Yt = (10**5) / (-661, ,428*(0,998519**t)) Variable Actual Fits Forecasts Curve Parameters Intercept 5225,55 Asymptote -151,22 Asym. Rate 1,00 Accuracy Measures MAPE 0,70 MAD 51,31 MSD 3945, Index Index Figura Análise Comparativa de Tendências dos Gráficos da Variável ESCPOPECOATV15 Para melhor visualizar qual é o menor erro da função para representar a série de dados analisados, foi produzido a Tabela que compara os três tipos de erros para cada uma das quatro funções. Tabela Tipos de Erros em Relação a cada Função LINEAR QUADRÁTICA EXPONENCIAL S-CURVE MAPE 3,4 0,85 1,4 0,70 MAD 252,9 59,50 109,8 51,31 MSD , , , ,66 Fonte: Elaborado pelo autor

48 48 Analisando comparativamente os três tipos de erros para cada uma das funções, conforme destacado, a função S-curve é a que melhor se adapta à nossa série de dados ESCPOPECOATV15, uma vez que possui os menores valores para os três tipos de erro. Isto posto, a função S-curve será utilizada para as projeções dos próximos 10 anos ( ) Previsões Utilizando a equação da função S-curve apresentada tanto na Figura , quanto na Tabela , temos os seguintes valores previstos, na Tabela , para os próximos 10 anos em relação a escolaridade da população economicamente ativa com 10 anos ou mais de idade, com 15 anos ou mais de tempo de estudo. Tabela Tendência para a variável ESCPOPECOATV15 PERIOD FORECAST Os valores acima podem ser melhor ilustrados na Figura

49 ESCPOPECOATV15 49 Trend Analysis Plot for ESCPOPECOATV15 S-Curve Trend Model Yt = (10**5) / (-661, ,428*(0,998519**t)) Variable Actual Fits Forecasts Curve Parameters Intercept 5225,55 Asymptote -151,22 Asym. Rate 1,00 Accuracy Measures MAPE 0,70 MAD 51,31 MSD 3945, Index Figura Análise de Tendência para ESCPOPECOATV15, função S-Curve Pode-se observar que os valores previstos para a variável analisada seguem a tendência de crescimento da série histórica, entretanto, a partir do sétimo ano há um crescimento exponencial seguido por uma queda drástica no último ano projetado para a série futura. Ressaltamos que, esta previsão foi efetuada somente com base nos valores da série histórica da própria variável. Ou seja, é provável que a metodologia empregada possui alguma deficiência, pois, há uma relação entre IDHM e educação, renda e educação, entre outros, que não foram considerados neste estudo. Assim, o uso da técnica de regressão múltiplas, talvez poderia ser mais adequada neste estudo de previsão. Além disso a frequência das mudanças continuas e profundas, que ocorrem em diversos contextos brasileiros podem destruir qualquer exercício de previsão. 5.5 Variável: ALFABET15 (Unidade 1000 pessoas) Esta variável mede a escolaridade das pessoas com 10 anos ou mais, com 15 anos ou mais de educação e instrução. A unidade de medida é 1000 pessoas, ou seja, multiplica-se por mil o número de pessoas para compreender o valor absoluto Análise de tendência A análise de tendência desta série de dados encontrou a função (linear, quadrática, exponencial e s-curve) e identificou-se aquela que melhor a representa. Para medir a eficiência da função ou da curva de tendência, analisamos os erros: MAPE (Mean Average Percentual Error), MAD (Mean Absolute Deaviation) e MSD (Mean Standard Deviation). Abaixo, na Figura , apresentamos os gráficos qual inclui-se a função, a linha de tendência que representa cada função e os três tipos de erros possíveis.

50 ALFABET15 ALFABET15 ALFABET15 ALFABET15 50 Trend Analysis Plot for ALFABET15 Linear Trend Model Yt = *t Trend Analysis Plot for ALFABET15 Quadratic Trend Model Yt = ,7*t + 52,15*t** Variable Actual Fits Forecasts Accuracy Measures MAPE 4 MAD 324 MSD Variable Actual Fits Forecasts Accuracy Measures MAPE 1,1 MAD 97,9 MSD 11686, Index Index Trend Analysis Plot for ALFABET15 Growth Curve Model Yt = 5964,17 * (1,08116**t) Variable Actual Fits Forecasts Accuracy Measures MAPE 1,5 MAD 146,2 MSD 41196, Trend Analysis Plot for ALFABET15 S-Curve Trend Model Yt = (10**5) / (532, ,235*(1,00159**t)) Variable Actual Fits Forecasts Curve Parameters Intercept 95,222 Asymptote 187,637 Asym. Rate 1, Accuracy Measures MAPE 0,80 MAD 69,13 MSD 6349, Index Index Figura Análise Comparativa de Tendências dos Gráficos da Variável ALFABET15 Para melhor visualizar qual é o menor erro da função para representar a série de dados analisadas, foi produzido a Tabela que compara os três tipos de erros para cada uma das quatro funções. Tabela Tipos de Erros em Relação a cada Função da variável ALFABET15 LINEAR QUADRÁTICA EXPONENCIAL S-CURVE MAPE 4 1,1 1,5 0,80 MAD ,9 146,2 69,13 MSD , , ,41 Fonte: Elaborado pelo autor Analisando comparativamente os três tipos de erros para cada uma das funções, conforme destacado, a função S-curve é a que melhor se adapta à nossa série de dados ALFABET15, uma vez que possui os menores valores para os três tipos de erro. Isto posto, a função S-curve será utilizada para as projeções dos próximos 10 anos ( ) Previsões Utilizando a equação da função S-curve apresentada tanto na Figura , quanto na Tabela , temos os seguintes valores previstos, na Tabela , para os próximos 10 anos em relação a escolaridade da população economicamente ativa com 10 anos ou mais de idade, com 15 anos ou mais de tempo de estudo.

51 ALFABET15 Tabela Tendência para a variável ALFABET15 PERIOD FORECAST Os valores acima podem ser melhor ilustrados na Figura Trend Analysis Plot for ALFABET15 S-Curve Trend Model Yt = (10**5) / (532, ,235*(1,00159**t)) Variable Actual Fits Forecasts Curve Parameters Intercept 95,222 Asymptote 187,637 Asym. Rate 1, Accuracy Measures MAPE 0,80 MAD 69,13 MSD 6349, Index Figura Análise de Tendência para ALFABET15, função S-Curve Pode-se observar que os valores previstos para a variável analisada seguem a tendência de crescimento da série histórica, entretanto, a partir do quinto ano há um crescimento maior do que o padrão dos anos anteriores, seguido por uma queda drástica no penúltimo ano projetado para a série futura e um novo crescimento no último ano projetado para a série futura. Ressaltamos que, esta previsão foi efetuada somente com base nos valores da série histórica da própria variável. Ou seja, é provável que a metodologia empregada possui alguma deficiência, pois, há uma relação entre IDHM_E e educação, renda e educação, entre outros, que não foram considerados neste estudo. Assim, o uso da técnica de regressão múltiplas, talvez poderia ser mais adequada neste estudo de

52 POPRESI POPRESI POPRESI POPRESI 52 previsão. Além disso a frequência das mudanças continuas e profundas, que ocorrem em diversos contextos brasileiros podem destruir qualquer exercício de previsão. 5.6 Variável: POPRESI (Unidade 1000 pessoas) Esta variável mede a população residente no Brasil. A unidade de medida é 1000 pessoas, ou seja, multiplica-se por mil o número de pessoas para compreender o valor absoluto Análise de tendência A análise de tendência desta série de dados encontrou a função (linear, quadrática, exponencial e s-curve) e identificou-se aquela que melhor a representa. Para medir a eficiência da função ou da curva de tendência, analisamos os erros: MAPE (Mean Average Percentual Error), MAD (Mean Absolute Deaviation) e MSD (Mean Standard Deviation). Abaixo, na Figura , apresentamos os gráficos qual inclui-se a função, a linha de tendência que representa cada função e os três tipos de erros possíveis Trend Analysis Plot for POPRESI Linear Trend Model Yt = *t Variable Actual Fits Forecasts Trend Analysis Plot for POPRESI Quadratic Trend Model Yt = *t - 105,5*t**2 Variable Actual Fits Forecasts Accuracy Measures MAPE 1 MAD 1023 MSD Accuracy Measures MAPE 0 MAD 751 MSD Index Index Trend Analysis Plot for POPRESI Growth Curve Model Yt = * (1,01479**t) Variable Actual Fits Forecasts Accuracy Measures MAPE 1 MAD 1133 MSD Trend Analysis Plot for POPRESI S-Curve Trend Model Yt = (10**6) / (4, ,19592*(0,859253**t)) Variable Actual Fits Forecasts Curve Parameters Intercept Asymptote Asym. Rate 1 Accuracy Measures MAPE 0 MAD 813 MSD Index Index Figura Análise Comparativa de Tendências dos Gráficos da Variável POPRESI Para melhor visualizar qual é o menor erro da função para representar a série de dados analisadas, foi produzido a Tabela que compara os três tipos de erros para cada uma das quatro funções.

53 Tabela Tipos de Erros em Relação a cada Função da variável ALFABET15 LINEAR QUADRÁTICA EXPONENCIAL S-CURVE MAPE MAD MSD Fonte: Elaborado pelo autor Analisando comparativamente os três tipos de erros para cada uma das funções, conforme destacado, a função Quadrática é a que melhor se adapta à nossa série de dados POPRESI, uma vez que possui os menores valores para os três tipos de erro. Isto posto, a função S-curve será utilizada para as projeções dos próximos 10 anos ( ) Previsões Utilizando a equação da função S-curve apresentada tanto na Figura , quanto na Tabela , temos os seguintes valores previstos, na Tabela , para os próximos 10 anos em relação a escolaridade da população economicamente ativa com 10 anos ou mais de idade, com 15 anos ou mais de tempo de estudo. Tabela Tendência para a variável POPRESI PERIOD FORECAST Os valores acima podem ser melhor ilustrados na Figura

54 POPRESI 54 Trend Analysis Plot for POPRESI Quadratic Trend Model Yt = *t - 105,5*t** Variable Actual Fits Forecasts Accuracy Measures MAPE 0 MAD 751 MSD Index Figura Análise de Tendência para POPRESI, função S-Curve Pode-se observar que os valores previstos para a variável analisada não seguem o padrão da tendência de crescimento da série histórica, a partir do nono ano há uma queda, o que significa a diminuição da população residente no Brasil. Ressaltamos que, esta previsão foi efetuada somente com base nos valores da série histórica da própria variável. Ou seja, é provável que a metodologia empregada possui alguma deficiência, pois, há uma relação entre IDHM e População, renda e demografia, entre outros, que não foram considerados neste estudo. Assim, o uso da técnica de regressão múltiplas, talvez poderia ser mais adequada neste estudo de previsão. Além disso a frequência das mudanças continuas e profundas, que ocorrem em diversos contextos brasileiros podem destruir qualquer exercício de previsão. CAPÍTULO VI. REGRESSÃO LINEAR 6.1 Relações entre variáveis Ao se estudar a relação entre duas ou mais variáveis, devemos mensura-las nos mesmos indivíduos. Destaque-se a importância ao fato que a relação entre duas variáveis pode ser fortemente influenciada por outras variáveis ocultas em um determinado contexto. A associação entre duas variáveis é encontrada quando, os valores de uma variável mensurada sobre os mesmos indivíduos, tendem a ocorrer com maior frequência juntamente com alguns valores de outra variável e não simplesmente quaisquer outros valores. Ao estudarmos a relação entre variáveis é importante ter clareza quanto ao objetivo. Este, pode ser entendido como apenas explorar a natureza da relação, ou também, demonstrar que uma das

55 55 variáveis pode explicar variações na outra. Isso nos remete a prever a possibilidade da existência de dois tipos de variáveis: (1) variável explanatória; (2) variável-resposta. A primeira explica as variáveis-resposta ou causa modificações nela, enquanto que a segunda, mede um resultado de um estudo. Embora muitas pesquisas demostrem que variações em uma ou mais variáveis explanatórias causam variações em uma variável-resposta, nem todas as relações explanatória-resposta envolvem causação direta. Costumeiramente as variáveis explanatórias são chamadas de variáveis independente, e as variáveis-resposta são chamadas de variáveis dependente. Logo, entende-se que as variáveis-resposta dependem das variáveis explanatórias. Uma consideração importante, é que, na estatística as palavras independente e dependente possuem outros significados não relacionados com a distinção entre explanatória e resposta. Assim, julga-se necessário, certo cuidado com o emprego das palavras. 6.2 Apresentação de relações entre variáveis Hoje, com o aparecimento exponencial de tecnologias aplicadas a diversos fins, é comum encontrar novas formas de apresentação de dados e informações. Talvez, não exista o melhor caminho, mas um caminho melhor para demonstrar a relação entre variáveis quantitativas, o gráfico diagrama de dispersão. Este mostra a relação duas variáveis quantitativas medidas sobre os mesmos indivíduos. No eixo horizontal aparecem os valorem de uma das variáveis, logo, no eixo vertical estão dispostos os valores da outra variável. O indivíduo é identificado pelo do no gráfico definido pelos valores de ambas variáveis. No eixo horizontal (eixo x) usa-se sempre variável explanatória, enquanto que no eixo vertical (eixo y) usa-se a variável-resposta. Caso não haja distinção entre as variáveis elas podem ocupar quaisquer eixos. Como em qualquer gráfico de dados, examinamos o diagrama de dispersão procurando o padrão geral e os desvios. Podemos descrever o padrão geral enquanto sua forma, direção e intensidade. Um outlier é um tipo importante de desvio, ou seja, um valor individual que se situa fora do padrão geral. A associação entre as variáveis pode ser positiva ou negativa. Na primeira, os valores acima de média de uma delas tendem a acompanhar valores acima da média da outra e mesmo para os valores abaixo da média. Na segunda, os valores acima da média de uma delas acompanham os valores abaixo da média da outra, e vice-versa. A intensidade de uma relação em um diagrama de dispersão é determinada pela proximidade dos pontos a uma forma definida. A intensidade é forte quando os pontos mostram uma dispersão modesta em relação ao padrão, neste caso temos uma relação linear moderadamente forte. Ao contrario teríamos uma relação fraca.

56 6.3 Correlação, Regressão, Gráficos de Dispersão e Dendograma Para encontrar as relações entre vaiáveis, assumiu-se como variável-resposta o IDHM_E, para as variáveis explanatórias utilizou-se as demais variáveis deste estudo exceto as seguintes variáveis IDHM, IDHM_R, e IDHM_L, para não permitir nenhum viés ao estudo. Na Tabela pode se observar a equação encontrada, nota-se a exclusão da variável T_SLUZ. Tabela Analise de Regressão para variável-resposta IDHM_E Regression Analysis: IDHM_E versus ESPVIDA; SOBRE60;... * T_SLUZ is highly correlated with other X variables * T_SLUZ has been removed from the equation. 56 The regression equation is IDHM_E = - 0, ,00356 ESPVIDA + 0, SOBRE60 + 0,0284 E_ANOSESTUDO + 0, T_FBSUPER - 0,232 GINI + 0, RDPC + 0,00176 P_SERV + 0,00409 P_SUPER + 0, T_LUZ - 0, T_LIXO + 0, T_OCUPDESLOC_1 + 0, pesorur - 0, pesourb Predictor Coef SE Coef T P Constant -0, , ,92 0,000 ESPVIDA 0, , ,61 0,000 SOBRE60 0, , ,43 0,015 E_ANOSESTUDO 0, , ,90 0,000 T_FBSUPER 0, , ,04 0,000 GINI -0, , ,39 0,000 RDPC 0, , ,97 0,000 P_SERV 0, , ,97 0,000 P_SUPER 0, , ,35 0,000 T_LUZ 0, , ,91 0,000 T_LIXO -0, , ,93 0,003 T_OCUPDESLOC_1 0, , ,86 0,389 pesorur 0, , ,17 0,000 pesourb -0, , ,04 0,000 S = 0, R-Sq = 83,5% R-Sq(adj) = 83,5% Analysis of Variance Source DF SS MS F P Regression 13 40,4677 3, ,28 0,000 Residual Error ,9951 0,0014 Total ,4628 Source DF Seq SS ESPVIDA 1 24,0459 SOBRE60 1 0,4602 E_ANOSESTUDO 1 9,2447

57 T_FBSUPER 1 2,3746 GINI 1 0,1860 RDPC 1 1,5621 P_SERV 1 2,0658 P_SUPER 1 0,3146 T_LUZ 1 0,1151 T_LIXO 1 0,0156 T_OCUPDESLOC_1 1 0,0011 pesorur 1 0,0585 pesourb 1 0, Em busca da melhor equação para definir as variáveis que mais explicam a variável IDHM_E, realizou a análise de regressão passo a passo. A Tabela demonstra os resultados. As variáveis relevantes para a explicar a variável-resposta são: RDPC, E_ANOESTUDO, P_SERV, GINI, P_SUPER, e ESPEVIDA. Tabela Análise de Regressão Passo a Passo para a variável-resposta IDHM_E Stepwise Regression: IDHM_E versus ESPVIDA; SOBRE60;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is IDHM_E on 14 predictors, with N = 5565 Step Constant 0, , , , , ,04266 RDPC 0, , , , , ,00012 T-Value 96,56 74,58 69,50 69,38 45,25 28,94 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 E_ANOSESTUDO 0, , , , ,02991 T-Value 53,21 59,77 52,26 50,53 51,38 P-Value 0,000 0,000 0,000 0,000 0,000 P_SERV 0, , , ,00179 T-Value 33,73 39,72 24,09 23,84 P-Value 0,000 0,000 0,000 0,000 GINI -0,2339-0,2594-0,2292 T-Value -25,97-29,08-25,03 P-Value 0,000 0,000 0,000 P_SUPER 0, ,00420 T-Value 16,71 16,72 P-Value 0,000 0,000 ESPVIDA 0,00389 T-Value 12,03 P-Value 0,000

58 58 S 0,0571 0,0465 0,0423 0,0400 0,0390 0,0385 R-Sq 62,63 75,24 79,44 81,67 82,54 82,99 R-Sq(adj) 62,62 75,23 79,43 81,65 82,53 82,97 Step Constant -0, , , , , ,03925 RDPC 0, , , , , ,00012 T-Value 27,42 27,65 24,34 24,67 24,92 25,00 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 E_ANOSESTUDO 0, , , , , ,02843 T-Value 48,36 49,02 47,17 47,05 47,03 46,89 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 P_SERV 0, , , , , ,00177 T-Value 22,57 23,16 23,24 23,54 23,75 23,28 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 GINI -0,2036-0,2229-0,2196-0,2200-0,2258-0,2314 T-Value -21,22-22,43-22,07-22,14-22,40-22,38 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 P_SUPER 0, , , , , ,00407 T-Value 17,41 17,41 14,96 15,23 15,15 15,33 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 ESPVIDA 0, , , , , ,00352 T-Value 12,51 12,78 13,00 12,56 12,80 8,57 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 T_SLUZ -0, , , , , ,00092 T-Value -8,46-8,24-8,40-8,43-8,74-8,91 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 pesorur 0, , , , ,00000 T-Value 7,04 6,99 7,75 7,73 7,20 P-Value 0,000 0,000 0,000 0,000 0,000 T_FBSUPER 0, , , ,00033 T-Value 4,30 4,28 4,24 4,00 P-Value 0,000 0,000 0,000 0,000 pesourb -0, , ,00000 T-Value -3,85-3,93-3,98 P-Value 0,000 0,000 0,000 T_LIXO -0, ,00018 T-Value -3,35-3,31 P-Value 0,001 0,001 SOBRE60 0,00064

59 T-Value 2,40 P-Value 0, S 0,0383 0,0381 0,0380 0,0380 0,0380 0,0380 R-Sq 83,20 83,35 83,41 83,45 83,48 83,50 R-Sq(adj) 83,18 83,33 83,38 83,42 83,45 83,46 Considerando que a análise de regressão passo a passo nos permitiu verificar as variáveis relevantes para explicar a variável-resposta IDHM_E explicam 83% da variável, realizamos o procedimento de análise exploratória dos dados, que pode ser observado na Tabela Tabela Análise Descritiva Descriptive Statistics: IDHM; RDPC; E_ANOSESTUDO; P_SERV; GINI; P_SUPER;... Variable N N* Mean SE Mean StDev Minimum Q1 Median IDHM , , , , , ,66500 RDPC ,61 3,26 243,27 96,25 281,09 467,65 E_ANOSESTUDO ,4636 0,0147 1,0983 4,3400 8,7500 9,4700 P_SERV ,458 0,119 8,889 8,500 26,125 31,890 GINI , , , , , ,49000 P_SUPER ,0356 0,0483 3,6051 0,3200 4,5600 6,4000 ESPVIDA ,089 0,0359 2,681 65,300 71,150 73,470 Variable Q3 Maximum IDHM 0, ,86200 RDPC 650, ,74 E_ANOSESTUDO 10, ,8300 P_SERV 38,010 78,230 GINI 0, ,80000 P_SUPER 8, ,5300 ESPVIDA 75,160 78,640 Na Tabela observa-se que não houve ocorrência de NI valores não informados, considerando o total N. Assim, não houve a necessidade de atualizar nenhum dos dados. Para analisar a dispersão dos dados realizamos o procedimento para gerar gráficos de diagramas de dispersão considerando a variável-resposta IDHM_E contra cada uma das variáveis explanatórias. Na Figura observamos o resultado gráfico.

60 60 Scatterplot of IDHM_E vs RDPC; E_ANOSESTUDO; P_SERV; GINI;... RDPC E_ANOSESTUDO P_SERV 1,0 0,8 0,6 IDHM_E 0,4 0, GINI P_SUPER ESPVIDA 1,0 0,8 0,6 0,4 0,2 0,4 0,6 0, Figura Diagrama de Dispersão para IDHM_E vs RDPC ; E_ANOESTUDO ; P_SERV ; GINI ; P_SUPER ; ESPVIDA. Segue breve análise dos gráficos de dispersão: Direção: Grande parte das dispersões acima nos permitem verificar um padrão linear na maioria dos gráficos, demonstrando uma maior acentuação na parte superior. Nos mostrando que há uma relação, ao menos de evidência visual. Em muitos casos o aumento de X é acompanhado pelo o aumento moderado de Y, exceto na combinação do IDHM_E contra GINI, qual a associação é negativa resultando em uma diminuição de e um aumento moderado em Y. Intensidade: A intensidade de uma relação linear é mais facilmente observada mediante o cálculo de índices de correlação, que veremos mais adiante. Alguns gráficos acima parecem indicar a existência de relações lineares. Forma: De maneira visual apenas, os gráficos acima parecem denotar forma linear crescente. Valores Atípicos: Alguns gráficos indicam a existência de valores atípicos, ou seja, indivíduos ou municípios, que estão localizados longe dos demais. Isto pode ser verificado também na análise exploratória que vimos no item anterior. Prosseguindo, realizamos um novo procedimento de análise de regressão, eliminando as variáveis irrelevantes tanto para correlação quanto para a explicação. O resultado nos permitiu produzir a Tabela 6.3.4, demonstrando os resultados da análise de regressão apenas com as variáveis explanatórias mais relevante para explicar a variável-resposta. Tabela Análise de Regressão para variável-resposta IDHM_E vs. Variáveis Explanatórias Regression Analysis: IDHM_E versus RDPC; E_ANOSESTUDO;... The regression equation is IDHM_E = - 0, , RDPC + 0,0299 E_ANOSESTUDO + 0,00179 P_SERV - 0,229 GINI + 0,00420 P_SUPER + 0,00389 ESPVIDA

61 61 Predictor Coef SE Coef T P Constant -0, , ,71 0,087 RDPC 0, , ,94 0,000 E_ANOSESTUDO 0, , ,38 0,000 P_SERV 0, , ,84 0,000 GINI -0, , ,03 0,000 P_SUPER 0, , ,72 0,000 ESPVIDA 0, , ,03 0,000 S = 0, R-Sq = 83,0% R-Sq(adj) = 83,0% Analysis of Variance Source DF SS MS F P Regression 6 40,2172 6, ,11 0,000 Residual Error ,2456 0,0015 Total ,4628 Source DF Seq SS RDPC 1 30,3521 E_ANOSESTUDO 1 6,1092 P_SERV 1 2,0385 GINI 1 1,0780 P_SUPER 1 0,4247 ESPVIDA 1 0,2147 Nota-se que no resultado identificamos associações positivas e negativas. Para análise das condições inferência, observa-se a Figura Neste caso a equação encontrada temos: 1. Os p-values menores do que 0,10 indicam que uma há significativa evidencia da existência de uma relação. 2. A Figura demonstra os gráficos que permitem verificar se uma série de condições estão sendo atendidas. Alguns apontamentos sobre os gráficos: O gráfico Normal Plot Vs Residual nos demonstra uma distribuição praticamente linear, o que é compatível com uma distribuição normal. O Histograma também parece demonstrar uma distribuição aproximadamente simétrica e normal. A forma de distribuição ao longo da reta parece ser igual ao longo da reta de regressão, com exceção de alguns outliers no começo (0,2) e no final (1,0).

62 Similarity Frequency Residual Percent Residual 62 Residual Plots for IDHM_E 99,99 Normal Probability Plot 0,2 Versus Fits ,1 0,0-0,1 0,01-0,2-0,1 0,0 Residual 0,1 0,2-0,2 0,2 0,4 0,6 Fitted Value 0,8 1,0 300 Histogram 0,2 Versus Order ,135-0,090-0,045 0,000 0,045 0,090 Residual 0,135 0,180 0,1 0,0-0,1-0, Observation Order Figura Análise das Condições de Inferência Como um último procedimento produzimos um dendograma, Figura 6.3.3, para análise dos agrupamentos de variáveis. A análise do dendograma nos permite estimar a possibilidade de juntar ou agrupar variáveis mediante, a por exemplo formação de índice que a represente. Dendrogram Single Linkage; Correlation Coefficient Distance 54,28 69,52 84,76 100,00 IDHM_E RDPC ESPVIDA E_ANOSESTUDO Variables P_SUPER P_SERV GINI Figura Dendograma de Link Simples e Distância do Coeficiente de Correlação 6.4 Síntese dos resultados Para encontrar a melhor equação tanto para a explicação quanto para relação, foi realizada uma série de procedimentos. A melhor equação foi encontrada na Tabela 5.3.2, que utilizou a equação

63 63 da Tabela Com isso realizou-se outro procedimento de regressão linear para obter a seguinte equação confirmando o R-Quadrado: IDHM_E = - 0, , RDPC + 0,0299 E_ANOSESTUDO + 0,00179 P_SERV - 0,229 GINI + 0,00420 P_SUPER + 0,00389 ESPVIDA Este procedimento de regressão tem poder explicativo de 82% e análise das condições de inferência sugerem que podemos utilizar esta equação para a predição do IDHM_E. O alto valor do R-Quadrado com o tipo de dados, que são relacionados a renda, anos de estudo, Índice Gini, emprego e expectativa de vida. CAPÍTULO VII. TESTE DE COMPARAÇÕES O teste de comparações de variância testa a igualdade de variância entre populações e níveis de fator. O procedimento de estatístico como a análise de variância (ANOVA) supõe que embora diferentes amostras possam vir de populações com médias diferentes, elas têm a mesma variância. Nesta etapa do trabalho nosso objetivo é comparar as diversas variáveis selecionadas para o estudo em relação as regiões do Brasil. 7.1 Análise de Variância Cada variável foi separada por região, ou seja, os dados de cada variável serão comparados com cada uma das regiões do Brasil: Norte, Nordeste, Centro-Oeste, Sul e Sudeste. Para fase inicial desta etapa realizou-se o procedimento de testes de comparações com todas as variáveis em busca do melhor número de F e P. Na Tabela temos a visão geral dos testes. Tabela Testes de Comparações: Variáveis por Região One-way ANOVA: IDHM versus REGIÃO Source DF SS MS F P REGIÃO 4 16, , ,32 0,000 Error , ,00226 Total ,84160 S = 0,04759 R-Sq = 56,35% R-Sq(adj) = 56,32% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO 466 0, ,03729 (*) N 449 0, ,06016 (-*) NE , ,04327 (* S , ,04159 (*) SE , ,05428 (* ,595 0,630 0,665 0,700

64 64 Pooled StDev = 0,04759 One-way ANOVA: IDHM_E versus REGIÃO Source DF SS MS F P REGIÃO 4 18, , ,41 0,000 Error , ,00533 Total ,46282 S = 0,07299 R-Sq = 38,89% R-Sq(adj) = 38,84% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO 466 0, ,06015 (-*-) N 449 0, ,09066 (-*-) NE , ,06579 (*) S , ,06520 (*) SE , ,08287 (*) ,490 0,525 0,560 0,595 Pooled StDev = 0,07299 One-way ANOVA: IDHM_L versus REGIÃO Source DF SS MS F P REGIÃO 4 6, , ,02 0,000 Error , ,00075 Total ,10785 S = 0,02737 R-Sq = 62,51% R-Sq(adj) = 62,49% Level N Mean StDev CO 466 0, ,01846 N 449 0, ,02871 NE , ,03016 S , ,02616 SE , ,02674 Individual 95% CIs For Mean Based on Pooled StDev Level CO (*) N (*) NE (* S *) SE *) ,775 0,800 0,825 0,850 Pooled StDev = 0,02737

65 65 One-way ANOVA: IDHM_R versus REGIÃO Source DF SS MS F P REGIÃO 4 21, , ,16 0,000 Error , ,00256 Total ,20108 S = 0,05063 R-Sq = 60,64% R-Sq(adj) = 60,61% Level N Mean StDev CO 466 0, ,04285 N 449 0, ,06194 NE , ,04611 S , ,04419 SE , ,05769 Individual 95% CIs For Mean Based on Pooled StDev Level CO (*) N (*) NE (* S *) SE *) ,560 0,600 0,640 0,680 Pooled StDev = 0,05063 One-way ANOVA: ESPVIDA versus REGIÃO Source DF SS MS F P REGIÃO , , ,02 0,000 Error ,57 2,70 Total ,19 S = 1,642 R-Sq = 62,52% R-Sq(adj) = 62,50% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ,340 1,108 (*) N ,818 1,724 (*) NE ,255 1,809 *) S ,116 1,570 (* SE ,686 1,604 (* ,5 72,0 73,5 75,0 Pooled StDev = 1,642

66 One-way ANOVA: SOBRE60 versus REGIÃO 66 Source DF SS MS F P REGIÃO , ,99 145,68 0,000 Error ,36 6,87 Total ,30 S = 2,621 R-Sq = 9,49% R-Sq(adj) = 9,42% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ,292 1,618 (--*--) N ,826 2,800 (--*--) NE ,195 3,065 (*-) S ,682 2,254 (-*-) SE ,268 2,522 (*-) ,40 83,20 84,00 84,80 Pooled StDev = 2,621 One-way ANOVA: E_ANOSESTUDO versus REGIÃO Source DF SS MS F P REGIÃO , , ,22 0,000 Error ,347 0,877 Total ,273 S = 0,9362 R-Sq = 27,39% R-Sq(adj) = 27,33% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO 466 9,518 0,983 (*-) N 449 8,559 1,284 (-*-) NE ,934 0,792 (*) S ,342 0,861 (*) SE ,636 1,004 (*) ,50 9,00 9,50 10,00 Pooled StDev = 0,936 One-way ANOVA: T_FBSUPER versus REGIÃO Source DF SS MS F P REGIÃO , ,7 553,72 0,000 Error ,7 77,1 Total ,5 S = 8,783 R-Sq = 28,49% R-Sq(adj) = 28,44%

67 67 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ,791 10,030 (-*-) N ,294 8,295 (-*-) NE ,802 6,595 (*) S ,955 9,916 (*-) SE ,818 9,693 (*) ,0 20,0 24,0 28,0 Pooled StDev = 8,783 One-way ANOVA: GINI versus REGIÃO Source DF SS MS F P REGIÃO 4 6, , ,84 0,000 Error , ,00313 Total ,29159 S = 0,05597 R-Sq = 28,31% R-Sq(adj) = 28,26% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO 466 0, ,05970 (-*-) N 449 0, ,06364 (*-) NE , ,04942 (*) S , ,06177 (*) SE , ,05496 (*) ,480 0,510 0,540 0,570 Pooled StDev = 0,05597 One-way ANOVA: RDPC versus REGIÃO Source DF SS MS F P REGIÃO ,18 0,000 Error Total S = 171,1 R-Sq = 50,59% R-Sq(adj) = 50,55% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ,6 161,9 (*) N ,1 141,1 (-*)

68 NE ,9 97,7 (*) S ,2 200,0 (* SE ,6 214,9 *) Pooled StDev = 171,1 One-way ANOVA: P_SERV versus REGIÃO Source DF SS MS F P REGIÃO , ,8 166,48 0,000 Error ,5 70,6 Total ,8 S = 8,403 R-Sq = 10,70% R-Sq(adj) = 10,63% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ,782 6,793 (--*--) N ,170 8,549 (--*--) NE ,840 7,891 (*-) S ,612 9,183 (*-) SE ,538 8,717 (*-) ,0 32,5 35,0 37,5 Pooled StDev = 8,403 One-way ANOVA: P_SUPER versus REGIÃO Source DF SS MS F P REGIÃO ,2 3763,6 365,45 0,000 Error ,2 10,3 Total ,5 S = 3,209 R-Sq = 20,82% R-Sq(adj) = 20,76% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO 466 8,131 2,840 (--*-) N 449 6,104 3,188 (--*-) NE ,862 2,340 (-*) S ,845 3,422 (*-) SE ,742 3,891 (*) ,8 6,0 7,2 8,4 Pooled StDev = 3,209

69 69 One-way ANOVA: T_LUZ versus REGIÃO Source DF SS MS F P REGIÃO , ,5 456,34 0,000 Error ,1 27,3 Total ,9 S = 5,229 R-Sq = 24,72% R-Sq(adj) = 24,66% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ,677 4,979 (-*) N ,614 10,850 (*-) NE ,786 6,737 (*) S ,485 1,052 (*) SE ,237 1,744 (*) ,0 93,0 96,0 99,0 Pooled StDev = 5,229 One-way ANOVA: T_LIXO versus REGIÃO Source DF SS MS F P REGIÃO ,67 0,000 Error Total S = 10,11 R-Sq = 16,30% R-Sq(adj) = 16,24% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ,47 3,13 (-*--) N ,48 13,47 (--*--) NE ,95 15,43 (*) S ,28 2,64 (-*) SE ,33 5,33 (*) ,5 91,0 94,5 98,0 Pooled StDev = 10,11 One-way ANOVA: T_SLUZ versus REGIÃO Source DF SS MS F P REGIÃO , ,5 456,34 0,000 Error ,1 27,3 Total ,9

70 S = 5,229 R-Sq = 24,72% R-Sq(adj) = 24,66% 70 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO 466 2,323 4,979 (-*) N ,386 10,850 (-*-) NE ,214 6,737 (*) S ,515 1,052 (*) SE ,763 1,744 (* ,0 6,0 9,0 12,0 Pooled StDev = 5,229 One-way ANOVA: T_OCUPDESLOC_1 versus REGIÃO Source DF SS MS F P REGIÃO ,21 765,55 404,22 0,000 Error ,12 1,89 Total ,33 S = 1,376 R-Sq = 22,53% R-Sq(adj) = 22,47% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO 466 0,809 0,983 (-*--) N 449 2,123 2,084 (-*--) NE ,297 1,764 (*) S ,493 0,673 (-*) SE ,016 1,099 (*-) ,50 1,00 1,50 2,00 Pooled StDev = 1,376 One-way ANOVA: pesorur versus REGIÃO Source DF SS MS F P REGIÃO ,89 0,000 Error ,13774E Total ,45438E+11 S = 6201 R-Sq = 12,90% R-Sq(adj) = 12,84% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO (--*--) N (--*--) NE (-*)

71 S (*-) SE (*) Pooled StDev = 6201 One-way ANOVA: pesourb versus REGIÃO Source DF SS MS F P REGIÃO 4 6,24402E+11 1,56100E+11 3,85 0,004 Error ,25401E Total ,26025E+14 S = R-Sq = 0,28% R-Sq(adj) = 0,20% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ( * ) N ( * ) NE ( * ) S ( * ) SE ( * ) Para selecionar os melhores valores de F e P, produziu-se a Figura 7.1.1, com um gráfico de barras, para melhor visualização dos resultados. Os resultados apontam seis variáveis com elevados valores de F: ESPVIDA ; IDHM_L ; IDHM_R ; IDHM ; RDPC ; e IDHM_E. No caso dos valore de P todos tiveram altos níveis de significância direcionando nossa inferência apenas para os valore de F. Contudo, podemos agora dar sequência no trabalho apenas com as variáveis supracitadas , , , , ,16 145,68 Comparação de F e P 524,22553,72548, ,18 166,48 365,45456,34 270,67 456,3 404,22 205,893,85 F P Figura Gráfico de Barras: Melhores Valores de F e P Fonte: Elaborado pelo autor (2017)

72 Variável: ESPVIDA Para uma melhor análise da variável ESPVIDA produzimos a Tabela com o resultado do teste de comparações ANOVA. Tabela Teste de Comparação para variável: ESPVIDA X Região One-way ANOVA: ESPVIDA versus REGIÃO Source DF SS MS F P REGIÃO , , ,02 0,000 Error ,57 2,70 Total ,19 S = 1,642 R-Sq = 62,52% R-Sq(adj) = 62,50% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ,340 1,108 (*) N ,818 1,724 (*) NE ,255 1,809 *) S ,116 1,570 (* SE ,686 1,604 (* ,5 72,0 73,5 75,0 Pooled StDev = 1,642 Fonte: Minitab (16.1.0) Pode-se perceber conforme destacamos na Tabela 7.2.1, que a variável ESPVIDA tem uma média melhor na região Sul do País. A região nordeste apresenta a pior média entre as quatro regiões. A região Sul tem intervalo de confiança que se encontra com a região sudeste. Em relação a análise de variância, conforme já reportado acima, todos os valores de P foram iguais a 0. Afim de melhorar nosso poder de análise abaixo na Figura foi produzida o Box-Plot para a variável ESPVIDA versus as quatro regiões do país, corroborando as análises.

73 ESPVIDA 73 80,0 Boxplot of ESPVIDA 77,5 75,0 72,5 70,0 67,5 65,0 CO N NE REGIÃO S SE Figura Blox-Plot de ESPVIDA 7.3 Variável: IDHM_L Para uma melhor análise da variável IDHM_L produzimos a Tabela com o resultado do teste de comparações ANOVA. Tabela Teste de Comparação para variável: IDHM_L X Região One-way ANOVA: IDHM_L versus REGIÃO Source DF SS MS F P REGIÃO 4 6, , ,02 0,000 Error , ,00075 Total ,10785 S = 0,02737 R-Sq = 62,51% R-Sq(adj) = 62,49% Level N Mean StDev CO 466 0, ,01846 N 449 0, ,02871 NE , ,03016 S , ,02616 SE , ,02674 Individual 95% CIs For Mean Based on Pooled StDev Level CO (*) N (*) NE (* S *)

74 IDHM_L SE *) ,775 0,800 0,825 0, Pooled StDev = 0,02737 Pode-se perceber conforme destacamos na Tabela 7.3.1, que a variável IDHM_L tem uma média melhor na região Sul do País. A região nordeste apresenta a pior média entre as quatro regiões. A região Sul tem intervalo de confiança que se encontra com a região sudeste. Em relação a análise de variância, conforme já reportado acima, todos os valores de P foram iguais a 0. Afim de melhorar nosso poder de análise abaixo na Figura foi produzida o Box-Plot para a variável IDHM_L versus as quatro regiões do país, corroborando as análises. 0,90 Boxplot of IDHM_L 0,85 0,80 0,75 0,70 CO N NE REGIÃO S SE Figura Blox-Plot de IDHM_L 7.4 Variável: IDHM_R Para uma melhor análise da variável IDHM_R produzimos a Tabela com o resultado do teste de comparações ANOVA. Tabela Teste de Comparação para variável: IDHM_R X Região One-way ANOVA: IDHM_R versus REGIÃO Source DF SS MS F P REGIÃO 4 21, , ,16 0,000 Error , ,00256 Total ,20108 S = 0,05063 R-Sq = 60,64% R-Sq(adj) = 60,61%

75 IDHM_R 75 Level N Mean StDev CO 466 0, ,04285 N 449 0, ,06194 NE , ,04611 S , ,04419 SE , ,05769 Individual 95% CIs For Mean Based on Pooled StDev Level CO (*) N (*) NE (* S *) SE *) ,560 0,600 0,640 0,680 Pooled StDev = 0,05063 Pode-se perceber conforme destacamos na Tabela 7.3.1, que a variável IDHM_R tem uma média melhor na região Sul do País. A região nordeste apresenta a pior média entre as quatro regiões. A região Sul tem intervalo de confiança que se encontra com a região sudeste. Em relação a análise de variância, conforme já reportado acima, todos os valores de P foram iguais a 0. Afim de melhorar nosso poder de análise abaixo na Figura 7.4.1, foi produzida o Box-Plot para a variável IDHM_R versus as quatro regiões do país, corroborando as análises. 0,9 Boxplot of IDHM_R 0,8 0,7 0,6 0,5 0,4 CO N NE REGIÃO S SE Figura Blox-Plot de IDHM_R

76 7.5 Variável: IDHM Para uma melhor análise da variável IDHM produzimos a Tabela com o resultado do teste de comparações ANOVA. Tabela Teste de Comparação para variável: IDHM X Região One-way ANOVA: IDHM versus REGIÃO Source DF SS MS F P REGIÃO 4 16, , ,32 0,000 Error , ,00226 Total ,84160 S = 0,04759 R-Sq = 56,35% R-Sq(adj) = 56,32% 76 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO 466 0, ,03729 (*) N 449 0, ,06016 (-*) NE , ,04327 (* S , ,04159 (*) SE , ,05428 (* ,595 0,630 0,665 0,700 Pooled StDev = 0,04759 Pode-se perceber conforme destacamos na Tabela 7.5.1, que a variável IDHM tem uma média melhor na região Sul do País. A região nordeste apresenta a pior média entre as quatro regiões. A região Sul tem intervalo de confiança que se encontra com a região sudeste. Em relação a análise de variância, conforme já reportado acima, todos os valores de P foram iguais a 0. Afim de melhorar nosso poder de análise abaixo na Figura 7.5.1, foi produzida o Box-Plot para a variável IDHM versus as quatro regiões do país, corroborando as análises.

77 IDHM 77 0,9 Boxplot of IDHM 0,8 0,7 0,6 0,5 0,4 CO N NE REGIÃO S SE Figura Blox-Plot de IDHM 7.6 Variável: RDPC Para uma melhor análise da variável RDPC produzimos a Tabela com o resultado do teste de comparações ANOVA. Tabela Teste de Comparação para variável: RDPC X Região One-way ANOVA: RDPC versus REGIÃO Source DF SS MS F P REGIÃO ,18 0,000 Error Total S = 171,1 R-Sq = 50,59% R-Sq(adj) = 50,55% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO ,6 161,9 (*) N ,1 141,1 (-*) NE ,9 97,7 (*) S ,2 200,0 (* SE ,6 214,9 *)

78 RDPC Pooled StDev = 171,1 Pode-se perceber conforme destacamos na Tabela 7.6.1, que a variável RDPC tem uma média melhor na região Sul do País. A região nordeste apresenta a pior média entre as quatro regiões. A região Sul tem intervalo de confiança que se encontra com a região sudeste. Em relação a análise de variância, conforme já reportado acima, todos os valores de P foram iguais a 0. Afim de melhorar nosso poder de análise abaixo na Figura 7.6.1, foi produzida o Box-Plot para a variável RDPC versus as quatro regiões do país, corroborando as análises. Boxplot of RDPC CO N NE REGIÃO S SE Figura Blox-Plot de RDPC 7.7 Variável: IDHM_E Para uma melhor análise da variável IDHM_E produzimos a Tabela com o resultado do teste de comparações ANOVA. Tabela Teste de Comparação para variável: IDHM_E X Região One-way ANOVA: IDHM_E versus REGIÃO Source DF SS MS F P REGIÃO 4 18, , ,41 0,000 Error , ,00533 Total ,46282 S = 0,07299 R-Sq = 38,89% R-Sq(adj) = 38,84% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CO 466 0, ,06015 (-*-)

79 IDHM_E N 449 0, ,09066 (-*-) NE , ,06579 (*) S , ,06520 (*) SE , ,08287 (*) ,490 0,525 0,560 0, Pooled StDev = 0,07299 Pode-se perceber conforme destacamos na Tabela 7.7.1, que a variável IDHM_E tem uma média melhor na região Sul do País. A região nordeste apresenta a pior média entre as quatro regiões. A região Sul tem intervalo de confiança que se encontra com a região sudeste. Em relação a análise de variância, conforme já reportado acima, todos os valores de P foram iguais a 0. Afim de melhorar nosso poder de análise abaixo na Figura 7.7.1, foi produzida o Box-Plot para a variável IDHM_E versus as quatro regiões do país, corroborando as análises. 0,9 Boxplot of IDHM_E 0,8 0,7 0,6 0,5 0,4 0,3 0,2 CO N NE REGIÃO S SE Figura Blox-Plot de IDHM_E 7.8 Síntese dos Resultados Nesta etapa do trabalho, realizou-se procedimentos para analisar as médias amostrais, intervalos de confiança para a média populacional e análise de variância referente a 6 variáveis do Atlas do Desenvolvimento Humano no separados por região. O objetivo foi comparar cada variável com as cinco regiões do país: Norte, Nordeste, Centro-Oeste, Sul e Sudeste. Apesar de não ser o objeto deste estudo, o mesmo nos permite perceber a existência de alguma relação entre a expectativa de vida e o desenvolvimento do país ou da região. Trabalhos futuros

80 80 poderiam tratar de estudar por exemplo, a relação entre expectativa de vida e alguns indicadores de qualidade de vida do país ou da região. Pela análise das seis variáveis, percebemos claramente que a situação em que se encontra nossa região em relação as variáveis analisadas, não é ruim e nem boa, já que ficamos com a segunda melhor média em relação as demais. Isso parece estar se refletindo na situação econômico-social da região. CAPÍTULO VIII. AMOSTRAGEM A pesquisa por amostragem foi realizada em três amostras, uma de 25 municípios, outra de 100 munícipios, e a última de 400 municípios, para cada uma das seguintes variáveis: ESPVIDA ; IDHM_L ; IDHM_R ; IDHM ; RDPC ; e IDHM_E. Para cada amostra selecionada realizou-se o procedimento de análise exploratória, as correlações e dendogramas. Considerando a pesquisa amostral de cada variável, identificou-se pela média, para cada variável que a pesquisa amostral de 400 indivíduos é mais confiável para a população total de 5565 munícipios brasileiros. 8.1 Análise Exploratória para Amostra de 400 indivíduos A pesquisa amostral de 400 municípios foi realizada por meio da funcionalidade Randon Data do software de suporte estatístico MiniTab (16.1.0), ou seja, trata-se de uma amostra aleatória. Para este procedimento não foi realizado comparações com a amostra estratificada devido ao fato a amostra representar de forma confiável a população total, o qual trouxe municípios de todos os estados e consequente mente todos as regiões, no Apendice I pode ser observada amostra de 400 indivíduos para cada variável. A Tabela demonstra a análise exploratória dos dados para cada variável. Tabela Analise Exploratória para Amostra de 400 Indivíduos Descriptive Statistics: ESPVIDA-AA40; IDHM_L-AA400; IDHM_R-AA400;... Total Variable Count N N* Mean SE Mean StDev Variance CoefVar ESPVIDA-AA ,042 0,142 2,836 8,043 3,88 IDHM_L-AA , , , , ,63 IDHM_R-AA , , , , ,47 IDHM-AA , , , , ,09 RDPC-AA ,8 12,8 255, ,9 51,98 IDHM_E-AA , , , , ,03 Variable Minimum Q1 Median Q3 Maximum Skewness Kurtosis ESPVIDA-AA400 65,840 70,830 73,460 75,237 78,400-0,32-0,70 IDHM_L-AA400 0, , , , , ,47-0,50 IDHM_R-AA400 0, , , , , ,04-0,98

81 IDHM-AA400 0, , , , , ,08-0,93 RDPC-AA ,0 278,7 443,8 645,2 2043,7 1,48 4,88 IDHM_E-AA400 0, , , , , ,01-0, Amostra de 400 Indivíduos para Variável ESPVIDA Para validar a amostra de 400 indivíduos para a variável ESPEVIDA, incialmente foi realizado o procedimento para amostra de 25 indivíduos e 100 indivíduos. Na Tabela podemos verificar o teste de comparações de dados desempilhados. Tabela Pesquisa Amostral de 25, 100 e 400 Indivíduos para Variável ESPVIDA One-way ANOVA: ESPVIDA; ESPVIDA-AA25; ESPVIDA-AA100; ESPVIDA- AA400 Source DF SS MS F P Factor 3 14,58 4,86 0,67 0,569 Error ,25 7,23 Total ,83 S = 2,690 R-Sq = 0,03% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ESPVIDA ,089 2,681 (*) ESPVIDA-AA ,946 2,657 ( * ) ESPVIDA-AA ,453 2,595 ( * ) ESPVIDA-AA ,042 2,836 (---*----) ,00 72,60 73,20 73,80 Pooled StDev = 2,690 O Box-Plot está representado na Figura , onde podemos visualizar mais claramente os resultados gráficos. A amostra de 400 municípios é a que mais se aproxima dos valores de população da variável ESPVIDA.

82 Data 82 Boxplot of ESPVIDA; ESPVIDA-AA25; ESPVIDA-AA100; ESPVIDA-AA400 80,0 77,5 75,0 72,5 70,0 67,5 65,0 ESPVIDA ESPVIDA-AA25 ESPVIDA-AA100 ESPVIDA-AA400 Figura Box-Plot para Amostra de 25, 100 e 400 da variável ESPVIDA Para melhorar nosso poder de análise criou-se a Figura , que demonstra a analise exploratória para a população da variável ESPVIDA. Summary for ESPVIDA Anderson-Darling Normality Test A-Squared 34,95 P-Value < 0,005 Mean 73,089 StDev 2,681 Variance 7,186 Skewness -0, Kurtosis -0, N Minimum 65,300 1st Quartile 71,150 Median 73,470 3rd Quartile 75,160 Maximum 78,640 95% Confidence Interval for Mean 73,019 73,159 95% Confidence Interval for Median 73,380 73,550 95% Confidence Intervals 95% Confidence Interval for StDev 2,632 2,731 Mean Median 73,0 73,1 73,2 73,3 73,4 73,5 73,6 Figura Análise Exploratória para a População da Variável ESPVIDA Fonte: Minitab (16.1.0) O mesmo procedimento foi realizado para o plano amostral de 400 municípios da variável ESPVIDA, no qual criou-se a Figura

83 Summary for ESPVIDA-AA Anderson-Darling Normality Test A-Squared 2,81 P-Value < 0,005 Mean 73,042 StDev 2,836 Variance 8,043 Skewness -0, Kurtosis -0, N Minimum 65,840 1st Quartile 70,830 Median 73,460 3rd Quartile 75,237 Maximum 78,400 95% Confidence Interval for Mean 72,763 73,321 95% Confidence Interval for Median 73,097 73,813 95% Confidence Intervals 95% Confidence Interval for StDev 2,652 3,047 Mean Median 72,8 73,0 73,2 73,4 73,6 73,8 Figura Análise Exploratória da Amostra de 400 Municípios da Variável ESPVIDA Para uma melhor análise comparativa entre população e amostra produziu-se a Tabela Tabela Análise Comparativa da População e Amostra para a Variável ESPVIDA Variável Média Desvio Mínimo Mediana Máximo Padrão População 73,09 2,68 65,30 73,47 78,64 Amostra 73,04 2,84 65,84 73,46 78,40 Fonte: Elaborado pelo Autor (2017) A amostra de 400 municípios apresentou os mesmos valores para média, desvio padrão, mínimo, mediana e máximo entre população e amostra da variável ESPVIDA. Portanto, pode-se concluir que a amostra aleatória de 400 municípios representa quase que fielmente a população tornando-a confiável para o estudo. A Tabela demonstra o resultado do teste de comparações de dados desempilhados. O P-Value próximo de 1 confirma a análise, ou seja, a amostra aleatória é significativamente representativa. Tabela Teste de Comparações de Dados Desempilhados One-way ANOVA: ESPVIDA; ESPVIDA-AA400 Source DF SS MS F P Factor 1 0,83 0,83 0,11 0,735 Error ,21 7,24 Total ,04 S = 2,691 R-Sq = 0,00% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev

84 Level N Mean StDev ESPVIDA ,089 2,681 (----*---) ESPVIDA-AA ,042 2,836 ( * ) ,90 73,05 73,20 73,35 84 Pooled StDev = 2,691 A Figura , representa o Box-Plot, qual confirma a hipótese nula de diferença de médias para a amostra de 400 indivíduos. 80,0 Boxplot of ESPVIDA; ESPVIDA-AA400 77,5 75,0 Data 72,5 70,0 67,5 65,0 ESPVIDA ESPVIDA-AA400 Figura Box-Plot para População e Amostra de 400 Individuos para a Variável ESPVIDA Amostra de 400 Indivíduos para Variável IDHM_L Para validar a amostra de 400 indivíduos para a variável IDHM_L, incialmente foi realizado o procedimento para amostra de 25 indivíduos e 100 indivíduos. Na Tabela podemos verificar o teste de comparações de dados desempilhados. Tabela Pesquisa Amostral de 25, 100 e 400 Indivíduos para Variável IDHM_R One-way ANOVA: IDHM_L; IDHM_L-AA25; IDHM_L-AA100; IDHM_L-AA400 Source DF SS MS F P Factor 3 0, , ,78 0,507 Error , ,00200 Total ,18927 S = 0,04474 R-Sq = 0,04% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev

85 Data Level N Mean StDev IDHM_L , ,04468 (-*) IDHM_L-AA , ,04294 ( * ) IDHM_L-AA , ,04692 ( * ) IDHM_L-AA , ,04518 (---*----) ,790 0,800 0,810 0, Pooled StDev = 0,04474 O Box-Plot está representado na Figura , onde podemos visualizar mais claramente os resultados gráficos. A amostra de 400 municípios é a que mais se aproxima dos valores de população da variável IDHM_L. Boxplot of IDHM_L; IDHM_L-AA25; IDHM_L-AA100; IDHM_L-AA400 0,90 0,85 0,80 0,75 0,70 IDHM_L IDHM_L-AA25 IDHM_L-AA100 IDHM_L-AA400 Figura Box-Plot para Amostra de 25, 100 e 400 da variável IDHM_L Para melhorar nosso poder de análise criou-se a Figura , que demonstra a analise exploratória para a população da variável IDHM_L.

86 Summary for IDHM_L 86 Anderson-Darling Normality Test A-Squared 35,06 P-Value < 0,005 Mean 0,80156 StDev 0,04468 Variance 0,00200 Skewness -0, Kurtosis -0, N ,69 0,72 0,75 0,78 0,81 0,84 0,87 Minimum 0, st Quartile 0,76900 Median 0, rd Quartile 0,83600 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,04553 Mean Median 0,800 0,802 0,804 0,806 0,808 0,810 Figura Análise Exploratória para a População da Variável IDHM_L Fonte: Minitab (16.1.0) O mesmo procedimento foi realizado para o plano amostral de 400 municípios da variável IDHM_L, no qual criou-se a Figura Summary for IDHM_L-AA400 Anderson-Darling Normality Test A-Squared 3,47 P-Value < 0,005 Mean 0,80223 StDev 0,04518 Variance 0,00204 Skewness -0, Kurtosis -0, N 400 0,69 0,72 0,75 0,78 0,81 0,84 0,87 Minimum 0, st Quartile 0,77000 Median 0, rd Quartile 0,83775 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,04855 Mean Median 0,800 0,804 0,808 0,812 0,816 Figura Análise Exploratória da Amostra de 400 Municípios da Variável IDHM_L Para uma melhor análise comparativa entre população e amostra produziu-se a Tabela Tabela Análise Comparativa da População e Amostra para a Variável IDHM_L Variável Média Desvio Mínimo Mediana Máximo Padrão População 0,80 0,04 0,67 0,81 0,89

87 Amostra 0,80 0,04 0,68 0,81 0,89 Fonte: Elaborado pelo Autor (2017) A amostra de 400 municípios apresentou os mesmos valores para média, desvio padrão, mínimo, mediana e máximo entre população e amostra da variável IDHM_L. Portanto, pode-se concluir que a amostra aleatória de 400 municípios representa quase que fielmente a população tornando-a confiável para o estudo. A Tabela demonstra o resultado do teste de comparações de dados desempilhados. O P-Value próximo de 1 confirma a análise, ou seja, a amostra aleatória é significativamente representativa. Tabela Teste de Comparações de Dados Desempilhados One-way ANOVA: IDHM_L; IDHM_L-AA400 Source DF SS MS F P Factor 1 0, , ,08 0,774 Error , ,00200 Total ,92259 S = 0,04471 R-Sq = 0,00% R-Sq(adj) = 0,00% 87 Level N Mean StDev IDHM_L , ,04468 IDHM_L-AA , ,04518 Individual 95% CIs For Mean Based on Pooled StDev Level IDHM_L (---*----) IDHM_L-AA400 ( * ) ,8000 0,8025 0,8050 0,8075 Pooled StDev = 0,04471 A Figura , representa o Box-Plot, qual confirma a hipótese nula de diferença de médias para a amostra de 400 indivíduos.

88 Data 88 Boxplot of IDHM_L; IDHM_L-AA400 0,90 0,85 0,80 0,75 0,70 IDHM_L IDHM_L-AA400 Figura Box-Plot para População e Amostra de 400 Indivíduos para a Variável IDHM_L Amostra de 400 Indivíduos para Variável IDHM_R Para validar a amostra de 400 indivíduos para a variável IDHM_R, incialmente foi realizado o procedimento para amostra de 25 indivíduos e 100 indivíduos. Na Tabela podemos verificar o teste de comparações de dados desempilhados. Tabela Pesquisa Amostral de 25, 100 e 400 Indivíduos para Variável IDHM_R One-way ANOVA: IDHM_R; IDHM_R-AA25; IDHM_R-A100; IDHM_R-AA400 Source DF SS MS F P Factor 3 0, , ,27 0,845 Error , ,00653 Total ,76621 S = 0,08083 R-Sq = 0,01% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev IDHM_R , ,08066 (-*) IDHM_R-AA , ,08984 ( * ) IDHM_R-A , ,08960 ( * ) IDHM_R-AA , ,08028 (----*----) ,608 0,624 0,640 0,656 Pooled StDev = 0,08083

89 Data 89 O Box-Plot está representado na Figura , onde podemos visualizar mais claramente os resultados gráficos. A amostra de 400 municípios é a que mais se aproxima dos valores de população da variável IDHM_R. Boxplot of IDHM_R; IDHM_R-AA25; IDHM_R-A100; IDHM_R-AA400 0,9 0,8 0,7 0,6 0,5 0,4 IDHM_R IDHM_R-AA25 IDHM_R-A100 IDHM_R-AA400 Figura Box-Plot para Amostra de 25, 100 e 400 da variável IDHM_R Para melhorar nosso poder de análise criou-se a Figura , que demonstra a analise exploratória para a população da variável IDHM_R. Summary for IDHM_R Anderson-Darling Normality Test A-Squared 55,08 P-Value < 0,005 Mean 0,64287 StDev 0,08066 Variance 0,00651 Skewness -0, Kurtosis -0, N ,42 0,49 0,56 0,63 0,70 0,77 0,84 Minimum 0, st Quartile 0,57200 Median 0, rd Quartile 0,70700 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,08219 Mean Median 0,640 0,644 0,648 0,652 0,656 Figura Análise Exploratória para a População da Variável IDHM_R Fonte: Minitab (16.1.0) O mesmo procedimento foi realizado para o plano amostral de 400 municípios da variável IDHM_R, no qual criou-se a Figura

90 Summary for IDHM_R-AA Anderson-Darling Normality Test A-Squared 4,82 P-Value < 0,005 Mean 0,64366 StDev 0,08028 Variance 0,00644 Skewness -0, Kurtosis -0, N 400 0,48 0,54 0,60 0,66 0,72 0,78 0,84 Minimum 0, st Quartile 0,57000 Median 0, rd Quartile 0,70475 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,08626 Mean Median 0,64 0,65 0,66 0,67 Figura Análise Exploratória da Amostra de 400 Municípios da Variável IDHM_R Para uma melhor análise comparativa entre população e amostra produziu-se a Tabela Tabela Análise Comparativa da População e Amostra para a Variável IDHM_R Variável Média Desvio Mínimo Mediana Máximo Padrão População 0,64 0,08 0,40 0,65 0,89 Amostra 0,64 0,08 0,46 0,65 0,85 Fonte: Elaborado pelo Autor (2017) A amostra de 400 municípios apresentou os mesmos valores para média, desvio padrão e mediana entre população e amostra da variável IDHM_R, exceto para mínimo e máximo com uma pequena diferença. Portanto, pode-se concluir que a amostra aleatória de 400 municípios representa quase que fielmente a população tornando-a confiável para o estudo. A Tabela demonstra o resultado do teste de comparações de dados desempilhados. O P-Value próximo de 1 confirma a análise, ou seja, a amostra aleatória é significativamente representativa. Tabela Teste de Comparações de Dados Desempilhados One-way ANOVA: IDHM_R; IDHM_R-AA400 Source DF SS MS F P Factor 1 0, , ,04 0,850 Error , ,00650 Total ,77259 S = 0,08064 R-Sq = 0,00% R-Sq(adj) = 0,00%

91 Data Level N Mean StDev IDHM_R , ,08066 IDHM_R-AA , , Individual 95% CIs For Mean Based on Pooled StDev Level IDHM_R (----*----) IDHM_R-AA400 ( * ) ,6360 0,6400 0,6440 0,6480 Pooled StDev = 0,08064 A Figura , representa o Box-Plot, qual confirma a hipótese nula de diferença de médias para a amostra de 400 indivíduos. 0,9 Boxplot of IDHM_R; IDHM_R-AA400 0,8 0,7 0,6 0,5 0,4 IDHM_R IDHM_R-AA400 Figura Box-Plot para População e Amostra de 400 Indivíduos para a Variável IDHM_R Amostra de 400 Indivíduos para Variável IDHM Para validar a amostra de 400 indivíduos para a variável IDHM, incialmente foi realizado o procedimento para amostra de 25 indivíduos e 100 indivíduos. Na Tabela podemos verificar o teste de comparações de dados desempilhados. Tabela Pesquisa Amostral de 25, 100 e 400 Indivíduos para Variável IDHM One-way ANOVA: IDHM; IDHM-AA25; IDHM-AA100; IDHM-AA400 Source DF SS MS F P Factor 3 0, , ,13 0,334 Error , ,00518

92 Data Total , S = 0,07195 R-Sq = 0,06% R-Sq(adj) = 0,01% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev IDHM , ,07200 (*-) IDHM-AA , ,05857 ( * ) IDHM-AA , ,06877 ( * ) IDHM-AA , ,07285 (----*---) ,645 0,660 0,675 0,690 Pooled StDev = 0,07195 O Box-Plot está representado na Figura , onde podemos visualizar mais claramente os resultados gráficos. A amostra de 400 municípios é a que mais se aproxima dos valores de população da variável IDHM. 0,9 Boxplot of IDHM; IDHM-AA25; IDHM-AA100; IDHM-AA400 0,8 0,7 0,6 0,5 0,4 IDHM IDHM-AA25 IDHM-AA100 IDHM-AA400 Figura Box-Plot para Amostra de 25, 100 e 400 da variável IDHM Para melhorar nosso poder de análise criou-se a Figura , que demonstra a analise exploratória para a população da variável IDHM.

93 Summary for IDHM 93 Anderson-Darling Normality Test A-Squared 40,51 P-Value < 0,005 Mean 0,65916 StDev 0,07200 Variance 0,00518 Skewness -0, Kurtosis -0, N ,42 0,49 0,56 0,63 0,70 0,77 0,84 Minimum 0, st Quartile 0,59900 Median 0, rd Quartile 0,71800 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,07336 Mean Median 0,658 0,660 0,662 0,664 0,666 0,668 0,670 Figura Análise Exploratória para a População da Variável IDHM Fonte: Minitab (16.1.0) O mesmo procedimento foi realizado para o plano amostral de 400 municípios da variável IDHM, no qual criou-se a Figura Summary for IDHM-AA400 Anderson-Darling Normality Test A-Squared 3,50 P-Value < 0,005 Mean 0,65670 StDev 0,07285 Variance 0,00531 Skewness -0, Kurtosis -0, N 400 0,48 0,54 0,60 0,66 0,72 0,78 Minimum 0, st Quartile 0,59600 Median 0, rd Quartile 0,71600 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,07828 Mean Median 0,645 0,650 0,655 0,660 0,665 0,670 Figura Análise Exploratória da Amostra de 400 Municípios da Variável IDHM Para uma melhor análise comparativa entre população e amostra produziu-se a Tabela Tabela Análise Comparativa da População e Amostra para a Variável IDHM Variável Média Desvio Mínimo Mediana Máximo Padrão População 0,66 0,07 0,42 0,66 0,86 Amostra 0,66 0,07 0,47 0,66 0,81 Fonte: Elaborado pelo Autor (2017)

94 Data 94 A amostra de 400 municípios apresentou os mesmos valores para média, desvio padrão e mediana entre população e amostra da variável IDHM_R, exceto para mínimo e máximo com uma pequena diferença. Portanto, pode-se concluir que a amostra aleatória de 400 municípios representa quase que fielmente a população tornando-a confiável para o estudo. A Tabela demonstra o resultado do teste de comparações de dados desempilhados. O P-Value longe de 1 não confirma a análise, ou seja, a amostra aleatória não é significativamente representativa. Tabela Teste de Comparações de Dados Desempilhados One-way ANOVA: IDHM; IDHM-AA400 Source DF SS MS F P Factor 1 0, , ,44 0,509 Error , ,00519 Total ,96113 S = 0,07205 R-Sq = 0,01% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev IDHM , ,07200 (----*----) IDHM-AA , ,07285 ( * ) ,6520 0,6560 0,6600 0,6640 Pooled StDev = 0,07205 A Figura , representa o Box-Plot, qual não confirma a hipótese nula de diferença de médias para a amostra de 400 indivíduos. 0,9 Boxplot of IDHM; IDHM-AA400 0,8 0,7 0,6 0,5 0,4 IDHM IDHM-AA400 Figura Box-Plot para População e Amostra de 400 Indivíduos para a Variável IDHM

95 Data Amostra de 400 Indivíduos para Variável RDPC Para validar a amostra de 400 indivíduos para a variável RDPC, incialmente foi realizado o procedimento para amostra de 25 indivíduos e 100 indivíduos. Na Tabela podemos verificar o teste de comparações de dados desempilhados. Tabela Pesquisa Amostral de 25, 100 e 400 Indivíduos para Variável RDPC One-way ANOVA: RDPC; RDPC-AA25; RDPC-AA100; RDPC-AA400 Source DF SS MS F P Factor ,01 0,386 Error Total S = 243,9 R-Sq = 0,05% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev RDPC ,6 243,3 (*) RDPC-AA ,4 204,4 ( * ) RDPC-AA ,1 243,0 ( *------) RDPC-AA ,8 255,1 (---*---) Pooled StDev = 243,9 O Box-Plot está representado na Figura , onde podemos visualizar mais claramente os resultados gráficos. A amostra de 400 municípios é a que mais se aproxima dos valores de população da variável RDPC. Boxplot of RDPC; RDPC-AA25; RDPC-AA100; RDPC-AA RDPC RDPC-AA25 RDPC-AA100 RDPC-AA400 Figura Box-Plot para Amostra de 25, 100 e 400 da variável RDPC

96 96 Para melhorar nosso poder de análise criou-se a Figura , que demonstra a analise exploratória para a população da variável RDPC. Summary for RDPC Anderson-Darling Normality Test A-Squared 80,55 P-Value < 0,005 Mean 493,61 StDev 243,27 Variance 59179,97 Skewness 0,95965 Kurtosis 1,65248 N Minimum 96,25 1st Quartile 281,09 Median 467,65 3rd Quartile 650,64 Maximum 2043,74 95% Confidence Interval for Mean 487,21 500,00 95% Confidence Interval for Median 456,26 478,34 95% Confidence Intervals 95% Confidence Interval for StDev 238,83 247,88 Mean Median Figura Análise Exploratória para a População da Variável RDPC Fonte: Minitab (16.1.0) O mesmo procedimento foi realizado para o plano amostral de 400 municípios da variável IDHM, no qual criou-se a Figura Summary for RDPC-AA400 Anderson-Darling Normality Test A-Squared 7,20 P-Value < 0,005 Mean 490,78 StDev 255,10 Variance 65074,87 Skewness 1,48193 Kurtosis 4,87930 N Minimum 135,04 1st Quartile 278,69 Median 443,81 3rd Quartile 645,19 Maximum 2043,74 95% Confidence Interval for Mean 465,70 515,86 95% Confidence Interval for Median 407,04 494,24 95% Confidence Intervals 95% Confidence Interval for StDev 238,56 274,12 Mean Median Figura Análise Exploratória da Amostra de 400 Municípios da Variável RDPC Para uma melhor análise comparativa entre população e amostra produziu-se a Tabela

97 Tabela Análise Comparativa da População e Amostra para a Variável RDPC Variável Média Desvio Mínimo Mediana Máximo Padrão População 493,61 243,27 96,25 467, ,74 Amostra 490,78 255,10 135,04 443, ,74 Fonte: Elaborado pelo Autor (2017) A amostra de 400 municípios apresentou o mesmo valor para máximo, para desvio padrão, mínimo, máximo e mediana são diferentes entre população e amostra da variável RDPC. Portanto, pode-se concluir que a amostra aleatória de 400 municípios não representa fielmente a população tornando-a não confiável para o estudo. A Tabela demonstra o resultado do teste de comparações de dados desempilhados. O P-Value próximo de 1 não confirma a análise, ou seja, a amostra aleatória é significativamente representativa. Tabela Teste de Comparações de Dados Desempilhados One-way ANOVA: RDPC; RDPC-AA400 Source DF SS MS F P Factor ,05 0,823 Error Total S = 244,1 R-Sq = 0,00% R-Sq(adj) = 0,00% 97 Level N Mean StDev RDPC ,6 243,3 RDPC-AA ,8 255,1 Individual 95% CIs For Mean Based on Pooled StDev Level RDPC (----*-----) RDPC-AA400 ( * ) Pooled StDev = 244,1 A Figura , representa o Box-Plot, qual não confirma a hipótese nula de diferença de médias para a amostra de 400 indivíduos.

98 Data 98 Boxplot of RDPC; RDPC-AA RDPC RDPC-AA400 Figura Box-Plot para População e Amostra de 400 Indivíduos para a Variável RDPC Amostra de 400 Indivíduos para Variável IDHM_E Para validar a amostra de 400 indivíduos para a variável IDHM_E, incialmente foi realizado o procedimento para amostra de 25 indivíduos e 100 indivíduos. Na Tabela podemos verificar o teste de comparações de dados desempilhados. Tabela Pesquisa Amostral de 25, 100 e 400 Indivíduos para Variável IDHM_E One-way ANOVA: IDHM_E; IDHM_E-AA25; IDHM_E-AA100; IDHM_E-AA400 Source DF SS MS F P Factor 3 0, , ,89 0,129 Error , ,00871 Total ,06109 S = 0,09333 R-Sq = 0,09% R-Sq(adj) = 0,04% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev IDHM_E , ,09333 (-*) IDHM_E-AA , ,09243 ( * ) IDHM_E-AA , ,09327 ( * ) IDHM_E-AA , ,09343 (---*----) ,520 0,540 0,560 0,580

99 Data Pooled StDev = 0,09333 O Box-Plot está representado na Figura , onde podemos visualizar mais claramente os resultados gráficos. A amostra de 400 municípios é a que mais se aproxima dos valores de população da variável IDHM_E. 99 Boxplot of IDHM_E; IDHM_E-AA25; IDHM_E-AA100; IDHM_E-AA400 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 IDHM_E IDHM_E-AA25 IDHM_E-AA100 IDHM_E-AA400 Figura Box-Plot para Amostra de 25, 100 e 400 da variável IDHM_E Para melhorar nosso poder de análise criou-se a Figura , que demonstra a analise exploratória para a população da variável IDHM_E. Figura Análise Exploratória para a População da Variável IDHM_E Summary for IDHM_E Anderson-Darling Normality Test A-Squared 9,32 P-Value < 0,005 Mean 0,55909 StDev 0,09333 Variance 0,00871 Skewness -0, Kurtosis -0, N ,27 0,36 0,45 0,54 0,63 0,72 0,81 Minimum 0, st Quartile 0,49000 Median 0, rd Quartile 0,63100 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,09509 Mean Median 0,557 0,558 0,559 0,560 0,561 0,562 0,563 Fonte: Minitab (16.1.0)

100 100 O mesmo procedimento foi realizado para o plano amostral de 400 municípios da variável IDHM_E, no qual criou-se a Figura Summary for IDHM_E-AA400 Anderson-Darling Normality Test A-Squared 1,73 P-Value < 0,005 Mean 0,54862 StDev 0,09343 Variance 0,00873 Skewness -0, Kurtosis -0, N 400 0,32 0,40 0,48 0,56 0,64 0,72 Minimum 0, st Quartile 0,47200 Median 0, rd Quartile 0,62350 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,10039 Mean Median 0,540 0,545 0,550 0,555 0,560 0,565 0,570 Figura Análise Exploratória da Amostra de 400 Municípios da Variável IDHM_E Para uma melhor análise comparativa entre população e amostra produziu-se a Tabela Tabela Análise Comparativa da População e Amostra para a Variável RDPC Variável Média Desvio Mínimo Mediana Máximo Padrão População 0,56 0,09 96,25 0,21 0,82 Amostra 0,55 0,09 135,04 0,32 0,77 Fonte: Elaborado pelo Autor (2017) A amostra de 400 municípios apresentou o mesmo valor para máximo, para desvio padrão, mínimo, máximo e mediana são diferentes entre população e amostra da variável IDHM_E. Portanto, pode-se concluir que a amostra aleatória de 400 municípios não representa fielmente a população tornando-a não confiável para o estudo. A Tabela demonstra o resultado do teste de comparações de dados desempilhados. O P-Value longe de 1 não confirma a análise, ou seja, a amostra aleatória não é significativamente representativa. Tabela Teste de Comparações de Dados Desempilhados One-way ANOVA: IDHM_E; IDHM_E-AA400 Source DF SS MS F P Factor 1 0, , ,70 0,030 Error , ,00871 Total ,98636 S = 0,09333 R-Sq = 0,08% R-Sq(adj) = 0,06%

101 Data 101 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev IDHM_E , ,09333 (---*---) IDHM_E-AA , ,09343 ( * ) ,5400 0,5460 0,5520 0,5580 Pooled StDev = 0,09333 A Figura , representa o Box-Plot, qual não confirma a hipótese nula de diferença de médias para a amostra de 400 indivíduos. Figura Box-Plot para População e Amostra de 400 Indivíduos para a Variável IDHM_E 0,9 Boxplot of IDHM_E; IDHM_E-AA400 0,8 0,7 0,6 0,5 0,4 0,3 0,2 IDHM_E IDHM_E-AA Síntese dos Resultados A medida que o tamanho da amostra aleatória aumenta, os valores da análise exploratória sofrem poucas mudanças, não necessariamente ocorre o aumento, as vezes ocorre uma diminuição. Foi possível verificar essa premissa, pela comparação dos valores de média, desvio padrão, mediana, mínimo e máximo entre os dados da população e amostra para as variáveis analisadas: ESPEVIDA ; IDHM_L ; IDHM_R ; IDHM ; RDPC ; e IDHM_E. As variáveis IDHM e IDHM_E tiveram P-value próximo a zero. Embora o acréscimo de indivíduos na amostra demonstre quantitativamente maior representatividade para a pesquisa amostral, é necessário comparar se este acréscimo é significativo para a representação da população. Considerando que duas variáveis tiveram os valores de P próximo a zero, realizou-se um procedimento para uma amostra aleatória de 1600 indivíduos, a mudança

102 102 apenas foi significativa para a variável IDHM, tendo o P-value próximo a 1, o que não ocorreu com a variável IDHM_E, onde, houve um aumento, mas mesmo assim ficou próximo de zero. Na Tabela demonstra-se a comparação da análise da correlação das variáveis ESPEVIDA ; IDHM_L ; IDHM_R ; IDHM ; RDPC ; e IDHM_E e para amostra de 400 individuos, observa-se que os valores não ficaram próximos, nem se quer estabeleceu quaisquer níveis aceitáveis de correlação. O mesmo correu com a amostra de 1600 indivíduos. Tabela Comparação da Análise de Correlação entre População e Amostra Correlations: ESPVIDA; IDHM_L; Correlations: ESPVIDA-AA40; IDHM_R; IDHM; RDPC; IDHM_E IDHM_L-AA400; IDHM_R-AA400; IDHM-AA400;... ESPVIDA IDHM_L IDHM_R IDHM RDPC IDHM_L 1,000 0,000 IDHM_R 0,834 0,834 0,000 0,000 IDHM 0,852 0,852 0,948 0,000 0,000 0,000 RDPC 0,784 0,784 0,962 0,908 0,000 0,000 0,000 0,000 ESPVIDA-AA400 IDHM_L- AA400 IDHM_R-AA400 IDHM- AA400 IDHM_L-AA400 0,001 0,980 IDHM_R-AA400 0,007 0,049 0,884 0,328 IDHM-AA400-0,022 0,072-0,040 0,661 0,149 0,420 IDHM_E 0,704 0,704 0,820 0,951 0,791 0,000 0,000 0,000 0,000 0,000 Cell Contents: Pearson correlation P-Value RDPC-AA400 0,047 0,028 0,010 0,064 0,349 0,579 0,835 0,200 IDHM_E-AA400 0,017 0,052-0,019-0,009 0,739 0,299 0,709 0,861 RDPC-AA400 IDHM_E-AA400-0,021 0,674 Cell Contents: Pearson correlation P-Value No dendorgrama as variáveis demonstraram comportamento diferentes entre população e amostra, conforme observa-se na Figura o grau de similaridade.

103 Similarity Similarity 103 População Amostra 92,61 52,35 68,23 95,07 84,12 97,54 100,00 ESPVIDA IDHM_L IDHM_R RDPC Variables IDHM IDHM_E 100,00 ESPVIDA-AA400 IDHM_L-AA400 IDHM-AA400 RDPC-AA400 Variables IDHM_E-AA400 IDHM_R-AA400 Figura Comparação do Dendograma entre População e Amostra Finalmente podemos dizer que nossa análise é inconclusiva para as amostras de 25, 100, 400 e 1600 para representação fiel da população, pois se por um lado, os valores de médias, mediana, desvio padrão, mínimo e máximo se assemelham na maioria dos casos, por lado, alguns valores de P e a análise de correlação e observação de agrupamentos desmontam a análise. CAPÍTULO IX. COMPONENTES PRINCIPAIS A análise de componentes principais identifica um número menor de variáveis não correlacionadas, chamada de componentes principais, de um grande conjunto de dados. Esta análise permite criar novas variáveis (componentes principais) que são combinações lineares das variáveis observadas. A meta da análise de componentes principais é explicar a maior quantidade de variância com menor número de componentes principais. Esta etapa do trabalho exigiu alguns procedimentos para estruturar a base de dados, primeiro foi realizada normalização dos dados e positivação quando necessário, um reajuste do nome de cada variável foi necessário para identificarmos mais facilmente Normalização e Positivação dos Dados Os dados foram normalizados e positivados com necessário com o suporte do software estatístico MiniTab, na Tabela podemos ver o resultado da estatística descritiva qual apresenta a visão geral dos dados demonstrando que não há nenhum erro na base de dados que nos permite seguir com procedimentos seguintes. Tabela Estatística Descritiva para os Dados Normalizados e Positivados Descriptive Statistics: IDHM-n; IDHM_E-n; IDHM_L-n; IDHM_R-n; ESPVIDA-n;... Total Variable Count N N* Mean SE Mean StDev Variance IDHM-n , , , ,02629 IDHM_E-n , , , ,02281 IDHM_L-n , , , ,04051 IDHM_R-n , , , ,02699 ESPVIDA-n , , , ,04038

104 SOBRE60-n , , , ,02139 E_ANOSESTUDO-n , , , ,01673 T_FBSUPER-n , , , ,01875 GINI-np , , , ,01615 RDPC-n , , , ,01560 P_SERV-n , , , ,01625 P_SUPER-n , , , ,00939 T_LUZ-n , , , ,00689 T_LIXO-n , , , ,01221 T_SLUZ-n , , , ,00689 T_OCUPDESLOC_1-n , , , ,00908 pesorur-n , , , ,00281 pesourb-n , , , , Variable CoefVar Minimum Q1 Median Q3 Maximum IDHM-n 29,85 0, , , , ,00000 IDHM_E-n 26,51 0, , , , ,00000 IDHM_L-n 34,49 0, , , , ,00000 IDHM_R-n 33,21 0, , , , ,00000 ESPVIDA-n 34,42 0, , , , ,00000 SOBRE60-n 25,56 0, , , , ,00000 E_ANOSESTUDO-n 21,44 0, , , , ,00000 T_FBSUPER-n 57,23 0, , , , ,00000 GINI-np 21,62 0, , , , ,00000 RDPC-n 61,22 0, , , , ,00000 P_SERV-n 37,10 0, , , , ,00000 P_SUPER-n 53,68 0, , , , ,00000 T_LUZ-n 8,63 0, , , , ,00000 T_LIXO-n 11,75 0, , , , ,00000 T_SLUZ-n 214,36 0, , , , ,00000 T_OCUPDESLOC_1-n 112,51 0, , , , ,00000 pesorur-n 123,91 0, , , , ,00000 pesourb-n 701,21 0, , , , ,00000 Para facilitar a leitura e distinção das variáveis criou-se um novo rótulo para cada variável, o Quadro apresenta a atualização. Quadro Definição das Variáveis VARIÁVEL SIGNIFICADO TIPO UNIDADE DE MEDIDA MUNICÍPIO Nome do Município Qualitativa N/a UF Unidade da Federação Quantitativa N/a IDHM-n IDHM_E-n Índice de desenvolvimento humano municipal. Média geométrica dos índices das dimensões Renda, Educação e Longevidade, com pesos iguais. Índice de Desenvolvimento Humano Municipal - Dimensão Educação. Índice sintético da dimensão Educação que é um dos 3 componentes do IDHM. É obtido através da média geométrica do subíndice de Quantitativa Índice Quantitativo Índice

105 105 frequência de crianças e jovens à escola, com peso de 2/3, e do subíndice de escolaridade da população adulta, com peso de 1/3. Índice de Desenvolvimento Humano IDHM_L-n Municipal - Dimensão Longevidade. Índice da dimensão Longevidade que é um dos 3 componentes do IDHM. É obtido a partir do indicador Esperança de vida ao nascer, através da fórmula: [(valor observado do indicador) - (valor mínimo)] / [(valor máximo) - (valor mínimo)], onde os valores mínimo e máximo são 25 e 85 anos, respectivamente. Quantitativo Índice Índice de Desenvolvimento Humano Municipal - Dimensão Renda. Índice da dimensão Renda que é um dos 3 IDHM_R-n componentes do IDHM. É obtido a partir do indicador Renda per capita, através da fórmula: [ln (valor observado do indicador) Quantitativa Índice - ln (valor mínimo)] / [ln (valor máximo) - ln (valor mínimo)], onde os valores mínimo e máximo são R$ 8,00 e R$ 4.033,00 (a preços de agosto de 2010). ESPVIDA-n Esperança de vida ao nascer. Quantitativa Anos SOBRE60-n Probabilidade de sobrevivência até 60 anos Quantitativa Percentual E_ANOSESTUDO-n Expectativa de anos de estudo Quantitativa Anos T_FBSUPER-n GINI-np Taxa de frequência bruta ao ensino superior. Quantitativa Percentual Índice de Gini. Mede o grau de desigualdade existente na distribuição de indivíduos segundo a renda domiciliar per capita. Seu valor varia de 0, quando não há desigualdade (a renda domiciliar per capita de todos os Quantitativa Índice indivíduos tem o mesmo valor), a 1, quando a desigualdade é máxima (apenas um indivíduo detém toda a renda).o universo de indivíduos é limitado àqueles que vivem em domicílios particulares permanentes. RDPC-n Renda per capita média Quantitativa P_SERV-n P_SUPER-n T_LUZ-n T_LIXO-n T_SLUZ-n T_OCUPDESLOC_1- n Percentual dos ocupados no setor de serviços 18 anos ou mais Percentual dos ocupados com superior completo 18 anos ou mais Percentual da população que vive em domicílios com energia elétrica. Percentual da população que vive em domicílios urbanos com serviço de coleta de lixo. Percentual de pessoas em domicílios sem energia elétrica. Percentual de pessoas em domicílios vulneráveis à pobreza e que gastam mais de uma hora até o trabalho. Absoluto (valor) Quantitativa Percentual Quantitativa Percentual Quantitativa Percentual Quantitativa Percentual Quantitativa Percentual Quantitativa Percentual

106 pesorur-n População residente na área rural. Quantitativa Valor pesourb-n População residente na área urbana. Quantitativa Valor Fonte: Adaptado do Atlas Brasil (2017) A próxima etapa foi realizar a análise das relações entre variáveis, antes do processo de análise de componentes principais Correlação das Variáveis A Tabela apresenta a correlação entre as variáveis normalizadas e positivadas, seguindo com a preparação dos dados para conforme descrito anteriormente. Tabela Relação entre Variáveis Normalizadas e Positivadas Correlations: IDHM-n; IDHM_E-n; IDHM_L-n; IDHM_R-n; ESPVIDA-n; SOBRE60-n;... IDHM-n IDHM_E-n IDHM_L-n IDHM_E-n 0,951 0,000 IDHM_L-n 0,852 0,704 0,000 0,000 IDHM_R-n 0,948 0,820 0,834 0,000 0,000 0,000 ESPVIDA-n 0,852 0,704 1,000 0,000 0,000 0,000 SOBRE60-n 0,453 0,372 0,635 0,000 0,000 0,000 E_ANOSESTUDO-n 0,653 0,710 0,441 0,000 0,000 0,000 T_FBSUPER-n 0,740 0,708 0,582 0,000 0,000 0,000 GINI-np 0,424 0,423 0,379 0,000 0,000 0,000 RDPC-n 0,908 0,791 0,784 0,000 0,000 0,000 P_SERV-n 0,370 0,413 0,236 0,000 0,000 0,000 P_SUPER-n 0,698 0,692 0,543 0,000 0,000 0,000 T_LUZ-n 0,490 0,491 0,341 0,000 0,000 0,000

107 107 T_LIXO-n 0,468 0,393 0,416 0,000 0,000 0,000 T_SLUZ-n -0,490-0,491-0,341 0,000 0,000 0,000 T_OCUPDESLOC_1-n -0,547-0,457-0,519 0,000 0,000 0,000 pesorur-n -0,272-0,249-0,245 0,000 0,000 0,000 pesourb-n 0,149 0,147 0,091 0,000 0,000 0,000 IDHM_R-n ESPVIDA-n SOBRE60-n ESPVIDA-n 0,834 0,000 SOBRE60-n 0,406 0,635 0,000 0,000 E_ANOSESTUDO-n 0,544 0,441 0,190 0,000 0,000 0,000 T_FBSUPER-n 0,724 0,582 0,337 0,000 0,000 0,000 GINI-np 0,358 0,380 0,014 0,000 0,000 0,280 RDPC-n 0,962 0,784 0,412 0,000 0,000 0,000 P_SERV-n 0,304 0,236 0,220 0,000 0,000 0,000 P_SUPER-n 0,658 0,543 0,316 0,000 0,000 0,000 T_LUZ-n 0,448 0,341 0,065 0,000 0,000 0,000 T_LIXO-n 0,499 0,416 0,179 0,000 0,000 0,000 T_SLUZ-n -0,448-0,341-0,065 0,000 0,000 0,000 T_OCUPDESLOC_1-n -0,577-0,520-0,278 0,000 0,000 0,000

108 pesorur-n -0,260-0,245 0,039 0,000 0,000 0, pesourb-n 0,157 0,091 0,103 0,000 0,000 0,000 E_ANOSESTUDO-n T_FBSUPER-n GINI-np T_FBSUPER-n 0,519 0,000 GINI-np 0,396 0,227 0,000 0,000 RDPC-n 0,512 0,751 0,274 0,000 0,000 0,000 P_SERV-n 0,115 0,343-0,086 0,000 0,000 0,000 P_SUPER-n 0,392 0,710 0,047 0,000 0,000 0,000 T_LUZ-n 0,446 0,311 0,444 0,000 0,000 0,000 T_LIXO-n 0,280 0,315 0,343 0,000 0,000 0,000 T_SLUZ-n -0,446-0,311-0,444 0,000 0,000 0,000 T_OCUPDESLOC_1-n -0,344-0,424-0,318 0,000 0,000 0,000 pesorur-n -0,264-0,184-0,368 0,000 0,000 0,000 pesourb-n 0,034 0,186-0,085 0,012 0,000 0,000 RDPC-n P_SERV-n P_SUPER-n P_SERV-n 0,292 0,000 P_SUPER-n 0,700 0,600 0,000 0,000 T_LUZ-n 0,386 0,145 0,237 0,000 0,000 0,000 T_LIXO-n 0,421 0,159 0,272 0,000 0,000 0,000

109 109 T_SLUZ-n -0,386-0,145-0,237 0,000 0,000 0,000 T_OCUPDESLOC_1-n -0,517-0,070-0,354 0,000 0,000 0,000 pesorur-n -0,216-0,086-0,138 0,000 0,000 0,000 pesourb-n 0,217 0,216 0,263 0,000 0,000 0,000 T_LUZ-n T_LIXO-n T_SLUZ-n T_LIXO-n 0,326 0,000 T_SLUZ-n -1,000-0,326 * 0,000 T_OCUPDESLOC_1-n -0,267-0,467 0,267 0,000 0,000 0,000 pesorur-n -0,193-0,184 0,193 0,000 0,000 0,000 pesourb-n 0,046 0,039-0,046 0,001 0,004 0,001 T_OCUPDESLOC_1-n pesorur-n 0,209 0,000 pesorur-n pesourb-n 0,008 0,220 0,550 0,000 Cell Contents: Pearson correlation P-Value Após análise da Tabela 9.2.1, conclui-se que nem todas as variáveis possuem correlação significativa. Assim julgou-se necessário produzir a Tabela para evidenciar com mais clareza as variáveis que apresentam forte relação. Ressaltamos que, o fato da presença de relação entre variáveis ser notória, não significa que as mesmas apresentam causalidade, ou seja, um sentido direto entre elas.

110 Similarity Tabela Correlação das Variáveis Variável (y) Variável (x) Grau de Correlação IDHM_E-N IDHM-N 0,951 IDHM_L-N IDHM-N 0,852 IDHM_R-N IDHM-N 0,948 IDHM_R-N IDHM_E-N 0,820 IDHM_R-N IDHM_L-N 0,834 ESPVIDA-N IDHM-N 0,852 ESPVIDA-N IDHM_L-N 1,000 RDPC-N IDHM-N 0,908 ESPVIDA-N IDHM_R-N 0,834 RDPC-N IDHM_R-N 0,962 Fonte: Elaborado pelo Autor (2016) A Tabela apresenta as variáveis que apresentam correlação com grau acima de 0,800. As informações da referida tabela demonstram a correlação das variáveis analisadas, sendo aquelas que apresentam maior valor e P=0, pode-se dizer que são correlações com alto grau de confiabilidade. A Figura apresenta o dendograma. 110 Dendrogram Complete Linkage; Correlation Coefficient Distance 0,00 33,33 66,67 100,00 IDHM-n IDHM_E-n IDHM_R-n RDPC-n IDHM_L-n ESPVIDA-n T_FBSUPER-n P_SUPER-n SOBRE60-n P_SERV-n E_ANOSESTUDO-n Variables T_LUZ-n GINI-np T_LIXO-n T_SLUZ-n T_OCUPDESLOC_1-n pesorur-n pesourb-n Figura Dendograma das Variáveis Selecionadas N e NP O dendograma representa a forma gráfica da correlação, indicando quais variáveis poderiam ser agrupadas, o gráfico corrobora a análise. Entretanto vale destacar outras variáveis representativas no dendograma para a análise dos componentes principais devido ao grau de similaridade, assim

111 Second Component 111 selecionamos as seguintes variáveis: IDHM-N ; IDHM_E-N ; IDHM_L-N ; IDHM_R-N ; ESPVIDA-N ; RDPC-NP ; T_FBSUPER-N ; E_ANOSESTUDO-N ; P_SUPER-N Análise de Componentes Principais Para reduzir o número de variáveis realizamos o procedimento de análise de componentes principais, ou seja, a análise nos permite perceber as relações entre as variáveis e a possibilidade de agrupamento mediante sua similaridade. O procedimento realizado para análise das correlações e dendograma já nos permitiu eliminar algumas variáveis e nos deu uma ideia dos possíveis agrupamentos. A Figura apresenta as variáveis que compõe o primeiro e segundo componente. 0,4 0,3 T_SLUZ-n Loading Plot of IDHM-n;...; pesourb-n pesorur-n pesourb-n P_SERV-n SOBRE60-n P_SUPER-n 0,2 0,1 T_OCUPDESLOC_1-n 0,0-0,1-0,2-0,3-0,4 T_FBSUPER-n RDPC-n ESPVIDA-n IDHM_L-n IDHM_R-n IDHM-n IDHM_E-n T_LIXO-n E_ANOSESTUDO-n GINI-np T_LUZ-n -0,5-0,2-0,1 0,0 0,1 First Component 0,2 0,3 0,4 Figura Primeiro e Segundo Componentes Abaixo a Tabela e a Figura apresentam respectivamente os resultados da análise dos componentes principais e o gráfico eigen value. Tabela Análise dos Componentes Principais Principal Component Analysis: IDHM-n; IDHM_E-n; IDHM_L-n; IDHM_R-n; ESPVIDA-n; Eigenanalysis of the Correlation Matrix Eigenvalue 8,5430 2,0814 1,4485 1,0867 0,8733 0,8392 0,7032 0,5634 Proportion 0,475 0,116 0,080 0,060 0,049 0,047 0,039 0,031 Cumulative 0,475 0,590 0,671 0,731 0,780 0,826 0,865 0,897 Eigenvalue 0,4928 0,4590 0,3546 0,2138 0,1869 0,1297 0,0243 0,0003 Proportion 0,027 0,025 0,020 0,012 0,010 0,007 0,001 0,000 Cumulative 0,924 0,949 0,969 0,981 0,991 0,999 1,000 1,000

112 112 Eigenvalue 0,0000-0,0000 Proportion 0,000-0,000 Cumulative 1,000 1,000 Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 IDHM-n 0,334 0,034 0,009-0,027 0,040-0,089-0,017 IDHM_E-n 0,310 0,006-0,105-0,112 0,083-0,154-0,056 IDHM_L-n 0,297 0,097 0,261 0,158 0,161 0,071 0,161 IDHM_R-n 0,321 0,052 0,054 0,007-0,080-0,065-0,040 ESPVIDA-n 0,297 0,097 0,261 0,158 0,161 0,071 0,161 SOBRE60-n 0,167 0,288 0,258 0,353 0,385 0,242 0,066 E_ANOSESTUDO-n 0,226-0,171-0,077-0,131 0,120-0,445-0,191 T_FBSUPER-n 0,265 0,139-0,098-0,167-0,053-0,225-0,179 GINI-np 0,157-0,417 0,155-0,002-0,076-0,135 0,405 RDPC-n 0,309 0,119 0,016-0,002-0,067-0,145-0,047 P_SERV-n 0,131 0,272-0,387-0,328 0,077 0,529 0,093 P_SUPER-n 0,246 0,276-0,234-0,261-0,043 0,043-0,112 T_LUZ-n 0,193-0,418-0,354 0,237 0,161 0,184-0,068 T_LIXO-n 0,183-0,128 0,107 0,086-0,612 0,404-0,054 T_SLUZ-n -0,193 0,418 0,354-0,237-0,161-0,184 0,068 T_OCUPDESLOC_1-n -0,208 0,056-0,261-0,052 0,437-0,086 0,293 pesorur-n -0,107 0,259-0,205 0,606-0,070-0,133-0,458 pesourb-n 0,056 0,267-0,408 0,320-0,356-0,265 0,612 Variable PC8 PC9 PC10 PC11 PC12 PC13 PC14 IDHM-n -0,027 0,121 0,011 0,184-0,131-0,145-0,244 IDHM_E-n -0,226 0,045 0,072 0,175-0,122-0,352-0,637 IDHM_L-n 0,074 0,119 0,015 0,134 0,223 0,378-0,097 IDHM_R-n 0,205 0,212-0,073 0,174-0,268-0,078 0,275 ESPVIDA-n 0,074 0,119 0,015 0,133 0,223 0,378-0,097 SOBRE60-n -0,241-0,374-0,118-0,326-0,119-0,366 0,130 E_ANOSESTUDO-n -0,491-0,354-0,275 0,205 0,106 0,248 0,302 T_FBSUPER-n 0,092 0,027 0,002-0,757-0,215 0,363-0,164 GINI-np -0,338 0,210 0,552-0,239 0,018-0,125 0,230 RDPC-n 0,274 0,214-0,116 0,078-0,252-0,236 0,440 P_SERV-n -0,270-0,040 0,271 0,170-0,293 0,256 0,161 P_SUPER-n 0,078 0,029 0,115-0,135 0,752-0,300 0,148 T_LUZ-n 0,180-0,063-0,039-0,052 0,036 0,007-0,004 T_LIXO-n -0,361 0,190-0,449-0,111 0,074-0,011-0,054 T_SLUZ-n -0,180 0,063 0,039 0,052-0,036-0,007 0,004 T_OCUPDESLOC_1-n -0,212 0,587-0,432-0,130 0,040-0,030 0,033 pesorur-n -0,275 0,304 0,313 0,055 0,022 0,083 0,059 pesourb-n 0,057-0,266-0,080 0,036-0,002 0,031-0,057 Variable PC15 PC16 PC17 PC18 IDHM-n -0,206-0,829-0,009-0,000 IDHM_E-n 0,172 0,428 0,004 0,000 IDHM_L-n 0,089 0,060 0,708 0,000 IDHM_R-n -0,695 0,345 0,004 0,000 ESPVIDA-n 0,089 0,075-0,706-0,000 SOBRE60-n -0,064 0,001-0,000 0,000 E_ANOSESTUDO-n 0,002 0,001 0,000 0,000

113 Eigenvalue T_FBSUPER-n -0,016-0,001 0,000-0,000 GINI-np -0,004-0,001 0,000-0,000 RDPC-n 0,640-0,026-0,000-0,000 P_SERV-n 0,055 0,000 0,000 0,000 P_SUPER-n -0,091-0,001 0,000-0,000 T_LUZ-n 0,011 0,003 0,000-0,707 T_LIXO-n 0,042 0,000-0,000 0,000 T_SLUZ-n -0,011-0,003-0,000-0,707 T_OCUPDESLOC_1-n -0,042-0,000-0,000-0,000 pesorur-n 0,004-0,001 0,000-0,000 pesourb-n -0,023 0,000 0,000 0, Scree Plot of IDHM-n;...; pesourb-n Component Number Figura Eigen Value Os resultados nos permitem observar que se agruparmos 18 variáveis em apenas uma (PC1) teremos uma proporção de 47,5%, com duas (PC1 + PC2) chegamos a 59%, com três (PC1 + PC2 + PC3) temos 67%, e com quatro (PC1 + PC2 + PC3 + PC4) chegamos 73,1%, seguindo com o procedimento até chegar a 100%. Este resultado é significativo pois, ao invés de trabalharmos com 18 variáveis, podemos então reduzir para as três novas variáveis criadas PC1 ; PC2 ; PC3, que explica 67% dos indicadores. Na Figura podemos observar a dispersão dos dados em um gráfico em três dimensões das três novas variáveis criadas.

114 114 3D Scatterplot of PC1 vs PC2 vs PC3 10 PC PC PC2 Figura Dispersão dos Dados das Variáveis PC1 ; PC2 ; PC3 Fonte: Minitab (16.1.0) Para uma análise mais apurada das novas variáveis no que tende a sua relação com as demais variáveis e seu poder de explicação, realizou-se o procedimento de regressão linear multivariada, para cada uma das três novas variáveis: PC1 ; PC2 ; PC3. Tabela Análise de Regressão para a Variável PC1 Regression Analysis: PC1 versus IDHM-n; IDHM_E-n;... * T_SLUZ-n is highly correlated with other X variables * T_SLUZ-n has been removed from the equation. The regression equation is PC1 = - 14,9 + 2,06 IDHM-n + 2,05 IDHM_E-n + 1,48 IDHM_L-n + 1,96 IDHM_R-n + 1,48 ESPVIDA-n + 1,14 SOBRE60-n + 1,74 E_ANOSESTUDO-n + 1,94 T_FBSUPER-n + 1,24 GINI-np + 2,47 RDPC-n + 1,03 P_SERV-n + 2,54 P_SUPER-n + 4,64 T_LUZ-n + 1,65 T_LIXO-n - 2,19 T_OCUPDESLOC_1-n - 2,02 pesorur-n + 3,08 pesourb-n Predictor Coef SE Coef T P Constant -14,9485 0,0000 * * IDHM-n 2, ,00000 * * IDHM_E-n 2, ,00000 * * IDHM_L-n 1, ,00000 * * IDHM_R-n 1, ,00000 * * ESPVIDA-n 1, ,00000 * * SOBRE60-n 1, ,00000 * * E_ANOSESTUDO-n 1, ,00000 * * T_FBSUPER-n 1, ,00000 * * GINI-np 1, ,00000 * * RDPC-n 2, ,00000 * *

115 P_SERV-n 1, ,00000 * * P_SUPER-n 2, ,00000 * * T_LUZ-n 4, ,00000 * * T_LIXO-n 1, ,00000 * * T_OCUPDESLOC_1-n -2, ,00000 * * pesorur-n -2, ,00000 * * pesourb-n 3, ,00000 * * 115 S = 0 R-Sq = 100,0% R-Sq(adj) = 100,0% Analysis of Variance Source DF SS MS F P Regression ,2 2796,1 * * Residual Error ,0 0,0 Total ,2 O resultado apresentado na Tabela demonstra a exclusão da variável predictora T_SLUZ da equação de relações entre variáveis, as demais variáveis compões a equação para a variável resposta PC1. Em busca da melhor equação que mais explicam a variável PC1-1, realizou o procedimento de regressão passo a passo. A Tabela demonstra os resultados. Tabela Regressão Passo a Passo para a Variável PC1-1 Stepwise Regression: PC1 versus IDHM-n; IDHM_E-n;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is PC1 on 18 predictors, with N = 5565 Step Constant -9,554-12,793-11,950-11,958-12,639-12,888 IDHM-n 17,590 16,605 15,548 13,796 10,639 9,671 T-Value 333,38 306,22 279,96 216,68 143,37 138,40 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 T_LUZ-n 3,926 3,935 4,244 4,955 5,347 T-Value 37,05 41,77 51,56 74,88 90,27 P-Value 0,000 0,000 0,000 0,000 0,000 T_OCUPDESLOC_1-n -3,278-3,175-2,731-2,841 T-Value -38,37-42,69-46,09-54,24 P-Value 0,000 0,000 0,000 0,000 T_FBSUPER-n 2,732 3,214 2,471 T-Value 42,24 62,09 50,06 P-Value 0,000 0,000 0,000 ESPVIDA-n 2,670 2,858

116 T-Value 57,87 69,71 P-Value 0,000 0, P_SUPER-n 2,639 T-Value 39,74 P-Value 0,000 S 0,638 0,572 0,508 0,442 0,349 0,308 R-Sq 95,23 96,18 96,98 97,71 98,57 98,89 R-Sq(adj) 95,23 96,18 96,98 97,71 98,57 98,89 PRESS 2267, , , ,49 680, ,429 R-Sq(pred) 95,23 96,17 96,97 97,71 98,57 98,88 A análise do resultado da regressão passo a passo, nos permitiu observar que apenas uma variável, IDHM-N explica em 95% da variável resposta PC1. Seguindo, realizou-se os mesmos procedimentos para a variável PC2. Tabela Análise de Regressão para Variável PC2-1 Regression Analysis: PC2 versus IDHM-n; IDHM_E-n;... * T_SLUZ-n is highly correlated with other X variables * T_SLUZ-n has been removed from the equation. The regression equation is PC2 = 9,53 + 0,207 IDHM-n + 0,0371 IDHM_E-n + 0,483 IDHM_L-n + 0,320 IDHM_R-n + 0,483 ESPVIDA-n + 1,97 SOBRE60-n - 1,32 E_ANOSESTUDO-n + 1,02 T_FBSUPER-n - 3,28 GINI-np + 0,954 RDPC-n + 2,13 P_SERV-n + 2,85 P_SUPER-n - 10,1 T_LUZ-n - 1,16 T_LIXO-n + 0,591 T_OCUPDESLOC_1-n + 4,89 pesorur-n + 14,8 pesourb-n Predictor Coef SE Coef T P Constant 9, ,00000 * * IDHM-n 0, , * * IDHM_E-n 0, , * * IDHM_L-n 0, , * * IDHM_R-n 0, , * * ESPVIDA-n 0, , * * SOBRE60-n 1, ,00000 * * E_ANOSESTUDO-n -1, ,00000 * * T_FBSUPER-n 1, ,00000 * * GINI-np -3, ,00000 * * RDPC-n 0, , * * P_SERV-n 2, ,00000 * * P_SUPER-n 2, ,00000 * * T_LUZ-n -10,0685 0,0000 * * T_LIXO-n -1, ,00000 * * T_OCUPDESLOC_1-n 0, , * * pesorur-n 4, ,00000 * * pesourb-n 14,7811 0,0000 * *

117 117 S = 0 R-Sq = 100,0% R-Sq(adj) = 100,0% Analysis of Variance Source DF SS MS F P Regression ,85 681,23 * * Residual Error ,00 0,00 Total ,85 O resultado apresentado na Tabela demonstra a exclusão da variável predictora T_SLUZ da equação de relações entre variáveis, as demais variáveis compõem a equação para a variável resposta PC2. Em busca da melhor equação que mais explicam a variável PC2, realizou o procedimento de regressão passo a passo. A Tabela demonstra os resultados. Tabela Regressão Passo a Passo para a Variável PC2 Stepwise Regression: PC2 versus IDHM-n; IDHM_E-n;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is PC2 on 18 predictors, with N = 5565 Step Constant -0,4057-2,0391 0,6546-0,8411-0,8839-1,4127 T_SLUZ-n 10,478 12,840 9,836 9,770 9,917 9,888 T-Value 56,34 93,75 79,62 103,88 143,05 168,40 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 P_SUPER-n 8,544 8,199 6,707 5,773 6,255 T-Value 72,82 86,37 88,26 100,18 125,41 P-Value 0,000 0,000 0,000 0,000 0,000 GINI-np -4,279-4,297-3,980-3,392 T-Value -54,53-71,92-89,91-85,82 P-Value 0,000 0,000 0,000 0,000 SOBRE60-n 3,107 3,051 2,921 T-Value 63,53 84,67 95,29 P-Value 0,000 0,000 0,000 pesourb-n 19,75 16,81 T-Value 68,45 66,64 P-Value 0,000 0,000 pesorur-n 4,210 T-Value 46,82 P-Value 0,000

118 118 S 1,15 0,824 0,665 0,506 0,373 0,316 R-Sq 36,33 67,41 78,76 87,69 93,32 95,21 R-Sq(adj) 36,32 67,39 78,75 87,69 93,32 95,21 PRESS 7378, , , ,90 782, ,082 R-Sq(pred) 36,29 67,32 78,69 87,64 93,25 95,14 A análise do resultado da regressão passo a passo, nos permitiu observar que apenas duas variáveis, T_SLUZ-n ; P_SUPER-n ; GINI-np; SOBRE60-n ; pesourb-n e pesorur-n explicam em 95% da variável resposta PC2. Finalmente, realizou-se os mesmos procedimentos para a variável PC3. Tabela Regressão para a Variável PC3 Regression Analysis: PC3 versus IDHM-n; IDHM_E-n;... * T_SLUZ-n is highly correlated with other X variables * T_SLUZ-n has been removed from the equation. The regression equation is PC3 = 6,70 + 0,0547 IDHM-n - 0,692 IDHM_E-n + 1,30 IDHM_L-n + 0,328 IDHM_R-n + 1,30 ESPVIDA-n + 1,76 SOBRE60-n - 0,595 E_ANOSESTUDO-n - 0,716 T_FBSUPER-n + 1,22 GINI-np + 0,125 RDPC-n - 3,03 P_SERV-n - 2,42 P_SUPER-n - 8,54 T_LUZ-n + 0,965 T_LIXO-n - 2,74 T_OCUPDESLOC_1-n - 3,87 pesorur-n - 22,6 pesourb-n Predictor Coef SE Coef T P Constant 6, ,00000 * * IDHM-n 0, , * * IDHM_E-n -0, , * * IDHM_L-n 1, ,00000 * * IDHM_R-n 0, , * * ESPVIDA-n 1, ,00000 * * SOBRE60-n 1, ,00000 * * E_ANOSESTUDO-n -0, , * * T_FBSUPER-n -0, , * * GINI-np 1, ,00000 * * RDPC-n 0, , * * P_SERV-n -3, ,00000 * * P_SUPER-n -2, ,00000 * * T_LUZ-n -8, ,00000 * * T_LIXO-n 0, , * * T_OCUPDESLOC_1-n -2, ,00000 * * pesorur-n -3, ,00000 * * pesourb-n -22,5553 0,0000 * * S = 0 R-Sq = 100,0% R-Sq(adj) = 100,0%

119 Analysis of Variance 119 Source DF SS MS F P Regression ,70 474,10 * * Residual Error ,00 0,00 Total ,70 O resultado apresentado na Tabela demonstra a exclusão da variável predictora T_SLUZ-NP da equação de relações entre variáveis, as demais variáveis compõem a equação para a variável resposta PC3. Em busca da melhor equação que mais explicam a variável PC3, realizou o procedimento de regressão passo a passo. A Tabela demonstra os resultados. Tabela Regressão Passo a Passo para a Variável PC3 Stepwise Regression: PC3 versus IDHM-n; IDHM_E-n;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is PC3 on 18 predictors, with N = 5565 Step Constant 0, , , , , ,63902 pesourb-n -32,67-31,44-34,26-28,49-27,82-25,00 T-Value -41,99-45,58-67,87-83,63-93,65-111,11 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 T_SLUZ-n 5,875 8,628 8,176 8,509 8,476 T-Value 39,11 74,10 105,93 125,76 168,35 P-Value 0,000 0,000 0,000 0,000 0,000 ESPVIDA-n 3,373 3,893 3,244 3,912 T-Value 69,93 119,84 100,74 150,70 P-Value 0,000 0,000 0,000 0,000 P_SERV-n -4,199-4,090-2,608 T-Value -84,61-94,48-66,74 P-Value 0,000 0,000 0,000 T_OCUPDESLOC_1-n -2,735-3,318 T-Value -42,15-67,61 P-Value 0,000 0,000 P_SUPER-n -4,054 T-Value -66,94 P-Value 0,000 S 1,05 0,929 0,678 0,448 0,390 0,290 R-Sq 24,07 40,45 68,31 86,15 89,50 94,19 R-Sq(adj) 24,06 40,42 68,30 86,14 89,49 94,18

120 PRESS 6221, , , ,12 855, ,269 R-Sq(pred) 22,81 39,60 66,41 85,95 89,38 94, A análise do resultado da regressão passo a passo, nos permitiu observar que para explicar em 94% da variável PC3, foram necessárias seis variáveis: pesourb-n ; T_SLUZ-n ; ESPVIDAn ; P_SERV-n ; T_OCUPDESLOC_1-n ; e P_SUPER-N. 9.4 Síntese dos Resultados Os diversos procedimentos realizados em conjunto com as análises realizadas, nos permitiu perceber que o agrupamento de variáveis é bastante pertinente no caso das variáveis IDHM-N ; T_LUZ ; IDHM_R-N ; ESPVIDA-N ; T_FBSUPER-N ; E_ANOSESTUDO-N ; e P_SUPER-N. Isso pôde ser observado inicialmente pelas matrizes de correlação e dendogramas, depois pela análise de componentes principais e finalmente pela regressão linear multivariada. Assim, ao invés de trabalharmos com um grupo de 18 variáveis poderíamos usar apenas três índices (PC1; PC2; e PC3) que as represente satisfatoriamente. A próxima etapa do trabalho apresenta o resultado do procedimento de análise de conglomerado, com base nos resultados da análise de componentes principais selecionou-se oito variáveis para realizar o procedimento. CAPÍTULO X. ANÁLISE DE CONGLOMERADOS Análise de observação de clusters agrupa observações que compartilham características comuns em grupos. Os agrupamentos de informações usam um procedimento hierárquicos para formar grupos. Para este procedimento estatístico foram necessárias a realização de etapas de preparação base de dados: (1) seleção de variáveis com base no procedimento de análise de componentes principais; (2) análise de variância para determinar as médias das variáveis por unidade da federação; (3) análise exploratória dos dados Seleção de Variáveis Foram selecionadas oito variáveis da relação de dezoito apresentadas no Quadro O pesquisador buscou selecionar variáveis relacionadas à dimensão do conhecimento do Atlas do Desenvolvimento no Brasil com base nos resultados da análise dos componentes principais: IDHM_E-n ; IDHM_R-n; ESPEVIDA-n ; SOBRE60-n ; E_ANOSESTUDO-n ; FBSUPERn ; RDPC-n ; e P_SUPER-n. Com isso foi possível produzir o Quadro Quadro Variáveis Selecionas para a Análise de Conglomerados VARIÁVEL SIGNIFICADO TIPO UNIDADE DE MEDIDA

121 MUNICÍPIO Nome do Município Qualitativa N/a UF Unidade da Federação Quantitativa N/a IDHM_E-n IDHM_R-n ESPVIDA-n SOBRE60-n E_ANOSESTUDO-n T_FBSUPER-n Índice de Desenvolvimento Humano Municipal - Dimensão Educação. Índice sintético da dimensão Educação que é um dos 3 componentes do IDHM. É obtido através da média geométrica do subíndice de frequência de crianças e jovens à escola, com peso de 2/3, e do subíndice de escolaridade da população adulta, com peso de 1/3. Índice de Desenvolvimento Humano Municipal - Dimensão Renda. Índice da dimensão Renda que é um dos 3 componentes do IDHM. É obtido a partir do indicador Renda per capita, através da fórmula: [ln (valor observado do indicador) - ln (valor mínimo)] / [ln (valor máximo) - ln (valor mínimo)], onde os valores mínimo e máximo são R$ 8,00 e R$ 4.033,00 (a preços de agosto de 2010). Esperança de vida ao nascer. Probabilidade de sobrevivência até 60 anos Expectativa de anos de estudo Taxa de frequência bruta ao ensino superior. Quantitativo Quantitativa Quantitativa Quantitativa Quantitativa Quantitativa RDPC-n Renda per capita média Quantitativa P_SUPER-n Percentual dos ocupados com superior completo 18 anos ou mais Fonte: Atlas Brasil (2017). Quantitativa Índice Índice Anos Percentual Anos Percentual Absoluto (valor) Percentual 121

122 10.2 Média das Variáveis Selecionadas por Unidade da Federação O procedimento de análise de variância foi realizado para determinar as médias das variáveis por unidade da federação. O resultado nos permitiu produzir a Tabela com os dados das médias das variáveis por estado. Tabela Tabela de Dados: Média das Variáveis por UF ESTA DO-n M- IDHM _E-n M- IDHM _R-n M- ESPVI DA-n M- SOBRE 60-n M- E_ANOSEST UDO-n M- FBSUP ER-n M- RDP C-n AC 0,3968 0,3777 0,4267 0,6072 0, ,2205 0, AL 0,3815 0,3022 0,3049 0,4594 0, ,1356 0, AM 0,3721 0,2955 0,4216 0,6072 0, ,1003 0, AP 0,5549 0,4458 0,5044 0,7091 0, ,2104 0, BA 0,4448 0,3559 0,3951 0,5705 0, ,1308 0, CE 0,5584 0,3244 0,4029 0,5842 0, ,1606 0, DF 0,8657 0,9430 0,9033 0,7546 0, ,7375 0, ES 0,6219 0,5715 0,6924 0,5039 0, ,2678 0, GO 0,6296 0,5785 0,6914 0,5646 0, ,2919 0, MA 0,4557 0,2682 0,3097 0,4662 0, ,1266 0, MG 0,5661 0,5132 0,6840 0,5107 0, ,2234 0, MS 0,5670 0,5862 0,6733 0,5333 0, ,3001 0, MT 0,5987 0,5746 0,6547 0,5246 0, ,2712 0, PA 0,3910 0,3510 0,4621 0,6527 0, ,1143 0, PB 0,4376 0,3348 0,3777 0,5499 0, ,1786 0, PE 0,4588 0,3551 0,3774 0,5490 0, ,1493 0, PI 0,4040 0,2990 0,3500 0,5167 0, ,1956 0, PR 0,6538 0,5946 0,6690 0,5579 0, ,3273 0, RJ 0,6697 0,6203 0,6491 0,4606 0, ,2887 0, RN 0,5008 0,3674 0,4093 0,5904 0, ,1892 0, RO 0,5007 0,5258 0,5266 0,7282 0, ,2227 0, RR 0,4728 0,3623 0,5685 0,7805 0, ,2712 0, M- P_SUP ER-n 0, , , , , , , , , , , , , , , , , , , , , ,16705

123 RS 0,6371 0,6560 0,7587 0,6459 0, ,3592 0, SC 0,6950 0,6681 0,7880 0,6666 0, ,3364 0, SE 0,4575 0,3608 0,3782 0,5505 0, ,1585 0, SP 0,7594 0,6446 0,7387 0,6110 0, ,3083 0, TO 0,5482 0,4287 0,5308 0,7270 0, ,1914 0, , , , , , Análise Exploratória dos Dados A análise exploratória dos dados foi realizada para eliminar a possibilidade de ocorrências de erros na base na nova base dados e para explorar a estatística descritiva de cada variável, considerando seus valores médios por unidade da federação e não mais por município, conforme pode ser observado na Tabela Pode-se observar que não houve a ocorrência de NI e que o número total de estado soma 27. Tabela Análise Exploratória dos Dados Descriptive Statistics: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n; M-SOBRE60- n;... Total Variable Count N N* Mean SE Mean StDev Variance CoefVar M-IDHM_E-n ,5407 0,0239 0,1240 0, ,93 M-IDHM_R-n ,4706 0,0309 0,1606 0, ,14 M-ESPVIDA-n ,5425 0,0321 0,1667 0, ,73 M-SOBRE60-n ,5919 0,0174 0,0903 0, ,25 M-E_ANOSESTUDO-n ,5652 0,0184 0,0954 0, ,87 M-FBSUPER-n ,2395 0,0239 0,1239 0, ,74 M-RDPC-n ,1977 0,0298 0,1546 0, ,21 M-P_SUPER-n ,1875 0,0203 0,1056 0, ,32 Variable Minimum Q1 Median Q3 Maximum M-IDHM_E-n 0,3721 0,4448 0,5482 0,6296 0,8657 M-IDHM_R-n 0,2682 0,3510 0,4287 0,5862 0,9430 M-ESPVIDA-n 0,3049 0,3951 0,5266 0,6840 0,9033 M-SOBRE60-n 0,4594 0,5246 0,5705 0,6527 0,7805 M-E_ANOSESTUDO-n 0,3665 0,5274 0,5557 0,6284 0,7259 M-FBSUPER-n 0,1003 0,1585 0,2205 0,2919 0,7375 M-RDPC-n 0,0696 0,1039 0,1434 0,2570 0,8313 M-P_SUPER-n 0,0912 0,1313 0,1621 0,2182 0,6512 Nos itens a seguir, apresentamos as estatísticas descritivas das médias por variáveis.

124 Variável: M-IDHM_E-n (dimensão IDHM) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável M-IDHM_E-n. Summary for M-IDHM_E-n Anderson-Darling Normality Test A-Squared 0,39 P-Value 0,364 Mean 0,54073 StDev 0,12401 Variance 0,01538 Skewness 0, Kurtosis 0, N 27 0,36 0,48 0,60 0,72 0,84 Minimum 0, st Quartile 0,44480 Median 0, rd Quartile 0,62960 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,16994 Mean Median 0,450 0,475 0,500 0,525 0,550 0,575 0,600 Figura Estatística Descritiva para M-IDHM_E-n Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do M-IDHM_E-n na faixa de 0,445 a 0,630. O Box-Plot demonstra a concentração na faixa estratificada. A mediana está à direita do referido intervalo. Não há ocorrência de outliers. O teste de normalidade de Anderson-Darling indica que os dados seguem uma distribuição normal. Valores Atípicos: O estado com o maior índice apresenta 0,866 de M-IDHM_E-n. Centro e Dispersão: A mediana indica que 50% dos municípios possuem M-IDHM_E-n menor ou igual a 0,548 e os demais 50% possuem M-IDHM_E-n maior ou igual a 0,548. O M-IDHM_E-n médio dos estados é de 0,541, com desvio padrão de 0,124. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre 0,492 e 0,590, e a mediana no intervalo de 0,457 e 0, Variável: M-IDHM_R-n (dimensão IDHM) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável M-IDHM_R-n.

125 Summary for M-IDHM_R-n 125 Anderson-Darling Normality Test A-Squared 0,96 P-Value 0,013 Mean 0,47056 StDev 0,16064 Variance 0,02581 Skewness 0,97034 Kurtosis 1,04725 N 27 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Minimum 0, st Quartile 0,35100 Median 0, rd Quartile 0,58620 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,22015 Mean Median 0,35 0,40 0,45 0,50 0,55 0,60 Figura Estatística Descritiva para M-IDHM_R-n Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do M-IDHM_R-n na faixa de 0,351 a 0,586. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à esquerda do referido intervalo. Os outliers estão à direita do intervalo mencionado. O teste de normalidade de Anderson-Darling indica que os dados seguem uma distribuição normal. Valores Atípicos: O estado com o maior índice apresenta 0,943 de M-IDHM_R-n. Centro e Dispersão: A mediana indica que há uma distribuição proporcional de estados, ou seja, 50% possuem M-IDHM_R-n menor ou igual a 0,429 e o restante maior ou igual a 0,429. O M-IDHM_R-n médio dos estados é de 0,471, com desvio padrão de 0,161. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre 0,407 e 0,534, e a mediana no intervalo de 0,126 e 0, Variável: M-ESPVIDA-n (Dimensão Demográfica) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável M-ESPVIDA-n.

126 Summary for M-ESPVIDA-n 126 Anderson-Darling Normality Test A-Squared 0,73 P-Value 0,051 Mean 0,54254 StDev 0,16670 Variance 0,02779 Skewness 0,33167 Kurtosis -1,00867 N 27 0,36 0,48 0,60 0,72 0,84 Minimum 0, st Quartile 0,39510 Median 0, rd Quartile 0,68400 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,22845 Mean Median 0,40 0,45 0,50 0,55 0,60 0,65 0,70 Figura Estatística Descritiva para M-ESPVIDA-n Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do M-ESPVIDAn na faixa de 0,395 a 0,684. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do referido intervalo. Não foram identificados outliers. O teste de normalidade de Anderson-Darling indica que os dados seguem uma distribuição normal. Valores Atípicos: O estado com o maior índice apresenta 0,903 de M-ESPVIDA-n. Centro e Dispersão: A mediana indica que 50% dos estados possuem M-ESPVIDA-n menor ou igual a 0,527 e os demais 50% maior ou igual a 0,527. O M-ESPVIDA-n médio dos estados é de 0,542, com desvio padrão de 0,167. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre 0,476 e 0,608, e a mediana no intervalo de 0,409 e 0, Variável: M-SOBRE60-n (Dimensão Demográfica) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling ( A-Squared e P-Value), para a variável M-SOBRE60-n.

127 Summary for M-SOBRE60-n 127 Anderson-Darling Normality Test A-Squared 0,47 P-Value 0,233 Mean 0,59194 StDev 0,09028 Variance 0,00815 Skewness 0, Kurtosis -0, N 27 0,5 0,6 0,7 0,8 Minimum 0, st Quartile 0,52460 Median 0, rd Quartile 0,65270 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,12373 Mean Median 0,54 0,56 0,58 0,60 0,62 Figura Estatística Descritiva para M-SOBRE60-n Fonte: MiniTab ( ) Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do M-SOBRE60- n na faixa de 0,525 a 0,652. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do intervalo mencionado. Não foram identificados outliers na análise da variável. O teste de normalidade de Anderson-Darling indica que os dados seguem uma distribuição normal. Valores Atípicos: O estado com o maior índice apresenta 0,780 de M-SOBRE60-n. Centro e Dispersão: A mediana indica que 50% dos estados possuem M-SOBRE60-n menor ou igual a 0,570, e o restante maior igual ao referido índice. O M-SOBRE60-n médio dos estados é de 0,591, com desvio padrão de 0,090. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices entre 0,556 e 0,628, e a mediana no intervalo de 0,548 e 0, Variável: M-E_ANOSESTUDO-n (Dimensão Educação) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável M-E_ANOSESTUDO-n.

128 Summary for M-E_ANOSESTUDO-n 128 Anderson-Darling Normality Test A-Squared 0,45 P-Value 0,248 Mean 0,56516 StDev 0,09536 Variance 0,00909 Skewness -0, Kurtosis -0, N 27 0,4 0,5 0,6 0,7 Minimum 0, st Quartile 0,52740 Median 0, rd Quartile 0,62839 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,13069 Mean Median 0,52 0,54 0,56 0,58 0,60 0,62 Figura Estatística Descritiva para M-E_ANOSESTUDO-n Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do M- E_ANOSESTUDO-n na faixa de 0,527 anos a 0,628. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do intervalo. Os outliers estão à esquerda. O teste de normalidade de Anderson-Darling indica que os dados seguem uma distribuição normal. Valores Atípicos: O estado com o maior indicador apresenta 0,726 para a variável M- E_ANOSESTUDO-n. Centro e Dispersão: A mediana indica que 50% dos municípios possuem indicador de M- E_ANOSESTUDO-n menor ou igual a 0,556, os 50% restantes possuem indicador maior ou igual a mediana encontrada. M-E_ANOSESTUDO-n média dos estados é de 0,366, com desvio padrão de 0,095. Com 95% de confiança podemos afirmar que a média se encontro no intervalo dos índices de 0,527 e 0,603, e a mediana no intervalo de 0,542 e 0, Variável: M-FBSUPER-n (Dimensão Educação) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling ( A-Squared e P-Value), para a variável M-FBSUPER-n.

129 Summary for M-FBSUPER-n 129 Anderson-Darling Normality Test A-Squared 1,30 P-Value < 0,005 Mean 0,23953 StDev 0,12394 Variance 0,01536 Skewness 2,54882 Kurtosis 9,58300 N 27 0,1 0,2 0,3 0,4 0,5 0,6 0,7 Minimum 0, st Quartile 0,15850 Median 0, rd Quartile 0,29190 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,16985 Mean Median 0,18 0,20 0,22 0,24 0,26 0,28 0,30 Figura Estatística Descritiva para M-FBSUPER-n Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada da M-FBSUPERn na faixa de 0,158 a 0,292. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está a direta do referido intervalo. Os outliers estão à esquerda e também a direita do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O estado com a maior índice apresenta 0,737 para a variável M- FBSUPER-n. Centro e Dispersão: A mediana indica que metade dos estados possuem M-FBSUPER-n menor ou igual a 0,220, a outra metade maior ou igual a 0,220. A M-FBSUPER-n média dos estados é de 0,239, com desvio padrão de 0,124. Com 95% de confiança podemos afirmar que a média se encontra no intervalo da entre de 0,190 e 0,288, e a mediana no intervalo entre 0,178 e 0, Variável: M-RDPC-n (Dimensão Renda) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável M-RDPC-n.

130 Summary for M-RDPC-n 130 Anderson-Darling Normality Test A-Squared 2,00 P-Value < 0,005 Mean 0,19769 StDev 0,15461 Variance 0,02390 Skewness 2,7938 Kurtosis 10,5132 N 27 0,2 0,4 0,6 0,8 Minimum 0, st Quartile 0,10389 Median 0, rd Quartile 0,25699 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,21188 Mean Median 0,100 0,125 0,150 0,175 0,200 0,225 0,250 Figura Estatística Descritiva para M-RDPC-n Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada da M-RDPC-n na faixa de 0,104 a 0,256. O Box-Plot demonstra a concentração na faixa estratificada, a mediana está à direita do referido intervalo. Os outliers estão a direita do intervalo supracitado. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O estado com a maior expectativa apresenta 0,831 para a variável M- RDPC-n. Centro e Dispersão: A mediana indica 50% dos estados apresentam M-RDPC-n menor ou igual 0,143, e os demais 50% maior ou igual ao mesmo indicador. A M-RDPC-n média dos estados é de 0,197, com desvio padrão de 0,155. Com 95% de confiança podemos afirmar que a média se encontra no intervalo dos índices de 0,136 e 0,259, e a mediana no intervalo de 0,105 e 0, Variável: M-P_SUPER-n (Dimensão educação) Abaixo, na Figura , podemos analisar o Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas, como média, desviopadrão, variância, quantidade de observações, valores mínimos e máximos, e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável M-P_SUPER-n.

131 Summary for M-P_SUPER-n 131 Anderson-Darling Normality Test A-Squared 2,32 P-Value < 0,005 Mean 0,18746 StDev 0,10557 Variance 0,01115 Skewness 3,4282 Kurtosis 14,8159 N 27 0,1 0,2 0,3 0,4 0,5 0,6 Minimum 0, st Quartile 0,13126 Median 0, rd Quartile 0,21817 Maximum 0, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,14468 Mean Median 0,14 0,16 0,18 0,20 0,22 0,24 Figura Estatística Descritiva para M-P_SUPER-n Algumas observações realizadas a partir dos resultados obtidos: Forma: O histograma nos permite analisar uma distribuição concentrada do M-P_SUPERn na faixa de 0,131 a 0,218. O Box-Plot demonstra a concentração dentro faixa estratificada, a mediana está à direita do referido intervalo. Não há ocorrência de outliers. O teste de normalidade de Anderson-Darling indica que os dados não seguem uma distribuição normal. Valores Atípicos: O estado com a maior taxa apresenta 0,651 para a variável M-P_SUPERn. Centro e Dispersão: A mediana indica que metade dos estados possuem índice de M- P_SUPER-n menor ou igual a 0,162, e a outra metade apresenta taxa maior ou igual a 0,162. A M-P_SUPER-n média dos estados é de 0,187, com desvio padrão de 0,105. Com 95% de confiança podemos afirmar que a média se encontra no intervalo de 0,145 a 0,229 e a mediana no intervalo de 0,138 a 0, Análise de Observação de Clusters Após os procedimentos preparatórios realizados nos itens anteriores, realizou-se a análise da observação de clusters com apoio do software de suporte estatístico MiniTab. A Tabela apresenta os resultados do procedimento, com observação de um cluster, distancia euclidiana e ligação simples. Tabela Observação de Cluster para os Estados Cluster Analysis of Observations: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n;... Euclidean Distance, Single Linkage Amalgamation Steps Number

132 of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,5786 0, ,0984 0, ,1797 0, ,3009 0, ,6907 0, ,4683 0, ,3810 0, ,0436 0, ,0207 0, ,7623 0, ,6419 0, ,3598 0, ,1311 0, ,8881 0, ,8087 0, ,4307 0, ,2757 0, ,2308 0, ,9467 0, ,4191 0, ,7802 0, ,1503 0, ,6072 0, ,9298 0, ,7836 0, ,7590 0, Final Partition Number of clusters: 1 Average Maximum Within distance distance Number of cluster sum from from observations of squares centroid centroid Cluster1 27 3, , ,16500 Para melhor observar os resultados a Figura apresenta graficamente os resultados com a aplicação do dendograma.

133 Similarity Similarity 133 DENDOGRAMA - MÉDIA DOS ESTADOS x VARIÁVEIS 44,76 63,17 81,59 100,00 PE PB BA MA AL AC AP PA AM CE RN PI SE TO MT ES RR RO Observations DF SP SC RS RJ MG PR MS GO Figura Agrupamento em Relação as Médias dos Estados Fonte: Minitab (16.1.0) Podemos observar que a similaridade em sua maioria é acima de 80%, exceto para o Distrito Federal que está abaixo de 45%. Também realizamos a título de exploração a análise de cluster das variáveis, conforme podemos observar o dendograma na Figura DENDORAMA - VARIAVEIS_mn 68,23 78,82 89,41 100,00 M-IDHM_E-n M-IDHM_R-n M-ESPVIDA-n M-FBSUPER-n Variables M-RDPC-n M-P_SUPER-n M-E_ANOSESTUDO-n M-SOBRE60-n Figura Análise de Cluster das Variáveis As variáveis apresentam certa similaridade, podemos inclusive destacar as variáveis M- FBSUPER-n e M-RDPC-n de 98%. Por outro lado, a variável M-SOBRE60-n ficou isolada abaixo de 70% de similaridade.

134 134 Como é sabido há diversos métodos de mensuração de distância e de ligação, afim de aprofundamos nossa análise, realizamos quatro procedimentos com métodos diferentes de mensuração de distância e de ligação. Assim foi possível analisar as diferenças nos resultados para método escolhido. A Tabela demonstra os diferentes resultados, considerando a observação de sete clusters para cada método escolhido, em relação aos estados. Tabela Comparação de Métodos de Mensuração de Distância e Ligação ESTADO-n CLUSTER-SE CLUSTER- CLUSTER- CLUSTER-CM MM CSP AC AL AM AP BA CE DF ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO Fonte: Elaborado pelo autor (2017) Na coluna um da Tabela estão descritos os estados, a coluna dois demonstra qual grupo pertence cada estado, considerando o método de mensuração euclidiano e de ligação simples. A coluna três demonstra qual grupo pertence cada estado em relação ao método de mensuração mediano e de ligação manhattan. A coluna quatro demonstra qual grupo pertence cada estado a partir do método de mensuração completo e de ligação Pearson quadrado. Finalmente a coluna cinco apresenta qual estado pertence a qual grupo, considerando o método de mensuração completo e de ligação manhattan. É possível observar que cada método gerou um resultado diferente para os mesmos estados e base de dados, interessante notar que no caso do Acre, todos os grupos foram os mesmos, ou seja, grupo um, assim como o estado de Minas Gerais no grupo cinco. O estado de São Paulo, apresentou

135 Similarity Similarity Similarity Similarity 135 os mesmos grupos para os métodos euclidiano e simples; e mediano e manhattan, ou seja, grupo sete, já para os métodos completo e Pearson quadrado; e centroide e euclidiano quadrado o estado se manteve no grupo seis. Assim, observa-que os diferentes métodos produzem resultados diferentes, principalmente no que se refere ao grau de similaridade. A Figura apresenta um comparativo dos dendogramas para cada um dos métodos de mensuração de distância e de ligação. Veja por exemplo, os estados Pernambuco e Sergipe, no método euclidiano e simples ele está no grupo verde com grau de similaridade de 98.58%, enquanto que no método mediano e manhattan os mesmos estados pertencem ao grupo vermelho com similaridade de 98,93%. No método completo e pearson quadrado, os estados pertencem ao grupo verde, que é diferente do citado acima, com grau de similaridade de 99,96%. Para o método euclidiano quadrado e centroide, os estados pertencem ao grupo verde com similaridade de 99,97%. DENDOGRAMA (SINGLE/EUCL) - MÉDIA DOS ESTADOS DENDOGRAMA (MEDIAN/MANHA) - MÉDIA DOS ESTADOS 44,76 34,81 63,17 56,54 81,59 100,00 BA MA AL AC PB PE SE PI RN CE AM PA AP TO RO RR ES MT Observations DF SP SC RS RJ MG PR MS GO 78,27 100,00 AL PA AM AC RR RN CE SE PE PB BA PI MA AP TO DF SP SC RS RJ PR MS GO MT ES MG RO Observations DENDOGRAMA (COMPLETE/SQPEARSON) - MÉDIA DOS ESTADOS DENDOGRAMA (CENTROID/SQEUCL) - MÉDIA DOS ESTADOS 0,00 0,00 33,33 33,33 66,67 100,00 AL PA AM AC AP RN CE PI SE PE PB BA MA RO ES RR TO Observations DF SC RS SP PR RJ MS GO MG MT 66,67 100,00 AL PA AM AC AP RN CE SE PE PB BA PI MA TO MT ES RR RO Observations Figura Comparação de Dendogramas em Relação ao Método de Mensuração e Ligação Afim de prosseguirmos com nosso estudo, escolhemos o método de mensuração de distância completo e de ligação manhattan. A Tabela apresenta os resultados do procedimento de análise de observação de clusters com partição final especificada com sete clusters. Tabela Análise de Observação de Clusters com Método de Mensuração Completo e Manhattan Cluster Analysis of Observations: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n;... RJ PR MS GO DF SP SC RS MG Manhattan Distance, Complete Linkage Amalgamation Steps

136 Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,9329 0, ,0765 0, ,8838 0, ,8462 0, ,9891 0, ,7991 0, ,7036 0, ,5091 0, ,1151 0, ,5978 0, ,4237 0, ,9700 0, ,9145 0, ,3274 0, ,6223 0, ,4871 0, ,1070 0, ,9868 0, ,3662 0, ,1416 0, ,6649 0, ,1287 0, ,9789 0, ,6936 1, ,5033 2, ,0000 4, Final Partition Number of clusters: 7 Maximum Within Average distance Number of cluster sum distance from from observations of squares centroid centroid Cluster1 3 0, , , Cluster2 9 0, , , Cluster3 3 0, , , Cluster4 1 0, , , Cluster5 7 0, , , Cluster6 1 0, , , Cluster7 3 0, , , Cluster Centroids Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 M-IDHM_E-n 0, , , , , ,47280

137 Similarity M-IDHM_R-n 0, , , , , ,36230 M-ESPVIDA-n 0, , , , , ,56850 M-SOBRE60-n 0, , , , , ,78050 M-E_ANOSESTUDO-n 0, , , , , ,39576 M-FBSUPER-n 0, , , , , ,27120 M-RDPC-n 0, , , , , ,11713 M-P_SUPER-n 0, , , , , , Grand Variable Cluster7 centroid M-IDHM_E-n 0, , M-IDHM_R-n 0, , M-ESPVIDA-n 0, , M-SOBRE60-n 0, , M-E_ANOSESTUDO-n 0, , M-FBSUPER-n 0, , M-RDPC-n 0, , M-P_SUPER-n 0, , Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7 Cluster1 0, , , , , , , Cluster2 0, , , , , , , Cluster3 0, , , , , , , Cluster4 1, , , , , , , Cluster5 0, , , , , , , Cluster6 0, , , , , , , Cluster7 0, , , , , , , Fonte: Minitab (16.1.0) selecionado. A Figura apresenta o dendograma para os mesmos métodos de mensuração DENDOGRAMA (COMPLETO/MANHATTAN) - MÉDIA DOS ESTADOS 0,00 33,33 66,67 100,00 AC AP RN CE SE PE PB BA PI MA AL PA AM TO MT ES RR RO Observations DF SP SC RS MG RJ PR MS GO Figura Dendograma com Método de Mensuração Completo e Manhattan

138 138 Observa-se que há pelo menos três grupos distintos, com sete observações com grau de similaridade de 81,59%. Para aprofundamos nossa análise, na Figura , o mapa do Brasil, com os estados com a cor dos grupos que eles pertencem. Note que Roraima e o Distrito Federal estão isolados no mapa com as cores demonstrando o agrupamento dos demais estados. Embora o estado do Acre também apareça no grupo vermelho no dendograma, note que trata-se da mesma cor (vermelho) que o agrupamento dos estados do Rio Grande do Sul, Santa Catarina e São Paulo. O agrupamento verde, que se refere aos estados do Maranhão, Piauí, Ceará, Rio Grande do Norte, Paraíba, Pernambuco, Alagoas, Sergipe e Bahia, de alguma forma estão ligados pelas fronteiras geográficas, o que não ocorre com o agrupamento azul com os estados Rondônia, Amapá e Tocantins que nem se quer são próximos geograficamente. O mesmo ocorre com o agrupamento vermelho, qual o estado do Acre distante geograficamente dos estados de São Paulo, que não faz fronteira com Santa Catarina e Rio Grande do Sul, mas há certa proximidade geográfica, já os estados de Santa Catarina e Rio Grande de Sul possuem fronteira entre os dois estados. Figura A Nova Cor do Brasil: Análise de Conglomerados Fonte: Elaborado pelo Autor (Escolinha do Tio Lu, 2017) Após análise, consideramos a possiblidade da mudança dos resultados se não considerássemos o outlier, no caso Distrito Federal. Assim, para realizamos o procedimento, excluímos da análise o Distrito Federal. Observar-se na Tabela a não ocorrência de NI ou erros na base de dados. Tabela Análise Exploratória dos Dados S/DF Descriptive Statistics: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n; M-SOBRE60- n;...

139 Total Variable Count N N* Mean SE Mean StDev Variance CoefVar M-IDHM_E-n ,5282 0,0211 0,1077 0, ,39 M-IDHM_R-n ,4524 0,0260 0,1325 0, ,30 M-ESPVIDA-n ,5287 0,0301 0,1533 0, ,99 M-SOBRE60-n ,5857 0,0168 0,0859 0, ,67 M-E_ANOSESTUDO-n ,5618 0,0188 0,0957 0, ,02 M-FBSUPER-n ,2204 0,0148 0,0753 0, ,18 M-RDPC-n ,1733 0,0177 0,0905 0, ,21 M-P_SUPER-n ,1696 0,0101 0,0516 0, ,40 Seguindo o procedimento foi realizado a análise de observação de clusters, excluindo-se então o Distrito Federal. Podemos observar o resultado na Tabela e na Figura Para tanto utilizou a mesma especificação da análise com o outlier, ou seja, o método de mensuração de distância foi o manhattan e de ligação foi o completo, com partição final especificada com sete clusters. Tabela Análise de Observação de Clusters S/DF Cluster Analysis of Observations: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n;... Manhattan Distance, Complete Linkage Amalgamation Steps 139 Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,9673 0, ,4311 0, ,0641 0, ,0875 0, ,4548 0, ,0930 0, ,9109 0, ,5406 0, ,7900 0, ,8046 0, ,5680 0, ,7038 0, ,5981 0, ,4797 0, ,1366 0, ,8790 0, ,1549 0, ,0212 0, ,1244 0, ,6965 0, ,7884 0, ,0524 0, ,2426 0, ,0796 1, ,0000 2,

140 140 Final Partition Number of clusters: 7 Maximum Within Average distance Number of cluster sum distance from from observations of squares centroid centroid Cluster1 3 0, , , Cluster2 3 0, , , Cluster3 3 0, , , Cluster4 6 0, , , Cluster5 7 0, , , Cluster6 1 0, , , Cluster7 3 0, , , Cluster Centroids Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 M-IDHM_E-n 0, , , , , ,47280 M-IDHM_R-n 0, , , , , ,36230 M-ESPVIDA-n 0, , , , , ,56850 M-SOBRE60-n 0, , , , , ,78050 M-E_ANOSESTUDO-n 0, , , , , ,39576 M-FBSUPER-n 0, , , , , ,27120 M-RDPC-n 0, , , , , ,11713 M-P_SUPER-n 0, , , , , ,16705 Grand Variable Cluster7 centroid M-IDHM_E-n 0, , M-IDHM_R-n 0, , M-ESPVIDA-n 0, , M-SOBRE60-n 0, , M-E_ANOSESTUDO-n 0, , M-FBSUPER-n 0, , M-RDPC-n 0, , M-P_SUPER-n 0, , Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster6 Cluster7 Cluster1 0, , , , , , , Cluster2 0, , , , , , , Cluster3 0, , , , , , , Cluster4 0, , , , , , , Cluster5 0, , , , , , , Cluster6 0, , , , , , ,586281

141 Similarity Cluster7 0, , , , , , , DENDOGRAMA (COMPLETE/MANHATAN) - MÉDIA DOS ESTADOS (S/DF) 0,00 33,33 66,67 100,00 AL PA AM AC RN CE SE PE PB BA PI MA AP TO SP SC RS MG RJ PR MS GO MT ES RR RO Observations Figura Dendograma com Método de Mensuração Euclidiano e Simples (S/DF) Observa-se que houve certa mudança no resultado do procedimento de análise de observação de cluster com a exclusão do outlier. Ocorreu um novo agrupamento e o grau de similaridade se afastou do máximo, como por exemplo o grupo formado por Pernambuco e Sergipe que antes possuíam 98,93% de grau de similaridade, e reduzindo para 97,33. Uma análise comparativa em relação a qual grupo cada estado pertence, produzida na Tabela , pode nos ajudar a melhorar nossa análise. Tabela Comparação da Análise de Observação de Cluster com e sem DF ESTADO-n CLUSTER-CM CLUSTER_SDF- CM AC 1 1 AL 2 2 AM 1 1 AP 3 3 BA 2 4 CE 2 4 ES 4 5 GO 5 5 MA 5 2 MG 2 5 MS 5 5 MT 5 5 PA 5 1 PB 1 4 PE 2 4 PI 2 2

142 Similarity Similarity PR 2 5 RJ 5 5 RN 5 4 RO 2 3 RR 6 6 RS 7 7 SC 7 7 SE 2 4 SP 7 7 TO 3 3 Fonte: Elaborado pelo Autor (2017) Podemos observar na Tabela , nas linhas destacadas em vermelho a ocorrência da mudança do agrupamento do estado. Vejamos agora, na Figura , a comparação entre os dendogramas das duas análises. 142 DENDOGRAMA (COMPLETO/MANHATTAN) - MÉDIA DOS ESTADOS DENDOGRAMA (COMPLETE/MANHATAN) - MÉDIA DOS ESTADOS (S/DF) 0,00 0,00 33,33 33,33 66,67 100,00 AP RN CE SE PE PB BA PI MA AL PA AM AC TO RO RR ES MT Observations DF SP SC RS MG RJ PR MS GO 66,67 100,00 RN CE SE PE PB BA PI MA AL PA AM AC AP TO SP SC RS MG RJ PR MS GO MT ES RR RO Observations Figura Comparação de Dendogramas com DF e sem DF É possível observar graficamente uma mudança significativa na composição os agrupamentos e o grau de similaridade. Se traçarmos uma linha de 80% do grau similaridade, é possível verificar a possibilidade de novas e mais combinações de agrupamento no procedimento em que excluímos o Distrito Federal. Com isso, podemos observar na Figura , um novo mapa do Brasil. Figura A Nova Cor do Brasil (S/DF): Análise de Conglomerados Fonte: Elaborado pelo Autor (2017)

143 143 Afim de facilitar e melhorar nossa análise, foi produzido a Figura , qual compara os dois mapas do País, sob a perspectiva da análise de conglomerados. Figura Comparação: A Nova cor do Brasil (com e sem DF) Observa-se que no caso do estado do Acre, Amazonas e Para não houve mudança. Os estados de Rondônia, Amapá e Tocantins, também permaneceram no mesmo agrupamento, na cor azul. Os estados do Ceará, Rio Grande do Norte, Paraíba, Pernambuco, Sergipe e Bahia formaram um novo grupo na cor laranja, diminuindo o agrupamento verde Síntese dos Resultados A similaridade dos estados nos permite observar a oportunidade de diversos agrupamentos de observações, principalmente quando utilizamos métodos de mensuração de distância e de ligação diferentes conforme observamos na Figura Porém cada método de mensuração produziu um resultado diferente gerando diferentes tipos de agrupamentos, ou seja, foi possível reproduzir o resultado da clusterização, mas, o efeito foi diferente. Para o estudo selecionou-se o método de mensuração da distância euclidiana e de ligação simples. É possível destacar pelo menos quatro grupos distintos, e dois grupos maiores, sendo que no primeiro caso o grau de similaridade é 81,59%, já no segundo o grau é de 41%. Ao analisarmos os agrupamentos pela perspectiva do mapa do Brasil, percebe-se que que não necessariamente há fronteiras entre os estados de um mesmo agrupamento, dois estados ficaram isolados Roraima e Distrito Federal. Na hipótese de excluirmos o outlier Distrito Federal, houve mudanças nas observações consequentemente no resultado gerado, dando origem a novos agrupamentos e diferenciação no grau de similaridade. Houve a mudança de cinco estados dos grupos originalmente considerando o Distrito Federal. Exceto nos estados de Roraima, Rondônia, Amápa e Tocantins, dos demais estados apresentaram proximidade geográfica quanto ao seu agrupamento.

144 144 Na próxima etapa deste trabalho foi realizada a classificação destes novos grupos gerados pela análise de observação de clusters. CAPÍTULO XI. ANÁLISE DISCRIMINANTE A análise discriminante classifica as observações em dois ou mais grupos quando há a existência de uma amostra de grupos conhecidos. Análise permite ainda, determinar o grau de precisão com que as observações são classificadas nos grupos conhecidos; avaliar como as variáveis preditoras distinguem os grupos; e predizer os grupos para observações que têm grupos desconhecidos. Como etapa preparatória foram realizados dois procedimentos: (1) Análise dos centroides gerados na observação de clusters para diminuir o número de agrupamentos; (2) uma nova análise de observação de clusters diminuindo a partição final de sete para três Redução do Número de Agrupamentos Considerando o resultado da análise de observação de clusters, no qual em primeiro lugar verificou-se a necessidade da exclusão do Distrito Federal, também se verificou a necessidade de incluir outro outlier em um cluster mais próximo considerando a distância do seu centro, pois neste caso a quantidade de dados é significativa e não fazia sentido exclui-lo, assim como diminuição do número de cluster de sete para três. A Tabela demonstra o resultado. Tabela Ajuste de Clusters por Proximidade de Centros e Rotulação Estado Clusters Cluster Cluster Novos Rótulo S/Ajuste Ajustado Renomeado Clusters AC Região 1 AL Região 1 AM Região 1 AP Região 2 BA Região 1 CE Região 1 ES Região 3 GO Região 3 MA Região 1 MG Região 3 MS Região 3 MT Região 3 PA Região 1 PB Região 1 PE Região 1

145 145 PI Região 1 PR Região 3 RJ Região 3 RN Região 1 RO Região 2 RR Região 2 RS Região 3 SC Região 3 SE Região 1 SP Região 3 TO Região 2 Fonte: Elaborado pelo Autor (2017) Como podemos observar na Tabela , os cluster foram ajustados e rotulados para favorecer a análise. Primeiro foi realizado com a ajuda do software estatístico, baseado na distância dos centros entre os cluster, a inclusão do cluster 6 no cluster 3; a inclusão do cluster 1 no cluster 4; a inclusão do cluster 2 também no cluster 4; e finalmente a inclusão do cluster 7 no cluster 5. Segundo foi realizado, com ajuda do software estatístico o mesmo procedimento, mas desta vez com objetivo de renomear para favorecer a ordem, no qual o cluster 3 foi renomeado como cluster 1; o cluster 4 foi renomeado como cluster 2; e o cluster 5 foi renomeado como cluster 3. Terceiro, realizou-se o procedimento ANOVA que reorganizou os conglomerados. Finalmente, com suporte do software estatístico rotulamos os cluster em Região 1, Região 2 e Região Análise de Observação de Clusters Após a reorganização dos agrupamentos, conforme supracitado, realizou um novo procedimento de análise de observação de clusters que pode ser observado na Tabela Para este procedimento empregou-se o método de mensuração de distância e de ligação Manhattan e Completo respectivamente. Tabela Análise de Observação de Cluster com Partição Final de 3 Cluster Cluster Analysis of Observations: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n;... Manhattan Distance, Complete Linkage Amalgamation Steps Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,9673 0, ,4311 0,

146 ,0641 0, ,0875 0, ,4548 0, ,0930 0, ,9109 0, ,5406 0, ,7900 0, ,8046 0, ,5680 0, ,7038 0, ,5981 0, ,4797 0, ,1366 0, ,8790 0, ,1549 0, ,0212 0, ,1244 0, ,6965 0, ,7884 0, ,0524 0, ,2426 0, ,0796 1, ,0000 2, Final Partition Number of clusters: 3 Average Maximum Within distance distance Number of cluster sum from from observations of squares centroid centroid Cluster1 12 0, , , Cluster2 4 0, , , Cluster3 10 0, , , Cluster Centroids Grand Variable Cluster1 Cluster2 Cluster3 centroid M-IDHM_E-n 0, , , , M-IDHM_R-n 0, , , , M-ESPVIDA-n 0, , , , M-SOBRE60-n 0, , , , M-E_ANOSESTUDO-n 0, , , , M-FBSUPER-n 0, , , , M-RDPC-n 0, , , , M-P_SUPER-n 0, , , , Distances Between Cluster Centroids

147 Cluster1 Cluster2 Cluster3 Cluster1 0, , , Cluster2 0, , , Cluster3 0, , , A Tabela ratifica os resultados das aproximação dos centroides realizados na etapa anterior, note que o cluster 1, renomeado para região 1 possui doze estados. O cluster 2, renomeado para região 2, possui 4 estados. E o cluster 3, renomeado para região 3, possuí 10 estados. Na próxima etapa realizamos o procedimento análise discriminante Análise Discriminante A variável dependente para a análise discriminante será o conglomerado e para tentar explicar qual conglomerado cada estado está, utilizamos as oito variáveis, com os valores médios para cada estado, de indicadores relacionados ao desenvolvimento humano dos estados. Na Tabela podemos observar os resultados. Tabela Análise Discriminante dos Conglomerado Discriminant Analysis: C43 versus M-IDHM_E-n; M-IDHM_R-n;... Linear Method for Response: C43 Predictors: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n; M-SOBRE60-n; M- E_ANOSESTUDO-n; M-FBSUPER-n; M-RDPC-n; M-P_SUPER-n Group Count Summary of classification True Group Put into Group Total N N correct Proportion 1,000 1,000 1,000 N = 26 N Correct = 26 Proportion Correct = 1,000 Squared Distance Between Groups ,000 20, ,405

148 Similarity 2 20,987 0, , , ,322 0, Linear Discriminant Function for Groups Constant -206,7-291,7-656,8 M-IDHM_E-n 134,7 147,6-10,5 M-IDHM_R-n 1003,2 1160,3 1198,7 M-ESPVIDA-n 35,9 160,8 2579,0 M-SOBRE60-n 217,6 181,9-1688,1 M-E_ANOSESTUDO-n 37,1 35,0 248,6 M-FBSUPER-n 87,4 124,8 410,6 M-RDPC-n -1640,0-1876,6-1958,2 M-P_SUPER-n 61,5 110,3-16,1 Podemos observar nas linhas destacadas em vermelho que cada grupo possui um número determinado de estados, e que há 100% de acerto na análise. Assim, percebemos que há uma maior similaridade entre os agrupamentos permitindo a produção de categorias mais homogêneas. Figura Afim de melhorar nossa capacidade de análise produziu-se o dendograma, apresentado na DENDOGRAMA-AJUST (COMPLETO/MANHATTAN) - ESTADOS-SDF 0,00 33,33 66,67 100,00 AM AC PA MA AL PI PB BA SE PE RN CE AP TO Observations RO RR ES GO MT PR MS MG RJ RS SP SC Figura Dendograma Agrupamento Ajustado Podemos agora perceber três grupos distintos de estados, permitindo aprofundar nossa análise a partir de grupos com estados mais homogêneos facilitando assim a análise. Com isso foi possível produzir um novo mapa considerando o resultado, a Figura demonstra o resultado.

149 149 Figura A Cor da Educação no Brasil Fonte: Elaborado pelo Autor (2017) 11.4 Análise Comparativa entre as Regiões do Brasil versus Novos Conglomerados Para realizar a análise comparativa entre as regiões tradicionais do Brasil, ou seja, Norte, Nordeste, Centro-oeste, Sudeste e Sul, e os novos conglomerados criados com o procedimento de análise de observação de cluster e análise discriminante, realizou o procedimento de análise de variância que teste a hipótese de que as médias de duas ou mais populações são iguais. A Tabela demonstra o resultado. Tabela Análise de Variância One-way ANOVA: M-IDHM_E-n versus REGIÃO-M One-way ANOVA: M-IDHM_E-n versus CLUSTER_SDF_AJ4-CM Source DF SS MS F P REGIÃO-M 4 0, , ,76 0,000 Error 21 0, ,00381 Total 25 0,29015 S = 0,06177 R-Sq = 72,39% R-Sq(adj) = 67,13% Source DF SS MS F P CLUSTER_SDF_AJ4-CM 2 0, , ,49 0,000 Error 23 0, ,00296 Total 25 0,29015 S = 0,05442 R-Sq = 76,52% R-Sq(adj) = 74,48% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev REGIÃO , ,05411 (----*---)

150 CENTRO-OESTE 3 0, ,03130 ( *------) NORDESTE 9 0, ,05150 (----*- --) NORTE 7 0, ,07643 (----*----) SUDESTE 4 0, ,08188 (-----*------) SUL 3 0, ,02980 (------* ) ,50 0,60 0,70 0,80 Pooled StDev = 0,06177 One-way ANOVA: M-IDHM_R-n versus REGIÃO-M Source DF SS MS F P REGIÃO-M 4 0, , ,55 0,000 Error 21 0, ,00269 Total 25 0,43917 S = 0,05187 R-Sq = 87,13% R-Sq(adj) = 84,68% 150 REGIÃO 2 4 0, ,03920 ( * ) REGIÃO , ,05897 (----*----) ,420 0,490 0,560 0,630 Pooled StDev = 0,05442 One-way ANOVA: M-IDHM_R-n versus CLUSTER_SDF_AJ4-CM Source DF SS MS F P CLUSTER_SDF_AJ4-CM 2 0, , ,16 0,000 Error 23 0, ,00202 Total 25 0,43917 S = 0,04495 R-Sq = 89,42% R-Sq(adj) = 88,50% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CENTRO-OESTE 3 0, ,00590 (----*-----) NORDESTE 9 0, ,03401 (--*--) NORTE 7 0, ,07524 (--*-- -) SUDESTE 4 0, ,05806 (----*---) SUL 3 0, ,03941 (----*----) ,36 0,48 0,60 0,72 Pooled StDev = 0,05187 One-way ANOVA: M-ESPVIDA-n versus REGIÃO-M Source DF SS MS F P REGIÃO-M 4 0, , ,61 0,000 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev REGIÃO , ,03448 (-*--) REGIÃO 2 4 0, ,06723 (---- *----) REGIÃO , ,04695 (--*--) ,40 0,50 0,60 0,70 Pooled StDev = 0,04495 One-way ANOVA: M-ESPVIDA-n versus CLUSTER_SDF_AJ4-CM Source DF SS MS F P

151 Error 21 0, ,00204 Total 25 0,58734 S = 0,04520 R-Sq = 92,69% R-Sq(adj) = 91,30% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CENTRO-OESTE 3 0, ,01835 (---*----) NORDESTE 9 0, ,03815 (--*-) NORTE 7 0, ,05601 (-- *--) SUDESTE 4 0, ,03689 (---*---) SUL 3 0, ,06200 (----*---) ,36 0,48 0,60 0,72 Pooled StDev = 0,04520 One-way ANOVA: M-SOBRE60-n versus REGIÃO-M Source DF SS MS F P REGIÃO-M 4 0, , ,82 0,000 Error 21 0, ,00306 Total 25 0,18445 S = 0,05532 R-Sq = 65,15% R-Sq(adj) = 58,52% CLUSTER_SDF_AJ4-CM 2 0, , ,54 0,000 Error 23 0, ,00196 Total 25 0,58734 S = 0,04424 R-Sq = 92,34% R-Sq(adj) = 91,67% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev REGIÃO , ,04622 (-*--) REGIÃO 2 4 0, ,02660 (- --*----) REGIÃO , ,04642 (--*--) ,40 0,50 0,60 0,70 Pooled StDev = 0,04424 One-way ANOVA: M-SOBRE60-n versus CLUSTER_SDF_AJ4-CM Source DF SS MS F P CLUSTER_SDF_AJ4-CM 2 0, , ,92 0,000 Error 23 0, ,00336 Total 25 0,18445 S = 0,05799 R-Sq = 58,06% R-Sq(adj) = 54,42% 151 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CENTRO-OESTE 3 0, ,02104 ( * ) NORDESTE 9 0, ,04762 (--- --*----) NORTE 7 0, ,06638 (-----*-----) SUDESTE 4 0, ,06363 ( * ) Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev REGIÃO , ,05701 (----*--- -) REGIÃO 2 4 0, ,03080 ( * ) REGIÃO , ,06562 (-----*--- -)

152 SUL 3 0, ,05772 ( * ) ,490 0,560 0,630 0,700 Pooled StDev = 0,05532 One-way ANOVA: M- E_ANOSESTUDO-n versus REGIÃO-M Source DF SS MS F P REGIÃO-M 4 0, , ,63 0,001 Error 21 0, ,00481 Total 25 0,22873 S = 0,06937 R-Sq = 55,82% R-Sq(adj) = 47,41% 0,700 0,770 Pooled StDev = 0,05799 One-way ANOVA: M- E_ANOSESTUDO-n versus CLUSTER_SDF_AJ4-CM 0,560 0,630 Source DF SS MS F P CLUSTER_SDF_AJ4-CM 2 0, , ,86 0,005 Error 23 0, ,00623 Total 25 0,22873 S = 0,07893 R-Sq = 37,35% R-Sq(adj) = 31,91% 152 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CENTRO-OESTE 3 0, ,05409 ( * ) NORDESTE 9 0, ,04103 (- ---*----) NORTE 7 0, ,09989 (-----*---- ) SUDESTE 4 0, ,08433 (------*------) SUL 3 0, ,01634 ( * ) ,50 0,60 0,70 0,80 Pooled StDev = 0,06937 One-way ANOVA: M-FBSUPER-n versus REGIÃO-M Source DF SS MS F P REGIÃO-M 4 0, , ,41 0,000 Error 21 0, ,00157 Total 25 0,14187 S = 0,03956 R-Sq = 76,83% R-Sq(adj) = 72,42% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev REGIÃO , ,07690 ( * ) REGIÃO 2 4 0, ,09522 ( * ) REGIÃO , ,07531 ( * ) ,480 0,540 0,600 0,660 Pooled StDev = 0,07893 One-way ANOVA: M-FBSUPER-n versus CLUSTER_SDF_AJ4-CM Source DF SS MS F P CLUSTER_SDF_AJ4-CM 2 0, , ,89 0,000 Error 23 0, ,00135 Total 25 0,14187 S = 0,03680 R-Sq = 78,05% R-Sq(adj) = 76,14%

153 153 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CENTRO-OESTE 3 0, ,01489 (------*------) NORDESTE 9 0, ,02530 (---*- --) NORTE 7 0, ,06163 (---*-- --) SUDESTE 4 0, ,03641 (-----*-----) SUL 3 0, ,01643 (------*-----) ,140 0,210 0,280 0,350 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev REGIÃO , ,03588 (---*---) REGIÃO 2 4 0, ,03405 ( *------) REGIÃO , ,03874 (---*----) ,150 0,200 0,250 0,300 Pooled StDev = 0,03680 Pooled StDev = 0,03956 One-way ANOVA: M-RDPC-n versus REGIÃO-M Source DF SS MS F P REGIÃO-M 4 0, , ,85 0,000 Error 21 0, ,00109 Total 25 0,20469 S = 0,03296 R-Sq = 88,85% R-Sq(adj) = 86,73% One-way ANOVA: M-RDPC-n versus CLUSTER_SDF_AJ4-CM Source DF SS MS F P CLUSTER_SDF_AJ4-CM 2 0, , ,47 0,000 Error 23 0, ,00107 Total 25 0,20469 S = 0,03266 R-Sq = 88,02% R-Sq(adj) = 86,98% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CENTRO-OESTE 3 0, ,00464 (---*----) NORDESTE 9 0, ,01411 (--*-) NORTE 7 0, ,04018 (--*--- ) SUDESTE 4 0, ,05079 (---*---) SUL 3 0, ,04334 (----*----) Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev REGIÃO , ,01513 (---*--) REGIÃO 2 4 0, ,03642 (---- -*----) REGIÃO , ,04476 (---*--) ,120 0,180 0,240 0,300 Pooled StDev = 0,03266

154 0,240 0,320 0,080 0, Pooled StDev = 0,03296 One-way ANOVA: M-P_SUPER-n versus REGIÃO-M Source DF SS MS F P REGIÃO-M 4 0, , ,39 0,000 Error 21 0, , Total 25 0, S = 0,03161 R-Sq = 68,44% R-Sq(adj) = 62,43% One-way ANOVA: M-P_SUPER-n versus CLUSTER_SDF_AJ4-CM Source DF SS MS F P CLUSTER_SDF_AJ4-CM 2 0, , ,84 0,000 Error 23 0, , Total 25 0, S = 0,02738 R-Sq = 74,06% R-Sq(adj) = 71,81% Level N Mean StDev CENTRO-OESTE 3 0, ,02981 NORDESTE 9 0, ,01981 NORTE 7 0, ,04186 SUDESTE 4 0, ,03873 SUL 3 0, ,02298 Individual 95% CIs For Mean Based on Pooled StDev Level CENTRO-OESTE ( *------) NORDESTE (---*---) NORTE (----*----) SUDESTE (-----*------) SUL (------* ) ,150 0,200 0,250 0,300 Level N Mean StDev REGIÃO , ,02118 REGIÃO 2 4 0, ,03587 REGIÃO , ,03065 Individual 95% CIs For Mean Based on Pooled StDev Level REGIÃO 1 (----*---) REGIÃO 2 ( * ) REGIÃO 3 (----*----) ,140 0,175 0,210 0,245 Pooled StDev = 0,02738 Pooled StDev = 0,03161 Fonte: Minitab (16.1.0) O resultado da análise de variância também nos possibilitou realizar uma análise comparativa dos boxplot que pode ser observado na Figura

155 M-E_ANOSESTUDO-n M-E_ANOSESTUDO-n M-SOBRE60-n M-SOBRE60-n M-ESPVIDA-n M-ESPVIDA-n M-IDHM_R-n M-IDHM_R-n M-IDHM_E-n M-IDHM_E-n 155 Boxplot of M-IDHM_E-n Boxplot of M-IDHM_E-n 0,8 0,8 0,7 0,7 0,6 0,6 0,5 0,5 0,4 0,4 CENTRO-OESTE NORDESTE NORTE REGIÃO-M SUDESTE SUL REGIÃO 1 REGIÃO 2 CLUSTER_SDF_AJ4-CM REGIÃO 3 Boxplot of M-IDHM_R-n Boxplot of M-IDHM_R-n 0,7 0,7 0,6 0,6 0,5 0,5 0,4 0,4 0,3 0,3 CENTRO-OESTE NORDESTE NORTE REGIÃO-M SUDESTE SUL REGIÃO 1 REGIÃO 2 CLUSTER_SDF_AJ4-CM REGIÃO 3 Boxplot of M-ESPVIDA-n Boxplot of M-ESPVIDA-n 0,8 0,8 0,7 0,7 0,6 0,6 0,5 0,5 0,4 0,4 0,3 CENTRO-OESTE NORDESTE NORTE REGIÃO-M SUDESTE SUL 0,3 REGIÃO 1 REGIÃO 2 CLUSTER_SDF_AJ4-CM REGIÃO 3 Boxplot of M-SOBRE60-n Boxplot of M-SOBRE60-n 0,80 0,80 0,75 0,75 0,70 0,70 0,65 0,65 0,60 0,60 0,55 0,55 0,50 0,50 0,45 CENTRO-OESTE NORDESTE NORTE REGIÃO-M SUDESTE SUL 0,45 REGIÃO 1 REGIÃO 2 CLUSTER_SDF_AJ4-CM REGIÃO 3 Boxplot of M-E_ANOSESTUDO-n Boxplot of M-E_ANOSESTUDO-n 0,75 0,75 0,70 0,70 0,65 0,65 0,60 0,60 0,55 0,55 0,50 0,50 0,45 0,45 0,40 0,40 0,35 CENTRO-OESTE NORDESTE NORTE REGIÃO-M SUDESTE SUL 0,35 REGIÃO 1 REGIÃO 2 CLUSTER_SDF_AJ4-CM REGIÃO 3

156 M-P_SUPER-n M-P_SUPER-n M-RDPC-n M-RDPC-n M-FBSUPER-n M-FBSUPER-n 156 Boxplot of M-FBSUPER-n Boxplot of M-FBSUPER-n 0,35 0,35 0,30 0,30 0,25 0,25 0,20 0,20 0,15 0,15 0,10 0,10 CENTRO-OESTE NORDESTE NORTE REGIÃO-M SUDESTE SUL REGIÃO 1 REGIÃO 2 CLUSTER_SDF_AJ4-CM REGIÃO 3 Boxplot of M-RDPC-n Boxplot of M-RDPC-n 0,35 0,35 0,30 0,30 0,25 0,25 0,20 0,20 0,15 0,15 0,10 0,10 CENTRO-OESTE NORDESTE NORTE REGIÃO-M SUDESTE SUL REGIÃO 1 REGIÃO 2 CLUSTER_SDF_AJ4-CM REGIÃO 3 Boxplot of M-P_SUPER-n Boxplot of M-P_SUPER-n 0,28 0,28 0,26 0,26 0,24 0,24 0,22 0,22 0,20 0,20 0,18 0,16 0,14 0,12 0,10 0,18 0,16 0,14 0,12 0,10 CENTRO-OESTE NORDESTE NORTE REGIÃO-M SUDESTE SUL REGIÃO 1 REGIÃO 2 CLUSTER_SDF_AJ4-CM REGIÃO 3 Figura Análise Comparativa dos Bloxplot Fonte: Minita (16.1.0) 11.5 Síntese dos Resultados Afim de proporcionar uma visão mais qualitativa as novas categorias, julgou-se necessário ajustar os outliers em grupos com maior proximidade quanto a distância dos centros. Dessa forma foi possível gerar um novo agrupamento, ou seja, menos categorias com dados similares, permitindo uma análise mais homogênea do resultado. Assim, foram produzidas três novas categorias, o que antes eram sete. Podemos observar pela Figura , que houve uma mudança significativa nos agrupamentos em relação as variáveis selecionadas. A análise discriminante então resultou em 100% de acerto.

157 157 CAPÍTULO XII. REGRESSÃO LOGISTICA A análise de regressão gera uma equação para descrever a relação estatística entre um ou mais preditores e a variável de resposta, para predizer novas observações. A variável resposta da nossa análise será os novos agrupamentos qual rotulamos na Tabela , na etapa anterior como Região 1, Região 2 e Região. Para tentar explicar em qual região cada estado está agrupado, utilizamos as oito variáveis selecionadas, conforme Tabela , que dimensionam o Índice de Desenvolvimento Humano do Brasil. Para esta etapa foi necessário realizar um procedimento estruturante para comparar as médias das novas regiões e encontrar os melhores valores de F 12.1 Médias por Região e Valores de F Para encontrar as médias das regiões e os valores de F de cada variável, realizou-se o procedimento ANOVA. Assim, a partir dos resultados da análise de variância, conforme Tabela apresentada no item anterior, produziu-se a Tabela para nos apoiar no procedimento de análise de regressão logística. Observa-se então as médias de cada variável para cada uma das regiões e os valores de F. Tabela Comparação de Médias por Região e Valores de F V M- M- M- M- M- M- M- M- R IDHM_ E-n IDHM_ R-n ESPVID A-n SOBRE6 0-n E_ANOS - FBSUPE R-n RDPC -n P_SUPE R-n ESTUD O-n Regiã 0,438 0,332 0,384 0,558 0,511 0,154 0,094 0,125 o 1 Regiã 0,519 0,440 0,532 0,736 0,533 0,223 0,154 0,177 o 2 Regiã 0,639 0,600 0,699 0,557 0,633 0,297 0,275 0,219 o 3 F 37,49 97,16 138,54 15,92 6,86 40,89 84,47 32,84 Fonte: Elaborado pelo Autor (2017) Note que os melhore valore de F indicam as variáveis M-ESPVIDA-n ; M-IDHM_R-n ; M-RDPC-n. A próxima etapa apresenta o procedimento de regressão logística Regressão Logística Ordinal Seguindo com o procedimento a Tabela apresenta o resultado da regressão logística ordinale permite nossa análise.

158 Tabela Regressão Logística Ordinal Ordinal Logistic Regression: CLUSTER_SDF_ versus M-IDHM_E-n; M-IDHM_R-n; * WARNING * Algorithm has not converged after 20 iterations. * WARNING * Convergence has not been reached for the parameter estimates criterion. * WARNING * The results may not be reliable. * WARNING * Try increasing the maximum number of iterations. Link Function: Logit Response Information Variable Value Count CLUSTER_SDF_AJ4-CM REGIÃO 1 12 REGIÃO 2 4 REGIÃO 3 10 Total 26 Logistic Regression Table 95% CI Predictor Coef SE Coef Z P Odds Ratio Lower Upper Const(1) 250, ,2 0,00 0,998 Const(2) 287, ,2 0,00 0,998 M-IDHM_E-n -124, ,4-0,00 0,999 0,00 0,00 * M-IDHM_R-n -488, ,00 0,999 0,00 0,00 * M-ESPVIDA-n -247, ,00 0,998 0,00 0,00 * M-SOBRE60-n 12, ,0 0,00 1, ,03 0,00 * M-E_ANOSESTUDO-n 51, ,4 0,00 0,999 3,41235E+22 0,00 * M-FBSUPER-n -27, ,2-0,00 1,000 0,00 0,00 * M-RDPC-n 722, ,00 0,999 * 0,00 * M-P_SUPER-n 2, ,00 1,000 14,00 0,00 * Log-Likelihood = -0,000 Test that all slopes are zero: G = 52,641, DF = 8, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 0, ,000 Deviance 0, ,000 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures

159 Concordant ,0 Somers' D 1,00 Discordant 0 0,0 Goodman-Kruskal Gamma 1,00 Ties 0 0,0 Kendall's Tau-a 0,64 Total ,0 comentários: Apoiado pelos resultados apresentados na Tabela , foi possível realizarmos os seguintes Na amostra, existem 12 estados na região 1; 4 estados na região 2; e 10 estados na região 3. Pela análise do P-value, nenhuma das variáveis podem ser consideradas com Beta diferente de zero (consideramos neste trabalho P-value menor ou igual a 10%), pois todas a variáveis apresentam P-value acima de 10%. De acordo com o Log-Likelihood, indicando um P-value de 0,000, há evidência de que ao menos um dos coeficientes é diferente de zero, considerando o teste de hipótese nula de 10%. O P-value do teste de Pearson e Deviance estão com valor igual a 1, indicando que não há evidências suficientes para afirmar que o modelo não ajusta os dados adequadamente. A tabela de frequências observadas e esperadas, nos dão uma noção de qualidade do ajuste do modelo. Quanto mais próximos estão estes valores, melhor o ajuste e menores são os erros do modelo. Os valores de Medidas de Associação são uma espécie de medida da capacidade de predição do modelo. Temos, neste caso, 100 % de chance de acertar se o estado cairá na região 1, 2 ou 3, utilizando a equação de regressão logística dada pelos coeficientes e constante acima. O Resumo das Medidas nos indicam uma habilidade de predição que varia de 0,64 e 1,00, o que é satisfatório. Como todas as variáveis estão na mesma medida, importantes conclusões podem ser tiradas dos coeficientes: a) Os coeficientes com valores mais altos indicam uma maior importância da variável para a explicação de Y. Assim, as variáveis mais importantes do modelo parecem ser M-IDHM_R-n ; M-ESPVIDA-n ; e M-RDPC-n.\ b) Metade das variáveis aparecem com sinal negativo e a outra metade com sinal positivo. Como todos P-values tiveram valores acima do desejado iremos retirar as variáveis da análise com base da Tabela (melhores valores de F ), Tabela (intervalo de confiança) e nos melhores valores de P-value (Tabela ), primeiro retirando cinco variáveis para tentar chegar num modelo mais ajustado, o resultado é apresentado na Tabela Tabela Regressão Logística Ordinal com os melhores valores de F, P e CI Ordinal Logistic Regression: CLUSTER_SDF_ versus M-IDHM_R-n; M-ESPVIDAn;... * WARNING * Algorithm has not converged after 20 iterations. 159

160 * WARNING * Convergence has not been reached for the parameter estimates criterion. * WARNING * The results may not be reliable. * WARNING * Try increasing the maximum number of iterations. 160 Link Function: Logit Response Information Variable Value Count CLUSTER_SDF_AJ4-CM REGIÃO 1 12 REGIÃO 2 4 REGIÃO 3 10 Total 26 Logistic Regression Table 95% CI Predictor Coef SE Coef Z P Odds Ratio Lower Upper Const(1) 293, ,1 0,01 0,995 Const(2) 345, ,9 0,01 0,994 M-IDHM_R-n -529, ,00 0,997 0,00 0,00 * M-ESPVIDA-n -342, ,4-0,00 0,996 0,00 0,00 * M-RDPC-n 641, ,00 0,998 3,64594E+278 0,00 * Log-Likelihood = -0,000 Test that all slopes are zero: G = 52,641, DF = 3, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 0, ,000 Deviance 0, ,000 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant ,0 Somers' D 1,00 Discordant 0 0,0 Goodman-Kruskal Gamma 1,00 Ties 0 0,0 Kendall's Tau-a 0,64 Total ,0 A variável M-ESPVIDA-n parece ser a que mais influência Y. O coeficiente de M-RDPCn continua com o sinal diferente das demais variáveis. Houve um pequeno aumento no poder de predição da equação.

161 161 Como mais uma vez todos os P-value tiveram valores acima do desejado iremos retirar as variáveis da análise com base da Tabela (melhores valores de F ), Tabela (intervalo de confiança) e nos melhores valores de P-value (Tabela ). Porém agora retirando uma variável de cada vez, o resultado é apresentado na Tabela Tabela Regressão Logística Ordinal com os Melhores Valores de F, P e IC ) Ordinal Logistic Regression: CLUSTER_SDF_ versus M-IDHM_R-n; M-ESPVIDA-n * WARNING * Algorithm has not converged after 20 iterations. * WARNING * Convergence has not been reached for the parameter estimates criterion. * WARNING * The results may not be reliable. * WARNING * Try increasing the maximum number of iterations. Link Function: Logit Response Information Variable Value Count CLUSTER_SDF_AJ4-CM REGIÃO 1 12 REGIÃO 2 4 REGIÃO 3 10 Total 26 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) 227, ,5 0,01 0,991 Const(2) 285, ,0 0,01 0,990 M-IDHM_R-n -213, ,5-0,01 0,995 0,00 0,00 * M-ESPVIDA-n -294, ,4-0,01 0,994 0,00 0,00 * Log-Likelihood = -0,000 Test that all slopes are zero: G = 52,641, DF = 2, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 0, ,000 Deviance 0, ,000 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures

162 Concordant ,0 Somers' D 1,00 Discordant 0 0,0 Goodman-Kruskal Gamma 1,00 Ties 0 0,0 Kendall's Tau-a 0,64 Total ,0 Ainda não conseguimos chegar P-value desejado, a variável M-ESPVIDA-n ainda parece ser a que mais influência Y. Como mais uma vez todos os P-value tiveram valores acima do desejado iremos retirar as variáveis da análise com base da Tabela (melhores valores de F ), Tabela (intervalo de confiança) e nos melhores valores de P-value (Tabela ). Porém a partir de agora retirando uma variável de cada vez, o resultado é apresentado na Tabela Tabela Regressão Logística Ordinal do Melhores Valores de F, P e IC Ordinal Logistic Regression: CLUSTER_SDF_AJ4-CM versus M-ESPVIDA-n * WARNING * Algorithm has not converged after 20 iterations. * WARNING * Convergence has not been reached for the parameter estimates criterion. * WARNING * The results may not be reliable. * WARNING * Try increasing the maximum number of iterations. 162 Link Function: Logit Response Information Variable Value Count CLUSTER_SDF_AJ4-CM REGIÃO 1 12 REGIÃO 2 4 REGIÃO 3 10 Total 26 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) 352, ,5 0,02 0,987 Const(2) 432, ,2 0,02 0,987 M-ESPVIDA-n -729, ,4-0,02 0,987 0,00 0,00 * Log-Likelihood = -0,000 Test that all slopes are zero: G = 52,641, DF = 1, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 0, ,000 Deviance 0, ,000

163 163 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant ,0 Somers' D 1,00 Discordant 0 0,0 Goodman-Kruskal Gamma 1,00 Ties 0 0,0 Kendall's Tau-a 0,64 Total ,0 Ainda não conseguimos chegar P-value desejado, a variável M-ESPVIDA-n parece não ser a que mais influência Y, o que antes parecia ser verdadeiro. Agora nos resta apenas uma variável, o resultado é apresentado na Tabela Tabela Regressão Logística Ordinal dos Melhores Valores de F, P e IC Ordinal Logistic Regression: CLUSTER_SDF_AJ4-CM versus M-IDHM_R-n Link Function: Logit Response Information Variable Value Count CLUSTER_SDF_AJ4-CM REGIÃO 1 12 REGIÃO 2 4 REGIÃO 3 10 Total 26 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) 27, ,4952 2,01 0,044 Const(2) 36, ,2355 1,88 0,060 M-IDHM_R-n -69, ,5327-1,91 0,056 0,00 0,00 5,22 Log-Likelihood = -5,040 Test that all slopes are zero: G = 42,561, DF = 1, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 10, ,000 Deviance 10, ,000 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures

164 Concordant ,6 Somers' D 0,97 Discordant 3 1,4 Goodman-Kruskal Gamma 0,97 Ties 0 0,0 Kendall's Tau-a 0,62 Total ,0 Fonte: MiTab (16.1.0) Conforme os resultados apresentados na Tabela , se mantivermos apenas a variável M- IDHM_R-n que é a que mais parece influenciar o resultado da equação temos uma pequena perda do poder explicativo, mas uma grande simplificação do modelo. A próxima etapa demonstra o procedimento de análise discriminante Análise Discriminante Como procedimento final realizou-se a análise discriminante para validar a proporção de acerto, diferente da análise discriminante anterior desta vez usamos o método linear e quadrático, os resultados são apresentados na Tabela e Tabela Tabela Análise Discriminante (Método Linear; todas as variáveis) Discriminant Analysis: CLUSTER_SDF_ versus M-IDHM_E-n; M-IDHM_R-n;... Linear Method for Response: CLUSTER_SDF_AJ4-CM Predictors: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n; M-SOBRE60-n; M- E_ANOSESTUDO-n; M-FBSUPER-n; M-RDPC-n; M-P_SUPER-n Group REGIÃO 1 REGIÃO 2 REGIÃO 3 Count Summary of classification True Group Put into Group REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO REGIÃO REGIÃO Total N N correct Proportion 1,000 1,000 1,000 N = 26 N Correct = 26 Proportion Correct = 1,000 Squared Distance Between Groups REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO 1 0,000 20, ,405 REGIÃO 2 20,987 0, ,322 REGIÃO 3 833, ,322 0,000

165 165 Linear Discriminant Function for Groups REGIÃO 1 REGIÃO 2 REGIÃO 3 Constant -206,7-291,7-656,8 M-IDHM_E-n 134,7 147,6-10,5 M-IDHM_R-n 1003,2 1160,3 1198,7 M-ESPVIDA-n 35,9 160,8 2579,0 M-SOBRE60-n 217,6 181,9-1688,1 M-E_ANOSESTUDO-n 37,1 35,0 248,6 M-FBSUPER-n 87,4 124,8 410,6 M-RDPC-n -1640,0-1876,6-1958,2 M-P_SUPER-n 61,5 110,3-16,1 Fonte: MinTab (16.1.0) Tabela Análise Discriminante (Método quadrático; todas as variáveis) Discriminant Analysis: CLUSTER_SDF_ versus M-IDHM_E-n; M-IDHM_R-n;... * ERROR * M-SOBRE60-n is highly correlated with other predictors in group REGIÃO 1. * ERROR * Calculations for discriminant analysis cannot be done. A utilização da função quadrática apresentou erro e não podemos inferir quaisquer análises, na função linear como já tínhamos visto a proporção de acerto foi de 100%. Agora vamos repetir o procedimento apenas com as variáveis que apresentaram os melhores valores de F conforme Tabela , para o método linear e Tabela para o método quadrático. Tabela Análise Discriminante (Método linear; melhores valores de F ) Discriminant Analysis: CLUSTER_SDF_ versus M-IDHM_R-n; M-ESPVIDA-n;... Linear Method for Response: CLUSTER_SDF_AJ4-CM Predictors: M-IDHM_R-n; M-ESPVIDA-n; M-RDPC-n Group REGIÃO 1 REGIÃO 2 REGIÃO 3 Count Summary of classification True Group Put into Group REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO REGIÃO REGIÃO Total N N correct

166 Proportion 1,000 1,000 1, N = 26 N Correct = 26 Proportion Correct = 1,000 Summary of Classification with Cross-validation True Group Put into Group REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO REGIÃO REGIÃO Total N N correct Proportion 1,000 1,000 1,000 N = 26 N Correct = 26 Proportion Correct = 1,000 Squared Distance Between Groups REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO 1 0, , ,0219 REGIÃO 2 16,3746 0, ,6438 REGIÃO 3 63, ,6438 0,0000 Linear Discriminant Function for Groups REGIÃO 1 REGIÃO 2 REGIÃO 3 Constant -148,1-218,7-278,2 M-IDHM_R-n 968,8 1118,4 1150,4 M-ESPVIDA-n 264,4 344,8 403,8 M-RDPC-n -1351,8-1545,7-1515,4 Tabela Análise Discriminante (Método quadrático; melhores valores de F ) Discriminant Analysis: CLUSTER_SDF_ versus M-IDHM_R-n; M-ESPVIDA-n;... M-IDHM_R-n is highly correlated with other predictors in group REGIÃO 2. M-RDPC-n is highly correlated with other predictors in group REGIÃO 2. M-IDHM_R-n is highly correlated with other predictors in group REGIÃO 3. M-RDPC-n is highly correlated with other predictors in group REGIÃO 3. Quadratic Method for Response: CLUSTER_SDF_AJ4-CM Predictors: M-IDHM_R-n; M-ESPVIDA-n; M-RDPC-n

167 167 Group REGIÃO 1 REGIÃO 2 REGIÃO 3 Count Summary of classification True Group Put into Group REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO REGIÃO REGIÃO Total N N correct Proportion 1,000 1,000 1,000 N = 26 N Correct = 26 Proportion Correct = 1,000 From Generalized Squared Distance to Group Group REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO 1-25,67 195,57 620,13 REGIÃO 2 18,48-25,03 98,84 REGIÃO 3 895,57 89,74-24,16 Desta vez a função quadrática não apresentou erro, e não houve mudança no poder explicativo em relação as funções utilizadas. Vejamos os resultados usando apenas uma variável assim como na regressão logística, os resultados são apresentados na Tabela e Tabela Tabela Análise Discriminante (Método Linear; melhor valor de P) Discriminant Analysis: CLUSTER_SDF_AJ4-CM versus M-IDHM_R-n Linear Method for Response: CLUSTER_SDF_AJ4-CM Predictors: M-IDHM_R-n Group REGIÃO 1 REGIÃO 2 REGIÃO 3 Count Summary of classification True Group Put into Group REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO REGIÃO REGIÃO Total N N correct

168 Proportion 1,000 0,500 0, N = 26 N Correct = 23 Proportion Correct = 0,885 Squared Distance Between Groups REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO 1 0,0000 5, ,5674 REGIÃO 2 5,7702 0, ,6858 REGIÃO 3 35, ,6858 0,0000 Linear Discriminant Function for Groups REGIÃO 1 REGIÃO 2 REGIÃO 3 Constant -27,38-48,04-89,30 M-IDHM_R-n 164,62 218,06 297,29 Summary of Misclassified Observations Squared Observation True Group Pred Group Group Distance Probability 10** REGIÃO 3 REGIÃO 2 REGIÃO 1 16,129 0,001 REGIÃO 2 2,605 0,644 REGIÃO 3 3,794 0,355 20** REGIÃO 2 REGIÃO 3 REGIÃO 1 18,458 0,000 REGIÃO 2 3,588 0,400 REGIÃO 3 2,781 0,599 21** REGIÃO 2 REGIÃO 1 REGIÃO 1 0,4346 0,786 REGIÃO 2 3,0378 0,214 REGIÃO 3 28,1391 0,000 Tabela Análise Discriminante (Método quadrático; melhor valor de P) Discriminant Analysis: CLUSTER_SDF_AJ4-CM versus M-IDHM_R-n Quadratic Method for Response: CLUSTER_SDF_AJ4-CM Predictors: M-IDHM_R-n Group REGIÃO 1 REGIÃO 2 REGIÃO 3 Count Summary of classification True Group Put into Group REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO REGIÃO REGIÃO

169 Total N N correct Proportion 1,000 0,750 0, N = 26 N Correct = 24 Proportion Correct = 0,923 From Generalized Squared Distance to Group Group REGIÃO 1 REGIÃO 2 REGIÃO 3 REGIÃO 1-6,735-2,819 26,483 REGIÃO 2 3,074-5,399 5,510 REGIÃO 3 53,724 0,273-6,117 Summary of Misclassified Observations Squared Observation True Group Pred Group Group Distance Probability 10** REGIÃO 3 REGIÃO 2 REGIÃO 1 20,681 0,000 REGIÃO 2-4,235 0,689 REGIÃO 3-2,640 0,311 21** REGIÃO 2 REGIÃO 1 REGIÃO 1-5,996 0,727 REGIÃO 2-4,041 0,273 REGIÃO 3 19,674 0,000 Os resultados apontam para um menor poder explicativo ao usarmos apenas uma variável mesmo que ela apresente o melhor valor de P na regressão logística, na função linear a proporção de acerto foi de 88,5% enquanto que na função quadrática a proporção de acerto foi de 92,3%, ou seja, a função quadrática ajustou melhor os resultados. Por um outro lado, a perda de poder explicativo não foi tão grande e análise fica mais simples Síntese dos Resultados De acordo com todas as análises acima, percebemos claramente que há uma diferença muito grande entre os novos agrupamentos, quando o assunto é Índice de Desenvolvimento Humano na dimensão educação. Além disso, pudemos corroborar nossa expectativa de que estas variáveis indicadoras de desenvolvimento humano formam um importante conjunto de fatores explicativos para o posicionamento de um estado nos grupos encontrados. Assim, fica um alerta para os grupos com índice baixo que um importante caminho para o desenvolvimento parece passar necessariamente pela melhoria nos índices soberanos de educação.,

170 170 CAPÍTULO XIII. ANÁLISE DE CORRESPODÊNCIA SIMPLES A análise de correspondência simples explora relações em uma classificação com dois fatores. A análise de correspondência simples decompõe uma tabela de contingência de forma similar à análise de componentes principais em relação a dados contínuos multivariáveis. Em síntese a análise de correspondência simples faz uma autoanálise dos dados, decompõe a variabilidade e associa variabilidade a linhas e/ou colunas. Para realizar a análise de correspondência simples foi necessário a realização de etapas preparatórias com a finalidade de organizar a base dados: (1) renomear variáveis; (2) identificação dos melhores valores de F ; (3) procedimento para retirar as médias das regiões e dos novos agrupamentos Organização da Base de Dados Conforme mencionado acima para o procedimento de análise de correspondência foi necessário organizar e preparar a base de dados. Primeiro, foi realizado uma nova nomenclatura para as variáveis, deixando-as com nomes menores e com letras minúsculas, conforme a Tabela , também se criou uma coluna com três variáveis que apresentaram os melhores valores de F, conforme Tabela na etapa de regressão logística. As siglas dos estados também foram formatadas em letras minúsculas. Segundo, foi realiza as médias dos novos agrupamentos, uma nova nomenclatura menor em letras minúsculas. Finalmente em terceiro lugar foi realizado as médias das variáveis por região, as siglas de cada região foram formatadas em letras minúsculas. Tabela Legenda das Variáveis Selecionadas para Análise de Correspondência VARIÁVEL RÓTULO M-IDHM_E-N M-IDHM_R-N M-ESPVIDA-N M-SOBRE60-N M-E_ANOSESTUDOS-N M-FBSUPER-N M-RDPC-N M-P_SUPER-N ie ir esp sob ano fb rd ps Fonte: Elaborado pelo Autor (2017) 13.2 Análise de Correspondência Simples para Classificação por Estados A primeira etapa foi realizar a análise de correspondência simples com as oito variáveis selecionadas para o estudo. A Tabela apresenta os resultados, note que do total da inercia da matriz de dados 67% é contabilizada no primeiro componente, 19% é contabilizado no segundo componente e assim por diante.

171 Tabela Análise de Correspondência Simples para Todas as Variáveis Selecionadas Simple Correspondence Analysis: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n; M- SOBRE Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0170 0,6672 0,6672 ***************************** 2 0,0047 0,1849 0,8520 ******** 3 0,0014 0,0555 0,9075 ** 4 0,0012 0,0472 0,9547 ** 5 0,0006 0,0234 0,9781 * 6 0,0004 0,0151 0, ,0002 0,0068 1,0000 Total 0,0254 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 ac 0,734 0,032 0,026 0,063 0,190 0,007 0,106 0,544 0,077 2 al 0,932 0,027 0,041 0,150 0,592 0,036-0,114 0,340 0,076 3 am 0,860 0,028 0,059 0,172 0,554 0,049 0,128 0,305 0,098 4 ap 0,842 0,039 0,015 0,082 0,703 0,016 0,037 0,140 0,011 5 ba 0,769 0,031 0,028 0,134 0,769 0,033 0,002 0,000 0,000 6 ce 0,937 0,034 0,055 0,166 0,678 0,056-0,103 0,259 0,077 7 es 0,922 0,044 0,038-0,142 0,922 0,053-0,002 0,000 0,000 8 go 0,922 0,046 0,023-0,107 0,911 0,031-0,012 0,011 0,001 9 ma 0,980 0,028 0,060 0,179 0,588 0,053-0,146 0,392 0, mg 0,603 0,041 0,025-0,096 0,599 0,022 0,008 0,005 0, ms 0,853 0,045 0,040-0,138 0,851 0,051-0,006 0,002 0, mt 0,966 0,043 0,035-0,139 0,953 0,049 0,016 0,013 0, pa 0,787 0,031 0,057 0,157 0,527 0,045 0,111 0,261 0, pb 0,931 0,032 0,027 0,133 0,811 0,033-0,051 0,120 0, pe 0,970 0,032 0,023 0,123 0,814 0,029-0,054 0,156 0, pi 0,684 0,030 0,032 0,129 0,600 0,029-0,048 0,084 0, pr 0,922 0,048 0,030-0,109 0,744 0,034-0,053 0,178 0, rj 0,900 0,045 0,081-0,203 0,894 0,109-0,016 0,006 0, rn 0,967 0,035 0,023 0,118 0,810 0,029-0,052 0,157 0, ro 0,389 0,041 0,017 0,030 0,088 0,002 0,056 0,301 0, rr 0,826 0,037 0,081 0,100 0,180 0,022 0,189 0,646 0, rs 0,736 0,051 0,052-0,138 0,725 0,057 0,017 0,011 0, sc 0,899 0,053 0,043-0,136 0,889 0,058 0,014 0,010 0, se 0,960 0,032 0,019 0,113 0,853 0,024-0,040 0,108 0, sp 0,903 0,052 0,040-0,128 0,837 0,050-0,036 0,065 0, to 0,589 0,041 0,026 0,097 0,573 0,023 0,016 0,016 0,002 Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 ie 0,522 0,164 0,033 0,012 0,030 0,001-0,050 0,492 0,088

172 Component 2 2 ir 0,799 0,140 0,059-0,092 0,794 0,071 0,007 0,005 0,002 3 esp 0,789 0,164 0,079-0,079 0,508 0,060 0,059 0,281 0,120 4 sob 0,993 0,182 0,344 0,201 0,841 0,434 0,085 0,152 0,282 5 ano 0,963 0,174 0,148 0,086 0,344 0,076-0,116 0,620 0,498 6 fb 0,466 0,068 0,078-0,114 0,449 0,053 0,022 0,017 0,007 7 rd 0,939 0,054 0,206-0,302 0,936 0,289 0,016 0,003 0,003 8 ps 0,197 0,053 0,051-0,070 0,197 0,015-0,003 0,000 0,000 Para melhorar nossa análise produziu-se a Figura que demonstra as variáveis que melhor representa cada estado, ou seja a simetria do traçado. No traçado simétrico é possível fazer as seguintes observações: 172 Symmetric Plot 0,2 rr 0,1 0,0 rd rj esp mt sc rs fb ir ms es go mg ps sp pr ie ro am ac pa sob ap to ba se rn pepb pi -0,1 ano ce al ma -0,2-0,3-0,3-0,2-0,1 0,0 Component 1 0,1 0,2 Figura Traçado Simétrico das Variáveis e Estados O estado do Amazonas está melhor posicionado na matriz, sendo que a variável que melhor o representa é M-SOBRE60-n, isso significa que a probabilidade de sobrevivência até os 60 anos é melhor representada no estado do Amazonas; O estado do Pará é o segundo melhor estado posicionado, sendo que a variável M-SOBRE60- n também é a que melhor o representa; O estado do Rio de Janeiro é melhor representado pela variável M-RDPC-n, isso significa que a renda per capita média é melhor representada no estado do Rio de Janeiro; Há uma concentração em relação a proximidade dos seguintes estados, Paraná, São Paulo, Goias, Minas Gerais, Santa Catarina. Sendo que as variáveis mais próximas são M- P_SUPER-n ; M-IDHM_R-n ; e M-FBSUPER-n. Isso significa que estes estados são

173 173 melhores representados pelo indicador de renda per capita, taxa de frequência bruta no ensino superior e percentual de ocupados com ensino superior completo. Considerando os resultados do procedimento de regressão logística replicaremos o procedimento de análise de correspondência simples para as variáveis com os melhores valores de F conforme Tabela A classificação será a mesma, ou seja, os estados. A Tabela apresenta os resultados. Tabela Análise de Correspondência Simples para as Variáveis com Melhores Valore de F Simple Correspondence Analysis: M-IDHM_R-n; M-ESPVIDA-n; M-RDPC-n Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0072 0,8127 0,8127 ****************************** 2 0,0017 0,1873 1,0000 ****** Total 0,0089 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 ac 1,000 0,031 0,014-0,058 0,800 0,014 0,029 0,200 0,015 2 al 1,000 0,023 0,036-0,079 0,437 0,020 0,089 0,563 0,109 3 am 1,000 0,027 0,086-0,158 0,859 0,091-0,064 0,141 0,065 4 ap 1,000 0,037 0,005-0,026 0,601 0,003 0,021 0,399 0,010 5 ba 1,000 0,028 0,022-0,073 0,762 0,021 0,041 0,238 0,029 6 ce 1,000 0,027 0,045-0,122 0,999 0,056-0,004 0,001 0,000 7 es 1,000 0,050 0,009 0,032 0,646 0,007-0,024 0,354 0,017 8 go 1,000 0,051 0,010 0,037 0,800 0,009-0,018 0,200 0,010 9 ma 1,000 0,022 0,035-0,115 0,933 0,040 0,031 0,067 0, mg 1,000 0,047 0,020-0,028 0,199 0,005-0,056 0,801 0, ms 1,000 0,051 0,017 0,054 0,995 0,021-0,004 0,005 0, mt 1,000 0,049 0,015 0,051 1,000 0,018 0,000 0,000 0, pa 1,000 0,031 0,045-0,109 0,909 0,050-0,034 0,091 0, pb 1,000 0,027 0,029-0,091 0,858 0,031 0,037 0,142 0, pe 1,000 0,028 0,022-0,059 0,503 0,014 0,059 0,497 0, pi 1,000 0,024 0,038-0,115 0,958 0,045 0,024 0,042 0, pr 1,000 0,051 0,025 0,065 0,998 0,030 0,003 0,002 0, rj 1,000 0,052 0,077 0,112 0,951 0,090 0,025 0,049 0, rn 1,000 0,029 0,022-0,071 0,771 0,021 0,039 0,229 0, ro 1,000 0,042 0,029 0,049 0,386 0,014 0,061 0,614 0, rr 1,000 0,035 0,121-0,135 0,587 0,087-0,113 0,413 0, rs 1,000 0,058 0,082 0,110 0,970 0,098-0,019 0,030 0, sc 1,000 0,060 0,089 0,112 0,939 0,103-0,028 0,061 0, se 1,000 0,028 0,024-0,059 0,444 0,013 0,066 0,556 0, sp 1,000 0,057 0,066 0,101 0,983 0,080-0,013 0,017 0, to 1,000 0,037 0,016-0,061 0,946 0,019-0,015 0,054 0,005 Column Contributions

174 Component 2 Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 ir 1,000 0,392 0,120-0,014 0,069 0,010 0,050 0,931 0,598 2 esp 1,000 0,458 0,213-0,053 0,680 0,178-0,036 0,320 0,364 3 rd 1,000 0,150 0,667 0,198 0,989 0,811-0,021 0,011 0,038 Conforme a Tabela é possível observarmos que do total da inercia da matriz de dados 81% é contabilizada no primeiro componente, 18%, o restante, é contabilizado no segundo componente. A Figura nos ajuda a produzir uma análise com base gráfica. Assim, foi possível produzir as seguintes observações: 174 0,2 Symmetric Plot 0,1 0,0 am al pe se ir pbba rn ma pi ac ap ce to pa esp mg ro mt ms pr es go rj sprs sc rd -0,1 rr -0,2-0,2-0,1 0,0 Component 1 0,1 0,2 Figura Traçado Simétrico das Variáveis com Melhores Valores de F e Classificação por Estado O estado do Rio de Janeiro encontra-se melhor posicionado na matriz. Sendo que a variável que o melhor representa é M-RDPC-n, ou seja, significa que o Rio de Janeiro é melhor representado pela renda per capita média, no contexto deste estudo; O estado do Tocantins é melhor representado pela variável M-ESPVIDA-n, ou seja, pode significar que a maior expectativa de vida representa o estado; O estado do Amapá está próximo do indicador M-IDHM_R-n, isso significa que o estado é melhor representado pelo índice relacionado a renda. Nestes dois casos analisamos a correspondência simples considerando a classificação por estados, no próximo tópico replicaremos a análise com as mesmas variáveis mas agora com a classificação por região.

175 13.3 Análise de Correspondência Simples para Classificação por Região A primeira etapa foi encontrar as médias das variáveis selecionadas para o estudo para cada uma das cinco regiões, Centro Oeste, Norte, Nordeste, Sul e Sudeste, a Tabela apresenta os valores médios de cada variável para cada região. REGI ÃO IDHM _E-N IDHM _R-N ESPVI DA-N SOBRE 60-N E_ANOSEST UDO-N T_FBSUP ER-N RDP CO 0,6103 0,5794 0,6777 0,5477 0,6099 0,2879 0,251 N 0,4586 0,3927 0,4886 0,6822 0,497 0,1627 0,127 NE 0,4554 0,3305 0,3714 0,5425 0,5411 0,1562 0,092 S 0,657 0,6384 0,7358 0,6215 0,707 0,3429 0,312 SE 0,6492 0,5726 0,7036 0,5464 0,6237 0,2619 0,253 Fonte: Elaborado pelo Autor (2017) C-N Tabela Valores Médios das Variável Selecionas por Região RM- R_M- R_M- R_M- R_M- R_M- R_M- R_M- R_M- P_SUP ER-N 175 0, , , , ,22633 A segunda etapa concentrou-se em realizar a análise de correspondência simples com as oito variáveis selecionadas para o estudo. A Tabela apresenta os resultados, note que do total da inercia da matriz de dados 84% é contabilizada no primeiro componente, 9% é contabilizado no segundo componente e assim por diante. Tabela Análise de Correspondência Simples para Variáveis e Classificação por Região Simple Correspondence Analysis: R_M-IDHM_E-n; R_M-IDHM_R-n; R_M- ESPVIDA-; R_M-S Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0136 0,8447 0,8447 ****************************** 2 0,0016 0,0983 0,9431 *** 3 0,0009 0,0535 0,9966 * 4 0,0001 0,0034 1,0000 Total 0,0161 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 CO 0,968 0,217 0,088-0,079 0,964 0,100 0,005 0,003 0,003 2 N 0,997 0,170 0,333 0,165 0,858 0,339 0,066 0,138 0,468

176 Component 2 3 NE 0,998 0,150 0,337 0,176 0,853 0,340-0,072 0,145 0,496 4 S 0,808 0,242 0,141-0,086 0,791 0,132-0,013 0,017 0,025 5 SE 0,750 0,220 0,101-0,074 0,742 0,089 0,008 0,008 0, Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 ie 0,443 0,163 0,020 0,007 0,027 0,001-0,029 0,416 0,084 2 ir 0,984 0,144 0,046-0,070 0,966 0,053 0,010 0,018 0,008 3 esp 0,971 0,171 0,067-0,068 0,735 0,058 0,038 0,236 0,159 4 sob 0,986 0,169 0,460 0,204 0,951 0,518 0,039 0,035 0,164 5 ano 0,998 0,171 0,086 0,062 0,471 0,048-0,065 0,528 0,459 6 fb 0,843 0,070 0,084-0,124 0,788 0,079-0,033 0,055 0,047 7 rd 0,960 0,060 0,212-0,234 0,953 0,239 0,021 0,008 0,017 8 ps 0,403 0,053 0,025-0,036 0,165 0,005 0,043 0,238 0,061 Para melhorar nossa análise produziu-se a Figura que demonstra as variáveis que melhor representa cada região, ou seja a simetria do traçado. No traçado simétrico é possível fazer as seguintes observações: Symmetric Plot 0,2 0,1 0,0 rd fb esp CO SE ir S ps ie N sob ano NE -0,1-0,2-0,2-0,1 0,0 Component 1 0,1 0,2 Figura Traçado Simétrico das Variáveis e Regiões Fonte: MiniTab (16.1.) A melhore região posicionada na matriz é a norte, sendo que a variável que a melhor representa é M-SOBRE60-n, isso significa a expectativa de vida até 60 anos é a que melhor representa a região; A região Nordeste é mais próxima do indicador de M-E_ANOSESTDUDO-n, isso significa que a variável que mede a expectativa de anos de estudo é que melhor representa a região;

177 177 As regiões Centro Oeste, Sul e Sudeste estão quase que sobrepostas na matriz, sendo que, as variáveis M-IDHM_R-n ; M-ESPVIDA-n ; M-FBSUPER-n ; e M-P_SUPER-n, estão mais próximas destas regiões. Assim como no item anterior considerando os resultados do procedimento de regressão logística replicaremos o procedimento de análise de correspondência simples para as variáveis com os melhores valores de F conforme Tabela A classificação será a mesma, ou seja, as regiões. A Tabela apresenta os resultados. Tabela Análise de Correspondência Simples para as Variáveis com Melhores Valores de F Simple Correspondence Analysis: R_M-IDHM_R-n; R_M-ESPVIDA-n; R_M-RDPCn Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0043 0,9422 0,9422 ****************************** 2 0,0003 0,0578 1,0000 * Total 0,0046 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 CO 1,000 0,231 0,025 0,022 0,951 0,025 0,005 0,049 0,021 2 N 1,000 0,155 0,281-0,089 0,951 0,284-0,020 0,049 0,237 3 NE 1,000 0,122 0,370-0,115 0,939 0,368 0,029 0,061 0,390 4 S 1,000 0,258 0,293 0,072 0,982 0,305 0,010 0,018 0,089 5 SE 1,000 0,234 0,032 0,018 0,526 0,018-0,017 0,474 0,262 Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 ir 1,000 0,385 0,088-0,026 0,636 0,060 0,020 0,364 0,555 2 esp 1,000 0,456 0,120-0,031 0,787 0,100-0,016 0,213 0,444 3 rd 1,000 0,159 0,791 0,152 1,000 0,840-0,001 0,000 0,001 Conforme a Tabela é possível observarmos que do total da inercia da matriz de dados 94% é contabilizada no primeiro componente, 6%, o restante, é contabilizado no segundo componente. A Figura nos ajuda a produzir uma análise com base gráfica. Assim, foi possível produzir as seguintes observações: A região Sul está melhor posiciona da matriz, sendo que a variável que melhor a presenta é a M-RDPC-n, isso pode significar que a renda per capita média é que melhor representa a região;

178 Component A região Sudeste está mais próxima do indicador M-ESPVIDA-n, assim como a região Norte; A região Centro Oeste está próximo do indicador de M-IDHM-n, assim como a região nordeste. 0,15 Symmetric Plot 0,10 0,05 0,00 NE N ir esp CO SE S rd -0,05-0,10-0,10-0,05 0,00 0,05 Component 1 0,10 0,15 Figura Traçado Simétrico das Variáveis com Melhores Valores de F e Regiões Nestes últimos dois casos analisamos a correspondência simples considerando a classificação por região, no próximo tópico replicaremos a análise com as mesmas variáveis, mas agora com a classificação por novos agrupamentos Análise de Correspondência Simples para Classificação por Novos Agrupamentos A primeira etapa foi encontrar as médias das variáveis selecionadas para o estudo para cada um dos três novos agrupamentos, Região 1, Região 2 e Região 3, a Tabela apresenta os valores médios de cada variável para cada novo agrupamento. Tabela Valores Médios das Variável Selecionas por Novo Agrupamento M- CLUST ERS MC- IDHM _E-N MC- IDHM _R-N MC- ESPVI DA-N MC- SOBRE 60-N MC- E_ANOSEST UDO-N MC- FBSUP ER-N MC- RDP C-N MC- PSUP ER-N RG1 0, , , , , , , , RG2 0, , , ,7362 0, , , ,1773 2

179 179 RG3 0,6398 0,6007 0, , , , ,275 0, Fonte: Elaborado pelo Autor (2017) A segunda etapa concentrou-se em realizar a análise de correspondência simples com as oito variáveis selecionadas para o estudo. A Tabela apresenta os resultados, note que do total da inercia da matriz de dados 89% é contabilizada no primeiro componente, 11% é contabilizado no segundo componente. Tabela Análise de Correspondência Simples para Variáveis e Classificação por Novos Agrupamentos Simple Correspondence Analysis: MC-IDHM_E-n; MC-IDHM_R-n; MC-ESPVIDAn; MC-SOBR Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0139 0,8932 0,8932 ****************************** 2 0,0017 0,1068 1,0000 *** Total 0,0156 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 rg1 1,000 0,264 0,300 0,122 0,838 0,282 0,053 0,162 0,454 2 rg2 1,000 0,337 0,175 0,074 0,675 0,132-0,051 0,325 0,531 3 rg3 1,000 0,399 0,525-0,143 0,997 0,587 0,008 0,003 0,015 Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 ie 1,000 0,162 0,009 0,001 0,001 0,000 0,029 0,999 0,082 2 ir 1,000 0,140 0,057-0,080 1,000 0,064-0,001 0,000 0,000 3 esp 1,000 0,164 0,060-0,073 0,942 0,064-0,018 0,058 0,033 4 sob 1,000 0,188 0,483 0,195 0,948 0,513-0,045 0,052 0,233 5 ano 1,000 0,171 0,092 0,055 0,366 0,038 0,073 0,634 0,548 6 fb 1,000 0,069 0,040-0,090 0,896 0,040-0,030 0,104 0,038 7 rd 1,000 0,053 0,247-0,266 0,985 0,272-0,033 0,015 0,035 8 ps 1,000 0,053 0,012-0,051 0,731 0,010-0,031 0,269 0,030 Para melhorar nossa análise produziu-se a Figura que demonstra as variáveis que melhor representa cada região, ou seja o a simetria do traçado. No traçado simétrico é possível fazer as seguintes observações:

180 Component A Região 1 é a melhor posicionada na matriz, sendo que, a variável que a melhor representa é M-E_ANOSESTUDO-n, que significa que a expectativa de estudo é a que melhor representa este novo agrupamento; A Região 2 está mais próxima do indicador de educação, ou seja, a variável M-IDHM_E-n ; A Região 3 está mais próxima da variável M-IDHM_R-n. 0,2 Symmetric Plot 0,1 0,0 rd rg3 ir esp fb ps ie ano rg2 rg1 sob -0,1-0,2-0,3-0,3-0,2-0,1 0,0 Component 1 0,1 0,2 Figura Traçado Simétrico das Variáveis e Novos Agrupamentos Assim como nos itens anteriores considerando os resultados do procedimento de regressão logística replicaremos o procedimento de análise de correspondência simples para as variáveis com os melhores valores de F conforme Tabela A classificação será a mesma, ou seja, os novos agrupamentos. A Tabela apresenta os resultados. Tabela Análise de Correspondência Simples para as Variáveis com Melhores Valores de F Simple Correspondence Analysis: MC-IDHM_R-n; MC-ESPVIDA-n; MC-RDPC-n Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0046 0,9845 0,9845 ****************************** 2 0,0001 0,0155 1,0000 Total 0,0047 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

181 Component 2 1 rg1 1,000 0,231 0,420-0,092 0,987 0,421 0,010 0,013 0,348 2 rg2 1,000 0,321 0,089-0,034 0,896 0,081-0,012 0,104 0,599 3 rg3 1,000 0,448 0,491 0,072 0,998 0,498 0,003 0,002 0, Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 ir 1,000 0,391 0,068-0,027 0,875 0,060 0,010 0,125 0,549 2 esp 1,000 0,460 0,095-0,030 0,926 0,089-0,008 0,074 0,451 3 rd 1,000 0,149 0,837 0,162 1,000 0,850-0,000 0,000 0,000 Conforme a Tabela é possível observarmos que do total da inercia da matriz de dados 98% é contabilizada no primeiro componente, 2%, o restante, é contabilizado no segundo componente. A Figura nos ajuda a produzir uma análise com base gráfica. Assim, foi possível produzir as seguintes observações: Symmetric Plot 0,15 0,10 0,05 0,00 rg1 ir rg2 esp rg3 rd -0,05-0,10-0,10-0,05 0,00 0,05 Component 1 0,10 0,15 Figura Traçado Simétrico das Variáveis com Melhores Valores de F e Novas Categorias A Região 3 é a melhor posicionada na matriz, sendo que, a variável que melhor a representa é a M-RDPC-n, isso pode significar que a renda per capita média é a que melhor representa esta nova região; A Região 2 está mais próxima da variável M-ESPVIDA-n ; A Região 1 está mais próxima da variável M-IDHM_R-n Síntese dos Resultados As análises acima nos permitem perceber que os estados, ou regiões, ou ainda novos agrupamentos menos desenvolvidos possuem representação significativa de variáveis que indicam melhor expectativa de vida e melhor expectativa de anos de estudo. Para os estados, ou regiões, ou

182 182 ainda novos agrupamentos mais desenvolvidos percebe-se que há representação significativa dos indicadores relacionados a renda e ocupação com ensino superior completo. Nem sempre o estágio de desenvolvimento do estado, ou da região ou ainda do novo agrupamento reflete a variável que a melhor a representa um exemplo é o estado do Amapá que é melhor representado pela variável M-IDHM_R-n que indica a renda per capita no caso para análise de correspondência para as variáveis que apresentaram melhores valores de F no procedimento de regressão logística e classificação por estado. CAPÍTULO XIV. ARVORES DE CLASSIFICAÇÃO Arvores de classificação nos ajuda a identificar os melhores grupos, descobrir relacionamentos entre grupos e prever eventos futuros. O procedimento apresenta arvores de decisão e classificação altamente visuais para facilitar a apresentação de resultados de forma categórica e explicar as análises com mais clareza. O procedimento nos permite criar modelos de classificação para: segmentação, estratificação, previsão, redução de dados e triagem de variáveis, identificação de interação, mesclagem de categorias e discretização de variáveis contínuas. Antes do procedimento de arvores de classificação realizou-se o procedimento de Análise Discriminante Passo a Passo. A análise discriminante constrói um modelo preditivo para associação ao grupo. O método passo a passo nos permite inserir ou remover variáveis. Os tópicos seguintes apresentam os resultados e análises para os dois procedimentos e as considerações finais Análise Discriminante Passo a Passo A variável dependente para a realização da análise discriminante passo a passo foi os novos conglomerados gerados na análise de clusters e ajustados na análise discriminante e regressão logística. A Figura apresenta o resumo da análise do processamento do caso. Figura Análise de Processamento do Caso Fonte: SPSS (20.0.0) Como pode ser observado na Figura , temos o número de 26 casos com o percentual de 100%. A Figura demonstra os resultados da estatística de grupos.

183 183 Figura Estatística de Grupos Fonte: SPSS (20.0.0) O número de casos não ponderados e ponderados é o mesmo para as variáveis em cada grupo, conforme Figura As Figuras ; ; e demonstram os resultados da estatística passo a passo. Figura Variáveis adicionadas e removidas Fonte: SPSS (20.0.0) Figura Variáveis na Análise Fonte: SPSS (20.0.0)

184 184 Figura Variáveis Removida da Análise Fonte: SPSS (20.0.0) Note que a variável M-FBSUPER-n foi removida da análise, conforme as Figuras ; ; e O resumo das funções de discriminação canônica é apresentado nas Figuras ; ; ; ; e Figura Autovalor Fonte: SPSS (20.0.0) Figura Lambda de Wilks Fonte: SPSS (20.0.0) Figura Padronização da Função de Discriminação Canônica Fonte: SPSS (20.0.0)

185 185 Figura Estrutura da Matriz Fonte: SPSS (20.0.0) Figura Funções de Centros de Grupos Fonte: SPSS (20.0.0) As estatísticas de classificação são apresentadas nas Figuras ; ; e Figura Resumo do Processo de Classificação Fonte: SPSS (20.0.0)

186 186 Figura Probabilidade Prévia por Grupo Fonte: SPSS (20.0.0) Figura Resultados de Classificação Fonte: SPSS (20.0.0) Podemos observar no resultado do procedimento de análise discriminante passo a passo que uma variável foi retirada da análise, ou seja, a variável M-FBSUPER-n. Em relação o acerto note que que nenhum dos grupos obteve 100% de acerto, o mais próximo de 100% foi o grupo 3 com 90% de acerto, assim, a análise resultou em 84,6% de acerto na classificação Arvore de Classificação Para o procedimento de arvore de classificação foi utilizado como variável dependente a novos agrupamentos gerados a partir dos procedimentos anteriores e como variável independente as variáveis selecionadas para o estudo de conglomerados. A Figura demonstra os resultados do modelo. Conforme a Figura observa-se que o número máximo de arvores é três, e que o número de casos no nó de primeiro nível é cinco, e o número mínimo de nó de segundo nível é três. Os resultados apontam para a inclusão da variável independente M-P_SUPER-n, quatro números de nós, três números de nós finais e um de profundidade. A Figura apresenta o resultado gráfico da arvore de classificação para este modelo.

187 187 Figura Resumo do Modelo Fonte: SPSS (20.0.0) Note que, como apontado acima a variável M-P_SUPER-n, está separando os nós da arvore. Assim, conforme os resultados apresentados na Figura , podemos dizer que: A variável M-P_SUPER-n esta separando o nível zero do nível um dos nós da arvore; A variável M-P_SUPER-n menor igual a 14973,000 está no grupo um, cerca de 92%, mas também há ocorrência de 7% no grupo dois; A variável M-P_SUPER-n entre os valores 14973,000 e 17912,000 está no grupo dois, cerca de 67%, a ocorrência para o grupo três é mais expressiva com 33,3%; A variável M-P_SUPER-n maior igual 17912,000 está no grupo três, cerca de 90%, também há ocorrência para grupo dois de 10%. Figura Apresentação Gráfica do Modelo de Arvores de Classificação Fonte: SPSS (20.0.0) classificação. A Figura apresenta o risco de erro e a Figura a proporção de acerto para a

188 188 Figura Risco de Erro Fonte: SPSS (20.0.0) Note que a estimativa é de 0,115 e o erro padrão 0,063 para o método chaid exaustivo para a variável dependente N-CLUSTERS ou novos agrupamentos. Figura Proporção de Acerto da Classificação Fonte: SPSS (20.0.0) A Figura nos mostra que o grupo um obteve 100% de acerto, enquanto que o grupo dois obteve 50% de acerto e o grupo três 90% de acerto, no geral o percentual de acerto foi de 88,5%, um pouco a mais que análise discriminante passo a passo. Com o objetivo de melhorar o acerto na classificação realizamos algumas alterações no modelo, os resultados são apresentados na Figura Conforme a Figura observa-se que o número máximo de arvores é três, e que o número de casos no nó de primeiro nível é três, e o número mínimo de nó de segundo nível é dois. Os resultados apontam para a inclusão da variável independente M-P_SUPER-n, quatro números de nós, três números de nós finais e um de profundidade. A Figura apresenta o resultado gráfico da arvore de classificação para este modelo.

189 189 Figura Resumo do Modelo Fonte: SPSS (20.0.0) Note que, como apontado acima a variável M-P_SUPER-n, está separando os nós da arvore. Assim, conforme os resultados apresentados na Figura , podemos dizer que: A variável M-P_SUPER-n esta separando o nível zero do nível um dos nós da arvore; A variável M-P_SUPER-n menor igual a 14973,000 está no grupo um, cerca de 92%, mas também há ocorrência de 7% no grupo dois; A variável M-P_SUPER-n entre os valores 14973,000 e 17912,000 está no grupo dois, cerca de 67%, a ocorrência para o grupo três é mais expressiva com 33,3%; A variável M-P_SUPER-n maior igual 17912,000 está no grupo três, cerca de 90%, também há ocorrência para grupo dois de 10%. Figura Apresentação Gráfica do Modelo de Arvores de Classificação Fonte: SPSS (20.0.0) classificação. A Figura apresenta o risco de erro e a Figura a proporção de acerto para a

190 190 Figura Risco de Erro Fonte: SPSS (20.0.0) Note que a estimativa é de 0,115 e o erro padrão 0,063 para o método chaid exaustivo para a variável dependente N-CLUSTERS ou novos agrupamentos. Figura Proporção de Acerto da Classificação Fonte: SPSS (20.0.0) A Figura nos mostra que o grupo um obteve 100% de acerto, enquanto que o grupo dois obteve 50% de acerto e o grupo três 90% de acerto, no geral o percentual de acerto foi de 88,5%, um pouco a mais que análise discriminante passo a passo, ou seja, não houve nenhuma alteração ao mudar elementos do modelo de classificação. Assim, com o objetivo de melhorar o acerto na classificação retiramos da análise a variável independente M-P_SUPER-n, os resultados são apresentados na Figura

191 191 Figura Resumo do Modelo Fonte: SPSS (20.0.0) Conforme a Figura observa-se que o número máximo de arvores é três, e que o número de casos no nó de primeiro nível é três, e o número mínimo de nó de segundo nível é dois. Os resultados apontam para a inclusão da variável independente M-FBSUPER-n e M-IDHM_E-n, sete números de nós, cinco números de nós finais e dois de profundidade. A Figura apresenta o resultado gráfico da arvore de classificação para este modelo. Note que, como apontado acima a variável M-FBSUPER-n, está separando os nós da arvore. Assim, conforme os resultados apresentados na Figura 8.2.2, podemos dizer que: A variável M-FBSUPER-n está separando o nível zero do nível um dos nós da arvore; A variável M-IDHM_E-n está separando o nível um do nível dois dos nós da arvore; A variável M-FBSUPER-n menor igual a 1892,000 está no grupo um, com 100% de acerto; A variável M-FBSUPER-n entre os valores 1892,000 e 2712,000 está no grupo dois, cerca de 44,4%, há ocorrência para o grupo um com 22,2% e no grupo três com 33,3%; A variável M-FBSUPER-n maior igual 2712,000 está no grupo três, com 100% de; A variável M-IDHM_E-n menor igual a 4376,000 está no grupo com 100% de acerto; A variável M-IDHM_E-n entre 4376,000 e 5584,000 está no grupo dois com 100% de acerto; A variável M-IDHM_E-n maior igual a 5584,00 está no grupo três com 100% de acerto.

192 192 classificação. Figura Apresentação Gráfica do Modelo de Arvores de Classificação Fonte: SPSS (20.0.0) A Figura apresenta o risco de erro e a Figura a proporção de acerto para a Figura Risco de Erro Fonte: SPSS (20.0.0) Note que a estimativa é de 0,000 e o erro padrão 0,000 para o método chaid exaustivo para a variável dependente N-CLUSTERS ou novos agrupamentos.

193 193 Figura Proporção de Acerto da Classificação Fonte: SPSS (20.0.0) A Figura nos mostra que o grupo um obteve 100% de acerto, enquanto que o grupo dois também obteve 100% de acerto, assim como o grupo três com 100% de acerto, no geral o percentual de acerto foi de 100%, maior que a análise discriminante passo a passo Síntese dos Resultados Os resultados apresentados nos permitiram observar que na análise discriminante passo a passo a variável que apresenta maior importância na separação dos grupos foi M-IDHM_E-n, e que a variável M-FBSUPER foi retirada da análise. Na análise de arvore de classificação a variável que apresenta maior importância na separação dos grupos foi M-P_SUPER-n, contudo ao buscarmos mais exatidão da classificação retiramos da análise esta variável, que produziu um efeito conflitante com a análise discriminante já que a variável mais importante na separação dos grupos foi M- FBSUPER-n, que foi retirada no procedimento de análise discriminante passo a passo. CAPÍTULO XV. O RANKING DA EDUCAÇÃO NO BRASIL As unidades federativas apresentam realidades diferentes em relação a dimensão educação, renda e longevidade, porém, como o método de mensuração é mesmo nos permite criar uma classificação entre o melhor e o pior estado do país. Nosso estudo buscou apenas um retrato da dimensão educação, assim, nesta etapa do trabalho vamos produzir um ranking da educação entre os estados do Brasil, vamos classifica-los em referência, satisfatório e insatisfatório. O cálculo do ranking exige uma preparação e organização do banco de dados, desta forma nas próximas seções realizamos os procedimentos de análise de componentes principais e regressão passo a passo Análise de Componentes Principais O procedimento de análise de componentes principais foi realizado com todas as oitos variáveis selecionadas para o estudo na etapa 11 deste trabalho. O objetivo é identificar os componentes principais que apresentam Eigenvalue acima de 1 para realizamos um novo

194 194 procedimento de análise de componentes principais restritos a estes valores. O resultado é apresentado na Tabela Tabela Análise de Componentes Principais com todas as Variáveis por Estado Principal Component Analysis: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n; M- SOBRE60-n; Eigenanalysis of the Correlation Matrix Eigenvalue 5,9277 1,0535 0,5131 0,2418 0,1431 0,0699 0,0434 0,0074 Proportion 0,741 0,132 0,064 0,030 0,018 0,009 0,005 0,001 Cumulative 0,741 0,873 0,937 0,967 0,985 0,994 0,999 1,000 Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 M-IDHM_E-n 0,390 0,082 0,197-0,177 0,381 0,726-0,310-0,038 M-IDHM_R-n 0,400-0,007-0,144 0,262 0,191-0,378-0,306-0,690 M-ESPVIDA-n 0,389-0,140-0,259 0,193 0,259 0,130 0,800-0,000 M-SOBRE60-n 0,034-0,949 0,288-0,070 0,037-0,057-0,075 0,018 M-E_ANOSESTUDO-n 0,307 0,256 0,839 0,025-0,119-0,250 0,240 0,007 M-FBSUPER-n 0,383-0,086-0,132 0,181-0,838 0,295-0,064-0,046 M-RDPC-n 0,400 0,011-0,136 0,316 0,156-0,282-0,317 0,719 M-P_SUPER-n 0,366 0,020-0,222-0,851-0,089-0,283 0,034 0,051 Note que apenas dois componentes apresentam Eigenvalue acima de 1, assim, realizamos novamente o procedimento de análise de componentes principais, mas desta vez limitando a dois componentes, a Tabela apresenta o resultado. Tabela Análise de Componentes Principais com Todas as Variáveis por Estado Limitados a dois Componentes Principal Component Analysis: M-IDHM_E-n; M-IDHM_R-n; M-ESPVIDA-n; M- SOBRE60-n; Eigenanalysis of the Correlation Matrix Eigenvalue 5,9277 1,0535 0,5131 0,2418 0,1431 0,0699 0,0434 0,0074 Proportion 0,741 0,132 0,064 0,030 0,018 0,009 0,005 0,001 Cumulative 0,741 0,873 0,937 0,967 0,985 0,994 0,999 1,000 Variable PC1 PC2 M-IDHM_E-n 0,390 0,082 M-IDHM_R-n 0,400-0,007 M-ESPVIDA-n 0,389-0,140 M-SOBRE60-n 0,034-0,949 M-E_ANOSESTUDO-n 0,307 0,256 M-FBSUPER-n 0,383-0,086 M-RDPC-n 0,400 0,011 M-P_SUPER-n 0,366 0,020 Observe que destacamos os valores de proporção, que vamos utilizar na equação de ranking. Note também que foi gerado as colunas PC1 e PC2 conforme mencionamos acima, limitamos a

195 195 análise a dois componentes principais. Estas colunas serão usadas na próxima etapa no procedimento de regressão passo a passo Regressão Stepwise O procedimento de regressão passo a passo foi realizado para PC1 e PC2, o objetivo é identificamos o R Quadrado de cada componente principal e as respectivas variáveis. A Tabela apresenta os resultados do procedimento para PC1. Tabela Regressão Stepwise para PC1 Stepwise Regression: PC1 versus M-IDHM_E-n; M-IDHM_R-n;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is PC1 on 8 predictors, with N = 26 Step Constant -8,099-9,866-9,659-9,561-9,897-10,148 M-IDHM_R-n 17,90 11,44 7,79 7,39 7,68 5,43 T-Value 21,30 9,49 7,50 8,72 11,87 15,95 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 M-IDHM_E-n 8,88 8,29 7,13 5,00 3,80 T-Value 5,99 8,37 8,27 5,95 10,66 P-Value 0,000 0,000 0,000 0,000 0,000 M-FBSUPER-n 7,97 7,02 6,73 5,58 T-Value 5,50 5,84 7,35 14,54 P-Value 0,000 0,000 0,000 0,000 M-P_SUPER-n 5,31 6,51 6,52 T-Value 3,56 5,56 13,87 P-Value 0,002 0,000 0,000 M-E_ANOSESTUDO-n 2,12 3,23 T-Value 4,05 13,69 P-Value 0,001 0,000 M-ESPVIDA-n 2,90 T-Value 10,26 P-Value 0,000 S 0,557 0,356 0,236 0,191 0,145 0,0581 R-Sq 94,98 98,04 99,17 99,48 99,72 99,96 R-Sq(adj) 94,77 97,87 99,06 99,39 99,65 99,94 Step 7 8 Constant -9,618-9,752

196 196 M-IDHM_R-n 3, ,02008 T-Value 7,09 * P-Value 0,000 * M-IDHM_E-n 3, ,62395 T-Value 16,07 * P-Value 0,000 * M-FBSUPER-n 5, ,08146 T-Value 21,43 * P-Value 0,000 * M-P_SUPER-n 6, ,08834 T-Value 22,95 * P-Value 0,000 * M-E_ANOSESTUDO-n 3, ,21423 T-Value 21,83 * P-Value 0,000 * M-ESPVIDA-n 2, ,53836 T-Value 15,87 * P-Value 0,000 * M-RDPC-n 3, ,42203 T-Value 5,57 * P-Value 0,000 * M-SOBRE60-n 0,40161 T-Value * P-Value * S 0,0362 0, R-Sq 99,98 100,00 R-Sq(adj) 99,98 100,00 Note nas linhas destacadas na cor vermelha as variáveis e o R Quadrado. Na próxima etapa realizaremos o mesmo procedimento para PC2, a Tabela apresenta os resultados. Tabela Regressão Stepwise para PC2 Stepwise Regression: PC2 versus M-IDHM_E-n; M-IDHM_R-n;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is PC2 on 8 predictors, with N = 26 Step Constant 6,816 5,539 5,346 5,272 5,223 5,215 M-SOBRE60-n -11, , , , , ,0518 T-Value -21,00-39,68-91,33-125,51-423, ,94

197 P-Value 0,000 0,000 0,000 0,000 0,000 0, M-E_ANOSESTUDO-n 2,1023 2,9271 3,0793 2,6380 2,6794 T-Value 8,10 22,46 30,65 63,57 417,51 P-Value 0,000 0,000 0,000 0,000 0,000 M-ESPVIDA-n -0,8912-0,4934-0,8819-0,8970 T-Value -10,81-4,65-21,86-146,87 P-Value 0,000 0,000 0,000 0,000 M-FBSUPER-n -1,033-1,043-1,121 T-Value -4,54-15,71-108,16 P-Value 0,000 0,000 0,000 M-IDHM_E-n 0,8934 0,7723 T-Value 15,04 78,27 P-Value 0,000 0,000 M-P_SUPER-n 0,384 T-Value 29,32 P-Value 0,000 S 0,238 0,124 0,0504 0,0366 0,0107 0,00161 R-Sq 94,84 98,66 99,79 99,89 99,99 100,00 R-Sq(adj) 94,62 98,54 99,76 99,87 99,99 100,00 Step 7 8 Constant 5,222 5,231 M-SOBRE60-n -11, ,0459 T-Value -4141,22 * P-Value 0,000 * M-E_ANOSESTUDO-n 2, ,67643 T-Value 644,23 * P-Value 0,000 * M-ESPVIDA-n -0, ,91214 T-Value -175,14 * P-Value 0,000 * M-FBSUPER-n -1, ,13717 T-Value -161,58 * P-Value 0,000 * M-IDHM_E-n 0, ,76462 T-Value 120,76 * P-Value 0,000 * M-P_SUPER-n 0, ,39698 T-Value 46,51 * P-Value 0,000 *

198 M-RDPC-n 0, ,12310 T-Value 5,41 * P-Value 0,000 * 198 M-IDHM_R-n -0,05454 T-Value * P-Value * S 0, , R-Sq 100,00 100,00 R-Sq(adj) 100,00 100,00 Observe as linhas destacadas na cor vermelha as variáveis e o R Quadrado. Na próxima seção apresentaremos o procedimento de geração de ranking Ranking da Educação no Brasil Os resultados obtidos nas etapas anteriores nos permitem agora utilizar a equação e ranking no software para suporte estatístico MiniTab. A Tabela organiza os elementos da equação de ranking. Tabela Elementos da Equação de Ranking PC PROPORÇÃO R-SQ- STEP 1 R-SQ- STEP 2 VARIÁVEL 1 VARIÁVEL 2 PC 1 0,741 0,95 0,03 M-IDHM_Rn M-IDHM_E-n PC 2 0,132 0,95 0,03 M- SOBRE60-n M- E_ANOSESTUDOn Fonte: Elaborado pelo Autor (2017) A equação para geração de ranking está descrita abaixo: RANKING: (PC1Proporção*(R-Sq-STEP1*Variável 1 + R-Sq-STEP2*Variável 2 )) + (PC2Proporção*(R-Sq-STEP1*Variável 1 + R-Sq-STEP2*Variável 2 )) Para a construção de sentido do ranking criamos uma classificação qualitativa em relação a posição e pontuação dos estados, essa classificação pode direcionar os planos de ação ou ainda políticas públicas locais para melhorar o indicador de educação dos estados com baixa pontuação, a Tabela apresenta a escala de classificação.

199 Tabela Escala de Classificação dos Estados por Pontuação em Educação Pontos Classificação De 90 a 100 De 70 a 89 De 40 a 69 De 0 a 39 Referência Satisfatório Insatisfatório Inadequado Fonte: Elaborado pelo Autor (2017) 199 Isto posto, com o suporte do Minitab para o cálculo da equação foi gerado a pontuação para cada estado, foi necessário a normalização dos dados e a ordenação por estado com maior pontuação para menor pontuação, com isso foi possível criar a posição dos estados, a Tabela apresenta os resultados. Tabela Ranking da Educação no Brasil RANKING DA EDUCAÇÃO NO BRASIL POSIÇÃO ESTADOS PONTOS CLASSIFICAÇÃO 1º SC 100 Referência 2º RS 96, Referência 3º SP 92, Referência 4º RJ 80, Satisfatório 5º PR 78, Satisfatório 6º MS 75, Satisfatório 7º GO 75, Satisfatório 8º MT 72, Satisfatório 9º ES 71, Satisfatório 10º RO 68, Insatisfatório 11º MG 57, Insatisfatório 12º AP 50, Insatisfatório 13º TO 47, Insatisfatório 14º RR 33, Inadequado 15º AC 29, Inadequado 16º RN 27, Inadequado 17º PA 25, Inadequado 18º SE 24, Inadequado 19º BA 23, Inadequado 20º PE 22, Inadequado 21º PB 18, Inadequado 22º CE 18, Inadequado

200 200 23º AM 10, Inadequado 24º PI 8, Inadequado 25º AL 6, Inadequado 26º MA 0 Inadequado Fonte: Elaborado pelo Autor (2017) Podemos observar nos resultados apresentados na Tabela que há três estados classificados como Referência, seis estados classificados como satisfatório, quatro estados classificados como insatisfatório e finalmente treze estados classificados como Inadequado. Este último grupo é alarmante já que representa 50% dos estados, lembrando que excluímos o Distrito Federal da análise por ser um estado muito pequeno e que nas análises anteriores apresentou viés nos resultados a prejudicando. Podemos observar a Figura o Mapa do Brasil com as cores da classificação representando quase que um painel de indicadores de educação dos estados. Figura Painel do Indicador da Educação no Brasil Fonte: Elaborado pelo Autor (2017) É possível postularmos algumas ações, os estados classificados como referência podem ser utilizados como benchmarking pelos estados fora deste grupo. O grupo de estados classificados como inadequado podem participar de um programa de incubação para acompanhamento próximo da execução de políticas públicas especificas para melhoria de pontuação destes estados Síntese dos Resultados A análise de componentes principais e regressão stepwise das variáveis relacionadas a educação nos ajudou a montar os elementos da equação de geração de ranking. A construção de uma classificação qualitativa permitiu agrupar os estados pelos níveis de pontuação e não apenas pela posição.

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS

ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS

ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos Professor:

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

Tabela 2: PIB Brasil e unidades da federação a preços constantes - R$ de 2000(mil) - Deflacionado pelo Deflator Implícito do PIB nacional

Tabela 2: PIB Brasil e unidades da federação a preços constantes - R$ de 2000(mil) - Deflacionado pelo Deflator Implícito do PIB nacional 56 ANEXOS Tabela 1: Investimentos em Educação e Cultura dos Estados da Região Norte do Brasil 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 AC 41,14 82,62924 97,71488217 112,0076867 169,2800564

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE E OUTRAS VARIÁVEIS

ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE E OUTRAS VARIÁVEIS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICPAL NO BRASIL Focando

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESINVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS

ATLAS BRASIL 2013 DIMENSÃO DESINVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESINVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos

Leia mais

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Técnicas Computacionais em Probabilidade e Estatística I. Aula I Técnicas Computacionais em Probabilidade e Estatística I Aula I Chang Chiann MAE 5704- IME/USP 1º Sem/2008 1 Análise de Um conjunto de dados objetivo: tratamento de um conjunto de dados. uma amostra de

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO. Programa de Pós-Graduação em Economia e Administração FEA PUC-SP BASTA 2017 V1 IDHM

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO. Programa de Pós-Graduação em Economia e Administração FEA PUC-SP BASTA 2017 V1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Pós-Graduação em Economia e Administração FEA PUC-SP BASTA 2017 V1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL ATLAS BRASIL CLASSIFICAÇÃO:

Leia mais

Empoderando vidas. Fortalecendo nações.

Empoderando vidas. Fortalecendo nações. Empoderando vidas. Fortalecendo nações. INTRODUÇÃO O Atlas do Desenvolvimento Humano no Brasil é baseado exclusivamente nos Censos Demográficos, realizados de 10 em 10 anos, pelo Instituto Brasileiro de

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando

Leia mais

ATLAS DO DESENVOLVIMENTO HUMANO DA REGIÃO METROPOLITANA DE PORTO ALEGRE de dezembro 2014

ATLAS DO DESENVOLVIMENTO HUMANO DA REGIÃO METROPOLITANA DE PORTO ALEGRE de dezembro 2014 PORTO ALEGRE 24 8 de dezembro 24 PORTO ALEGRE 24 O Atlas do Desenvolvimento Humano das Regiões Metropolitanas foi elaborado em uma parceria Instituto de Pesquisas Econômicas Aplicadss- IPEA, Fundação João

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração Mestrado em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração Mestrado em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração Mestrado em Administração PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados

Leia mais

PESQUISA DE OPINIÃO PÚBLICA SOBRE ASSUNTOS POLÍTICOS/ ADMINISTRATIVOS

PESQUISA DE OPINIÃO PÚBLICA SOBRE ASSUNTOS POLÍTICOS/ ADMINISTRATIVOS PESQUISA DE OPINIÃO PÚBLICA SOBRE ASSUNTOS POLÍTICOS/ ADMINISTRATIVOS NOVEMBRO/ DEZEMBRO DE 2013 JOB2726-13 OBJETIVO LOCAL ESPECIFICAÇÕES TÉCNICAS DA PESQUISA Trata-se de uma pesquisa de acompanhamento

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA José Evandeilton Lopes GRR20096740 CE083 - ESTATÍSTICA COMPUTACIONAL Análise descritiva dos dados de fecundação do Brasil no ano 1991 e das rendas

Leia mais

Dados Demográficos: Grandes Regiões, Estados e Municípios. Boletim Técnico Gonçalves & Associados Edição 04 - Maio/2013.

Dados Demográficos: Grandes Regiões, Estados e Municípios. Boletim Técnico Gonçalves & Associados Edição 04 - Maio/2013. Estudo de Perfil do Consumidor Potencial Brasil - Dados Demográficos: Grandes Regiões, Estados e Municípios Boletim Técnico Gonçalves & Associados Edição 04 - Maio/ Edição 2009 www.goncalvesassociados.com

Leia mais

TABELA I - OPERAÇÕES REALIZADAS PELAS DISTRIBUIDORAS

TABELA I - OPERAÇÕES REALIZADAS PELAS DISTRIBUIDORAS TABELA I - OPERAÇÕES REALIZADAS PELAS DISTRIBUIDORAS UF Gasolina Automotiva e Álcool Anidro Álcool Hidratado Óleo Combustível Gás Natural Veicular Internas Interesta-duais Internas Interestaduais Internas

Leia mais

ANEXO I BICICLETA ESCOLAR. Modelo de ofício para adesão à ata de registro de preços (GRUPO 1)

ANEXO I BICICLETA ESCOLAR. Modelo de ofício para adesão à ata de registro de preços (GRUPO 1) ANEXO I BICICLETA ESCOLAR Modelo de ofício para adesão à ata de registro de preços (GRUPO 1) Assunto: Adesão à ata de registro de preços nº 70/2010 do pregão eletrônico nº 40/2010. 1 2 BICICLETA 20 - AC,

Leia mais

Evolução das estatísticas de acidentes por Estado

Evolução das estatísticas de acidentes por Estado Evolução das estatísticas de acidentes por Estado Data: 1/8/218 FILTROS: Acidentes: Todos Veículos: Todos Valores: Absolutos Estado: Todos BR: Todas Este material destaca a evolução das estatísticas de

Leia mais

Mortos e Acidentes por Unidade Federativa

Mortos e Acidentes por Unidade Federativa e Acidentes por Unidade Federativa - 2016 Data: 23/05/2017 FILTROS: Veículos: Todos, Caminhões, Ônibus Valores: Absolutos Estado: Todos BR: Todas Estados com maior número de mortes e acidentes - 2016 Este

Leia mais

CLASSIFICAÇÃO DO BRASIL. Focando principalmente indicadores relacionados a habitação, educação, trabalho e muito particularmente SAÚDE

CLASSIFICAÇÃO DO BRASIL. Focando principalmente indicadores relacionados a habitação, educação, trabalho e muito particularmente SAÚDE PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados a habitação, educação, trabalho

Leia mais

DADOS ESTATÍSTICOS DE PRETENDENTES - BRASIL TOTAL % 1. Total de Pretendentes cadastrados: ,00%

DADOS ESTATÍSTICOS DE PRETENDENTES - BRASIL TOTAL % 1. Total de Pretendentes cadastrados: ,00% DADOS ESTATÍSTICOS DE PRETENDENTES - BRASIL TOTAL % 1. Total de Pretendentes cadastrados: 8346 100,00%. Total de Pretendentes que somente aceitam crianças da Raça Branca: 10834 38,% 3. Total de Pretendentes

Leia mais

Índice de Desenvolvimento e de Desigualdade

Índice de Desenvolvimento e de Desigualdade Martin Handford, Where s Wally? População, Espaço e Ambiente Abordagens Espaciais em Estudos de População: Métodos Analíticos e Técnicas de Representação Índice de Desenvolvimento e de Desigualdade Antonio

Leia mais

Estratégia de Desenvolvimento Regional, Política Pública Negociada e Novas Institucionalidades.

Estratégia de Desenvolvimento Regional, Política Pública Negociada e Novas Institucionalidades. Seminário Internacional. Desarrollo Económico Territorial: nuevas praxis em América Latina y el el Caribe em el siglo XXI CEPAL/ILPES, Santiago de Chile, 19 al 21 de octubre de 2010 Estratégia de Desenvolvimento

Leia mais

Racionamento de água. Abril/2017

Racionamento de água. Abril/2017 Racionamento de água Abril/2017 Objetivo da Pesquisa Metodologia Tópicos da Pesquisa Informações técnicas Levantar informações sobre temas importantes no contexto atual dos Pequenos Negócios. TEMA ANALISADO

Leia mais

Em 2012, o PNUD Brasil, o Ipea e a Fundaç. Esse cálculo foi realizado a partir das inform

Em 2012, o PNUD Brasil, o Ipea e a Fundaç. Esse cálculo foi realizado a partir das inform O ATLAS QUEM FAZ PARA QUE PROCESSO DESENVOLVIMENTO HUMANO IDHM METODOLOGIA GLOSSÁRIO PERGUNTAS FR Em 2012, o PNUD Brasil, o Ipea e a Fundaç assumiram o desafio de adaptar a metodolo calcular o IDH Municipal

Leia mais

Caracterização do território

Caracterização do território Itapema, SC Caracterização do território Dados do mapa 2016 Google Informar erro no mapa Área 55,67 km² IDHM 2010 0,796 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 45.797 hab. Densidade

Leia mais

Licença Prévia LP 279/2008 Licença de Instalação - LI 591/2009

Licença Prévia LP 279/2008 Licença de Instalação - LI 591/2009 Capacitação de Agentes Comunitários de Saúde em efeitos das Radiações Ionizantes Teresa C. S. B. Leite, Ilson P. M. da Silva, Denise M. S. Jannuzzi, Alexandre M. Maurmo. IX Latin American IRPA Regional

Leia mais

BA STA BOLETIM DE ANÁLISE ESTATÍSTICO. Pesquisas Relacionadas a Indicadores Municipais no Brasil. ISDM/FGV, IFDM e IFGF/FIRJAN BASTA 2013 V2

BA STA BOLETIM DE ANÁLISE ESTATÍSTICO. Pesquisas Relacionadas a Indicadores Municipais no Brasil. ISDM/FGV, IFDM e IFGF/FIRJAN BASTA 2013 V2 BA STA BOLETIM DE ANÁLISE ESTATÍSTICO Pesquisas Relacionadas a Indicadores Municipais no Brasil ISDM/FGV, IFDM e IFGF/FIRJAN BASTA 2013 V2 Pesquisa socio-economica ao nível municipal no Brasil focando

Leia mais

CLASSIFICAÇÃO DO BRASIL. Focando principalmente indicadores relacionados a. habitação, educação, trabalho e muito particularmente o

CLASSIFICAÇÃO DO BRASIL. Focando principalmente indicadores relacionados a. habitação, educação, trabalho e muito particularmente o PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados

Leia mais

Teste de hipóteses. Testes de Hipóteses. Valor de p ou P-valor. Lógica dos testes de hipótese. Valor de p 31/08/2016 VPS126

Teste de hipóteses. Testes de Hipóteses. Valor de p ou P-valor. Lógica dos testes de hipótese. Valor de p 31/08/2016 VPS126 3/8/26 Teste de hipóteses Testes de Hipóteses VPS26 Ferramenta estatística para auxiliar no acúmulo de evidências sobre uma questão Média de glicemia de um grupo de animais é diferente do esperado? Qual

Leia mais

Desenvolvimento Humano das Regiões do Orçamento Participativo

Desenvolvimento Humano das Regiões do Orçamento Participativo Desenvolvimento Humano das Regiões do Orçamento Participativo 2000 2010 2.433 Setores Censitários 335 Unidades de Desenvolvimento Humano (UDHs) 83 Bairros do OP IBGE ObservaPOA PMPA/OP IBGE/ObservaPOA

Leia mais

MEDINDO AS DESIGUALDADES EM SAÚDE NO BRASIL: UMA PROPOSTA DE MONITORAMENTO Convênio OPS/IPEA

MEDINDO AS DESIGUALDADES EM SAÚDE NO BRASIL: UMA PROPOSTA DE MONITORAMENTO Convênio OPS/IPEA MEDINDO AS DESIGUALDADES EM SAÚDE NO BRASIL: UMA PROPOSTA DE MONITORAMENTO Convênio OPS/IPEA Solon Magalhães Vianna André Nunes Rita Barradas Barata James Richard Silva Santos Diretoria de Estudos Sociais

Leia mais

UMA PESQUISA EXPLORATORIA DOS INDICADORES DO IRBEM-2011 DA REDE NOSSA SÃO PAULO

UMA PESQUISA EXPLORATORIA DOS INDICADORES DO IRBEM-2011 DA REDE NOSSA SÃO PAULO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais UMA PESQUISA EXPLORATORIA DOS INDICADORES DO IRBEM-2011 DA REDE NOSSA SÃO PAULO Aluno: Claudemir

Leia mais

METODOS ANÁLISE EXPLORATÓRIA DE DADOS

METODOS ANÁLISE EXPLORATÓRIA DE DADOS PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração METODOS Trabalho ANÁLISE EXPLORATÓRIA DE DADOS PROJETO ORIBER

Leia mais

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP Bioestatística UNESP Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP Perguntas iniciais para reflexão I - O que é Estatística? II - Com que tipo de informação (dados)

Leia mais

Anexo I. Distribuição dos Recursos do PNATE-2008

Anexo I. Distribuição dos Recursos do PNATE-2008 Anexo I Distribuição dos Recursos do PNATE-2008 A forma de calculo e o valor a ser repassado aos Estados, ao Distrito Federal e aos Municípios, para a execução do PNATE no presente exercício, é regulamentada

Leia mais

UMA ANÁLISE DE ÍNDICES DE DESENVOLVIMENTO BÁSICO DA REGIÃO DE ARARAS

UMA ANÁLISE DE ÍNDICES DE DESENVOLVIMENTO BÁSICO DA REGIÃO DE ARARAS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais UMA ANÁLISE DE ÍNDICES DE DESENVOLVIMENTO BÁSICO DA REGIÃO DE ARARAS Aluna: Erika Camila Buzo

Leia mais

Pensando na Aposentadoria. Janeiro/2017

Pensando na Aposentadoria. Janeiro/2017 Pensando na Aposentadoria Janeiro/2017 Objetivo da Pesquisa Metodologia Tópicos da Pesquisa Informações técnicas Levantar informações sobre temas importantes no contexto atual dos Pequenos Negócios. TEMA

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PESQUISA IRBEM INDICADORES DE REFERÊNCIA DE BEM-ESTAR NO MUNICÍPIO

Leia mais

IMPACTOS DO PROGRAMA DE ACELERAÇÃO

IMPACTOS DO PROGRAMA DE ACELERAÇÃO DOI: http://dx.doi.org/10.21452/rde.v14i25.1940 IMPACTOS DO PROGRAMA DE ACELERAÇÃO DO CRESCIMENTO SOBRE O DESENVOLVIMENTO ECONÔMICO NO BRASIL ROSEMEIRY MELO CARVALHO 1 JOSÉ CESAR VIEIRA PINHEIRO 2 Resumo

Leia mais

Sumário dos exemplos:

Sumário dos exemplos: Sumário dos exemplos: I Representação gráfica para Variáveis Quantitativas II Histograma para variáveis contínuas no soft MINITAB III Tabela de freqüências e histograma para v. contínuas, no Excel IV Exemplo

Leia mais

Pesquisa Nacional por Amostra de Domicílios Contínua PNAD Contínua. Mercado de Trabalho Brasileiro 1º trimestre de de maio de 2018

Pesquisa Nacional por Amostra de Domicílios Contínua PNAD Contínua. Mercado de Trabalho Brasileiro 1º trimestre de de maio de 2018 Pesquisa Nacional por Amostra de Domicílios Contínua PNAD Contínua Mercado de Trabalho Brasileiro 1º trimestre de 2018 17 de maio de 2018 P R I N C I P A L O B J E T I V O Produzir informações contínuas

Leia mais

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor MÉTODOS QUANTITATIVOS APLICADOS Prof. Danilo Monte-Mor Métodos Quantitativos Aulas 1 e 2 Análise Exploratória de Dados 2 Danilo Soares Monte Mor Currículum Vitae Prof. Dr. e especialista em Métodos Quantitativos

Leia mais

FONTE DE DADOS. Cadastro Nacional de Estabelecimentos de Saúde: Dados de todos os estabelecimentos de saúde do Brasil.

FONTE DE DADOS. Cadastro Nacional de Estabelecimentos de Saúde: Dados de todos os estabelecimentos de saúde do Brasil. CENSO AMIB 2016 OBJETIVO O objetivo desta proposta é prestar serviços de consultoria para a extração e análise de dados do CNES a respeito de leitos de UTI e profissionais da saúde intensivistas, bem como

Leia mais

ORDEM UF MUNICÍPIO POPULAÇÃO º SP São Paulo º RJ Rio de Janeiro º DF Brasília º BA Salvador

ORDEM UF MUNICÍPIO POPULAÇÃO º SP São Paulo º RJ Rio de Janeiro º DF Brasília º BA Salvador O IBGE divulga hoje as estimativas das populações residentes nos 5.570 municípios brasileiros, com data de referência em 1º de julho de 2017. Estima-se que o Brasil tenha 207,7 milhões de habitantes e

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Curitiba, PR 08/07/2014 - Pág 1 de 14 Report a map error Caracterização do território Área 437,42 km² IDHM 2010 0,823 Faixa do IDHM Muito Alto (IDHM entre 0,8 e 1) (Censo 2010) 1751907

Leia mais

ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO EDUCAÇÃO

ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO EDUCAÇÃO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO EDUCAÇÃO Disciplina: Métodos Quantitativos

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE

ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE Disciplina: Métodos Quantitativos Professor:

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Novo Santo Antônio, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 4386,24 km² IDHM 2010 0,653 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 2005 hab.

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO

ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO Disciplina: Métodos Quantitativos Professor:

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Rosário Oeste, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 8061,98 km² IDHM 2010 0,650 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 17679 hab. Densidade

Leia mais

Financiamento da Educação e desenvolvimento

Financiamento da Educação e desenvolvimento Financiamento da Educação e desenvolvimento Jorge Abrahão de Castro Diretor da Diretoria de Estudos e Políticas Sociais do IPEA Brasília, 25 de maio de 2011 Educação e Desenvolvimento Político Maior participação

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Alto Araguaia, MT 01/08/2013 - Pág 1 de 14 Caracterização do território Área 5557,93 km² IDHM 2010 0,704 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 15644 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Canarana, MT 01/08/2013 - Pág 1 de 14 Caracterização do território Área 10877,15 km² IDHM 2010 0,693 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 18754 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Pedra Preta, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 4205,57 km² IDHM 2010 0,679 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 15755 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Alto Garças, MT 01/08/2013 - Pág 1 de 14 Caracterização do território Área 3670,07 km² IDHM 2010 0,701 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 10350 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Novo São Joaquim, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 5039,25 km² IDHM 2010 0,649 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 6042 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Barra do Garças, MT 01/08/2013 - Pág 1 de 14 Caracterização do território Área 9176,17 km² IDHM 2010 0,748 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 56560 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Bom Jesus do Araguaia, MT 01/08/2013 - Pág 1 de 14 Caracterização do território Área 4299,96 km² IDHM 2010 0,661 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 5314 hab.

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de São Pedro da Cipa, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 344,84 km² IDHM 2010 0,660 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 4158 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Rondonópolis, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 4181,58 km² IDHM 2010 0,755 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 195476 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Campo Verde, MT 01/08/2013 - Pág 1 de 14 Caracterização do território Área 4810,5 km² IDHM 2010 0,750 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 31589 hab. Densidade

Leia mais

Nova Pesquisa Nacional de Ataques a Bancos

Nova Pesquisa Nacional de Ataques a Bancos Nova Pesquisa Nacional de Ataques a Bancos (e outras ocorrências envolvendo a atividade bancária) (2017-2018) Elaboração: Contraf-CUT e CONTRASP Fonte: Notícias da imprensa, SSP dos Estados e Sindicatos

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Jaciara, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 1663,25 km² IDHM 2010 0,735 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 25647 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Confresa, MT 01/08/2013 - Pág 1 de 14 Caracterização do território Área 5819,29 km² IDHM 2010 0,668 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 25124 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Vila Rica, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 7468,7 km² IDHM 2010 0,688 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 21382 hab. Densidade

Leia mais

Metas Educacionais As 5 Metas do Todos Pela Educação. Rio de Janeiro, 27 de abril de 2009

Metas Educacionais As 5 Metas do Todos Pela Educação. Rio de Janeiro, 27 de abril de 2009 s Educacionais As 5 s do Todos Pela Educação Rio de Janeiro, 27 de abril de 2009 Construção das metas Pesquisa do meio copo cheio : consensos para avançar Documento de mobilização inicial Entrevistas e

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de São Félix do Araguaia, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 16915,81 km² IDHM 2010 0,668 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 10625

Leia mais

SECRETARIA DE EDUCAÇÃO BÁSICA MEC

SECRETARIA DE EDUCAÇÃO BÁSICA MEC SECRETARIA DE EDUCAÇÃO BÁSICA MEC A EVOLUÇÃO DA EDUCAÇÃO BÁSICA O movimento Constitucional; O processo de discussão que antecedeu a LDB nº9394/96; A concepção de Educação Básica e a universalização do

Leia mais

MINISTÉRIO DA EDUCAÇÃO Secretaria de Educação Básica

MINISTÉRIO DA EDUCAÇÃO Secretaria de Educação Básica MINISTÉRIO DA EDUCAÇÃO Secretaria de Educação Básica Situação educacional dos jovens brasileiros de 15 a 17 anos - Brasil-2011 Situação/escolaridade 1) Analfabetos População (mil) 166,8 2) Freqüentam a

Leia mais

CAEN-UFC RELATÓRIO DE PESQUISA Nº 02

CAEN-UFC RELATÓRIO DE PESQUISA Nº 02 RELATÓRIO DE PESQUISA Nº 02 EVOLUÇÃO DOS INDICADORES DE RENDA, DESIGUALDADE E POBREZA PARA O CEARÁ E REGIÃO METROPOLITANA DE FORTALEZA Uma Visão Comparativa Nacional Pós-Plano Real Autores da Pesquisa

Leia mais

MATO GROSSO MAIS POR VOCÊ

MATO GROSSO MAIS POR VOCÊ Governo do Estado de Mato Grosso Silval Barbosa Governador Chico Daltro Vice- Governador MATO GROSSO MAIS POR VOCÊ OPORTUNIDADES DE DESENVOLVIMENTO SUSTENTÁVEL DO ESTADO DE MATO GROSSO PARA OS PRÓXIMOS

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de São José do Xingu, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 7493,63 km² IDHM 2010 0,657 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 5240 hab. Densidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Bertioga, SP 30/07/2013 - Pág 1 de 14 Caracterização do território Área 492,82 km² IDHM 2010 0,730 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 47645 hab. Densidade

Leia mais

6EMA Lucas Santana da Cunha 17 e 19 de abril de Universidade Estadual de Londrina

6EMA Lucas Santana da Cunha   17 e 19 de abril de Universidade Estadual de Londrina ESTATÍSTICA ECONÔMICA 6EMA020-1000 lscunha@uel.br http://www.uel.br/pessoal/lscunha/ Universidade Estadual de Londrina 17 e 19 de abril de 2017 1 o Bimestre Cronograma Critério de Avaliação Bibliografia

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Guarujá, SP 30/07/2013 - Pág 1 de 14 Caracterização do território Área 143,71 km² IDHM 2010 0,751 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 290752 hab. Densidade

Leia mais

Satisfação com o plano de saúde CASSI. Relatório final dezembro de 2011

Satisfação com o plano de saúde CASSI. Relatório final dezembro de 2011 Satisfação com o plano de saúde CASSI Relatório final dezembro de 2011 Índice 2 Objetivo Metodologia Perfil sociodemográfico Satisfação geral e recomendação da CASSI Atributos dos planos de saúde Rede

Leia mais

Movimentação das Empresas do Segmento Julho 2011

Movimentação das Empresas do Segmento Julho 2011 Movimentação das Empresas do Segmento Julho 2011 Índice 1. Consolidado Brasil... 03 2. Acumulado Brasil... 06 3. Consolidado por Região... 08 4. Consolidado por Estado... 14 5. Consolidado Brasil Comparativo

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 2019 Estatística Descritiva e Análise Exploratória Etapas iniciais. Utilizadas para descrever e resumir os dados. A disponibilidade de uma grande quantidade

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Alta Floresta, MT 01/08/2013 - Pág 1 de 14 Caracterização do território Área 8983,98 km² IDHM 2010 0,714 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 49164 hab. Densidade

Leia mais

Movimentação das Empresas do Segmento Abril 2011

Movimentação das Empresas do Segmento Abril 2011 Movimentação das Empresas do Segmento Abril 2011 Índice 1. Consolidado Brasil... 03 2. Acumulado Brasil... 06 3. Consolidado por Região... 08 4. Consolidado por Estado... 14 5. Consolidado Brasil Comparativo

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Esperança, PB 01/08/2013 - Pág 1 de 14 Caracterização do território Área 166,54 km² IDHM 2010 0,623 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 31095 hab. Densidade

Leia mais

INFORME SARGSUS. Situação da Alimentação do Relatório de Gestão Ano 2013-2014 Informações sobre Plano e Programação Anual de Saúde

INFORME SARGSUS. Situação da Alimentação do Relatório de Gestão Ano 2013-2014 Informações sobre Plano e Programação Anual de Saúde INFORME SARGSUS Situação da Alimentação do Relatório de Gestão Ano 2013-2014 Informações sobre Plano e Programação Anual de Saúde 1 ESFERA MUNICIPAL 1.1 Relatório de Gestão Ano 2013 Até a presente data,

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Campo Novo do Parecis, MT 01/08/2013 - Pág 1 de 14 Caracterização do território Área 9480,98 km² IDHM 2010 0,734 Faixa do IDHM Alto (IDHM entre 0,700 e 0,799) (Censo 2010) 27577

Leia mais

Estado de São Paulo tem a maior quantidade de POS a cada mil habitantes; Maranhão, a menor

Estado de São Paulo tem a maior quantidade de POS a cada mil habitantes; Maranhão, a menor INFORMATIVO PARA A IMPRENSA ML&A Comunicações Fernanda Elen fernanda@mla.com.br (11) 3811-2820 ramal 833 Cresce a aceitação de cartões em 2015, aponta a Boanerges & Cia. Estado de São Paulo tem a maior

Leia mais

Caracterização do território

Caracterização do território Perfil do Município de Paranatinga, MT 02/08/2013 - Pág 1 de 14 Caracterização do território Área 24272,24 km² IDHM 2010 0,667 Faixa do IDHM Médio (IDHM entre 0,6 e 0,699) (Censo 2010) 19290 hab. Densidade

Leia mais