BA STA BOLETIM DE ANÁLISE ESTATÍSTICO. Pesquisas Relacionadas a Indicadores Municipais no Brasil. ISDM/FGV, IFDM e IFGF/FIRJAN BASTA 2013 V2

Tamanho: px
Começar a partir da página:

Download "BA STA BOLETIM DE ANÁLISE ESTATÍSTICO. Pesquisas Relacionadas a Indicadores Municipais no Brasil. ISDM/FGV, IFDM e IFGF/FIRJAN BASTA 2013 V2"

Transcrição

1 BA STA BOLETIM DE ANÁLISE ESTATÍSTICO Pesquisas Relacionadas a Indicadores Municipais no Brasil ISDM/FGV, IFDM e IFGF/FIRJAN BASTA 2013 V2 Pesquisa socio-economica ao nível municipal no Brasil focando principalmente indicadores relacionados a habitação, trabalho, saúde e muito particularmente EDUCAÇÃO. Clarice Santiago Pesquisa socio-economica ao nível municipal no Brasil focando principalmente indicadores relacionados a habitação, educação, saúde e muito particularmente TRABALHO. Diego Conti Pesquisa socio-economica ao nível municipal no Brasil focando principalmente indicadores relacionados a habitação, educação, trabalho e muito particularmente SAUDE. Elaine Palmeira Pesquisa socio-economica ao nível municipal no Brasil focando principalmente indicadores relacionados a trabalho, educação, saúde e muito particularmente HABITAÇÃO. Hannah de Carvalho Pesquisa socio-economica ao nível municipal no Brasil focando principalmente indicadores relacionados a habitação, educação, trabalho e muito particularmente EMPREGO e RENDA. José Felipe de Souza Pesquisa socio-economica ao nível municipal no Brasil focando principalmente indicadores relacionados a habitação, educação, trabalho e muito particularmente o referente a GESTAO FISCAL. Mauricio Camargo

2 PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores relacionados a habitação, trabalho, saúde e muito particularmente EDUCAÇÃO MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA Professor Dr. Arnoldo Jose de Hoyos Clarice Santiago Página 1

3 1 INTRODUÇÃO O presente trabalho tem por objetivo efetuar diversas análises dos dados da Pesquisa Firjan/FGV sobre o Desenvolvimento dos Municípios nos períodos de 2000 e Iniciamos com o entendimento dos dados, incluindo a definição dos indivíduos e das variáveis, suas classificações em variáveis categóricas ou quantitativas, os significados e unidades de medida, além da apresentação da tabela de dados. Na seqüência, analisamos cada uma das variáveis separadamente quanto a sua forma de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dotplot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desviopadrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling). Em seguida faremos comparações entre as diversas variáveis analíticas, utilizando técnicas como relações entre as variáveis, regressões múltiplas, comparações, amostragem dos dados, análise multivariada, análise de conglomerados, análise discriminante, regressão logística, análise de correspondência e arvores de classificação. Não será possível, a partir destes dados, efetuarmos a análise de tendência pois não existem séries temporais de dados, requisitos para esta técnica. O software estatístico utilizado é o MINITAB 16. Este trabalho se concentrará nas diversas variáveis que compõem a pesquisa Firjan/FGV. 2 OS DADOS 2.1 OS INDIVÍDUOS Os indivíduos deste trabalho são compostos pelas médias ponderadas dos indicadores das dimensões Habitação (H6), Renda (R1), Trabalho (T1_2), Saúde (S1_1) e Educação (E2_4, E2_5, E2_6), padronizados pela média do Brasil para os diferentes municípios. Ao todo são 5565 municípios considerados brasileiros, incluindo o Distrito federal. Os dados analíticos foram extraídos do IBGE, e possibilitam uma comparação Página 2

4 entre os dados colhidos em 2000 com Neste trabalho concentraremos nossas análise apenas dos dados referentes à O Brasil encontra-se política e geograficamente dividido em cinco regiões distintas, que possuem traços comuns referentes aos aspectos físicos, humanos, econômicos e culturais. Os limites de cada região - Norte, Nordeste, Sudeste, Sul e Centro-Oeste - coincidem sempre com as fronteiras dos Estados que as compõem. 2.2 AS VARIÁVEIS As variáveis desta pesquisa incluem os 3 principais índices sintéticos que são ISDM, IFDM e IFGF, que são médias ponderadas dos dados analíticos globais da pesquisa, e variáveis analíticas, referente à educação, saúde, renda, emprego e habitação. Tabela 1. Comparativo entre as Variáveis ISDM e IFDM Tabela 2. A definição das Variáveis Variável Significado Tipo Unidade de Medida REGIÃO Nome da Região do Brasil Texto Na UF Unidade da Federação Texto Na MUNICÍPIO Nome do Município Texto Na Página 3

5 ISDM Índice Social de Desenvolvimento Municipal: Média ponderada dos indicadores das dimensões Habitação, Renda, Trabalho, Saúde e Segurança e Educação (H, R, T, S e E) padronizada pela média do Brasil. Numérico Escala convertida para intervalo entre 0 e 1. EDUCAÇÃO Média ponderada dos indicadores da dimensão Educação (E1_1, E1_2, E2_1, E2_2, E2_3, E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3) padronizada pela média do Brasil. Numérico Escala convertida para intervalo entre 0 e 1. EMPREGO E RENDA Geração, estoque e salários médios dos empregos formais (IFDM). Numérico Escala convertida para intervalo entre 0 e 1. LIQUIDEZ Índice de liquidez dos municípios. Numérico Escala convertida para intervalo entre 0 e 1. H6 Percentual de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2. Numérico Escala convertida para intervalo entre 0 e 1. R1 Numérico Escala convertida para intervalo entre 0 e 1. T1_2 Taxa de formalização entre os empregados Numérico Escala convertida para intervalo entre 0 e 1. S1_1 Taxa de sobrevivência infantil no primeiro ano de vida, representada pela diferença entre o número de nascidos vivos e o número de óbitos até um ano de idade. Numérico Escala convertida para intervalo entre 0 e 1. E2_4 Percentual de crianças de 7 a 14 anos que estão na série correta segundo a idade Numérico Escala convertida para intervalo entre 0 e 1. Página 4

6 E2_5 Índice transformado na escala Ideb de proficiência Português e Matemática Agregado para a quarta série do Ensino Fundamental (5º ano EF) Numérico Escala convertida para intervalo entre 0 e 1. E2_6 Índice transformado na escala Ideb de proficiência em Português e Matemática Agregado oitava série do Ensino Fundamental (9º ano EF). Numérico Escala convertida para intervalo entre 0 e ANÁLISE DAS VARIÁVEIS 3.1 VARIÁVEIS CATEGÓRICAS Para este tipo de variável, as pesquisas concentram-se nas análises de gráficos do tipo pie chart e barras Variável: ESTADO Fazem parte desta pesquisa os 27 estados brasileiros e suas cidades. O gráfico abaixo exibe o número de cidades por estado. A variação no número de cidades por estado é acentuada. Considerando que o Distrito Federal é um estado brasileiro, é o estado com o menor número de cidades (1), enquanto o Mato Grosso é o estado que possui o maior número de cidades (852) Variável: REGIÃO Página 5

7 Figura 3. Número de Cidades por Estado e Região do Brasil Podemos verificar no gráfico acima que a Região Nordeste é a que possui o maior número de cidades do Brasil (1790) e seguido pela Região Sudeste (1669). A Região que possui o menor número de cidades é a Norte, com 447 cidades, muito próxima da Região Centro-Oeste (468). A Região Sul possui 1191 cidades. Figura 4. Cidades por Região do Brasil 3.2 ANÁLISE EXPLORATÓRIA DAS VARIÁVEIS ANALÍTICAS Serão analisadas as variáveis separadamente quanto a sua forma de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o auxílio de gráficos ( histogramas, gráficos de ramos, box-plot, dot-plot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling). Página 6

8 3.2.1 VARIÁVEL ISDM Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desviopadrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável ISDM. Summary for ISDMc A nderson-darling Normality Test A -Squared 75,76 P-V alue < 0,005 Histograma e Curva de Densidade BOXPLOT Intervalo de confiança Mean 0,00 0,14 0,28 0,42 0,56 0,70 95% Confidence Intervals 0,84 0,98 Mean 0,67795 StDev 0,19073 V ariance 0,03638 Skew ness -0, Kurtosis -0, N 5565 Minimum 0, st Q uartile 0,53221 Median 0, rd Q uartile 0,83728 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % C onfidence Interv al for StDev 0, ,19434 Medidas Numéricas Median 0,67 0,68 0,69 0,70 0,71 0,72 0,73 As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem ganhos, receitas, salários, etc. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. Muitas cidades possuem um baixo nível de desenvolvimento, muitas cidades possuem um nível médio de desenvolvimento e poucas possuem um nível alto de desenvolvimento. Existem duas corcovas no gráfico que nos mostra que existem duas realidades diferentes dentro dos dados analisados, ou seja, existem tipicamente dois tipos de municípios dentro do Brasil, e cada tipo está em um estágio diferente de desenvolvimento. Página 7

9 - Valores Atípicos: Há 3 valores de ISDM atípicos, que apresentam resultados abaixo de 0,05767, que são os municípios de Chaves, PA; Amajari, RR e Melgaço, PA. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem ISDM menor do que 0, O ISDM médio é de 0,67795, e o desviopadrão (medida de dispersão) é de 0,19073, que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil VARIÁVEL EDUCAÇÃO Summary for EDUCc A nderson-darling Normality Test A -Squared 7,62 P-V alue < 0,005 Mean 0,58679 StDev 0,17984 V ariance 0,03234 Skew ness -0, Kurtosis -0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,46156 Median 0, rd Q uartile 0,71782 Maximum 1, % C onfidence Interval for Mean 0, , % C onfidence Interval for Median 0, , % Confidence Intervals 95% C onfidence Interval for StDev 0, ,18325 Mean Median 0,580 0,585 0,590 0,595 0,600 0,605 As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser simétrica cujo pico concentra-se no centro, o que é comum para variáveis que indiquem desempenho regular. A curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão da variabilidade sobre Educação nos municípios do Brasil. Os dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade entre os dados. - Valores Atípicos: Há muitos valores atípicos de Educação, que apresentam resultados abaixo de 0, O desempenho Educação é considerado médio nos municípios do Brasil. Página 8

10 - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem Educação menor do que 0, A Educação média é 0,58679 e o desvio-padrão (medida de dispersão) é de 0,17984, que implica em uma dispersão média para a questão VARIÁVEL EMPREGO E RENDA Summary for EMP&RENDAc A nderson-darling Normality Test A -Squared 104,05 P-V alue < 0,005 Mean 0,40414 StDev 0,15543 V ariance 0,02416 Skew ness 0,88240 Kurtosis 1,30951 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,30631 Median 0, rd Q uartile 0,47134 Maximum 1, % C onfidence Interval for Mean 0, , % C onfidence Interval for Median 0, , % Confidence Intervals 95% C onfidence Interval for StDev 0, ,15838 Mean Median 0,37 0,38 0,39 0,40 0,41 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores baixos de EMPREGO E RENDA. Muitas cidades possuem um nível médio de EMPREGO E RENDA e poucas possuem um nível alto de EMPREGO E RENDA. Existe apenas uma corcova no gráfico. - Valores Atípicos: Há alguns valores atípicos de EMPREGO E RENDA atípicos, que apresentam resultados abaixo de 0,4742, e muitos valores atípicos acima da curva (0,72208). Esta informação nos diz que existem municípios no Brasil que apresentam Taxas de EMPREGO E RENDA acima da curva e alguns abaixo da curva. Página 9

11 - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem EMPREGO E RENDA menor do que O EMPREGO E RENDA médio é de 0,40414 e o desvio-padrão (medida de dispersão) é de 0,15543, que implica em uma dispersão alta do índice de EMPREGO E RENDA VARIÁVEL LIQUIDEZ O indicador demonstra se o município possui recursos financeiros suficientes para fazer frente ao montante de restos a pagar. Se o município apresentar mais restos a pagar do que ativos financeiros disponíveis a pontuação será zero. Na leitura dos resultados, quanto mais próximo de 1,00, menos o município está postergando pagamentos para o exercício seguinte sem a devida cobertura Summary for LIQc A nderson-darling Normality Test A -Squared 257,10 P-Value < 0,005 Mean 0,55146 StDev 0,37328 V ariance 0,13934 Skew ness -0,32363 Kurtosis -1,46781 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,19358 Median 0, rd Q uartile 0,90601 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,38035 Mean Median 0,550 0,575 0,600 0,625 0,650 0,675 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição totalmente assimétrica tendendo levemente para a direita, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. Os valores de LIQUIDEZ se espalham por todo o gráfico, não tendo um pico dos dados. Página 10

12 - Valores Atípicos: Não existem valores atípicos de LIQUIDEZ visto que a variabilidade dos dados é tão alta que se distribui uniformemente por todo o gráfico. Não existe um padrão nesta variável. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem LIQUIDEZ menor do que O LIQUIDEZ médio é de 0,55146 e o desvio-padrão (medida de dispersão) é de 0,37328, que implica em uma dispersão absoluta do índice de LIQUIDEZ VARIÁVEL H6 - Pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2 Summary for H6c A nderson-darling Normality Test A -Squared 15,83 P -V alue < 0,005 Mean 0,58610 StDev 0,16020 V ariance 0,02566 Skew ness -0, Kurtosis -0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,47636 Median 0, rd Q uartile 0,70782 M aximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,16323 Mean Median 0,580 0,585 0,590 0,595 0,600 0,605 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser levemente assimétrica cujo pico concentra-se à direita, o que é comum para variáveis que indiquem desempenho médio para alto. A curva apresenta algumas corcovas, o que indica que temos um comportamento atípico da variabilidade sobre os dados de H6. Os dados se dispersam bastante, e podemos afirmar que a variável H6 tem alta dispersão em relação aos municípios do Brasil. - Valores Atípicos: Há muitos valores atípicos de H6, que apresentam resultados abaixo de 0, Página 11

13 - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem H6 menor do que O H6 médio é de e o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão média para H VARIÁVEL R1 - Pessoas com renda domiciliar per capita abaixo da linha de pobreza (R$ 140,00) Summary for R1c A nderson-darling Normality Test A -Squared 154,22 P-V alue < 0,005 Mean 0,31059 StDev 0,22480 V ariance 0,05053 Skew ness 0, Kurtosis -0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,10855 Median 0, rd Q uartile 0,50054 Maximum 1, % C onfidence Interval for Mean 0, , % C onfidence Interval for Median 0, , % Confidence Intervals 95% C onfidence Interval for StDev 0, ,22905 Mean Median 0,24 0,26 0,28 0,30 0,32 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser levemente assimétrica cujo pico concentra-se à esquerda, o que é comum para variáveis que indiquem desempenho baixo. A curva apresenta algumas corcovas, sendo duas altamente acentuadas, a primeira com maior pico e localizada fortemente à esquerda do gráfico. Indica que o comportamento atípico da variabilidade sobre os dados de R1. Os dados se dispersam bastante, e podemos afirmar que a variável R1 tem alta dispersão em relação aos municípios do Brasil. - Valores Atípicos: Não existem valores atípicos de R1. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem R1 menor do que O R1 médio é de e o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão alta para R1. Página 12

14 3.2.7 VARIÁVEL T1_2 - Taxa de formalização entre os empregados Summary for T12c A nderson-darling Normality Test A -Squared 41,12 P-V alue < 0,005 Mean 0,56380 StDev 0,20600 V ariance 0,04244 Skew ness -0, Kurtosis -0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,39398 Median 0, rd Q uartile 0,73417 Maximum 1, % C onfidence Interval for Mean 0, , % C onfidence Interval for Median 0, , % Confidence Intervals 95% C onfidence Interval for StDev 0, ,20990 Mean Median 0,560 0,565 0,570 0,575 0,580 0,585 As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição simétrica, embora o gráfico apresente várias corcovas na sua distribuiçõ. Indica que trata-se de um desempenho regular. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição pode ser considerada uma Normal. Muitas cidades possuem um baixo nível de desenvolvimento, muitas cidades possuem um nível médio de desenvolvimento e muitas possuem um nível alto de desenvolvimento. Existem várias corcovas no gráfico que nos mostra que existem N realidades nos dados analisados, ou seja, existem vários tipos de municípios dentro do Brasil em relação a formalização dos empregos. - Valores Atípicos: Não existem valores atípicos de T1_2. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem T1_2 menor do que O T1_2 médio é de , e o desviopadrão (medida de dispersão) é de , que implica em uma dispersão grande da população de T1_2. Página 13

15 3.2.8 VARIÁVEL S1_1 - Taxa de mortalidade infantil, por mil nascidos vivos Summary for S11c A nderson-darling Normality Test A -Squared 160,61 P-V alue < 0,005 Mean 0,04278 StDev 0,04285 V ariance 0,00184 Skew ness 4,2578 Kurtosis 59,4287 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,01286 Median 0, rd Q uartile 0,06020 Maximum 1, % C onfidence Interval for Mean 0, , % C onfidence Interval for Median 0, , % Confidence Intervals 95% C onfidence Interval for StDev 0, ,04366 Mean Median 0,036 0,038 0,040 0,042 0,044 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores baixos de S1_1. Pouca cidades possuem um nível médio de S1_1 e quase nenhuma possuem um nível alto de S1_1. Existem duas corcovas visíveis no gráfico. Como trata-se de nascido vivos, o número baixo é bom porque a maioria dos nascidos vivos sobrevivem após um ano de vida. - Valores Atípicos: Há alguns valores atípicos de S1_1, que apresentam resultados acima de 0, Esta informação nos diz que existem municípios no Brasil que apresentam Taxas de S1_1 acima da curva, ou seja, que o índice de mortalidade é alto. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem S1_1 menor do que O S1_1 médio é de e o desviopadrão (medida de dispersão) é de , que implica em uma dispersão baixa do índice de S1_1. Página 14

16 3.2.9 VARIÁVEL E2_4 Crianças entre 7 e 14 anos que estudam na série correta segundo sua idade Summary for E24c A nderson-darling Normality Test A -Squared 95,44 P-V alue < 0,005 Mean 0,73250 StDev 0,16363 V ariance 0,02677 Skew ness -0, Kurtosis 0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,62284 Median 0, rd Q uartile 0,86235 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,16673 Mean Median 0,73 0,74 0,75 0,76 0,77 0,78 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a direita, o que é comum para variáveis que indiquem desempenho alto e taxas elevadas. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão da série correta dos alunos. Os dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade entre a questão do grau correto de idade e escolaridade nos municípios. - Valores Atípicos: Há muitos valores atípicos de E2_4 atípicos, que apresentam resultados abaixo de 0,25933 que são as cidades cujas crianças que estão na série correta - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem E2_4 menor do que O E2_4 médio é de e o desviopadrão (medida de dispersão) é de , que implica em uma dispersão grande para a questão. Página 15

17 VARIÁVEL E2_5 Índice transformado na escala Ideb de proficiência Português e Matemática Agregado para a quarta série do Ensino Fundamental (5º ano EF) Summary for E25c A nderson-darling Normality Test A -Squared 14,86 P-Value < 0,005 Mean 0,36048 StDev 0,13470 V ariance 0,01814 Skew ness 0, Kurtosis -0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,25308 Median 0, rd Q uartile 0,45732 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,13725 Mean Median 0,3550 0,3575 0,3600 0,3625 0, Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem desempenho baixo e taxas pequenas. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão da variabilidade sobre a Nota dos alunos em português e matemática para 5ª série do ensino fundamental. Os dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade entre a questão da proficiência em português e matemática dos alunos da 5ª série EF nos municípios. - Valores Atípicos: Há muitos valores atípicos de E2_5 atípicos, que apresentam resultados acima de 0, Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem E2_5 menor do que O E2_5 médio é de e o desviopadrão (medida de dispersão) é de , que implica em uma dispersão média para a questão. Página 16

18 VARIÁVEL E2_6 Índice transformado na escala Ideb de proficiência em Português e Matemática Agregado oitava série do Ensino Fundamental (9º ano EF). Summary for E26c A nderson-darling Normality Test A -Squared 4,43 P-Value < 0,005 Mean 0,49988 StDev 0,13072 V ariance 0,01709 Skew ness 0, Kurtosis -0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,40173 Median 0, rd Q uartile 0,58982 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,13319 Mean Median 0,494 0,496 0,498 0,500 0,502 0,504 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser simétrica cujo pico concentra-se no centro, o que é comum para variáveis que indiquem desempenho regular. A curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão da variabilidade sobre a Nota dos alunos em português e matemática para 9ª série do ensino fundamental. Os dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade entre a questão da proficiência em português e matemática dos alunos da 9ª série EF nos municípios. - Valores Atípicos: Há muitos valores atípicos de E2_6 atípicos, sendo poucos que apresentam resultados abaixo de e muitos acima de O desempenho de proficiência em português e matemática possui um desempenho médio nos municípios do Brasil. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem E2_6 menor do que O E2_6 médio é de e o desviopadrão (medida de dispersão) é de , que implica em uma dispersão média para a questão. Página 17

19 3.3 RELAÇÃO ENTRE VARIÁVEIS: CORRELAÇÃO, REGRES- SÃO E TESTE QUI-QUADRADO Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade GRÁFICOS DE DISPERSÃO entre variáveis Educação e Emprego e Renda GRAFH >> SCATTERPLOT >> SIMPLE A quantidade de dados analisados é muito grande, são 5565 municípios, o que causa uma mancha no gráfico e dificulta a visualização. Uma forma de contornar esta situação seria selecionar os dados por amostragem, mas neste caso não é aplicado, pois não existem critérios específicos que garantiriam a fidelidade da amostra em relação à população. 1,0 Scatterplot of EDUCc vs EMP&RENDAc 0,8 EDUCc 0,6 0,4 0,2 0,0 0,0 0,2 0,4 0,6 EMP&RENDAc 0,8 1,0 Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade. Página 18

20 Direção: Da análise das correlações acima percebemos que quase todas possuem associações positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. O que nos parece é que não há nenhuma associação negativa, ao menos de evidência visual. Intensidade: O gráfico acima parece indicar a existência de relações lineares, embora no ponto mais alto do gráfico os pontos tendem a decair, e perde a característica de uma reta. Forma: O gráfico apresenta conglomerados que sugerem relações lineares, embora prejudicado pelo excesso de dados da população (5565 linhas). Valores Atípicos: Todos os gráficos indicam a existência de valores atípicos, ou seja, indivíduos ou municípios que possuem seus indicadores de Educação e Emprego e Renda fora da curva LINHAS DE TENDÊNCIAS entre Educação e Emprego e Renda GRAFH >> SCATTERPLOT >> WITH REGRESSION 1,0 Scatterplot of EDUCc vs EMP&RENDAc 0,8 EDUCc 0,6 0,4 0,2 0,0 0,0 0,2 0,4 0,6 EMP&RENDAc 0,8 1,0 Página 19

21 Para se verificar qual o tipo de relação (linear, quadrática, cúbica, exponencial, etc.) existente entre as variáveis, adicionamos em cada gráfico de dispersão uma linha de tendência. O gráfico analisado neste caso contém a variável Educação em relação Emprego e Renda. Podemos afirmar que os pontos estão muito próximos da linha e são ascendentes, o que nos aponta que o tipo de relação entre as variáveis é linear, embora existam valores atípicos distribuídos por toda a extensão da reta LINHAS DE TENDÊNCIAS entre Educação e H6 (Proporção de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2) RR 1,0 Scatterplot of EDUCc vs H6c 0,8 EDUCc 0,6 0,4 0,2 0,0 0,0 0,2 0,4 H6c 0,6 0,8 1,0 O segundo gráfico compara a tendência entre as variáveis Educação com H6. Se compararmos com o gráfico anterior, podemos constatar que a nuvem de pontos está mais concentrada na parte superior que o gráfico anterior. As duas linhas são crescentes, e concluí-se que quando aumenta o índice de Educação melhora a questão da habitação. Página 20

22 3.3.4 CORRELAÇÃO LINEAR A matriz de correlação incluí o teste de significância p-value. Para a correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as variáveis não requer que exista uma relação de causa-efeito entre ambas. Esta primeira visão exibe a correlação entre todas as variáveis utilizadas no trabalho. STAT >> BASIC STATISTICS >> CORRELATION Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c;... ISDMc EDUCc EMP&RENDAc LIQc H6c EDUCc 0,783 0,000 EMP&RENDAc 0,526 0,376 0,000 0,000 LIQc 0,276 0,233 0,197 0,000 0,000 0,000 H6c 0,695 0,552 0,210 0,260 0,000 0,000 0,000 0,000 R1c -0,951-0,754-0,510-0,308-0,709 0,000 0,000 0,000 0,000 0,000 T12c 0,806 0,610 0,587 0,302 0,449 0,000 0,000 0,000 0,000 0,000 S11c -0,147-0,122-0,076-0,049-0,115 0,000 0,000 0,000 0,000 0,000 E24c 0,764 0,767 0,364 0,263 0,613 0,000 0,000 0,000 0,000 0,000 E25c 0,708 0,712 0,316 0,232 0,583 0,000 0,000 0,000 0,000 0,000 E26c 0,643 0,614 0,308 0,248 0,564 0,000 0,000 0,000 0,000 0,000 Página 21

23 R1c T12c S11c E24c E25c T12c -0,782 0,000 S11c 0,140-0,112 0,000 0,000 E24c -0,768 0,599-0,128 0,000 0,000 0,000 E25c -0,693 0,505-0,096 0,577 0,000 0,000 0,000 0,000 E26c -0,643 0,474-0,074 0,490 0,750 0,000 0,000 0,000 0,000 0,000 Cell Contents: Pearson correlation P-Value A correlação é sempre um número entre zero e um e mede a intensidade de relações lineares. A correlação entre as variáveis analisadas é positiva em alguns casos e negativa em outros, mas de fraca intensidade. Os valores mais representativos estão marcado com verde quando positivos e vermelhos quando negativos. Indica que a correlação entre estas variáveis é mais intensa. Portanto, podemos afirmar que estas variáveis possuem relações lineares REGRESSÃO DE MÍNIMOS QUADRADOS A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas variáveis quantitativas. Se um diagrama de dispersão mostra uma relação linear, é interessante resumirmos esse padrão geral traçando uma reta no diagrama de dispersão. Uma reta de regressão resume a relação entre duas variáveis, mas somente em um contexto específico: quando uma das variáveis ajuda a explicar ou a predizer a outra, ou seja, a regressão descreve uma relação entre uma variável explanatória e uma variável resposta. A regressão linear assume sempre a forma de uma equação linear: Y = a + bx, sendo: Página 22

24 Y= Variável dependente; a = uma constante, o intercepto; b = a inclinação na reta; x = variável independente ou explicativa. O b, ou seja, a declividade é dada pela multiplicação do índice de correlação pela divisão dos desvios-padrão entre as variáveis x e y. E a é dado pela média de Y menos a multiplicação de b pela média de x. Assim, percebe-se muito claramente que a regressão depende da correlação entre as variáveis, além de medidas de centro de cada uma das variáveis. Segue abaixo o resultado da regressão entre as variáveis Educação e H6. Regression Analysis: EDUCc versus H6c The regression equation is EDUCc = 0, ,619 H6c 5543 cases used, 22 cases contain missing values Predictor Coef SE Coef T P Constant 0, , ,33 0,000 H6c 0, , ,25 0,000 S = 0, R-Sq = 30,4% R-Sq(adj) = 30,4% Analysis of Variance Source DF SS MS F P Regression 1 54,579 54, ,81 0,000 Residual Error ,668 0,022 Total ,247 A tabela acima exibe o resultado da fórmula entre as variáveis Educação e H6. Se substituísse o valor de Educação se chegaria ao valor de H6 esperado. A é a expressão numérica da reta de tendência que vimos nos itens acima. Esta equação tem um poder explicativo de 76,4%, que é o R-Quadrado. O valor da constante 0,224 significa que, se o H6 fosse zero, o valor do Educação seria 0,224. Página 23

25 3.3.6 DENDROGRAMA Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação icônica que organiza determinados fatores e variáveis. É um diagrama de similaridade. A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo. Segue abaixo o Dendrograma das variáveis analisadas: STAT >> MULTIVARIATE >> CLUSTER VARIABLE Dendrogram Single Linkage; Correlation Coefficient Distance 47,56 Similarity 65,04 82,52 100,00 ISDMc T12c EDUCc E24c E25c E26c H6c EMP&RENDAc LIQc R1c S11c Variables As variáveis ISDM e T1_2 são as que possuem o maior nível de similaridade, por volta de 90%. As demais variáv eis (Educação, E2_4, E2_5, E2_6 e H6) também são muito similares, variando até 85%. Já as variáveis Emprego e Renda, Liquidez, R1 e S1_1 encontram-se com baixo nível de similaridade. Página 24

26 3.3.7 RELAÇÕES ENTRE AS VARIÁVEIS CATEGÓRICAS Para correlacionarmos duas variáveis categóricas, criamos duas colunas categorizadas com informações sobre dados de S1_1 por quartil, tendo valores que variam de 1 a 4, e repetimos o processo para a variável R1, com os mesmos valores categóricos. Os gráficos acima foram gerados a partir das informações dos quartis utilizando a função Data >> Code >> Numeric to Numeric e colocando os intervalos para geração das variáveis categóricas. Em seguida foi gerado um Pie Chart através da função Grafh >> Pie Chart. Podemos observar que existe um nível de similaridade entre as variáveis categórica de quartis das variáveis S1_1 e R1. O que difere são os primeiros quartis, pois a variável S1_1 possui apenas 0,4% dos dados no primeiro quartil, tornando quase imperceptível no gráfico. O terceiro e quarto quartis das variáveis são bastante semelhantes. Para analizar a semelhança entre as variáveis categóricas será executada a tabulação cruzada entre elas. STAT >> TABLES >> CROSS TABULATION AND CHI SQUARE Página 25

27 Tabulated statistics: S11 Q; R1 Q Rows: S11 Q Columns: R1 Q All All Cell Contents: Count Pearson Chi-Square = 295,138; DF = 9; P-Value = 0,000 Likelihood Ratio Chi-Square = 311,515; DF = 9; P-Value = 0,000 As linhas são representadas por S1_1 e as colunas por R1. Os dados aparecem distribuídos uniformemente entre cada quartil de uma variável. Página 26

28 3.4 MODELOS DE REGRESSÃO LINEAR MULTIPLOS CORRELAÇÃO LINEAR, ANÁLISE DE REGRAÇÃO E STEPWISE Para o estudo em questão, queremos entender quais variáveis explicam melhor a variável específica. Para tanto utilizaremos o grupo das variáveis analíticas e sintética, comparando com a variável Educação. Inicialmente serão analisadas as correlações lineares entre a variável EDUCAÇÃO com as variáveis analíticas e sintéticas, relacionadas a este estudo, para verificar quais variáveis melhor explicam a EDUCAÇÃO. Página 27

29 As correlações significativas de acordo com o P-Value, para este trabalho, será considerada significativa quando >= 0,70). Apenas as variáveis R1, E2_4 e E2_5 possuem um coeficiente de correlação satisfatoriamente forte com a variável dependente Educação REGRESSÃO: EDUCAÇÃO COM DEMAIS VARIÁVEIS DO ESTUDO Regression Analysis: EDUCc versus EMP&RENDAc; LIQc;... The regression equation is EDUCc = 0,106-0,0151 EMP&RENDAc - 0,0115 LIQc - 0,0969 H6c - 0,137 R1c + 0,0642 T12c - 0,0409 S11c + 0,482 E24c + 0,391 E25c + 0,127 E26c 5543 cases used, 22 cases contain missing values Predictor Coef SE Coef T P Constant 0, , ,76 0,000 EMP&RENDAc -0, , ,45 0,147 LIQc -0, , ,15 0,002 H6c -0, , ,88 0,000 R1c -0, , ,55 0,000 T12c 0, , ,90 0,000 S11c -0, , ,35 0,177 E24c 0, , ,60 0,000 E25c 0, , ,45 0,000 E26c 0, , ,18 0,000 S = 0, R-Sq = 71,9% R-Sq(adj) = 71,8% Analysis of Variance Source DF SS MS F P Regression 9 128,849 14, ,76 0,000 Residual Error ,398 0,009 Total ,247 O R-Square é alto = 71,9% e todos os valores Betas da equação apresentam valores próximos a zero, indicando baixo poder explicativo da variável EDUCAÇÃO. Por exemplo, a variação de Liquidez leva a uma variação de apenas -0, na EDUCAÇÃO. O P-value das variáveis possui valore baixo, sendo confiáveis para a explicação da variável EDUCAÇÃO. Página 28

30 3.4.3 STEPWISE DA EDUCAÇÃO COM FILTRO DOS RESULTADOS OBTIDOS A análise STEPWISE demonstra o percentual de composição das variáveis Predictors na equação da Response. Stepwise Regression: EDUCc versus ISDMc; EMP&RENDAc;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is EDUCc on 10 predictors, with N = 5543 N(cases with missing observations) = 22 N(all cases) = 5565 Step Constant 0, , , , , ,14311 ISDMc 0,7382 0,4475 0,2729 0,3146 0,2990 0,3800 T-Value 93,81 40,29 22,72 24,96 23,51 17,22 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 E24c 0,443 0,415 0,435 0,443 0,452 T-Value 34,21 34,26 35,76 36,41 36,69 P-Value 0,000 0,000 0,000 0,000 0,000 E25c 0,385 0,408 0,346 0,345 T-Value 28,72 30,26 21,84 21,83 P-Value 0,000 0,000 0,000 0,000 H6c -0,114-0,127-0,118 T-Value -10,08-11,16-10,31 P-Value 0,000 0,000 0,000 E26c 0,113 0,119 T-Value 7,46 7,86 P-Value 0,000 0,000 R1c 0,084 T-Value 4,49 P-Value 0,000 S 0,112 0,102 0,0948 0,0939 0,0935 0,0933 R-Sq 61,36 68,10 72,24 72,74 73,01 73,11 R-Sq(adj) 61,36 68,09 72,22 72,72 72,98 73,08 Mallows Cp 2425,5 1038,5 188,3 87,2 33,2 15,0 O Próximo passo é calcular a formula utilizando as vaiáveis demonstradas pela função Stepwise como sendo as que mais explicam a Educação. Página 29

31 STAT >> REGRESSION >> REGRESSION A fórmula resultante é: Nesta equação foram utilizadas as variáveis analíticas e sintéticas. Uma outra forma de se fazer este estudo oseria isolar um primeiro grupo de cálculo utilizando apenas as variáveis analíticas e um segundo grupo com as variáveis sintéticas. 3.5 COMPARAÇÕES A estimação e os testes de hipóteses estão relacionados a inferência estatística. A estimação refere-se a utilizar os dados da amostra para estimar os parâmetros populacionais desconhecidos, enquanto os testes de hipóteses são utilizados para verificar a validade destes parâmetros obtidos da amostra em relação aos parâmetros da população, dado um certo grau de confiança. O teste de hipótese também nos permite comparar parâmetros de populações distintas de forma a fazermos inferências estatísticas sobre estas populações. Essencialmente as comparações realizadas nos testes de hipóteses se valem de testar uma hipótese nula (H0)e uma hipótese alternativa (H1) estabelecendo-se um grau de confiança em relação a se aceitar ou rejeitar as hipóteses estabelecidas. Para realização dos testes de hipóteses pode-se utilizar dois tipos de abordagem: A do intervalo de confiança na qual se faz o teste objetivando verificar a pertinência de um parâmetro em um intervalo de valores com certa probabilidade de acerto. A do teste de significância leva em consideração a probabilidade de cometer-se um erro do tipo I (rejeitar a hipótese nula quando ela é verdadeira). Para procurar evitar que este erro aconteça deve-se arbitrar para o teste uma baixa probabilidade de sua ocorrência e depois comparar com o p-value determinado pelo teste. Assim quando é dito que um teste é estatisticamente significativo implica rejeitar a hipótese nula. O presente trabalho propõe a comparação das médias entre as diversas regiões do Brasil, de acordo com as variáveis deste estudo. Página 30

32 O objetivo é comparar a média dos indicadores e realizar testes de hipóteses das cidades com maiores índices de desenvolvimento Variável ISDM por Região 1,0 Boxplot of ISDMc 0,8 ISDMc 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A Região Sudeste possui o maior ISDM do país, o que indica que esta é a Região mais desenvolvida do Brasil, segundo a pesquisa. A região Sul encontra-se próxima a Região Sudeste, e ocupa o segundo lugar. A Região que apresenta o ISDM médio mais baixo do País é a Norte, seguida da Nordeste. Pelo tamanho da caixa do BloxPlot podemo visualizar a amplitude da variança. Podemos afirmar que os dados da Região Norte possuem maior variabilidade que os dados das demais regiões. As Regiões que possuem menor variabilidade dos dados são Centro-Oest e Sul. Página 31

33 One-way ANOVA: ISDMc versus Região Source DF SS MS F P Região 4 127, , ,00 0,000 Error ,8433 0,0135 Total ,4002 S = 0,1160 R-Sq = 63,02% R-Sq(adj) = 63,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,7239 0,0917 (*) Nordeste ,4997 0,1245 (*) Norte 447 0,4809 0,1709 (*) Sudeste ,8225 0,1123 *) Sul ,7992 0,0875 (*) ,50 0,60 0,70 0,80 Pooled StDev = 0,1160 O grau de variação entre as Regiões é muito alto (2369), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente. Página 32

34 3.5.2 Variável EDUCAÇÃO por Região 1,0 Boxplot of EDUCc 0,8 EDUCc 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: EDUCc versus Região Source DF SS MS F P Região 4 91, , ,43 0,000 Error ,3542 0,0158 Total ,2466 S = 0,1256 R-Sq = 51,27% R-Sq(adj) = 51,23% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 464 0,6063 0,1142 (-*) Nordeste ,4418 0,1302 (*) Norte 445 0,4200 0,1378 (*) Sudeste ,7360 0,1293 (*) Sul ,6504 0,1120 (*) ,50 0,60 0,70 0,80 Pooled StDev = 0,1256 No indicador de Educação, podemos verificar que a Região Sudeste possui o maior índice de Educação Médio (0,7360), e seguida da Região Sul, e o menor índice é o da Região Norte (0,4200). A variação entre a média da Região Norte e da Nordeste (0,4418) é bem pequena. Página 33

35 3.5.3 Variável EMPREGO E RENDA por Região 1,0 Boxplot of EMP&RENDAc 0,8 EMP&RENDAc 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: EMP&RENDAc versus Região Source DF SS MS F P Região 4 17,8396 4, ,84 0,000 Error ,0456 0,0210 Total ,8852 S = 0,1448 R-Sq = 13,32% R-Sq(adj) = 13,26% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 464 0,4183 0,1391 (---*--) Nordeste ,3349 0,1290 (-*) Norte 445 0,3416 0,1422 (--*---) Sudeste ,4496 0,1682 (*-) Sul ,4624 0,1344 (-*-) ,360 0,400 0,440 0,480 Pooled StDev = 0,1448 No indicador de Emprego e Renda, podemos verificar que a Região Sul possui o maior índice Médio (0,4624), e seguida da Região Sudeste, e o menor índice é o da Região Nordeste (0,3349). A variação entre a média da Região Norte e da Norte (0,3416) é bem pequena. O grau de variação entre as Regiões é baixo (F = 212,84) e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente. Página 34

36 3.5.4 Variável LIQUIDEZ por Região 1,0 Boxplot of LIQc 0,8 0,6 LIQc 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: LIQc versus Região Source DF SS MS F P Região 4 99,198 24, ,94 0,000 Error ,095 0,122 Total ,293 S = 0,3487 R-Sq = 12,79% R-Sq(adj) = 12,73% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,6541 0,3415 (--*---) Nordeste ,3825 0,3591 (*-) Norte 447 0,5411 0,3846 (--*--) Sudeste ,5719 0,3564 (*-) Sul ,7402 0,3084 (-*-) ,40 0,50 0,60 0,70 Pooled StDev = 0,3487 No indicador de Liquidez, podemos verificar que a Região Sudeste possui o maior índice Médio (0,5719), e seguida da Região Sul, e o menor índice é o da Região Nordeste (0,3825). O grau de variação entre as Regiões é baixo (F = 203,94) e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente. Página 35

37 3.5.5 Variável H6 por Região 1,0 Boxplot of H6c 0,8 0,6 H6c 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: H6c versus Região Source DF SS MS F P Região 4 73, , ,35 0,000 Error ,3446 0,0125 Total ,7976 S = 0,1117 R-Sq = 51,44% R-Sq(adj) = 51,40% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,6321 0,1147 (*) Nordeste ,4774 0,1044 (*) Norte 447 0,3725 0,1728 (*) Sudeste ,6421 0,1065 (*) Sul ,7330 0,0983 (*) ,40 0,50 0,60 0,70 Pooled StDev = 0,1117 No indicador H6, podemos verificar que a Região Sul possui o maior índice Médio (0,7330), e seguida da Região Sudeste, e o menor índice é o da Região Norte (0,3725). O grau de variação entre as Regiões é alto (F = 1472,35) e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente. Página 36

38 3.5.6 Variável R1 por Região 1,0 Boxplot of R1c 0,8 0,6 R1c 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: R1c versus Região Source DF SS MS F P Região 4 185, , ,34 0,000 Error ,8304 0,0172 Total ,1720 S = 0,1313 R-Sq = 65,92% R-Sq(adj) = 65,89% Level N Mean StDev Centro-Oeste 468 0,1925 0,1171 Nordeste ,5388 0,1346 Norte 447 0,5026 0,1928 Sudeste ,1777 0,1339 Sul ,1281 0,0940 Individual 95% CIs For Mean Based on Pooled StDev Level Centro-Oeste (*) Nordeste (*) Norte (*) Sudeste (*) Sul (*) ,12 0,24 0,36 0,48 Pooled StDev = 0,1313 No indicador de R1, podemos verificar que a Região Sul possui o menor índice Médio (0,1281), e seguida da Região Sudeste, e o maior índice é o da Região Nordeste (0,5388). Neste caso a informação diz que a Renda é abaixo da linha da pobreza, então quanto menor melhor. O grau de variação entre as Regiões é baixo (F = 203,94) e o P- value nos indica que a informação é confiável e não existe chance deste valor ser diferente. Página 37

39 3.5.7 Variável T1_2 por Região 1,0 Boxplot of T12c 0,8 0,6 T12c 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: T12c versus Região Source DF SS MS F P Região 4 102, , ,67 0,000 Error ,4330 0,0240 Total ,1162 S = 0,1549 R-Sq = 43,49% R-Sq(adj) = 43,45% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,5930 0,1337 (*-) Nordeste ,3928 0,1510 (*) Norte 447 0,4486 0,1542 (-*) Sudeste ,6581 0,1782 (*) Sul ,7203 0,1321 (*) ,40 0,50 0,60 0,70 Pooled StDev = 0,1549 No indicador T1_2, podemos verificar que a Região Sul possui o maior índice Médio (0,7203), e seguida da Região Sudeste, e o menor índice é o da Região Nordeste (0,3928). O grau de variação entre as Regiões é alto (F = 1069,67) e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente. Página 38

40 3.5.8 Variável S1_1 por Região 1,0 Boxplot of S11c 0,8 0,6 S11c 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: S11c versus Região Source DF SS MS F P Região 4 0, , ,14 0,000 Error , ,00181 Total ,21404 S = 0,04249 R-Sq = 1,71% R-Sq(adj) = 1,64% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0, ,05074 (-----*----) Nordeste , ,03271 (--*--) Norte 447 0, ,04539 (----*-----) Sudeste , ,04173 (--*--) Sul , ,05104 (---*--) ,0350 0,0420 0,0490 0,0560 Pooled StDev = 0,04249 No indicador de S1_1, podemos verificar que a Região Sul possui o menor índice Médio (0,03467), e seguida da Região Sudeste, e o maior índice é o da Região Norte (0,5346). Neste caso a informação diz que a mortalidade infantil, então quanto menor melhor. O grau de variação entre as Regiões é baixo (F = 24,14) e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente. Página 39

41 3.5.9 Variável E2_4 por Região 1,0 Boxplot of E24c 0,8 0,6 E24c 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: E24c versus Região Source DF SS MS F P Região 4 76, , ,82 0,000 Error ,1806 0,0130 Total ,9736 S = 0,1139 R-Sq = 51,55% R-Sq(adj) = 51,51% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,8011 0,0887 (*-) Nordeste ,5881 0,1298 (*) Norte 447 0,5969 0,1841 (*-) Sudeste ,8245 0,1017 (*) Sul ,8444 0,0711 (*) ,630 0,700 0,770 0,840 Pooled StDev = 0,1139 As maiores variações de dados encontram-se na Região Norte, seguida da Nordeste, e a Região que apresenta o mais alto grau de E2_4 é a Sul, Seguida da Sudeste. A região Sul possui baixa variabilidade dos dados de E2_4. A região com o menor índice de E2_4 é a Nordeste (0,5881). Página 40

42 Variável E2_5 por Região 1,0 Boxplot of E25c 0,8 0,6 E25c 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: E25c versus Região Source DF SS MS F P Região 4 57, , ,08 0,000 Error ,0193 0,0077 Total ,9586 S = 0,08796 R-Sq = 57,39% R-Sq(adj) = 57,36% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0, ,07557 (*) Nordeste , ,07661 (* Norte 447 0, ,07793 (*-) Sudeste , ,10320 *) Sul , ,08878 (* ,280 0,350 0,420 0,490 Pooled StDev = 0,08796 VO Índice Brasil de proficiência Português e Matemática (5º ano EF), por Região, aparece baixo em todo o território nacional, sendo a Região Sudeste a que apresenta o maior percentual (0,47709), seguida da Região Sul. Este valor demonstra que a qualidade do ensino no Brasil é baixa e precisa ser melhorada nos próximos anos. Este dado é muito importante para a Educação nos municípios. A Região que apresenta a menor nota é a Nordeste (0,23474), seguida da Norte. Página 41

43 Variável E2_6 por Região 1,0 Boxplot of E26c 0,8 0,6 E26c 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: E26c versus Região Source DF SS MS F P Região 4 44, , ,39 0,000 Error , ,00909 Total ,07114 S = 0,09533 R-Sq = 46,85% R-Sq(adj) = 46,81% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0, ,08210 (*-) Nordeste , ,08935 (*) Norte 447 0, ,08755 (-*) Sudeste , ,10269 (*) Sul , ,10079 (*) ,420 0,480 0,540 0,600 Pooled StDev = 0,09533 O índice Brasil de proficiência Português e Matemática (9º ano EF), por Região aparece baixo em todo o território nacional, sendo a Região Sudeste a que apresenta o maior percentual (0,58496), seguida da Região Sul. Este valor demonstra que a qualidade do ensino no Brasil é baixa e precisa ser melhorada nos próximos anos. Este dado é muito importante para a Educação nos municípios. As Regiões que apresentam as menores notas são a Nordeste (0,38674) seguida da Norte. Página 42

44 3.6 AMOSTRAGEM Em Estatística, amostra é o conjunto de elementos extraídos de um conjunto maior, chamado População. É um conjunto constituído de indivíduos (famílias ou outras organizações), acontecimentos ou outros objetos de estudo que o investigador pretende descrever ou para os quais pretende generalizar as suas conclusões ou resultados. Principais razões para se trabalhar com uma amostra: - A população é infinita, ou considerada como tal, não podendo portanto ser analisada na íntegra; - Custo excessivo do processo de recolha e tratamento dos dados, como resultado da grande dimensão da população ou da complexidade do processo de caracterização de todos os elementos da população; - Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo à obtenção de informação desatualizada; - As populações são dinâmicas, de onde resulta que os elementos ou objetos da população estão em constante renovação, de onde resulta a impossibilidade de analisar todos os elementos desta população; - Inacessibilidade a alguns elementos da população, por diversas causas. Se a constituição da amostra obedecer a determinadas condições, a análise das características da amostra pode servir para se fazerem inferências sobre a população. O objetivo deste estudo é gerar as estatísticas com dois tipos de amostras diferentes, uma contendo 50 linhas e outra contendo 100 linhas, e realizar comparações de resultados entre as amostras, e com a população (5565 municípios). A seguir serão apresentadas duas amostras, uma de 50 indivíduos, ou municípios, e outra composta por 100 indivíduos. Para cada amostra foram efetuadas uma análises exploratória de dados, as correlações e os dendogramas. As variáveis utilizadas neste estudo são H6, R1 e S1_1. Página 43

45 3.6.1 VARIAVEL H6 O comando do Minitab para gerar as amostra é: Calc >> Random Data >> Sample form columns Summary for H6 smp 50 Summary for H6 smp 100 A nderson-darling Normality Test A nderson-darling Normality Test A -Squared 0,34 A -Squared 0,44 P-V alue 0,472 P-V alue 0,285 Mean 0,55628 StDev 0,17553 V ariance 0,03081 Mean 0,59238 StDev 0,16246 V ariance 0,02639 Skew ness -0, Kurtosis 0, N 50 Skew ness -0, Kurtosis -0, N 100 0,2 0,4 0,6 0,8 Minimum 0, st Q uartile 0,42663 Median 0, rd Q uartile 0,68513 Maximum 0, ,15 0,30 0,45 0,60 0,75 0,90 Minimum 0, st Q uartile 0,48897 Median 0, rd Q uartile 0,72555 Maximum 0, % C onfidence Interv al for Mean 95% C onfidence Interv al for Mean 0, , , , % C onfidence Interv al for Median 95% C onfidence Interv al for Median 0, , , , % Confidence Intervals 95% C onfidence Interv al for StDev 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,18872 Mean Mean Median Median 0,50 0,52 0,54 0,56 0,58 0,60 0,62 0,550 0,575 0,600 0,625 0,650 Summary for H6c A nderson-darling Normality Test A -Squared 15,83 P-Value < 0,005 Mean 0,58610 StDev 0,16020 V ariance 0,02566 Skew ness -0, Kurtosis -0, N 5565 Minimum 0, st Q uartile 0,47636 Median 0, ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 3rd Q uartile 0,70782 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,16323 Mean Median 0,580 0,585 0,590 0,595 0,600 0,605 Os gráficos acima demonstram a curva de densidade, o primeiro contendo amostragem de 50 indivíduos, o segundo contendo 100 e o terceiro com toda a população, 5565 municípios. A amostragem com 50 perde um pouco das informações sobre as diversas corcovas da população, já a de 100 consegue ilustrar este fato. Podemos também comparar as médias dos 3 gráficos, o primeiro com 0,55628, o segundo com 0,59238 e o terceiro com 0, Podemos concluir que o trabalho com amostras é muito útil quando a população é muito grande e não se tem tempo ou recursos financeiros para investir. Existe variabilidade entre os gráficos, mas não impede na chegada das mesmas conclusões. Página 44

46 3.6.2 VARIAVEL R1 Summary for R1 smp 50 Summary for R1 smp 100 A nderson-darling Normality Test A nderson-darling Normality Test A -Squared 1,02 A -Squared 5,08 P-V alue 0,010 P-Value < 0,005 Mean 0,37494 Mean 0,30853 StDev 0,22702 StDev 0,24181 V ariance 0,05154 V ariance 0,05847 Skew ness 0,01457 Skew ness 0,47414 Kurtosis -1,28076 Kurtosis -1,35834 N 50 N 100 Minimum 0,01503 Minimum 0, st Q uartile 0, st Q uartile 0,09184 Median 0,38365 Median 0, ,0 0,2 0,4 0,6 0,8 3rd Q uartile 0,56979 Maximum 0, ,00 0,15 0,30 0,45 0,60 0,75 3rd Q uartile 0,56173 Maximum 0, % C onfidence Interv al for Mean 95% C onfidence Interv al for Mean 0, , , , % C onfidence Interv al for Median 95% C onfidence Interv al for Median 0, , , , % Confidence Intervals 95% C onfidence Interv al for StDev 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,28091 Mean Mean Median Median 0,30 0,35 0,40 0,45 0,50 0,15 0,20 0,25 0,30 0,35 Summary for R1c A nderson-darling Normality Test A -Squared 154,22 P-Value < 0,005 Mean 0,31059 StDev 0,22480 V ariance 0,05053 Skew ness 0, Kurtosis -0, N 5565 Minimum 0, st Q uartile 0,10855 Median 0, ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 3rd Q uartile 0,50054 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,22905 Mean Median 0,24 0,26 0,28 0,30 0,32 Os gráficos acima demonstram a curva de densidade, o primeiro contendo amostragem de 50 indivíduos, o segundo contendo 100 e o terceiro com toda a população, 5565 municípios. Todos os 3 gráficos demonstram o mesmo comportamento da curva, que contém N corcovas e indica que existe muitas realidades diferentes nos municípios do Brasil em relação a renda abaixo da pobreza. Podemos também comparar as médias dos 3 gráficos, o primeiro com 0,37494, o segundo com 0,30853 e o terceiro com 0, A variação é muito pequena entre as médias das diversas amostras, o que confirma a sua utilidade e praticidade. Página 45

47 3.6.3 VARIAVEL S1_1 Summary for S11 smp 50 Summary for S11 smp 100 A nderson-darling Normality Test A nderson-darling Normality Test A -Squared 0,54 A -Squared 1,62 P-V alue 0,160 P-Value < 0,005 Mean 0, Mean 0, StDev 0, StDev 0, V ariance 0, V ariance 0, Skew ness -0, Skew ness 1,01241 Kurtosis -0, Kurtosis 1,88153 N 50 N 100 Minimum 0, Minimum 0, st Q uartile 0, st Q uartile 0, Median 0, Median 0, ,00 0,02 0,04 0,06 0,08 3rd Q uartile 0, Maximum 0, ,00 0,03 0,06 0,09 0,12 0,15 0,18 3rd Q uartile 0, Maximum 0, % C onfidence Interv al for Mean 95% C onfidence Interv al for Mean 0, , , , % C onfidence Interv al for Median 95% C onfidence Interv al for Median 0, , , , % Confidence Intervals 95% C onfidence Interv al for StDev 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, , Mean Mean Median Median 0,030 0,035 0,040 0,045 0,050 0,055 0,0350 0,0375 0,0400 0,0425 0,0450 0,0475 0,0500 Summary for S11c A nderson-darling Normality Test A -Squared 160,61 P-Value < 0,005 Mean 0,04278 StDev 0,04285 V ariance 0,00184 Skew ness 4,2578 Kurtosis 59,4287 N 5565 Minimum 0, st Q uartile 0,01286 Median 0, ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 3rd Q uartile 0,06020 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,04366 Mean Median 0,036 0,038 0,040 0,042 0,044 Os gráficos acima demonstram a curva de densidade, o primeiro contendo amostragem de 50 indivíduos, o segundo contendo 100 e o terceiro com toda a população, 5565 municípios. Dos três casos apresentados neste estudo, este exemplo é o que mais perde em comparação das amostras com a população. A população tende a se concentrar totalmente à esquerda, o que não ocorreu com a amostra de 50. Já a amostra de 100 ficou mais próxima da população. Todos os 3 gráficos demonstram o mesmo comportamento da curva, que contém N corcovas e indica que existe muitas realidades diferentes nos municípios do Brasil em relação à motalidade infantil Podemos também comparar as médias dos 3 gráficos, o primeiro com 0,040353, o segundo com 0, e o terceiro com 0, A variação é muito pequena entre as médias das diversas amostras, o que confirma a sua utilidade e praticidade. Página 46

48 3.7 ANÁLISE MULTIVARIADA COMPONENTES PRINCIPAIS Este estudo efetuará uma análise das correlações e dos componentes principais (análise multivariada) de dados quantitativos sobre os dados de desenvolvimento dos Municípios do Brasil. Para tal, iniciamos com análise da estatística descritiva. Em seguida passamos para a análise das correlações e dendrogramas. Na terceira parte utilizamos a análise dos componentes principais CORRELAÇÃO LINEAR Segue abaixo a matriz de correlação incluindo o teste de significância p-value. Para a correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as variáveis não requer que exista uma relação de causa-efeito entre ambas. Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c;... ISDMc EDUCc EMP&RENDAc LIQc H6c EDUCc 0,783 0,000 EMP&RENDAc 0,526 0,376 0,000 0,000 LIQc 0,276 0,233 0,197 0,000 0,000 0,000 H6c 0,695 0,552 0,210 0,260 0,000 0,000 0,000 0,000 R1c -0,951-0,754-0,510-0,308-0,709 0,000 0,000 0,000 0,000 0,000 T12c 0,806 0,610 0,587 0,302 0,449 0,000 0,000 0,000 0,000 0,000 S11c -0,147-0,122-0,076-0,049-0,115 0,000 0,000 0,000 0,000 0,000 E24c 0,764 0,767 0,364 0,263 0,613 0,000 0,000 0,000 0,000 0,000 E25c 0,708 0,712 0,316 0,232 0,583 0,000 0,000 0,000 0,000 0,000 E26c 0,643 0,614 0,308 0,248 0,564 0,000 0,000 0,000 0,000 0,000 Página 47

49 Correlations: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c;... (continuação) R1c T12c S11c E24c E25c T12c -0,782 0,000 S11c 0,140-0,112 0,000 0,000 E24c -0,768 0,599-0,128 0,000 0,000 0,000 E25c -0,693 0,505-0,096 0,577 0,000 0,000 0,000 0,000 E26c -0,643 0,474-0,074 0,490 0,750 0,000 0,000 0,000 0,000 0,000 Cell Contents: Pearson correlation P-Value As correlações significativas de acordo com o P-Value, para este trabalho, será considerada significativa quando >= 0,70). Apenas as variáveis R1, E2_4 e E2_5 possuem um coeficiente de correlação satisfatoriamente forte com a variável dependente Educação DENDROGRAMA A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo. Página 48

50 Dendrogram Single Linkage; Correlation Coefficient Distance 47,56 Similarity 65,04 82,52 100,00 ISDMc T12c EDUCc E24c E25c E26c H6c EMP&RENDAc LIQc R1c S11c Variables As variáveis ISDM e T1_2 são as que possuem o maior nível de similaridade, por volta de 90%. As demais variáv eis (Educação, E2_4, E2_5, E2_6 e H6) também são muito similares, variando até 85%. Já as variáveis Emprego e Renda, Liquidez, R1 e S1_1 encontram-se com baixo nível de similaridade. Dendrogram Single Linkage; Correlation Coefficient Distance 47,56 Similarity 65,04 82,52 100,00 ISDMc T12c EDUCc E24c E25c E26c H6c EMP&RENDAc LIQc R1c S11c Variables Página 49

51 O Dendrograma acima demonstra um primeiro grupo de dados composto pelas variáveis ISDM, Educação, E2_4, E2_5, E2_6 e H6. As demais variáveis não apresentam similaridade segundo este método, e são consideradas em diferentes cluster de dados. As variáveis que apresentam menor nível de similaridade são R1 e S1_ PRINCIPAIS COMPONENTES >> STAT >> MULTIVARIATE >> Principal Components Principal Component Analysis: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S Eigenanalysis of the Correlation Matrix 5543 cases used, 22 cases contain missing values Eigenvalue 6,0847 1,0073 0,9778 0,8799 0,6198 0,4627 0,3533 0,2379 Proportion 0,553 0,092 0,089 0,080 0,056 0,042 0,032 0,022 Cumulative 0,553 0,645 0,734 0,814 0,870 0,912 0,944 0,966 Eigenvalue 0,1843 0,1473 0,0451 Proportion 0,017 0,013 0,004 Cumulative 0,983 0,996 1,000 Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 ISDMc 0,385-0,050 0,015-0,109-0,125-0,092-0,193-0,082 EDUCc 0,346 0,125-0,038-0,097-0,080 0,548 0,144-0,051 EMP&RENDAc 0,223-0,619 0,275-0,247 0,326-0,173 0,539-0,028 LIQc 0,151-0,237 0,172 0,935 0,016 0,108 0,032-0,037 H6c 0,302 0,301-0,128 0,134-0,280-0,696 0,253-0,103 R1c -0,382 0,040-0,019 0,061 0,148 0,141 0,165 0,028 T12c 0,325-0,350 0,155-0,112-0,090-0,030-0,656 0,020 S11c -0,068 0,361 0,921-0,065-0,112-0,009 0,008-0,009 E24c 0,335 0,047-0,046-0,042-0,465 0,331 0,347 0,331 E25c 0,326 0,310-0,049-0,002 0,418 0,169 0,027-0,661 E26c 0,305 0,314-0,017 0,061 0,600-0,082-0,084 0,656 Variable PC9 PC10 PC11 ISDMc -0,026-0,445 0,755 EDUCc -0,716 0,072-0,078 EMP&RENDAc -0,035 0,036-0,009 LIQc -0,022-0,048 0,030 H6c -0,223 0,311-0,014 R1c -0,072 0,599 0,644 T12c 0,019 0,538-0,074 S11c -0,003-0,010 0,006 E24c 0,544 0,169 0,033 E25c 0,367 0,138-0,026 E26c 0,001 0,010 0,020 Existe um peso muito grande da primeira variável e as demais estão mais distantes. As variável 2 possuem peso maior que 1, e as variáveis 2 e 3 próximo de 1, as demais possuem um peso ABAIXO DE 0.6. A conclusão é que podemos resumir as 11 variáveis em 3 principais variáveis para efeito de simplificação do trabalho com dados contendo muitas colunas. Página 50

52 Scree Plot of ISDMc;...; E26c 6 5 Eigenvalue Component Number O gráfico acima demonstra a representatividade das variáveis para o componente, ou o grau de equivalência. Existe um peso muito grande da primeira variável e as demais estão bem distantes. As variáveis 2 e 3 possuem peso próximo de 1, e as demais não dá para aproveitar pois estão abaixo de 1. Loading Plot of ISDMc;...; E26c 0,50 S11c E26c H6c E25c 0,25 EDUCc Second Component 0,00-0,25 R1c LIQc E24c ISDMc T12c -0,50 EMP&RENDAc -0,75-0,4-0,3-0,2-0,1 0,0 0,1 First Component 0,2 0,3 0,4 Podemos observar que as variáveis R1 e S1_1 encontram-se isoladas. As demais variáveis tem certa proximidade. Um grupo bastante visível é composto pelas variáveis Página 51

53 Educação, E2_4, ISDM. Já T1_1, Liquidez e Emprego e Renda apresentam um a certa distância. O grupo mais próximo está sobreposto. Por eliminação concluímos que é composto por E2_5, E2_6 e H6. 3D Scatterplot of PC1 vs PC2 vs PC3 Região Centro-Oeste Nordeste Norte Sudeste Sul 5 PC PC PC2 O gráfico acima é uma visão multidimensional das variáveis PC1, PC2 e PC3 agrupadas por região. 3D Scatterplot of PC1 vs PC2 vs PC3 PC PC PC2 UF A cre A lagoas A mapá A mazonas Bahia C eará Distrito Federal Espírito Santo Goiás Maranhão Mato Grosso Mato Grosso do Sul Minas Gerais Pará Paraíba Paraná Pernambuco Piauí Rio de Janeiro Rio Grande do Norte Rio Grande do Sul Rondônia Roraima Santa C atarina São Paulo Sergipe Página 52

54 O gráfico acima repete a visão multidimensional das variáveis PC1, PC2 e PC3, agora agrupadas por estado. Nos dois gráficos a dificuldade de visualização dos dados ocorre pelo número elevado de indivíduos que compõem a população (5565 municípios). Pelo resultado das análises da correlação linear, dendograma e principais componentes, os dados podem ser reduzidos para três variáveis, o que torna o trabalho com os números mais fáceis e de prático manuseamento. 3.8 ANÁLISE DE CONGLOMERADOS DENDROGRAMA DA MÉDIA DE DESENVOLVIMENTO POR ESTADO (-DF) O Dendrograma permite uma análise do grau de similaridade dos dados para uma determinada variável. Em seguida geramos o Dendrograma da média de desenvolvimento dos municípios, agrupado por Estado. Dendrogram Single Linkage; Euclidean Distance 82,93 Similarity 88,62 94,31 100,00 AP PB AL SE BA AC RR RN PE MA AM PI PA RJ CE TO MS Observations ES RO MG MT SP SC PR RS GO Podemos observar no gráfico acima que existem 2 grandes grupos por similaridade, e também alguns estados com baixo grau de similaridade (abaixo de 90%). Página 53

55 É possível gerar o gráfico solicitando um número específico de cluster, no caso abaixo foi solicitado que se gerasse 5 clusters. Dendrogram Single Linkage; Euclidean Distance 82,93 Similarity 88,62 94,31 100,00 AP PB AL SE BA AC RR RN PE MA PI AM PA RJ CE TO MS Observations ES RO MG MT SP SC PR RS GO Neste caso, os destaques ficaram para os estados AM, PI, PA e RJ, que possuem baixo nível de similaridade com os demais estados.podemos concluir que o nível de desenvolvimento do Brasil pode ser dividido em 2,5 Brasis, sendo o primeiro grupo composto pelos estados em vermelho e o segundo grupo pelos estados em azul e o terceiro pelos estados com baixa similaridade sobre as médias de desenvolvimento dos municípios. Página 54

56 Brasil Político Representação dos 3 Brasis, segundo o índice médio de desenvolvimento dos municípios DENDROGRAMA DA DESIGUALDADE DE DESENVOLVIMENTO POR ESTADO (-DF) Neste exemplo será demonstrado o índice de desigualdade de desenvolvimento dos municípios do Brasil agrupados por estados. Utilizaremos para isso o desvio padrão dos índices de desenvolvimento. Dendrogram Single Linkage; Euclidean Distance 85,88 Similarity 90,59 95,29 100,00 SE AL PA AC RN PB MT TO PE CE AP RO MG RS ES Observations RR PI SP MA BA SC PR RJ MS GO Foram considerados 2 cluster neste primeiro agrupamento, sendo o primeiro composto pelos estados do AC e PA, e o segundo pelos demais estados. AM Vamos executar novamente com 5 clusters: Página 55

57 Dendrogram Single Linkage; Euclidean Distance 85,88 Similarity 90,59 95,29 100,00 SE AL PA AC RN PB MT TO PE CE AP RO MG RS ES Observations RR PI SP MA BA SC PR RJ MS GO O grau de similaridade dos índices de desigualdade dos estados é muito variado. De um lado apresenta um grande grupo composto pelos estados em verde, um segundo grupo pelos estados em rosa, e os demais com baixo nível de similaridade em relação às desigualdades. AM ANÁLISE DAS VARIANCIAS DOS ÍNDICES DE DESENVOLVIMENTO POR ESTADO ( DF) A análise das variâncias permite a verificação e visualização das médias e desvios padrões da variável a ser analisada. O gráfico BOXPLOT ilustra os agrupamentos, o seu tamanho varia de acordo com a quantidade de dados de cada grupo, e também é possível visualizar as ocorrências de outliers dentro de um grupo de dados. Esta primeira análise é do índice médio de Emprego e Renda do municípios do Brasil. Página 56

58 0,55 Boxplot of ERm 0,50 0,45 ERm 0,40 0,35 0,30 Centro-Oeste Nordeste Norte Regiao2 Sudeste Sul Este gráfico exibe os resultados das médias dos estados, agrupados por região. Podemos ver que a região Sul é a que possui maior índice médio de desenvolvimento, quase empatada com a região Sud este. A região que possui o pior desempenho médio de desenvolvimento é a Nordeste seguido pela Norte. One-way ANOVA: ERm versus Regiao2 Source DF SS MS F P Regiao2 4 0, , ,45 0,000 Error 21 0, ,00194 Total 25 0,12202 S = 0,04408 R-Sq = 66,56% R-Sq(adj) = 60,20% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 3 0, ,01794 ( * ) Nordeste 9 0, ,04282 (----*----) Norte 7 0, ,04002 (-----*-----) Sudeste 4 0, ,06993 ( * ) Sul 3 0, ,02453 ( * ) ,360 0,420 0,480 0,540 Pooled StDev = 0,04408 No resumo descritivo dos dados podemos visualizar os desvios padrões de cada região, e as médias. Página 57

59 Este segundo gráfico mostra o resulto do índice médio H6, e mostra que a região mais adiantada em relação à Habitação é a Sul seguida pela Sudeste, e a pior região é a Norte. 0,8 Boxplot of H6m 0,7 0,6 H6m 0,5 0,4 0,3 0,2 0,1 Centro-Oeste Nordeste Norte Regiao2 Sudeste Sul Podemos observar que os desvios padrões são altos, existe uma grande variação nos dados de habitação entre os municípios das regiões do Brasil. One-way ANOVA: H6m versus Regiao2 Source DF SS MS F P Regiao2 4 0, , ,82 0,000 Error 21 0, ,00985 Total 25 0,67258 S = 0,09924 R-Sq = 69,25% R-Sq(adj) = 63,39% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 3 0, ,07981 ( *------) Nordeste 9 0, ,05949 (---*---) Norte 7 0, ,15759 (----*---) Sudeste 4 0, ,06723 (------*-----) Sul 3 0, ,03999 ( *------) ,32 0,48 0,64 0,80 Pooled StDev = 0,09924 Boxplot of H6m Página 58

60 3.9 ANÁLISE DISCRIMINANTE A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e classificar objetos. É uma técnica da estatística multivariada que estuda a separação de objetos de uma população em duas ou mais classes. A discriminação ou separação é a primeira etapa, sendo a parte exploratória da análise e consiste em se procurar características capazes de serem utilizadas para alocar objetos em diferentes grupos previamente definidos. A classificação ou alocação pode ser definida como um conjunto de regras que serão usadas para alocar novos objetos. O presente trabalho tem por objetivo efetuar uma análise comparativa de médias, intervalos de confiança e regressões de dados de indicadores relacionados ao desenvolvimento humano dos municípios do Brasil. Utilizamos a análise discriminante para tentar predizer ou explicar os indicadores relacionados ao desenvolvimento da educação dos municípios do Brasil. Contudo, a função que separa objetos pode também servir para alocar, e o inverso, regras que alocam objetos podem ser usadas para separar. Normalmente, discriminação e classificação se sobrepõem na análise, e a distinção entre separação e alocação é confusa. O problema da discriminação entre dois ou mais grupos, visando posterior classificação consiste em obter funções matemáticas capazes de classificar um indivíduo X (uma observação X) em uma de várias populações, com base em medidas de um número p de características, buscando minimizar a probabilidade de má classificação ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e classificar objetos, e estuda a separação de objetos de uma população em duas ou mais classes. Neste caso queremos discriminar os indicadores de desenvolvimento dos municípios do Brasil, e utilizaremos inicialmente a variável categórica Região. O comando Minitab para executar esta função e: STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS Página 59

61 Discriminant Analysis: Região versus ISDMc; EDUCc;... Linear Method for Response: Região Predictors: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; E24c; E25c; E26c Group Centro-Oeste Nordeste Norte Sudeste Sul Count cases used, 21 cases contain missing values Summary of classification True Group Put into Group Centro-Oeste Nordeste Norte Sudeste Sul Centro-Oeste Nordeste Norte Sudeste Sul Total N N correct Proportion 0,705 0,807 0,596 0,819 0,703 N = 5543 N Correct = 4228 Proportion Correct = 0,763 A região que acertou mais é Sudeste (0,819) e a que errou mais é o Norte (0,596). O gráfico exibe o cruzamento de dados entre as regiões. Por exemplo, a região Sudeste possui 1663 municípios e apenas 1362 correspondem a região, sendo que 114 são semelhantes aos dados da região Centro-Oeste. O nome desta matriz é confusion matrix ou matriz de confusão. Podemos concluir que o agrupamento por região não é uma boa escolha segundo esta avaliação. O percentual correto = 0, ANÁLISE DISCRIMINANTE LINEAR POR 3 BRASIS Neste caso queremos discriminar os indicadores de desenvolvimento dos municípios do Brasil, e utilizaremos a variável categórica Brasis3m, que representa os agrupamentos segundo a análise anterior do Dendrograma por similaridade dos dados. Página 60

62 Discriminant Analysis: BRA3 versus ISDMc; EDUCc;... Linear Method for Response: BRA3 Predictors: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; E24c; E25c; E26c Group B1 B2 B3 Count cases used, 21 cases contain missing values Summary of classification True Group Put into Group B1 B2 B3 B B B Total N N correct Proportion 0,702 0,672 0,887 N = 5543 N Correct = 4517 Proportion Correct = 0,815 O grupo que acertou mais é B3 (0,887) e a que errou mais é o B2 (0,672). O gráfico exibe o cruzamento de dados entre as classificações de 3Brasis. Por exemplo, o B3 possui 3456 municípios e apenas 3067 correspondem a região, sendo que 311 são semelhantes aos dados de B1. O nome desta matriz é confusion matrix ou matriz de confusão. O percentual correto = 0,815. O percentual de acerto para esta análise foi maior que para o cruzamento dos dados de Regiões do Brasil ANÁLISE DISCRIMINANTE QUADRÁTICA POR 3 BRASIS Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca probabilidade de má classificação, e para que isso ocorra a regra de classificação deve considerar as probabilidades a priori e os custos de má classificação. Outro fator que uma regra de classificação deve considerar é se as variâncias das populações são iguais ou não. Quando a regra de classificação assume que as variâncias das populações são iguais, as funções discriminantes são ditas lineares e quando não são funções discriminantes quadráticas. Vamos agora verificar a função quadrática para 3 Brasis. Página 61

63 Discriminant Analysis: BRA3 versus ISDMc; EDUCc;... Quadratic Method for Response: BRA3 Predictors: ISDMc; EDUCc; EMP&RENDAc; LIQc; H6c; R1c; T12c; S11c; E24c; E25c; E26c Group B1 B2 B3 Count cases used, 21 cases contain missing values Summary of classification True Group Put into Group B1 B2 B3 B B B Total N N correct Proportion 0,749 0,692 0,870 N = 5543 N Correct = 4541 Proportion Correct = 0,819 No modelo quadrático a proporção foi alterada em menos de 1% (de 0,815 para 0,819). Seguindo o pensamento da simplicidade, vamos escolher o método linear por ser o mais simples. A parcimônia é a preferência pela explicação mais simples para uma observação. Esta geralmente é considerada a melhor maneira de julgar as hipóteses. Parcimônia também é um conceito utilizado na sistemática moderna que estabelece que ao construir e selecionar árvores filogenéticas, ou seja, os dados, o melhor critério é baseado em seus princípios. Normalmente é correto o relacionamento mais simples encontrado entre dois indivíduos, aquele que apresente o menor número de passos intermediários ou mudanças evolucionárias. Portanto a diferença entre o método linear e o quadrático é pequena e não justifica a utilização do método quadrático ANÁLISE DISCRIMINANTE LINEAR PARA DADOS AGRUPADOS Neste exemplo abaixo vamos através do dendrograma pesquisar o grau de similaridade das variáveis das médias do desenvolvimento dos municípios do Brasil. Com base na similaridade poderemos definimos agrupamento de dados e após utilizamos a análise discriminante para verificar a proporção correta dos agrupamentos. Página 62

64 Discriminant Analysis: BRA3m versus ISDMm; EDUm;... Linear Method for Response: BRA3m Predictors: ISDMm; EDUm; ERm; LIQm; H6m; R1m; T12m; S11m; E24m; E25m; E26m Group B1 B2 B3 Count Summary of classification True Group Put into Group B1 B2 B3 B B B Total N N correct Proportion 1,000 1,000 1,000 N = 26 N Correct = 26 Proportion Correct = 1,000 Neste caso a proporção correta é de 100%, ou seja, os agrupamentos gerados anteriormente pelo agrupamento em 3 Brasis gerou a mesma proporção do método linear utilizado na análise discriminante. Página 63

65 3.10 REGRESSÃO LOGÍSTICA A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias1 2. A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações, como modelo logístico e classificador de máxima entropia. No domínio dos seguros, permite encontrar frações da clientela que sejam sensíveis a determinada política securitária em relação a um dado risco particular, em instituições financeiras, pode detectar os grupos de risco para a subscrição de um crédito e em econometria, permite explicar uma variável discreta, como por exemplo as intenções de voto em atos eleitorais. O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos. Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo fato de a variável resposta ser categórica. Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de as colocar em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver. Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros fatores. O comando no Minitab para esta função é: Stat >> Regression >> Ordinal Logistical Regression Página 64

66 REGRESSÃO LOGÍSTICA AGRUPADA POR REGIÃO Ordinal Logistic Regression: Região versus ISDMc; EDUCc;... Link Function: Logit Response Information Variable Value Count Região Centro-Oeste 464 Nordeste 1783 Norte 445 Sudeste 1663 Sul 1188 Total 5543 * NOTE * 5543 cases were used * NOTE * 21 cases contained missing values Logistic Regression Table 95% CI Predictor Coef SE Coef Z P Odds Ratio Lower Upper Const(1) -0, , ,81 0,421 Const(2) 2, , ,60 0,000 Const(3) 2, , ,94 0,000 Const(4) 5, , ,66 0,000 ISDMc 5, , ,35 0, ,10 127,05 959,24 EDUCc 2, , ,38 0,000 10,10 5,88 17,35 EMP&RENDAc 0, , ,36 0,018 1,64 1,09 2,46 LIQc -0, , ,73 0,000 0,76 0,66 0,88 H6c -2, , ,53 0,000 0,05 0,03 0,09 R1c 3, , ,50 0,000 28,18 13,05 60,87 T12c -4, , ,28 0,000 0,01 0,01 0,02 S11c 1, , ,82 0,005 5,50 1,68 17,95 E24c -3, , ,04 0,000 0,04 0,03 0,08 E25c -2, , ,18 0,000 0,09 0,04 0,17 E26c -4, , ,18 0,000 0,01 0,01 0,02 Log-Likelihood = -6572,791 Test that all slopes are zero: G = 3109,585, DF = 11, P-Value = 0,000 Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de colocá-la em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver. Página 65

67 REGRESSÃO LOGÍSTICA AGRUPADA POR 3 BRASIS Ordinal Logistic Regression: BRA3 versus ISDMc; EDUCc;... Link Function: Logit Response Information Variable Value Count BRA3 B B2 516 B Total 5543 * NOTE * 5543 cases were used * NOTE * 21 cases contained missing values Logistic Regression Table 95% CI Predictor Coef SE Coef Z P Odds Ratio Lower Upper Const(1) 2, , ,96 0,000 Const(2) 3, , ,30 0,000 ISDMc 7, , ,99 0, ,18 486, ,79 EDUCc -1, , ,75 0,000 0,16 0,07 0,34 EMP&RENDAc 2, , ,20 0,000 9,18 5,02 16,78 LIQc -0, , ,85 0,004 0,75 0,61 0,91 H6c -1, , ,63 0,000 0,28 0,14 0,55 R1c 4, , ,74 0,000 79,38 26,22 240,32 T12c -2, , ,73 0,000 0,06 0,03 0,11 S11c 0, , ,44 0,660 1,50 0,25 9,16 E24c -5, , ,48 0,000 0,01 0,00 0,01 E25c -8, , ,06 0,000 0,00 0,00 0,00 E26c -3, , ,52 0,000 0,03 0,01 0,07 Log-Likelihood = -2913,010 Test that all slopes are zero: G = 3851,041, DF = 11, P-Value = 0,000 Comparando os dois exemplos, no primeiro ele executou 4 interações enquanto que para os 3Brasis apenas duas interações. O valor de G foi aumentado de 3109 para Página 66

68 3.11 ANÁLISE DE CORRESPONDÊNCIA Análise de correspondência é uma técnica de análise exploratória de dados adequada para analisar tabelas de duas entradas ou tabelas de múltiplas entradas, levando em conta algumas medidas de correspondência entre linhas e colunas. Consiste na conversão de uma matriz de dados não negativos em um tipo particular de representação gráfica em que as linhas e colunas da matriz são simultaneamente representadas em dimensão reduzida, isto é, por pontos no gráfico. Este método permite estudar as relações e semelhanças existentes entre as categorias de linhas e entre as categorias de colunas de uma tabela de contingência ou o conjunto de categorias de linhas e o conjunto categorias de colunas. A análise de correspondência mostra como as variáveis dispostas em linhas e colunas estão relacionadas e não somente se a relação existe. Embora seja considerada uma técnica descritiva e exploratória, esta análise simplifica dados complexos e produz análises exaustivas de informações que suportam conclusões a respeito das mesmas. Possui diversos aspectos que a distingue de outras técnicas de análise de dados. A sua natureza multivariada permite revelar relações que não seriam detectadas em comparações aos pares das variáveis. É altamente flexível quanto a pressuposições sobre os dados: o único requisito é o de uma matriz retangular com entradas não negativas. É possível transformar qualquer característica quantitativa em qualitativa, realizando-se uma partição de seu domínio de variação em classes. A análise de correspondência é mais efetiva se a matriz de dados é bastante grande, de modo que a inspeção visual ou análise estatística simples não consegue revelar sua estrutura. Página 67

69 ANÁLISE DE CORRESPONDÊNCIA DOS ÍNDICES DE DESENVOLVIMENTO Nesta análise serão trabalhados os estados e as médias de desenvolvimento por estado. Na análise de correspondência será gerado um mapa contendo quais estados estão mais próximos e quais variáveis tem a ver entre si. O comando para gerar o gráfico é: STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS 0,3 Symmetric Plot 0,2 Component 2 0,1 0,0-0,1-0,2-0, ,4-0,5-0,6-0,6-0,5-0,4-0,3-0,2-0,1 0,0 Component 1 0,1 0,2 0,3 O gráfico acima é o resultado da análise de correspondência das médias de desenvolvimento dos municípios do Brasil, já agrupadas por estado. Os pontos azuis representam as variáveis 1 - Habitação (H6), 2 - Renda(R1), 3 - Trabalho (T1_2), 4 - Saude (S1_1) e 5 -Educação (E2_4). Os pontos em vermelho representam os estados do Brasil. A variável que encontra-se mais distante do agrupamento é Renda (2) e a que se encontra mais próxima do agrupamento é a variável Educação (5). Página 68

70 Vamos eliminar a variavel Renda e verificar o resultado. 0,3 Symmetric Plot 0,2 Component 2 0,1 0, ,1 2-0,2-0,2-0,1 0,0 0,1 Component 1 0,2 0,3 Os pontos azuis agora representam as variáveis 1 - Habitação (H6), 2 - Trabalho (T1_2), 3 -Saude (S1_1) e 4 -Educação (E2_4). Os pontos em vermelho representam os estados do Brasil. Educação continua bem próxima do agrupamento dos dados enquanto a variável mais distante é habitação. A análise de correspondência pode ser considerada como um caso especial da análise de componentes principais (TRABALHO num. 7), porém dirigida a dados categóricos organizados em tabelas de contingência e não a dados contínuos. O problema é análogo a encontrar o maior componente principal de um conjunto de I observações e J variáveis, com modificações devido à ponderação das observações e à métrica ponderada. Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros fatores. Página 69

71 3.12 ÁRVORES DE CLASSIFICAÇÃO ARVORE AGRUPADA POR REGIÃO COM AS MÉDIAS DE DESENVOLVIMENTO DOS MUNICÍPIOS Resumo do modelo Método de CHAID crescimento Variável Regiao dependente Variáveis ISDMm, EDUm, ERm, H6m, Especifica ções independentes Validação Profundidade de T12m, E24m, E25m, E26m Nenhum 3 árvore máxima Casos mínimos 2 em nó pai Resultado s Casos mínimos 1 em nó filho Variáveis H6m independentes incluídas Número de nós 5 Número de nós 4 de terminal Profundidade 1 Neste primeiro estudo a árvore de classificação será constituída pelo agrupamento das variáveis de desenvolvimento utilizadas neste estudo, por região. Página 70

72 A árvore indica que existem 4 nós a partir de H6. O primeiro nó representa os dados menores que 0,30061, o segundo entre 0,30081 a 0,49658, o terceiro entre 0m49658 e 0,69620 e por fim o último nó cujos valores são maiores que 0, Posto Observado Previsto Centro-Oeste Nordeste Norte Sudeste Sul Porcentagem Correta Centro-Oeste ,0% Nordeste ,9% Norte ,4% Sudeste ,0% Sul ,0% Porcentagem global 0,0% 30,8% 19,2% 42,3% 7,7% 76,9% Método de crescimento: CHAID Variável dependente: Regiao O percentual correto é de 76,9%. Página 71

73 ARVORE AGRUPADA POR 3BRASIS COM OS ÍNDICES DE DESIGUALDADE (DESVIO PADRÃO) Resumo do modelo Método de crescimento CHAID Variável dependente Bra3m Variáveis independentes H6sd, R1sd, E24sd, E25sd Especificações Validação Profundidade de árvore Nenhum 3 máxima Casos mínimos em nó pai 2 Casos mínimos em nó filho 1 Variáveis independentes E24sd incluídas Resultados Número de nós 4 Número de nós de terminal 3 Profundidade 1 Esta árvore de classificação é um agrupamento dos 3 Brasis com as variáveis que mais se assemelham segundo os outros estudos. São elas: H6, R1, E24 e E25. Página 72

74 A árvore indica que existem 3 nós a partir de E24. O primeiro nó representa os dados menores que 4,17800, o segundo entre 4,17800 a 6,57300, e o último nó cujos valores são maiores que 6, Posto Observado Previsto B1 B2 B3 Porcentagem Correta B ,0% B ,0% B ,3% Porcentagem global 50,0% 19,2% 30,8% 69,2% Método de crescimento: CHAID Variável dependente: Bra3m Página 73

75 PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL Focando principalmente indicadores relacionados a Habitação, Educação, Saúde e muito particularmente TRABALHO MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA Professor Dr. Arnoldo Jose de Hoyos Diego de Melo Conti

76 1 INTRODUÇÃO. O presente trabalho tem por objetivo efetuar uma análise exploratória dos dados relacionados ao Indicador Social de Desenvolvimento dos Municípios (ISDM. Além disso, será feita uma análise do Índice FIRJAN de Desenvolvimento Municipal (IFDM). De tal forma, iniciaremos este trabalho com a definição e discussão de ambos indicadores, apresentando um breve histórico, o seu funcionamento metodológico e as suas variáveis. Na sequencia será realizada uma análise e interpretação dos dados que serão manipulados, utilizando as ferramentas dos softwares estatísticos MINITAB e SPSS. Na sequencia, analisamos cada uma das variáveis separadamente quanto a sua forma de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dotplot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desviopadrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling). Em seguida fizemos comparações entre as diversas variáveis analíticas, utilizando técnicas como relações entre as variáveis, regressões múltiplas, comparações, amostragem dos dados, análise multivariada, análise de conglomerados, análise discriminante, regressão logística, análise de correspondência e arvores de classificação. Não será possível, a partir destes dados, efetuarmos a análise de tendência pois não existem séries temporais de dados, requisitos para esta técnica. 2 OS DADOS. 2.1 OS INDIVÍDUOS. Os indivíduos deste trabalho são compostos pelos indicadores das dimensões de Habitação (H6), Renda (R1), Trabalho (T1_2), Saúde (S1_1) e Educação E2_4 e de trabalho (T, T1_1, T1_2 e T2_1), padronizados pela média do Brasil para os diferentes municípios. Ao todo são 5565 municípios considerados brasileiros, incluindo o Distrito federal. Os dados analíticos foram extraídos do IBGE, e possibilitam uma comparação

77 entre os dados colhidos em 2000 com Neste trabalho concentraremos nossas análise apenas dos dados referentes à De acordo com o IBGE, o Brasil encontra-se política e geograficamente dividido em cinco regiões distintas, que possuem traços comuns referentes aos aspectos físicos, humanos, econômicos e culturais. Os limites de cada região - Norte, Nordeste, Sudeste, Sul e Centro-Oeste - coincidem sempre com as fronteiras dos Estados que as compõem. 2.2 AS VARIÁVEIS. O Índice FIRJAN de Desenvolvimento Municipal (IFDM) é um estudo anual do Sistema FIRJAN que acompanha o desenvolvimento de todos os municípios brasileiro. O índice é baseado em três pilares: Emprego & Renda, Educação e Saúde. Ele é feito, exclusivamente, com base em estatísticas públicas oficiais, disponibilizadas pelos ministérios do Trabalho, Educação e Saúde. De leitura simples, o índice varia de 0 a 1. Quanto mais próximo de 1, maior o desenvolvimento da localidade. Além disso, sua metodologia possibilita determinar, com precisão, se a melhora relativa ocorrida em determinado município decorre da adoção de políticas específicas ou se o resultado obtido é apenas reflexo da queda dos demais municípios. Tabela 2. A definição das Variáveis Variável Significado Tipo Unidade de Medida REGIÃO Nome da Região do Brasil Texto Na UF Unidade da Federação Texto Na MUNICÍPIO Nome do Município Texto Na ISDM Índice Social de Desenvolvimento Municipal: Média ponderada dos indicadores das dimensões Habitação, Renda, Trabalho, Saúde e Segurança e Educação (H, R, T, S e E) padronizada pela média do Brasil. Numérico Escala convertida para intervalo entre 0 e 1.

78 T Indicador da dimensão Trabalho. Trata-se da média ponderada dos indicadores da dimensão Trabalho (T1_1, T1_2 e T2_1) padronizada pela média do Brasil. Numérico Escala convertida para intervalo entre 0 e 1. EMPREGO E RENDA Geração, estoque e salários médios dos empregos formais (IFDM). Numérico Escala convertida para intervalo entre 0 e 1. LIQUIDEZ Índice de liquidez dos municípios. Numérico Escala convertida para intervalo entre 0 e 1. H6 Percentual de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2. Numérico Escala convertida para intervalo entre 0 e 1. R1 Numérico Escala convertida para intervalo entre 0 e 1. E2_4 Percentual de crianças de 7 a 14 anos que estão na série correta segundo a idade Numérico Escala convertida para intervalo entre 0 e 1. S1_1 T1_1 Taxa de sobrevivência infantil no primeiro ano de vida, representada pela diferença entre o número de nascidos vivos e o número de óbitos até um ano de idade. Taxa de ocupação. Percentual da população economicamente ativa (PEA) que esteja ocupada na semana de referência. Pessoas ocupadas podem ser empregados, empregadores, conta própria e não remunerados. Define-se como PEA a população entre 15 e 60 anos, que esteja ocupada (incluindo pessoas que estavam de férias) ou procurando emprego, exceto os deficientes físicos. Foram consideradas deficiências físicas a Tetraplegia (paralisia permanente total de ambos os braços e pernas), Paraplegia (paralisia permanente Numérico Numérico Escala convertida para intervalo entre 0 e 1. Escala convertida para intervalo entre 0 e 1.

79 T1_2 T2_1 das pernas), Hemiplegia (paralisia permanente de um dos lados do corpo) ou Falta de membro ou de parte dele (falta de perna, braço, mão, pé ou do dedo polegar ou a falta de parte da perna ou braço). Taxa de formalização entre os empregados. Percentual dos empregados ocupados na semana de referência no setor formal, dentre o total de empregados da PEA. Define-se como empregados ocupados no setor formal aqueles que possuíam carteira de trabalho assinada. Define-se como PEA a população entre 15 e 60 anos, que esteja ocupada (incluindo pessoas que estavam de férias) ou procurando emprego, exceto os deficientes físicos. Foram consideradas deficiências físicas a Tetraplegia (paralisia permanente total de ambos os braços e pernas), Paraplegia (paralisia permanente das pernas), Hemiplegia (paralisia permanente de um dos lados do corpo) ou Falta de membro ou de parte dele (falta de perna, braço, mão, pé ou do dedo polegar ou a falta de parte da perna ou braço). Taxa de trabalho infantil. Percentual das crianças de 10 a 14 anos que se encontram trabalhando ou procurando emprego na semana de referência em relação a população total residente dessa mesma faixa etária. Numérico Numérico Escala convertida para intervalo entre 0 e 1. Escala convertida para intervalo entre 0 e ANÁLISE DAS VARIÁVEIS. 3.1 VARIÁVEIS CATEGÓRICAS. Para este tipo de variável, as pesquisas concentram-se nas análises de gráficos do tipo pie chart e barras Variável: ESTADO.

80 Fazem parte desta pesquisa os 27 estados brasileiros e suas cidades. O gráfico abaixo exibe o número de cidades por estado. A variação no número de cidades por estado é acentuada. Considerando que o Distrito Federal é um estado brasileiro, é o estado com o menor número de cidades (1), enquanto o Mato Grosso é o estado que possui o maior número de cidades (852). Pie Chart of UF C ategory A C A L A M A P BA C E ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO

81 900 Chart of UF Count AL AC ES DF CE BA AP AM PA MT MS MG MA GO RN RJ PR PI PE PB UF TO SP SE SC RS RR RO Ressalta-se que o Distrito Federal não será considerado nos cálculos numéricos, uma vez que a sua base de dados é composta apenas com algumas informações sobre Brasília, tornando-se sem relevância para esta pesquia Variável: REGIÃO.

82 Figura 3. Número de Cidades por Estado e Região do Brasil Podemos verificar no gráfico acima que a Região Nordeste é a que possui o maior número de cidades do Brasil (1790) e seguido pela Região Sudeste (1669). A Região que possui o menor número de cidades é a Norte, com 447 cidades, muito próxima da Região Centro-Oeste (468). A Região Sul possui 1191 cidades. Cidades por Região do Brasil 3.2 ANÁLISE EXPLORATÓRIA DAS VARIÁVEIS ANALÍTICAS. Serão analisadas as variáveis separadamente quanto a sua forma de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o auxílio de gráficos ( histogramas, gráficos de ramos, box-plot, dot-plot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling).

83 3.2.1 VARIÁVEL ISDM. Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desviopadrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável ISDM. Summary for ISDM A nderson-darling Normality Test A -Squared 75,79 P-V alue < 0,005 Mean 4,4325 StDev 1,0929 V ariance 1,1944 Skew ness -0, Kurtosis -0, N ,8 1,6 2,4 3,2 4,0 4,8 5,6 Minimum 0,5500 1st Q uartile 3,6000 Median 4,6400 3rd Q uartile 5,3500 Maximum 6, % C onfidence Interv al for Mean 4,4037 4, % C onfidence Interv al for Median 4,5900 4, % Confidence Intervals 95% C onfidence Interv al for StDev 1,0729 1,1136 Mean Median 4,40 4,45 4,50 4,55 4,60 4,65 4,70 As principais observações que podemos fazer em relação a este histograma são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem ganhos. Esta conclusão está comprovada pelo teste de normalidade de Anderson- Darling que indica que a distribuição não pode ser considerada uma Normal. Muitos municípios enfrentam problemas de ordem sustentável, enquanto poucos possuem uma situação mais plena. Fato que se dá também pelo desequilíbrio econômico e social das mais variadas regiões do Brasil. A distribuição tem um único pico, que representa os municípios com ISDM de 5,65 a 5,75. Porém, alguns municípios tem o ISDM muito alto, o que faz com o gráfico se estenda para a direita. O Box-Plot nos deixa ainda mais clara esta assimetria da distribuição.

84 - Centro e Dispersão: A mediada do IFDM é de 4,64, ou seja, metade dos municípios possuem valores inferiores ou iguais à mediana e metade da população terá valores superiores ou iguais à este número VARIÁVEL EMPREGO E RENDA. S u m m a r y f o r E M P & R E N D A 0, 00 0,14 0,28 0, 42 0, 56 0,70 0,84 0, 98 A n d e r s o n - D a r l i n g N o r m a l i t y T e s t A - S q u a r e d 104, 05 P - V a l u e < 0, 005 M e a n 0, S t D e v 0, V a r i a n c e 0, S k e w n e s s 0, K u r t o s i s 1, N 5543 M i n i m u m 0, s t Q u a r t i l e 0, M e d i a n 0, r d Q u a r t i l e 0, M a x i m u m 1, % C o n f i d e n c e I n t e r v a l f o r M e a n 0, , % C o n f i d e n c e I n t e r v a l f o r M e d i a n 0, , % C o n f i d e n c e I n t e r v a l f o r S t D e v 0, , % C o n f i d e n c e I n t e r v a l s M e a n M e d i a n 0, 3 7 0, 3 8 0, 3 9 0, 4 0 0, Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores baixos de EMPREGO E RENDA. Muitas cidades possuem um nível médio de EMPREGO E RENDA e poucas possuem um nível alto de EMPREGO E RENDA. Existe apenas uma corcova no gráfico. - Valores Atípicos: Há alguns valores atípicos de EMPREGO E RENDA atípicos, que apresentam resultados abaixo de 0,4742, e muitos valores atípicos acima da curva (0,72208). Esta informação nos diz que existem municípios no Brasil que apresentam Taxas de EMPREGO E RENDA acima da curva e alguns abaixo da curva.

85 - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem EMPREGO E RENDA menor do que O EMPREGO E RENDA médio é de 0,40414 e o desvio-padrão (medida de dispersão) é de 0,15543, que implica em uma dispersão alta do índice de EMPREGO E RENDA VARIÁVEL LIQUIDEZ. O indicador demonstra se o município possui recursos financeiros suficientes para fazer frente ao montante de restos a pagar. Se o município apresentar mais restos a pagar do que ativos financeiros disponíveis a pontuação será zero. Na leitura dos resultados, quanto mais próximo de 1,00, menos o município está postergando pagamentos para o exercício seguinte sem a devida cobertura. S ummary fo r L I Q Mea n 0, 00 0, 14 0,28 0, 42 0,56 0,70 95 % C on fi d enc e I nter vals 0, 84 0,98 A nd e r s on - D ar l i n g N o r m a li ty T es t A - S q u are d 257,10 P -Val u e < 0, 005 Me a n 0, S tde v 0, V ar i a n ce 0, S kewn e s s - 0, Kur t o s is - 1, N 5565 Mi n i m um 0, s t Qu arti l e 0, Me d i a n 0, r d Qu ar ti l e 0, Ma x i m u m 1, % Co n fi d e nce I nte r v a l f or M e a n 0, , % C o nf i d ence I n ter val fo r Me d ia n 0, , % C o nf i d ence In t e r v a l fo r S tdev 0, , M edi a n 0,550 0,575 0,600 0,625 0,650 0,675 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição totalmente assimétrica tendendo levemente para a direita, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. Os valores de LIQUIDEZ se espalham por todo o gráfico, não tendo um pico dos dados.

86 - Valores Atípicos: Não existem valores atípicos de LIQUIDEZ visto que a variabilidade dos dados é tão alta que se distribui uniformemente por todo o gráfico. Não existe um padrão nesta variável. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem LIQUIDEZ menor do que O LIQUIDEZ médio é de 0,55146 e o desvio-padrão (medida de dispersão) é de 0,37328, que implica em uma dispersão absoluta do índice de LIQUIDEZ VARIÁVEL H6 - Pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2. Summary for H6 Anderson-Darling Normality Test A-Squared 15,83 P-Value < 0,005 Mean 0,58610 StDev 0,16020 Variance 0,02566 Skewness -0, Kurtosis -0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Quartile 0,47636 Median 0, rd Quartile 0,70782 Maximum 1, % Confidence Interval for Mean 0, , % Confidence Interval for Median 0, , % Confidence Intervals 95% Confidence Interval for StDev 0, ,16323 Mean Median 0,580 0,585 0,590 0,595 0,600 0,605 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser levemente assimétrica cujo pico concentra-se à direita, o que é comum para variáveis que indiquem desempenho médio para alto. A curva apresenta algumas corcovas, o que indica que temos um comportamento atípico da variabilidade sobre os dados de H6. Os dados se dispersam bastante, e podemos afirmar que a variável H6 tem alta dispersão em relação aos municípios do Brasil.

87 - Valores Atípicos: Há muitos valores atípicos de H6, que apresentam resultados abaixo de 0, Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem H6 menor do que O H6 médio é de e o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão média para H VARIÁVEL R1 - Pessoas com renda domiciliar per capita abaixo da linha de pobreza. Summary f o r R1 A n de rs o n- D a rl in g N o rmality T e s t A - S q u ar ed 1 5 4,22 P-V a lue < 0, 005 Mea n 0, StD e v 0, V a r i an ce 0, Skew ne ss 0, Kur tos i s -0, N ,00 0,14 0,28 0, 42 0,56 0,70 0, 84 0, 98 Min i mum 0, s t Q ua r ti l e 0,10855 Medi a n 0, r d Q ua r ti l e 0,50054 Maxi mu m 1, % C o n f ide n c e In te r val f or Mean 0, , % C o nf i d e n c e Inte r v a l fo r Me d i an 0, , % Conf id en c e I nter va ls 95 % C o nfi de nce Inte r v a l f o r St Dev 0, ,22905 Mean Med i an 0, 24 0, 2 6 0,28 0, 30 0,32 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser levemente assimétrica cujo pico concentra-se à esquerda, o que é comum para variáveis que indiquem desempenho baixo. A curva apresenta algumas corcovas, sendo duas altamente acentuadas, a primeira com maior pico e localizada fortemente à esquerda do gráfico. Indica que o comportamento atípico da variabilidade sobre os dados de R1. Os dados se dispersam bastante, e podemos afirmar que a variável R1 tem alta dispersão em relação aos municípios do Brasil. - Valores Atípicos: Não existem valores atípicos de R1.

88 - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem R1 menor do que O R1 médio é de e o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão alta para R VARIÁVEL S1_1 - Taxa de mortalidade infantil, por mil nascidos vivos S u m m a r y f o r S 1 _1 0, 00 0,14 0,28 0, 42 0,56 0,70 0, 84 0,98 A n d e r s o n - D a r l i n g N o r m a l i t y T e s t A - S qua r e d 160, 61 P- V a l u e < 0, 005 M e a n 0, S t D e v 0, V a r i a n c e 0, S k e w n e s s 4, 2578 K u r t o s i s 59, 4287 N 5565 M i n i m u m 0, s t Q ua r t il e 0, Me d i a n 0, rd Q uar ti le 0, Max im um 1, % C o n f i d e n c e I n t e r v a l f o r M e a n 0, , % C o n f i d e n c e I n t e r v a l f o r M e d i a n 0, , % C o n f i d e n c e I n t e r v a l f o r S t D e v 0, , % C o n f i d e n c e I n t e r v a l s Mea n Media n 0,036 0, 038 0,040 0, 042 0,044 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores baixos de S1_1. Pouca cidades possuem um nível médio de S1_1 e quase nenhuma possuem um nível alto de S1_1. Existem duas corcovas visíveis no gráfico. Como trata-se de nascido vivos, o número baixo é bom porque a maioria dos nascidos vivos sobrevivem após um ano de vida. - Valores Atípicos: Há alguns valores atípicos de S1_1, que apresentam resultados acima de 0, Esta informação nos diz que existem municípios no Brasil que apresentam Taxas de S1_1 acima da curva, ou seja, que o índice de mortalidade é alto.

89 - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem S1_1 menor do que O S1_1 médio é de e o desviopadrão (medida de dispersão) é de , que implica em uma dispersão baixa do índice de S1_ VARIÁVEL E2_4 Crianças entre 7 e 14 anos que estudam na série correta segundo sua idade. S u m m a r y f o r E 2 4 0,00 0,14 0,28 0,42 0,56 0,70 95% Co nf i d en c e I n t e r v a l s 0,84 0, 98 A nder s o n - Da r l i ng N o r ma l ity Te s t A -Sq uare d 95,44 P - V a l u e < 0,005 Me a n 0,73250 S td e v 0,16363 V ar ian c e 0,02677 S kew nes s - 0, K urto sis 0, N 5565 Mi nim um 0, s t Qu ar til e 0,62284 Me di a n 0, rd Quar til e 0,86235 Ma xi m u m 1, % C o nf i den ce Interv a l f o r Me a n 0, , % C onf i den ce Int e rval f o r Me d ian 0, , % Co nf i den ce Inter v al fo r StD e v 0, ,16673 M e a n Me dia n 0, 73 0,74 0,75 0,76 0,77 0,78 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a direita, o que é comum para variáveis que indiquem desempenho alto e taxas elevadas. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão da série correta dos alunos. Os dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade entre a questão do grau correto de idade e escolaridade nos municípios. - Valores Atípicos: Há muitos valores atípicos de E2_4 atípicos, que apresentam resultados abaixo de 0,25933 que são as cidades cujas crianças que estão na série correta

90 - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem E2_4 menor do que O E2_4 médio é de e o desviopadrão (medida de dispersão) é de , que implica em uma dispersão grande para a questão VARIÁVEL T - Indicador da dimensão Trabalho. Summary for T A nderson-darling Normality Test A -Squared 19,98 P-V alue < 0,005 Mean 4,2479 StDev 1,0924 V ariance 1,1934 Skew ness -0, Kurtosis -0, N ,0 1,2 2,4 3,6 4,8 6,0 Minimum -0,8900 1st Q uartile 3,4600 Median 4,2700 3rd Q uartile 5,1300 Maximum 6, % C onfidence Interv al for Mean 4,2192 4, % C onfidence Interv al for Median 4,2300 4, % Confidence Intervals 95% C onfidence Interv al for StDev 1,0725 1,1131 Mean Median 4,22 4,24 4,26 4,28 4,30 4,32 As principais observações que podemos fazer em relação a este histograma são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem ganhos. Esta conclusão está comprovada pelo teste de normalidade de Anderson- Darling que indica que a distribuição não pode ser considerada uma Normal. Muitos municípios enfrentam problemas para a geração de empregos formais, ocupação de pessoas com deficiência e a erradicação do trabalho infantil, enquanto poucos possuem uma situação trabalhista mais plena. Fato que se dá também pelo desequilíbrio econômico e social das mais variadas regiões do Brasil. A distribuição tem um único pico, que representa os municípios com T de 5,65 a 5,75. Porém, alguns municípios tem o ISDM muito alto, o que faz com o gráfico se estenda para a direita. O Box-Plot nos deixa ainda mais clara esta assimetria da distribuição.

91 - Centro e Dispersão: A mediada de T é de 4,27, ou seja, metade dos municípios possuem valores inferiores ou iguais à mediana e metade da população terá valores superiores ou iguais à este número VARIÁVEL T1_1 Taxa de ocupação. Summary for T1_1 A nderson-darling Normality Test A -Squared 58,23 P-V alue < 0,005 Mean 93,254 StDev 3,844 V ariance 14,774 Skew ness -1,19603 Kurtosis 3,21639 N Minimum 59,640 1st Q uartile 91,360 Median 93,760 3rd Q uartile 95,870 Maximum 100,000 95% C onfidence Interv al for Mean 93,153 93,355 95% C onfidence Interv al for Median 93,660 93,870 95% Confidence Intervals 95% C onfidence Interv al for StDev 3,774 3,916 Mean Median 93,2 93,4 93,6 93,8 As principais observações que podemos fazer em relação a este histograma são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem ganhos. Esta conclusão está comprovada pelo teste de normalidade de Anderson- Darling que indica que a distribuição não pode ser considerada uma Normal. O Brasil vive um dos melhores momentos de sua economia, o que naturalmente expande a taxa de ocupação da população economicamente ativa. A distribuição tem um único pico, que representa os municípios com T1_1 de 93,5 a 94,5. - Centro e Dispersão: A mediada de T1_1 é de 93,76, ou seja, metade dos municípios possuem valores inferiores ou iguais à mediana e metade da população terá valores superiores ou iguais à este número VARIÁVEL T1_2 - Taxa de formalização entre os empregados.

92 Summary for T1_2 A nderson-darling Normality Test A -Squared 41,12 P-V alue < 0,005 Mean 56,304 StDev 18,234 V ariance 332,476 Skew ness -0, Kurtosis -0, N Minimum 6,400 1st Q uartile 41,275 Median 57,420 3rd Q uartile 71,380 Maximum 94,910 95% C onfidence Interv al for Mean 55,824 56,783 95% C onfidence Interv al for Median 56,580 58,211 95% Confidence Intervals 95% C onfidence Interv al for StDev 17,901 18,579 Mean Median 56,0 56,5 57,0 57,5 58,0 58,5 As principais observações que podemos fazer em relação a este histograma são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição assimétrica. No entanto, a curva de distribuição indica que os municípios tem um potencial maior para incentivar a formalização de seus empregados. Assim, percebese que a distribuição possui uma série de picos com valores aproximados, sendo o maior com T1_2 num intervalo de 69 até 71. O Box-Plot nos deixa ainda mais clara a simetria da distribuição. O Box-Plot nos deixa ainda mais clara esta assimetria da distribuição, uma vez que o seu centro está longe da mediana. - Centro e Dispersão: A mediada do T1_2 é de 57,42, ou seja, metade dos municípios possuem valores inferiores ou iguais à mediana e metade da população terá valores superiores ou iguais à este número VARIÁVEL T2_1 - Taxa de trabalho infantil.

93 Summary for T2_1 A nderson-darling Normality Test A -Squared 209,94 P-V alue < 0,005 Mean 10,547 StDev 7,843 V ariance 61,506 Skew ness 2,13050 Kurtosis 7,27650 N Minimum 0,000 1st Q uartile 5,220 Median 8,600 3rd Q uartile 13,370 Maximum 72,550 95% C onfidence Interv al for Mean 10,341 10,753 95% C onfidence Interv al for Median 8,409 8,790 95% Confidence Intervals 95% C onfidence Interv al for StDev 7,700 7,991 Mean Median 8,5 9,0 9,5 10,0 10,5 11,0 As principais observações que podemos fazer em relação a este histograma são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a esquerda, o que é comum para variáveis que indiquem perda. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. Neste caso, pode-se afirmar que a perda é algo positivo, uma vez que o indicador diz respeito a taxa de trabalho infantil nas cidades brasileiras. A distribuição tem um único pico, que representa os municípios com T2_1 de 5 a 7. - Centro e Dispersão: A mediada de T1_1 é de 8,6, ou seja, metade dos municípios possuem valores inferiores ou iguais à mediana e metade da população terá valores superiores ou iguais à este número. 3.3 RELAÇÃO ENTRE VARIÁVEIS: CORRELAÇÃO, REGRES-SÃO E TESTE QUI-QUADRADO. Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade.

94 3.3.1 GRÁFICOS DE DISPERSÃO entre variáveis Trabalho e Emprego e Renda. A quantidade de dados analisados é muito grande, são 5565 municípios, o que causa uma mancha no gráfico e dificulta a visualização. Uma forma de contornar esta situação seria selecionar os dados por amostragem, mas neste caso não é aplicado, pois não existem critérios específicos que garantiriam a fidelidade da amostra em relação à população. Scatterplot of T vs EMP&RENDA T ,0 0,2 0,4 0,6 EMP&RENDA 0,8 1,0 Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade. Direção: Da análise das correlações acima percebemos que quase todas possuem associações positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. O que nos parece é que não há nenhuma associação negativa, ao menos de evidência visual. Intensidade: O gráfico acima parece indicar a existência de relações lineares, embora no ponto mais alto do gráfico os pontos tendem a decair, e perde a característica de uma reta.

95 Forma: O gráfico apresenta conglomerados que sugerem relações lineares, embora prejudicado pelo excesso de dados da população (5565 linhas). Valores Atípicos: Todos os gráficos indicam a existência de valores atípicos, ou seja, indivíduos ou municípios que possuem seus indicadores de Trabalho e Emprego e Renda fora da curva LINHAS DE TENDÊNCIAS entre Trabalho e Emprego e Renda. 7 Scatterplot of T vs EMP&RENDA T ,0 0,2 0,4 0,6 EMP&RENDA 0,8 1,0 Para se verificar qual o tipo de relação (linear, quadrática, cúbica, exponencial, etc.) existente entre as variáveis, adicionamos em cada gráfico de dispersão uma linha de tendência. O gráfico analisado neste caso contém a variável Trabalho em relação Emprego e Renda. Podemos afirmar que os pontos estão muito próximos da linha e são ascendentes, o que nos aponta que o tipo de relação entre as variáveis é linear, embora existam valores atípicos distribuídos por toda a extensão da reta.

96 3.3.3 LINHAS DE TENDÊNCIAS entre Trabalho e H6. 7 Scatterplot of T vs H T H O segundo gráfico compara a tendência entre as variáveis Trabalho com H6. Se compararmos com o gráfico anterior, podemos constatar que a nuvem de pontos está mais concentrada na parte superior que o gráfico anterior. As duas linhas são crescentes, e concluí-se que quando aumenta o índice de Educação, cresce o Emprego e Renda e melhora a questão da habitação CORRELAÇÃO LINEAR. A matriz de correlação incluí o teste de significância p-value. Para a correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as variáveis não requer que exista uma relação de causa-efeito entre ambas. Esta primeira visão exibe a correlação entre todas as variáveis utilizadas no trabalho. STAT >> BASIC STATISTICS >> CORRELATION Correlations: ISDM; EMP&RENDA; LIQ; H6; R1; S1_1; E2_4; T; T1_1; T1_2; T2_1 ISDM EMP&RENDA LIQ H6 R1 S1_1 EMP&RENDA 0,115

97 0,000 LIQ 0,089 0,197 0,000 0,000 H6 0,158 0,210 0,260 0,000 0,000 0,000 R1-0,194-0,510-0,308-0,709 0,000 0,000 0,000 0,000 S1_1 0,003-0,076-0,049-0,115 0,140 0,819 0,000 0,000 0,000 0,000 E2_4 0,155 0,364 0,263 0,613-0,768-0,128 0,000 0,000 0,000 0,000 0,000 0,000 T 0,147 0,510 0,190 0,310-0,648-0,088 0,000 0,000 0,000 0,000 0,000 0,000 T1_1 0,069 0,071 0,201 0,432-0,390-0,078 0,000 0,000 0,000 0,000 0,000 0,000 T1_2 0,171 0,587 0,302 0,449-0,782-0,112 0,000 0,000 0,000 0,000 0,000 0,000 T2_1-0,031-0,155 0,082 0,108 0,083-0,002 0,020 0,000 0,000 0,000 0,000 0,858 E2_4 T T1_1 T1_2 T 0,490 0,000 T1_1 0,354 0,062 0,000 0,000 T1_2 0,599 0,839 0,170 0,000 0,000 0,000 T2_1-0,038-0,687 0,339-0,202 0,004 0,000 0,000 0, REGRESSÃO DE MÍNIMOS QUADRADOS. A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas variáveis quantitativas. Se um diagrama de dispersão mostra uma relação linear, é interessante resumirmos esse padrão geral traçando uma reta no diagrama de dispersão. Uma reta de regressão resume a relação entre duas variáveis, mas somente em um contexto específico: quando uma das variáveis ajuda a explicar ou a predizer a outra, ou seja, a regressão descreve uma relação entre uma variável explanatória e uma variável resposta. A regressão linear assume sempre a forma de uma equação linear: Y = a + bx, sendo:

98 Y= Variável dependente; a = uma constante, o intercepto; b = a inclinação na reta; x = variável independente ou explicativa. O b, ou seja, a declividade é dada pela multiplicação do índice de correlação pela divisão dos desvios-padrão entre as variáveis x e y. E a é dado pela média de Y menos a multiplicação de b pela média de x. Assim, percebe-se muito claramente que a regressão depende da correlação entre as variáveis, além de medidas de centro de cada uma das variáveis. Segue abaixo o resultado da regressão entre as variáveis Trabalho e H6. Regression Analysis: T versus H6 The regression equation is T = 2,89 + 0,0250 H6 Predictor Coef SE Coef T P Constant 2, , ,28 0,000 H6 0, , ,29 0,000 S = 1,03883 R-Sq = 9,6% R-Sq(adj) = 9,6% Analysis of Variance Source DF SS MS F P Regression 1 636,53 636,53 589,83 0,000 Residual Error ,45 1,08 Total ,97 A tabela acima exibe o resultado da fórmula entre as variáveis Trabalho e H6. Se substituísse o valor de Trabalho se chegaria ao valor de H6 esperado. A é a expressão numérica da reta de tendência que vimos nos itens acima. Esta equação tem um poder explicativo de 57,5%, que é o R-Quadrado. O valor da constante 2,89 significa que, se o H6 fosse zero, o valor do Educação seria 2, DENDROGRAMA.

99 Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação icônica que organiza determinados fatores e variáveis. É um diagrama de similaridade. A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo. Segue abaixo o Dendrograma das variáveis analisadas: STAT >> MULTIVARIATE >> CLUSTER VARIABLE Dendrogram with Single Linkage and Correlation Coefficient Distance 54,10 Similarity 69,40 84,70 100,00 ISDM EMP&RENDA H6 E2_4 T T1_2 T1_1 T2_1 LIQ R1 S1_1 Variables As variáveis T e T1_2 são as que possuem o maior nível de similaridade, por volta de 90%. As demais variáveis (Emp&Renda, E2_4, H6) também são muito similares, variando até 80%. Já as variáveis ISDM, R1, S1_1, LIQ, T2_1 e T1_1 encontram-se com baixo nível de similaridade. Cluster Analysis of Variables: ISDM; EMP&RENDA; LIQ; H6; R1; S1_1; E2_4; T;...

100 Correlation Coefficient Distance, Single Linkage Amalgamation Steps Number Number of obs. of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,9204 0, ,6440 0, ,9962 0, ,3527 0, ,6073 0, ,9854 0, ,1553 0, ,5702 0, ,0506 0, ,0965 0, MODELOS DE REGRESSÃO LINEAR MULTIPLOS CORRELAÇÃO LINEAR, ANÁLISE DE REGRAÇÃO E STEPWISE. Para o estudo em questão, queremos entender quais variáveis explicam melhor a variável específica. Para tanto utilizaremos o grupo das variáveis analíticas e sintética, comparando com a variável Educação. Inicialmente serão analisadas as correlações lineares entre a variável TRABALHO com as variáveis analíticas e sintéticas, relacionadas a este estudo, para verificar quais variáveis melhor explicam o TRABALHO. Correlations: ISDM; EMP&RENDA; LIQ; H6; R1; S1_1; E2_4; T; T1_1; T1_2; T2_1 ISDM EMP&RENDA LIQ H6 R1 S1_1 EMP&RENDA 0,115 0,000 LIQ 0,089 0,197 0,000 0,000 H6 0,158 0,210 0,260 0,000 0,000 0,000 R1-0,194-0,510-0,308-0,709 0,000 0,000 0,000 0,000 S1_1 0,003-0,076-0,049-0,115 0,140 0,819 0,000 0,000 0,000 0,000 E2_4 0,155 0,364 0,263 0,613-0,768-0,128 0,000 0,000 0,000 0,000 0,000 0,000

101 T 0,147 0,510 0,190 0,310-0,648-0,088 0,000 0,000 0,000 0,000 0,000 0,000 T1_1 0,069 0,071 0,201 0,432-0,390-0,078 0,000 0,000 0,000 0,000 0,000 0,000 T1_2 0,171 0,587 0,302 0,449-0,782-0,112 0,000 0,000 0,000 0,000 0,000 0,000 T2_1-0,031-0,155 0,082 0,108 0,083-0,002 0,020 0,000 0,000 0,000 0,000 0,858 E2_4 T T1_1 T1_2 T 0,490 0,000 T1_1 0,354 0,062 0,000 0,000 T1_2 0,599 0,839 0,170 0,000 0,000 0,000 T2_1-0,038-0,687 0,339-0,202 0,004 0,000 0,000 0,000 Cell Contents: Pearson correlation P-Value As correlações significativas de acordo com o P-Value, para este trabalho, será considerada significativa quando >= 0,70). Apenas a variável T1_2 possui um coeficiente de correlação satisfatoriamente forte com a variável dependente Educação REGRESSÃO: TRABALHO COM DEMAIS VARIÁVEIS DO ESTUDO. Regression Analysis: T versus ISDM; EMP&RENDA;... The regression equation is T = - 1,09-0, ISDM + 0, EMP&RENDA + 0, LIQ - 0, H6-0, R1 + 0, S1_1 + 0, E2_4 + 0,0415 T1_1 + 0,0415 T1_2-0,0831 T2_ cases used, 22 cases contain missing values Predictor Coef SE Coef T P Constant -1, , ,80 0,000 ISDM -0, , ,21 0,837 EMP&RENDA 0, , ,37 0,712 LIQ 0, , ,23 0,818 H6-0, , ,69 0,490 R1-0, , ,78 0,433 S1_1 0, , ,97 0,330 E2_4 0, , ,63 0,104 T1_1 0, , ,89 0,000

102 T1_2 0, , ,90 0,000 T2_1-0, , ,56 0,000 S = 0, R-Sq = 100,0% R-Sq(adj) = 100,0% Analysis of Variance Source DF SS MS F P Regression ,66 662, ,44 0,000 Residual Error ,05 0,00 Total ,71 O R-Square é absoluto = 100% e todos os valores Betas da equação apresentam valores próximos a zero, indicando baixo poder explicativo da variável TRABALHO. Por exemplo, a variação de Liquidez leva a uma variação de apenas 0, no TRABALHO. O P-value das variáveis possui valores baixos, sendo confiáveis para a explicação da variável TRABALHO STEPWISE DO TRABALHO COM FILTRO DOS RESULTADOS OBTIDOS. A análise STEPWISE demonstra o percentual de composição das variáveis Predictors na equação da Response. Stepwise Regression: T versus ISDM; EMP&RENDA;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is T on 10 predictors, with N = 5543 N(cases with missing observations) = 22 N(all cases) = 5565 Step Constant 1,418 2,579-1,089-1,089 T1_2 0, , , ,04153 T-Value 114,50 400, , ,19 P-Value 0,000 0,000 0,000 0,000 T2_1-0, , ,08307 T-Value -296, , ,86 P-Value 0,000 0,000 0,000 T1_1 0, ,04154 T-Value 3736, ,25 P-Value 0,000 0,000 E2_4 0,00001 T-Value 2,14 P-Value 0,032

103 S 0,596 0,145 0, ,00289 R-Sq 70,29 98,24 100,00 100,00 R-Sq(adj) 70,29 98,23 100,00 100,00 Mallows C-p , ,5 3,6 1,1 O Próximo passo é calcular a formula utilizando as vaiáveis demonstradas pela função Stepwise como sendo as que mais explicam o Trabalho. STAT >> REGRESSION >> REGRESSION. A fórmula resultante é: T = - 1,09-0, ISDM + 0, EMP&RENDA + 0, LIQ - 0, H6-0, R1 + 0, S1_1 + 0, E2_4 + 0,0415 T1_1 + 0,0415 T1_2-0,0831 T2_1 Nesta equação foram utilizadas as variáveis analíticas e sintéticas. Uma outra forma de se fazer este estudo oseria isolar um primeiro grupo de cálculo utilizando apenas as variáveis analíticas e um segundo grupo com as variáveis sintéticas. 3.5 COMPARAÇÕES. A estimação e os testes de hipóteses estão relacionados a inferência estatística. A estimação refere-se a utilizar os dados da amostra para estimar os parâmetros populacionais desconhecidos, enquanto os testes de hipóteses são utilizados para verificar a validade destes parâmetros obtidos da amostra em relação aos parâmetros da população, dado um certo grau de confiança. O teste de hipótese também nos permite comparar parâmetros de populações distintas de forma a fazermos inferências estatísticas sobre estas populações. Essencialmente as comparações realizadas nos testes de hipóteses se valem de testar uma hipótese nula (H0)e uma hipótese alternativa (H1) estabelecendo-se um grau de confiança em relação a se aceitar ou rejeitar as hipóteses estabelecidas. Para realização dos testes de hipóteses pode-se utilizar dois tipos de abordagem: 1) A do intervalo de confiança na qual se faz o teste objetivando verificar a pertinência de um parâmetro em um intervalo de valores com certa probabilidade de acerto.

104 2) A do teste de significância leva em consideração a probabilidade de cometer-se um erro do tipo I (rejeitar a hipótese nula quando ela é verdadeira). Para procurar evitar que este erro aconteça deve-se arbitrar para o teste uma baixa probabilidade de sua ocorrência e depois comparar com o p-value determinado pelo teste. Assim quando é dito que um teste é estatisticamente significativo implica rejeitar a hipótese nula. O presente trabalho propõe a comparação das médias entre as diversas regiões do Brasil, de acordo com as variáveis deste estudo. O objetivo é comparar a média dos indicadores e realizar testes de hipóteses das cidades com maiores índices de desenvolvimento Variável ISDM por Região. 7 Boxplot of ISDM by Região 6 5 ISDM Centro-Oeste Nordeste Norte Região Sudeste Sul A Região Sudeste possui o maior ISDM do país, o que indica que de acordo com este índice é a Região mais desenvolvida do Brasil, segundo a pesquisa. A região Sul encontra-se próxima a Região Sudeste, e ocupa o segundo lugar.

105 A Região que apresenta o ISDM médio mais baixo do País é a Norte, seguida da Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância. One-way ANOVA: ISDM versus Região Source DF SS MS F P Região , , ,30 0,000 Error ,205 0,442 Total ,582 S = 0,6648 R-Sq = 63,02% R-Sq(adj) = 63,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 4,6956 0,5251 (*) Nordeste ,4112 0,7135 (* Norte 447 3,3036 0,9793 (*) Sudeste ,2606 0,6436 (* Sul ,1271 0,5013 *) ,60 4,20 4,80 5,40 Pooled StDev = 0,6648 O grau de variação entre as Regiões é muito alto (2369,30), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente Variável TRABALHO por Região.

106 Boxplot of T by Região T Centro-Oeste Nordeste Norte Região Sudeste Sul No indicador de Trabalho, podemos verificar que a Região Sudeste (4,8762) possui o maior índice de Trabalho Médio, e seguida da Região Sul (4,5653), e o menor índice é o da Região Nordeste (3,5481). A variação entre a média da Região Norte (3,6676) e da Nordeste é bem pequena. One-way ANOVA: T versus Região Source DF SS MS F P Região , , ,52 0,000 Error ,304 0,867 Total ,973 S = 0,9309 R-Sq = 27,43% R-Sq(adj) = 27,38% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 4,4308 0,7428 (-*-) Nordeste ,5481 0,8295 (*) Norte 447 3,6676 0,8918 (-*-) Sudeste ,8762 0,9051 (*) Sul ,5653 1,1627 (*) ,60 4,00 4,40 4,80 Pooled StDev = 0, Variável EMPREGO E RENDA por Região.

107 One -way ANOVA: EMP&RENDA versus Região Source DF SS MS F P Região 4 17,8396 4, ,84 0,000 Error ,0456 0,0210 Total ,8852 S = 0,1448 R - Sq = 13,32% R- Sq(adj) = 13,26% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro -Oeste 464 0,4183 0,1391 (---*--) Nordeste ,3349 0,1290 (- *) Norte 445 0,3416 0,1422 (--*---) Sudeste ,4496 0,1682 (* -) Sul ,4624 0,1344 (- *-) ,360 0,400 0,440 0,480 Pooled StDev = 0, Variável LIQUIDEZ por Região

108 Bo x p l ot o f LIQ I Qc L 1,0 0,8 0,6 0,4 0,2 0,0 C entr o-o e s te Nordes t e Nort e R eg ião S ud e s te S ul One -way ANOVA: LIQ versus Região Source DF SS MS F P Região 4 99,198 24, ,94 0,000 Error ,095 0,122 Total ,293 S = 0,3487 R - Sq = 12,79% R- Sq(adj) = 12,73% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro -Oeste 468 0,6541 0,3415 (--*---) Nordeste ,3825 0,3591 (*- ) Norte 447 0,5411 0, * ( --) Sudeste ,5719 0,3564 (*-) Sul ,7402 0,3084 -( *-) ,40 0,50 0,60 0,70 Pooled StDev = 0, Variável H6 por Região

109 Bo x p l ot of H 6 1,0 6 c H 0,8 0,6 0,4 0,2 0,0 Cen t ro-o es t e Nord este N o rt e Re g i ão S u d es te S u l One-way ANOVA: H6 versus Região Source DF SS MS F P Região 4 73, , ,35 0,000 Error ,3446 0,0125 Total ,7976 S = 0,1117 R-Sq = 51,44% R - Sq( adj ) = 51,40% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro -Oeste 468 0,6321 0,1147 (*) Nordeste ,4774 0,1044 (*) Norte 447 0,3725 0,1728 (*) Sudeste ,6421 0,1065 (*) Sul ,7330 0,0983 (*) ,40 0,50 0,60 0,70 Pooled StDev = 0, Variável R1 por Região

110 B o x p lot o f R1 1 c R 1, 0 0, 8 0, 6 0, 4 0, 2 0, 0 Ce n t ro-oeste Nordeste Nort e R egiã o S u de s te S ul One -way ANOVA: R1 versus Região Source DF SS MS F P Região 4 185, , ,34 0,000 Error ,8304 0,0172 Total ,1720 S = 0,1313 R -Sq = 65,92% R -Sq(adj ) = 65,89% Level N Mean StDev Centro - Oeste 468 0,1925 0,1171 Nordeste ,5388 0,1346 Norte 447 0,5026 0,1928 Sudeste ,1777 0,1339 Sul ,1281 0,0940 Individual 95% CIs For Mean Based on Pooled Level Centro - Oeste (*) Nordeste (*) Norte (*) Sudeste (*) Sul (*) ,12 0,24 0,36 0,48 StDev Pooled StDev = 0, Variável S1_1 por Região

111 Bo xp lot o f S 1 1 c S 1, 0 0, 8 0, 6 0, 4 0, 2 0, 0 C e n tro- Oeste No rd est e Nort e R e g i ã o S ude ste Sul One-way ANOVA: S1_1 versus Região Source DF SS MS F P Região 4 0, , ,14 0,000 Error , ,00181 Total ,21404 S = 0,04249 R- Sq = 1,71% R- Sq( adj ) = 1,64% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro -Oeste 468 0, ,05074 (-----*----) Nordeste , ,03271 (--*--) Norte 447 0, ,04539 (----*-----) Sudeste , ,04173 (--*--) Sul , ,05104 (---*--) ,0350 0,0420 0,0490 0,0560 Pooled StDev = 0,04249

112 3.5.9 Variável E2_4 por Região Variável R1 por Região. B o x p lo t o f R 1 1 c R 1, 0 0, 8 0, 6 0, 4 0, 2 0, 0 C en tro - Oe st e No r d este Norte R e gião Su d e st e Su l One - way ANOVA: R1 versus Região Source DF SS MS F P Região 4 185, , ,34 0,000 Error ,8304 0,0172 Total ,1720 S = 0,1313 R - Sq = 65,92% R - Sq( adj) = 65,89% Level N Mean StDev Centro - Oeste 468 0,1925 0,1171 Nordeste ,5388 0,1346 Norte 447 0,5026 0,1928 Sudeste ,1777 0,1339 Sul ,1281 0,0940 Individual 95% CIs For Mean Based on Pooled Level Centro - Oeste (*) Nordeste (*) Norte (*) Sudeste (*) Sul (*) ,12 0,24 0,36 0,48 StDev Pooled StDev = 0,1313

113 3.5.7 Variável T1_2 por Região B o xpl o t o f T1 2 2 c 1 T 1,0 0,8 0,6 0,4 0,2 0,0 C e n t ro-o est e Nordeste No rt e R e gião S u des t e S u l One-way ANOVA: T12 versus Região Source DF SS MS F P Região 4 102, , ,67 0,000 Error ,4330 0,0240 Total ,1162 S = 0,1549 R-Sq = 43,49% R - Sq( adj ) = 43,45% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro -Oeste 468 0,5930 0,1337 (*- ) Nordeste ,3928 0,1510 (*) Norte 447 0,4486 0,1542 (- *) Sudeste ,6581 0,1782 (*) Sul ,7203 0,1321 (*) ,40 0,50 0,60 0,70 Pooled StDev = 0,1549

114 3.5.8 Variável S1_1 por Região. B o xpl o t o f S1 1 1 c S 1, 0 0, 8 0, 6 0, 4 0, 2 0, 0 Ce ntro- Oeste No rd est e Nort e R eg ião S u de s t e S u l One-way ANOVA: S11 versus Região Source DF SS MS F P Região 4 0, , ,14 0,000 Error , ,00181 Total ,21404 S = 0,04249 R- Sq = 1,71% R- Sq( adj ) = 1,64% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro -Oeste 468 0, ,05074 (-----*----) Nordeste , ,03271 (--*--) Norte 447 0, ,04539 (----*-----) Sudeste , ,04173 (--*--) Sul , ,05104 (---*--) ,0350 0,0420 0,0490 0,0560 Pooled StDev = 0,04249

115 3.5.9 Variável E2_4 por Região 1, 0 B o xp l o t o f E2_ 4 0, 8 4 c E 2 0, 6 0, 4 0, 2 0, 0 Ce nt ro- O e s t e No r d e s t e Nor te Regiã o S ud e s te S u l One-way ANOVA: E2_4 versus Região Source DF SS MS F P Região 4 76, , ,82 0,000 Error ,1806 0,0130 Total ,9736 S = 0,1139 R-Sq = 51,55% R - Sq( adj ) = 51,51% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro -Oeste 468 0,8011 0,0887 (* -) Nordeste ,5881 0,1298 (*) Norte 447 0,5969 0,1841 (*-) Sudeste ,8245 0,1017 (*) Sul ,8444 0,0711 (*) ,630 0,700 0,770 0,840 Pooled StDev = 0, Variável T1_1 por Região

116 Boxplot of T1_1 by Região T1_ Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: T1_1 versus Região Source DF SS MS F P Região ,6 5267,1 479,04 0,000 Error ,3 11,0 Total ,8 S = 3,316 R-Sq = 25,63% R-Sq(adj) = 25,58% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,887 2,428 (-*-) Nordeste ,119 4,213 (*) Norte ,172 3,781 (-*--) Sudeste ,373 2,910 (*-) Sul ,451 2,269 (*) ,5 93,0 94,5 96,0 Pooled StDev = 3, T1_2 por Região

117 100 Boxplot of T1_2 by Região T1_ Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: T1_2 versus Região Source DF SS MS F P Região ,66 0,000 Error Total S = 13,71 R-Sq = 43,49% R-Sq(adj) = 43,45% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,89 11,83 (-*) Nordeste ,17 13,36 *) Norte ,10 13,65 (-*) Sudeste ,65 15,77 (*) Sul ,16 11,69 (*) ,0 56,0 64,0 72,0 Pooled StDev = 13, Variável T2_1 por Região

118 80 Boxplot of T2_1 by Região T2_ Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: T2_1 versus Região Source DF SS MS F P Região , ,1 215,51 0,000 Error ,7 53,3 Total ,1 S = 7,300 R-Sq = 13,42% R-Sq(adj) = 13,36% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 9,959 5,526 (--*-) Nordeste ,338 6,203 (*-) Norte ,889 6,460 (--*-) Sudeste ,218 4,704 (-*) Sul ,255 11,511 (-*-) ,5 10,0 12,5 15,0 Pooled StDev = 7, ANÁLISE MULTIVARIADA COMPONENTES PRINCIPAIS. Este estudo efetuará uma análise das correlações e dos componentes principais (análise multivariada) de dados quantitativos sobre os dados de desenvolvimento dos Municípios do Brasil. Para tal, iniciamos com análise da estatística descritiva. Em seguida passamos para a análise das correlações e dendrogramas. Na terceira parte utilizamos a análise dos componentes principais.

119 3.6.1 CORRELAÇÃO LINEAR. Segue abaixo a matriz de correlação incluindo o teste de significância p-value. Para a correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as variáveis não requer que exista uma relação de causa-efeito entre ambas. Correlations: ISDM; EMP&RENDA; LIQ; H6; R1; S1_1; E2_4; T; T1_1; T1_2; T2_1 ISDM EMP&RENDA LIQ H6 R1 S1_1 EMP&RENDA 0,115 0,000 LIQ 0,089 0,197 0,000 0,000 H6 0,158 0,210 0,260 0,000 0,000 0,000 R1-0,194-0,510-0,308-0,709 0,000 0,000 0,000 0,000 S1_1 0,003-0,076-0,049-0,115 0,140 0,819 0,000 0,000 0,000 0,000 E2_4 0,155 0,364 0,263 0,613-0,768-0,128 0,000 0,000 0,000 0,000 0,000 0,000 T 0,147 0,510 0,190 0,310-0,648-0,088 0,000 0,000 0,000 0,000 0,000 0,000 T1_1 0,069 0,071 0,201 0,432-0,390-0,078 0,000 0,000 0,000 0,000 0,000 0,000 T1_2 0,171 0,587 0,302 0,449-0,782-0,112 0,000 0,000 0,000 0,000 0,000 0,000 T2_1-0,031-0,155 0,082 0,108 0,083-0,002 0,020 0,000 0,000 0,000 0,000 0,858 E2_4 T T1_1 T1_2 T 0,490 0,000 T1_1 0,354 0,062 0,000 0,000 T1_2 0,599 0,839 0,170 0,000 0,000 0,000 T2_1-0,038-0,687 0,339-0,202 0,004 0,000 0,000 0,000 As correlações significativas de acordo com o P-Value, para este trabalho, será considerada significativa quando >= 0,70). Apenas a variável T1_2 possui um coeficiente de correlação satisfatoriamente forte com a variável dependente Educação.

120 3.6.2 DENDROGRAMA. A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo. Dendrogram with Single Linkage and Correlation Coefficient Distance 54,10 Similarity 69,40 84,70 100,00 ISDM EMP&RENDA H6 E2_4 T T1_2 T1_1 T2_1 LIQ R1 S1_1 Variables As variáveis T e T1_2 são as que possuem o maior nível de similaridade, por volta de 90%. As demais variáveis (Emp&Renda, E2_4, H6) também são muito similares, variando até 80%. Já as variáveis ISDM, R1, S1_1, LIQ, T2_1 e T1_1 encontram-se com baixo nível de similaridade.

121 Dendrogram with Single Linkage and Correlation Coefficient Distance 54,10 Similarity 69,40 84,70 100,00 ISDM EMP&RENDA H6 E2_4 T T1_2 T1_1 T2_1 LIQ R1 S1_1 Variables O Dendrograma acima demonstra um primeiro grupo de dados composto pelas variáveis IDM, EMP&RENDA, H6, E2_4, T, T1_2, T1_1, T2_1. As variáveis que apresentam menor nível de similaridade são R1 e S1_ PRINCIPAIS COMPONENTES. >> STAT >> MULTIVARIATE >> Principal Components Principal Component Analysis: ISDM; EMP&RENDA; LIQ; H6; R1; S1_1; E2_4; T; T1_1 Eigenanalysis of the Correlation Matrix 5543 cases used, 22 cases contain missing values Eigenvalue 4,2285 1,8479 1,0045 0,9217 0,8649 0,7253 0,5656 0,3667 Proportion 0,384 0,168 0,091 0,084 0,079 0,066 0,051 0,033 Cumulative 0,384 0,552 0,644 0,728 0,806 0,872 0,923 0,957 Eigenvalue 0,3445 0,1304 0,0000 Proportion 0,031 0,012 0,000 Cumulative 0,988 1,000 1,000 Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 ISDM -0,123 0,018-0,595 0,789-0,066 0,031-0,050-0,015 EMP&RENDA -0,303-0,171-0,005-0,102-0,266 0,734-0,102 0,439 LIQ -0,197 0,174-0,119-0,179-0,836-0,422 0,001 0,056 H6-0,335 0,311-0,003 0,007 0,264-0,221 0,358 0,609 R1 0,451-0,091-0,009 0,037-0,128-0,028-0,128 0,043

122 S1_1 0,087-0,060-0,793-0,566 0,196 0,010 0,016-0,003 E2_4-0,391 0,144 0,030-0,031 0,198-0,075 0,285-0,323 T -0,386-0,401 0,022-0,038 0,065-0,156-0,228-0,119 T1_1-0,185 0,488 0,017-0,062 0,190-0,059-0,816 0,033 T1_2-0,428-0,142-0,002-0,075-0,064 0,149 0,022-0,456 T2_1 0,105 0,626-0,034-0,039-0,136 0,420 0,207-0,322 Variable PC9 PC10 PC11 ISDM 0,019 0,008-0,000 EMP&RENDA 0,225 0,070 0,000 LIQ 0,070-0,019 0,000 H6-0,297 0,292-0,000 R1 0,083 0,863-0,000 S1_1 0,009-0,005 0,000 E2_4 0,735 0,235 0,000 T -0,176 0,155-0,734 T1_1 0,061 0,048 0,107 T1_2-0,469 0,279 0,508 T2_1-0,234 0,075-0,438 Existe um peso muito grande da primeira variável e as demais estão mais distantes. As 2 variáveis seguintes possuem peso maior que 1, e as demais possuem um peso abaixo. A conclusão é que podemos resumir as 11 variáveis em 3 principais variáveis para efeito de simplificação do trabalho com dados contendo muitas colunas. Scree Plot of ISDM;...; T2_1 4 3 Eigenvalue Component Number O gráfico acima demonstra a representatividade das variáveis para o componente, ou o grau de equivalência. Existe um peso muito grande da primeira variável e as 2 variáveis seguintes possuem peso maior que 1, e as demais possuem um peso abaixo.

123 0,75 0,50 Loading Plot of ISDM;...; T2_1 T1_1 T2_1 Second Component 0,25 0,00 H6 E2_4 T1_2 EMP&RENDA LIQ ISDM S1_1 R1-0,25 T -0,50-0,50-0,25 0,00 First Component 0,25 0,50 Podemos observar que as variáveis R1 e S1_1 encontram-se isoladas. As demais variáveis tem certa proximidade. Um grupo bastante visível é composto pelas variáveis Emprego e Renda, T, T1_2. Além disso, um outro grupo composto por E2_4, H6, LIQ e ISDM. Por último, a variável T2_1 que está fora do padrão. 3D Scatterplot of CP3 vs CP2 vs CP1 Região Centro-Oeste Nordeste Norte Sudeste Sul 2 CP CP CP2

124 O gráfico acima é uma visão multidimensional das variáveis CP1, CP2 e CP3 agrupadas por região. 3D Scatterplot of CP3 vs CP2 vs CP1 CP CP CP2 UF 2 A C A L A M A P BA C E DF ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP O gráfico acima repete a visão multidimensional das variáveis CP1, CP2 e CP3, agora agrupadas por estado. Nos dois gráficos a dificuldade de visualização dos dados ocorre pelo número elevado de indivíduos que compõem a população (5565 municípios). Pelo resultado das análises da correlação linear, dendograma e principais componentes, os dados podem ser reduzidos para três variáveis, o que torna o trabalho com os números mais fáceis e de prático manuseamento. 3.7 ANÁLISE DE CONGLOMERADOS DENDROGRAMA DA MÉDIA DE DESENVOLVIMENTO POR ESTADO. O Dendrograma permite uma análise do grau de similaridade dos dados para uma determinada variável. Em seguida geramos o Dendrograma da média de desenvolvimento dos municípios, agrupado por Estado.

125 Dendrogram with Single Linkage and Euclidean Distance 72,78 Similarity 81,85 90,93 100,00 PE PI CE BA AL AC PB AP MG SP PR RO TO ES RS AM Observations SC RN RR PA MA SE MT RJ MS GO Podemos observar no gráfico acima que existem 2 grandes grupos por similaridade, e também alguns estados com baixo grau de similaridade (abaixo de 80%). É possível gerar o gráfico solicitando um número específico de cluster, no caso abaixo foi solicitado que se gerasse 5 clusters. Dendrogram with Single Linkage and Euclidean Distance 72,78 Similarity 81,85 90,93 100,00 PE PI CE BA AL AC PB AP MG SP PR RO TO ES RS AM Observations SC RN RR PA MA SE MT RJ MS GO

126 Neste caso, os destaques ficaram para os estados AM, RS e SC, que possuem baixo nível de similaridade com os demais estados. Podemos concluir que o nível de desenvolvimento do Brasil pode ser dividido em 2,5 Brasis, sendo o primeiro grupo composto pelos estados em vermelho e o segundo grupo pelos estados em azul e o terceiro pelos estados com baixa similaridade sobre as médias de desenvolvimento dos municípios DENDROGRAMA DA DESIGUALDADE DE DESENVOLVIMENTO POR ESTADO. Neste exemplo será demonstrado o índice de desigualdade de desenvolvimento dos municípios do Brasil agrupados por estados. Utilizaremos para isso o desvio padrão dos índices de desenvolvimento que representa uma medida de disparidade no estado. Dendrogram with Single Linkage and Euclidean Distance 52,83 Similarity 68,55 84,28 100,00 ES PE AL AC CE PA BA AM PR MA MS RO RN MG PB PI AP SE RJ SP Observations RR SC MT GO RS TO Foram considerados 2 cluster neste primeiro agrupamento, sendo o primeiro composto pelos estado do RS, e o segundo pelos demais estados. Vamos executar novamente com 5 clusters:

127 Dendrogram with Single Linkage and Euclidean Distance 52,83 Similarity 68,55 84,28 100,00 ES PE AL AC CE PA BA AM PR MA MS RO RN MG PB PI AP SE RJ SP Observations RR SC MT GO RS TO O grau de similaridade dos índices de desigualdade dos estados é muito variado. De um lado apresenta um grande grupo composto pelos estados em verde, um segundo grupo e os demais com baixo nível de similaridade em relação às desigualdades. 3.8 ANÁLISE DISCRIMINANTE. A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e classificar objetos. É uma técnica da estatística multivariada que estuda a separação de objetos de uma população em duas ou mais classes. A discriminação ou separação é a primeira etapa, sendo a parte exploratória da análise e consiste em se procurar características capazes de serem utilizadas para alocar objetos em diferentes grupos previamente definidos. A classificação ou alocação pode ser definida como um conjunto de regras que serão usadas para alocar novos objetos. O presente trabalho tem por objetivo efetuar uma análise comparativa de médias, intervalos de confiança e regressões de dados de indicadores relacionados ao desenvolvimento humano dos municípios do Brasil. Utilizamos a análise discriminante

128 para tentar predizer ou explicar os indicadores relacionados ao desenvolvimento da educação dos municípios do Brasil. Contudo, a função que separa objetos pode também servir para alocar, e o inverso, regras que alocam objetos podem ser usadas para separar. Normalmente, discriminação e classificação se sobrepõem na análise, e a distinção entre separação e alocação é confusa. O problema da discriminação entre dois ou mais grupos, visando posterior classificação consiste em obter funções matemáticas capazes de classificar um indivíduo X (uma observação X) em uma de várias populações, com base em medidas de um número p de características, buscando minimizar a probabilidade de má classificação ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO. A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e classificar objetos, e estuda a separação de objetos de uma população em duas ou mais classes. Neste caso queremos discriminar os indicadores de desenvolvimento dos municípios do Brasil, e utilizaremos inicialmente a variável categórica Região. O comando Minitab para executar esta função e: STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS

129 **** Foi retirada a variável E2_1, pois, o Minitab apresentava um erro quando a considerava. A região que acertou mais é Sudeste (0,572) e a que errou mais é o Norte (0,466). O gráfico exibe o cruzamento de dados entre as regiões. Por exemplo, a região Sudeste possui 1663 municípios e apenas 952 correspondem a região, sendo que 273 são semelhantes aos dados da região Centro-Oeste. O nome desta matriz é confusion matrix ou matriz de confusão. Podemos concluir que o agrupamento por região não é uma boa escolha segundo esta avaliação. O percentual correto = 0, ANÁLISE DISCRIMINANTE LINEAR POR 3 BRASIS. Neste caso queremos discriminar os indicadores de desenvolvimento dos municípios do Brasil, e utilizaremos a variável categórica Brasis3m, que representa os agrupamentos segundo a análise anterior do Dendrograma por similaridade dos dados. Discriminant Analysis: 3 Brasis versus ISDM; EMP&RENDA;... Linear Method for Response: 3 Brasis Predictors: ISDM; EMP&RENDA; LIQ; H6; R1; S1_1; E2_4; T; T1_1; T1_2 Group Centro-Oeste Nor Su Count

130 5543 cases used, 22 cases contain missing values Summary of classification True Group Put into Group Centro-Oeste Nor Su Centro-Oeste Nor Su Total N N correct Proportion 0,543 0,810 0,717 N = 5543 N Correct = 4099 Proportion Correct = 0,739 O nome desta matriz é confusion matrix ou matriz de confusão. O percentual correto = 0,739. O percentual de acerto para esta análise foi maior que para o cruzamento dos dados de Regiões do Brasil ANÁLISE DISCRIMINANTE QUADRÁTICA POR 3 BRASIS. Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca probabilidade de má classificação, e para que isso ocorra a regra de classificação deve considerar as probabilidades a priori e os custos de má classificação. Outro fator que uma regra de classificação deve considerar é se as variâncias das populações são iguais ou não. Quando a regra de classificação assume que as variâncias das populações são iguais, as funções discriminantes são ditas lineares e quando não são funções discriminantes quadráticas. Vamos agora verificar a função quadrática para 3 Brasis. Discriminant Analysis: 3 Brasis versus ISDM; EMP&RENDA;... Quadratic Method for Response: 3 Brasis Predictors: ISDM; EMP&RENDA; LIQ; H6; R1; S1_1; E2_4; T; T1_1; T1_2 Group Centro-Oeste Nor Su Count cases used, 22 cases contain missing values

131 Summary of classification True Group Put into Group Centro-Oeste Nor Su Centro-Oeste Nor Su Total N N correct Proportion 0,616 0,815 0,698 N = 5543 N Correct = 4092 Proportion Correct = 0,738 No modelo quadrático a proporção foi apenas 0,001 abaixo da versão linear. Considerando essa pequena diferença e seguindo o pensamento da simplicidade, vamos escolher o método linear por ser o mais simples. 3.9 REGRESSÃO LOGÍSTICA. A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias1 2. A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações, como modelo logístico e classificador de máxima entropia. No domínio dos seguros, permite encontrar frações da clientela que sejam sensíveis a determinada política securitária em relação a um dado risco particular, em instituições financeiras, pode detectar os grupos de risco para a subscrição de um crédito e em econometria, permite explicar uma variável discreta, como por exemplo as intenções de voto em atos eleitorais. O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos. Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo fato de a variável resposta ser categórica. Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em

132 estatística exploratória. É possível de as colocar em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver. Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros fatores. O comando no Minitab para esta função é: Stat >> Regression >> Ordinal Logistical Regression Ordinal Logistic Regression: Região versus ISDM; EMP&RENDA;... Link Function: Logit Response Information Variable Value Count Região Centro-Oeste 464 Nordeste 1783 Norte 443 Sudeste 1665 Sul 1188 Total 5543 * NOTE * 5543 cases were used * NOTE * 22 cases contained missing values Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) -12,2437 9, ,31 0,191 Const(2) -9, , ,06 0,291 Const(3) -9, , ,00 0,317 Const(4) -7, , ,81 0,420 ISDM -0, , ,63 0,000 0,37 0,35 0,39 EMP&RENDA 0, , ,53 0,597 1,11 0,75 1,65 LIQ -0, , ,14 0,256 0,92 0,80 1,06 H6-0, , ,17 0,030 0,99 0,99 1,00 R1-0, , ,58 0,113 0,99 0,99 1,00 S1_1 0, , ,53 0,596 1,00 1,00 1,00 E2_4 0, , ,41 0,681 1,00 0,99 1,01 T -14,2532 8, ,66 0,096 0,00 0,00 12,86 T1_1 0, , ,63 0,103 1,79 0,89 3,59 T1_2 0, , ,65 0,100 1,80 0,89 3,61 T2_1-1, , ,68 0,093 0,30 0,07 1,22 Log-Likelihood = -7202,886 Test that all slopes are zero: G = 1844,110, DF = 11, P-Value = 0,000 Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em

133 estatística exploratória. É possível de colocá-la em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver.

134 3.9.2 REGRESSÃO LOGÍSTICA AGRUPADA POR 3 BRASIS. Ordinal Logistic Regression: 3 Brasis versus ISDM; EMP&RENDA;... Link Function: Logit Response Information Variable Value Count 3 Brasis Centro-Oeste 464 Nor 2226 Su 2853 Total 5543 * NOTE * 5543 cases were used * NOTE * 22 cases contained missing values Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) -13, ,1683-1,21 0,228 Const(2) -10, ,1675-0,93 0,354 ISDM -1, , ,02 0,000 0,28 0,27 0,30 EMP&RENDA 0, , ,56 0,577 1,15 0,71 1,84 LIQ -0, , ,34 0,736 0,97 0,82 1,15 H6-0, , ,32 0,020 0,99 0,99 1,00 R1-0, , ,46 0,144 0,99 0,99 1,00 S1_1 0, , ,36 0,717 1,00 1,00 1,00 E2_4 0, , ,01 0,989 1,00 0,99 1,01 T -15, ,2241-1,52 0,129 0,00 0,00 91,94 T1_1 0, , ,51 0,132 1,90 0,82 4,36 T1_2 0, , ,51 0,131 1,90 0,83 4,37 T2_1-1, , ,52 0,128 0,27 0,05 1,45 Log-Likelihood = -3946,820 Test that all slopes are zero: G = 2259,594, DF = 11, P-Value = 0,000 Comparando os dois modelos vemos que o valor de G foi aumentado de 1844 para 2259, só que o algoritmo de Regressão Logística novamente não convergiu ANÁLISE DE CORRESPONDÊNCIA. Análise de correspondência é uma técnica de análise exploratória de dados adequada para analisar tabelas de duas entradas ou tabelas de múltiplas entradas, levando em conta algumas medidas de correspondência entre linhas e colunas. Consiste na conversão de uma matriz de dados não negativos em um tipo particular de representação gráfica em que as linhas e colunas da matriz são simultaneamente representadas em dimensão reduzida, isto é, por pontos no gráfico. Este método permite estudar as relações e semelhanças existentes entre as categorias de linhas e entre as categorias de

135 colunas de uma tabela de contingência ou o conjunto de categorias de linhas e o conjunto categorias de colunas. A análise de correspondência mostra como as variáveis dispostas em linhas e colunas estão relacionadas e não somente se a relação existe. Embora seja considerada uma técnica descritiva e exploratória, esta análise simplifica dados complexos e produz análises exaustivas de informações que suportam conclusões a respeito das mesmas. Possui diversos aspectos que a distingue de outras técnicas de análise de dados. A sua natureza multivariada permite revelar relações que não seriam detectadas em comparações aos pares das variáveis. É altamente flexível quanto a pressuposições sobre os dados: o único requisito é o de uma matriz retangular com entradas não negativas. É possível transformar qualquer característica quantitativa em qualitativa, realizando-se uma partição de seu domínio de variação em classes. A análise de correspondência é mais efetiva se a matriz de dados é bastante grande, de modo que a inspeção visual ou análise estatística simples não consegue revelar sua estrutura.

136 Análise de correspondência dos índices de desenvolvimento focando as variáveis relacionadas a TRABALHO Nesta análise serão trabalhados os estados e as médias de desenvolvimento por estado. Na análise de correspondência será gerado um mapa contendo quais estados estão mais próximos e quais variáveis tem a ver entre si. O comando para gerar o gráfico é: Nesta análise serão trabalhados os estados e as médias das variáveis relacionadas a trabalho por estado. Na análise de correspondência será gerado um mapa contendo quais estados estão mais próximos e quais variáveis tem a ver entre si. O comando para gerar o gráfico é: STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS Symmetric Plot 0,2 Component 2 0,1 0,0-0,1 SP RJ RN t3 i SE TO MS MG t MT ES PE AP GO AL AC t2 PR RO SC RS CE PB PIMA BAPA RR AM -0,2 t4-0,2-0,1 0,0 Component 1 0,1 0,2 Os círculos vermelhos são as médias das variáveis de trabalho por estado, e podem ser identificados pela sigla. Os estados do Amazonas, Roraima e

137 Rondônia se encontram na periferia do gráfico, e tem menos semelhança que os demais estados em relação ao trabalho. Simple Correspondence Analysis: TM-New; T1_1M-New; T1_2New; ISDM-M-New; T2_1M-N Contingency Table i t t2 t3 t4 Total AC AL AM AP BA CE ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO Total Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0118 0,7492 0,7492 ****************************** 2 0,0035 0,2187 0,9679 ******** 3 0,0004 0,0232 0, ,0001 0,0089 1,0000 Total 0,0158 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 AC 0,703 0,038 0,008 0,046 0,646 0,007-0,014 0,057 0,002 2 AL 0,317 0,037 0,004 0,021 0,264 0,001-0,009 0,053 0,001 3 AM 0,990 0,034 0,115 0,224 0,951 0,147-0,045 0,039 0,020 4 AP 0,449 0,038 0,009-0,039 0,402 0,005-0,013 0,047 0,002 5 BA 0,896 0,035 0,034 0,117 0,895 0,040 0,003 0,001 0,000 6 CE 0,973 0,034 0,050 0,121 0,626 0,042 0,090 0,347 0,079 7 ES 0,714 0,040 0,006-0,038 0,624 0,005 0,014 0,091 0,002 8 GO 0,489 0,040 0,004-0,027 0,476 0,002-0,005 0,014 0,000 9 MA 0,995 0,034 0,059 0,159 0,926 0,073 0,043 0,069 0, MG 0,885 0,040 0,011-0,056 0,686 0,011 0,030 0,198 0, MS 0,996 0,042 0,044-0,126 0,950 0,056 0,028 0,046 0, MT 0,897 0,041 0,014-0,070 0,889 0,017 0,007 0,008 0, PA 0,986 0,035 0,040 0,132 0,983 0,052 0,007 0,003 0,000

138 14 PB 0,903 0,035 0,032 0,106 0,800 0,034 0,038 0,103 0, PE 0,874 0,036 0,010 0,058 0,811 0,010 0,016 0,063 0, PI 0,988 0,034 0,046 0,140 0,927 0,057 0,036 0,060 0, PR 0,970 0,043 0,026-0,085 0,778 0,027-0,043 0,192 0, RJ 0,991 0,041 0,107-0,192 0,893 0,127 0,064 0,098 0, RN 1,000 0,035 0,020-0,001 0,000 0,000 0,094 1,000 0, RO 1,000 0,041 0,019 0,012 0,019 0,000-0,083 0,981 0, RR 0,992 0,037 0,045 0,116 0,700 0,042-0,075 0,292 0, RS 0,985 0,045 0,058-0,050 0,125 0,010-0,132 0,859 0, SC 0,996 0,047 0,075-0,100 0,395 0,040-0,124 0,600 0, SE 0,993 0,037 0,009-0,022 0,132 0,002 0,057 0,861 0, SP 0,996 0,043 0,153-0,230 0,950 0,194 0,051 0,046 0, TO 0,983 0,038 0,004-0,011 0,068 0,000 0,040 0,916 0,017 Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 i 0,600 0,024 0,022-0,077 0,422 0,012 0,050 0,178 0,018 2 t 0,998 0,565 0,197 0,065 0,769 0,202 0,036 0,230 0,207 3 t2 0,997 0,320 0,416-0,140 0,950 0,527-0,031 0,047 0,090 4 t3 0,591 0,025 0,052-0,134 0,538 0,037 0,042 0,053 0,013 5 t4 0,998 0,066 0,313 0,198 0,528 0,220-0,187 0,470 0, ÁRVORES DE CLASSIFICAÇÃO Arvore agrupada por região com as médias de desenvolvimento por estado focando trabalho. Como veremos este modelo tem um acerto de 100% utilizando exclusivamente a variável ocupação. Árvore classificatória Resumo do modelo Especificações Método de crescimento Variável dependente Variáveis independentes Validação CHAID Brasis5 TM, T1_1m, T1_2m, T2_1m, ISDMm, E&R-M, LIQ-M, H6-M, R1-M, S1_1-M, E2_4-M Nenhum Profundidade de árvore máxima 3 Casos mínimos em nó pai 2 Resultados Casos mínimos em nó filho 1 Variáveis independentes T1_1m incluídas Número de nós 7 Número de nós de terminal 6

139 Profundidade 1 Risco Estimativas Modelo padrão,000,000 Método de crescimento: CHAID Variável dependente: Brasis5 Posto Observado Previsto B1 B2 B3 B4 B5 Porcentagem Correta ,0% B ,0% B ,0% B ,0% B ,0% B ,0% Porcentagem global 99,5% 0,1% 0,1% 0,1% 0,1% 0,1% 100,0% Método de crescimento: CHAID Variável dependente: Brasis5

140 PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração Mestrado em Administração PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores relacionados a Habitação, Educação, Trabalho e muito particularmente SAÚDE MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA Professor Dr. Arnoldo Jose de Hoyos Elaine Pinheiro Palmeira

141 1 INTRODUÇÃO O objetivo deste trabalho é efetuar diversas análises dos dados da Pesquisa Firjan/FGV sobre o Desenvolvimento dos Municípios nos períodos de 2000 e Iniciamos com o entendimento dos dados, incluindo a definição dos indivíduos e das variáveis, suas classificações em variáveis categóricas ou quantitativas, os significados e unidades de medida, além da apresentação da tabela de dados. Em seguida, será analisada cada uma das variáveis separadamente quanto a sua forma de distribuição, os valores atípicos, medidas de centro e dispersão. Neste momento faremos uso de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-plot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling). Na sequência, faremos comparações entre as diversas variáveis analíticas, utilizando técnicas como relações entre as variáveis, regressões múltiplas, comparações, amostragem dos dados, análise multivariada, análise de conglomerados, análise discriminante, regressão logística, análise de correspondência e arvores de classificação. O software estatístico utilizado é o MINITAB 16 Não será possível, a partir destes dados, efetuarmos a análise de tendência pois não existem séries temporais de dados, requisitos para esta técnica. 2 OS DADOS 2.1 OS INDIVÍDUOS Os indivíduos deste trabalho são compostos pelas médias ponderadas dos indicadores das dimensões Habitação (H6), Renda (R1), Trabalho (T1_2), Saúde (S1_1) e Educação (E e E2_4), padronizados pela média do Brasil para os diferentes municípios. Ao todo são 5565 municípios considerados brasileiros, incluindo o Distrito Federal. Os dados analíticos foram extraídos do IBGE e possibilitam uma comparação entre os dados colhidos em 2000 com O foco da análise deste trabalho são os dados referentes à

142 O Brasil encontra-se política e geograficamente dividido em cinco regiões distintas, que possuem traços comuns referentes aos aspectos físicos, humanos, econômicos e culturais. Os limites de cada região - Norte, Nordeste, Sudeste, Sul e Centro-Oeste - coincidem sempre com as fronteiras dos Estados que as compõem. 2.2 AS VARIÁVEIS As variáveis desta pesquisa incluem os 3 principais índices sintéticos que são ISDM, IFDM e IFGF, que são médias ponderadas dos dados analíticos globais da pesquisa, e variáveis analíticas, referente à educação, saúde, renda, emprego e habitação. Tabela 1. Comparativo entre as Variáveis ISDM e IFDM Tabela 2. A definição das Variáveis Variável Significado Tipo Unidade de Medida REGIÃO Nome da Região do Brasil Texto Na UF Unidade da Federação Texto Na MUNICÍPIO Nome do Município Texto Na 3

143 ISDM Índice Social de Desenvolvimento Municipal: Média ponderada dos indicadores das dimensões Habitação, Renda, Trabalho, Saúde e Segurança e Educação (H, R, T, S e E) padronizada pela média do Brasil. Numérico Escala convertida para intervalo entre 0 e 1. EDUCAÇÃO Média ponderada dos indicadores da dimensão Educação (E1_1, E1_2, E2_1, E2_2, E2_3, E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3) padronizada pela média do Brasil. Numérico Escala convertida para intervalo entre 0 e 1. EMPREGO E RENDA Geração, estoque e salários médios dos empregos formais (IFDM). Numérico Escala convertida para intervalo entre 0 e 1. LIQUIDEZ Índice de liquidez dos municípios. Numérico Escala convertida para intervalo entre 0 e 1. H6 Percentual de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2. Numérico Escala convertida para intervalo entre 0 e 1. R1 Numérico Escala convertida para intervalo entre 0 e 1. T1_2 Taxa de formalização entre os empregados Numérico Escala convertida para intervalo entre 0 e 1. S1_1 Taxa de sobrevivência infantil no primeiro ano de vida, representada pela diferença entre o número de nascidos vivos e o número de óbitos até um ano de idade. Numérico Escala convertida para intervalo entre 0 e 1. E2_4 Percentual de crianças de 7 a 14 anos que estão na série correta segundo a idade Numérico Escala convertida para intervalo entre 0 e 1. 4

144 3. ANÁLISE DAS VARIÁVEIS 3.1 VARIÁVEIS CATEGÓRICAS Para este tipo de variável, as pesquisas concentram-se nas análises de gráficos do tipo pie chart e barras Variável: ESTADO Fazem parte desta pesquisa os 27 estados brasileiros e suas cidades. O gráfico abaixo exibe o número de cidades por estado. A variação no número de cidades por estado é acentuada. Considerando que o Distrito Federal é um estado brasileiro, é o estado com o menor número de cidades (1), enquanto o Mato Grosso é o estado que possui o maior número de cidades (852) Variável: REGIÃO 5

145 Figura 3. Número de Cidades por Estado e Região do Brasil 900 NÚMERO DE CIDADES POR ESTADO QTDE. DE CIDADES Count RO AC AP RR DF SE ES MS RJ AL TO MT PA RN CE PE MA PB PI AM ESTADO Nº Cidades por Região SP RS BA PR SC GO MG Nos gráficos ao lado podemos ter uma dimensão do número de cidades por estado e por região. A região do Brasil com o maior número de cidades é a Nordeste (1790), seguida pela região Sudeste (1669) e pela região Sul, com 1191 cidades. As regiões com menor número de cidades Nordeste Sudeste Sul Região Centro-Oeste Norte Figura 4. Cidades por Região do Brasil 6

146 3.2 ANÁLISE EXPLORATÓRIA DAS VARIÁVEIS ANALÍTICAS Serão analisadas as variáveis separadamente quanto a sua forma de distribuição, os valores atípicos, medidas de centro e dispersão. Para tanto contamos com o auxílio de gráficos (histogramas, gráficos de ramos, box-plot, dot-plot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling) VARIÁVEL ISDM STAT >> BASIC STATISTICS >> GRAPHICAL SUMMARY Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável ISDM. As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem ganhos. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. Muitos municípios enfrentam problemas de ordem sustentável, enquanto poucos possuem uma situação mais plena. Fato 7

147 que se dá também pelo desequilíbrio econômico e social das mais variadas regiões do Brasil. Embora o ISDM de alguns municípios possuir valor alto, o que faz o gráfico se estender para a direita, a distribuição tem um único pico que representa os municípios com ISDM de 5,65 a 5,75. O Box-Plot nos deixa ainda mais clara esta assimetria da distribuição. - Centro e Dispersão: A mediada do IFDM é de 4,64, ou seja, metade dos municípios possuem valores inferiores ou iguais à mediana e metade da população terá valores superiores ou iguais à este número VARIÁVEL EDUCAÇÃO Summary for E A nderson-darling Normality Test A -Squared 194,07 P -V alue < 0,005 Mean 4,6175 StDev 1,2195 V ariance 1,4872 Skew ness -1,04309 Kurtosis 0,62852 N ,2 0,0 1,2 2,4 3,6 4,8 6,0 Minimum -1,8508 1st Q uartile 3,8059 Median 5,0731 3rd Q uartile 5,5695 M aximum 6, % C onfidence Interv al for Mean 4,5854 4, % C onfidence Interv al for Median 5,0364 5, % Confidence Intervals 95% C onfidence Interv al for StDev 1,1973 1,2426 Mean Median 4,6 4,7 4,8 4,9 5,0 5,1 As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser simétrica cujo pico concentra-se no centro, o que é comum para variáveis que indiquem desempenho regular. A curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão da variabilidade sobre Educação nos municípios do Brasil. Os dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade entre os dados. 8

148 - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem Educação menor do que 5,0731. A Educação média é 4,6175 e o desvio-padrão (medida de dispersão) é de 1,2195, que implica em uma dispersão média para a questão VARIÁVEL EMPREGO E RENDA Summary for EMP & REN A nderson-darling Normality Test A -Squared 5,99 P -V alue < 0,005 Mean 0,64890 StDev 0,09580 V ariance 0,00918 Skew ness 0, Kurtosis -0, N ,40 0,48 0,56 0,64 0,72 0,80 0,88 0,96 Minimum 0, st Q uartile 0,57892 Median 0, rd Q uartile 0,71539 M aximum 0, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,09761 Mean Median 0,644 0,646 0,648 0,650 0,652 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores baixos de emprego e renda. Muitas cidades possuem um nível médio de emprego e renda e poucas possuem um nível alto de emprego e renda. Existe apenas uma corcova no gráfico. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem emprego e renda menor do que 0, A média de emprego e renda é 0,64890 e o desvio-padrão (medida de dispersão) é 0,09580, que implica em uma dispersão alta do índice de emprego e renda. 9

149 3.2.4 VARIÁVEL LIQUIDEZ O indicador demonstra se o município possui recursos financeiros suficientes para fazer frente ao montante de restos a pagar. Se o município apresentar mais restos a pagar do que ativos financeiros disponíveis a pontuação será zero. Na leitura dos resultados, quanto mais próximo de 1,00, menos o município está postergando pagamentos para o exercício seguinte sem a devida cobertura. Summary for Liquidez A nderson-darling Normality Test A -Squared 269,67 P -V alue < 0,005 Mean 0,57214 StDev 0,37358 V ariance 0,13956 Skew ness -0,45699 Kurtosis -1,35022 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,19358 Median 0, rd Q uartile 0,91435 M aximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,38086 Mean Median 0,550 0,575 0,600 0,625 0,650 0,675 0,700 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição totalmente assimétrica tendendo levemente para a direita, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. Os valores de liquidez se espalham por todo o gráfico, não tendo um pico dos dados. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem liquidez menor do que 0, A liquidez média é de 0,57214 e o desvio-padrão (medida de dispersão) é de 0,37358, que implica em uma dispersão absoluta do índice de liquidez. 10

150 3.2.5 VARIÁVEL H6 (Pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2) Summary for H6 A nderson-darling Normality Test A -Squared 15,84 P -V alue < 0,005 Mean 54,319 StDev 13,554 V ariance 183,714 Skew ness -0, Kurtosis -0, N Minimum 4,735 1st Q uartile 45,035 Median 55,296 3rd Q uartile 64,617 M aximum 89,335 95% C onfidence Interv al for Mean 53,962 54,675 95% C onfidence Interv al for Median 54,876 55,792 95% Confidence Intervals 95% C onfidence Interv al for StDev 13,307 13,811 Mean Median 54,0 54,5 55,0 55,5 56,0 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser levemente assimétrica cujo pico concentra-se à direita, o que é comum para variáveis que indiquem desempenho médio para alto. A curva apresenta algumas corcovas, o que indica que temos um comportamento atípico da variabilidade sobre os dados de H6. Os dados se dispersam bastante, e podemos afirmar que a variável H6 tem alta dispersão em relação aos municípios do Brasil. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem H6 menor do que 55,296. O H6 médio é de 54,319 e o desvio-padrão (medida de dispersão) é de 13,554, que implica em uma dispersão média para H6. 11

151 3.2.6 VARIÁVEL R1 (Pessoas com renda domiciliar per capita abaixo da linha de pobreza (R$ 140,00)) Summary for R1 A nderson-darling Normality Test A -Squared 154,08 P -V alue < 0,005 Mean 24,528 StDev 17,698 V ariance 313,218 Skew ness 0, Kurtosis -0, N Minimum 0,073 1st Q uartile 8,625 Median 19,997 3rd Q uartile 39,479 M aximum 78,801 95% C onfidence Interv al for Mean 24,063 24,993 95% C onfidence Interv al for Median 19,066 20,992 95% Confidence Intervals 95% C onfidence Interv al for StDev 17,375 18,033 Mean Median Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser levemente assimétrica cujo pico concentra-se à esquerda, o que é comum para variáveis que indiquem desempenho baixo. A curva apresenta algumas corcovas, sendo duas altamente acentuadas, a primeira com maior pico e localizada fortemente à esquerda do gráfico. Indica que o comportamento atípico da variabilidade sobre os dados de R1. Os dados se dispersam bastante, e podemos afirmar que a variável R1 tem alta dispersão em relação aos municípios do Brasil. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem R1 menor do que 19,997. O R1 médio é de 24,528 e o desvio-padrão (medida de dispersão) é de 17,698, que implica em uma dispersão alta para R1. 12

152 3.2.7 VARIÁVEL T1_2 (Taxa de formalização entre os empregados) Summary for T1_2 A nderson-darling Normality Test A -Squared 41,06 P -V alue < 0,005 Mean 56,299 StDev 18,233 V ariance 332,424 Skew ness -0, Kurtosis -0, N Minimum 6,400 1st Q uartile 41,269 Median 57,417 3rd Q uartile 71,382 M aximum 94,914 95% C onfidence Interv al for Mean 55,820 56,778 95% C onfidence Interv al for Median 56,579 58,205 95% Confidence Intervals 95% C onfidence Interv al for StDev 17,900 18,578 Mean Median 56,0 56,5 57,0 57,5 58,0 58,5 As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição simétrica, embora o gráfico apresente várias corcovas na sua distribuiçõ. Indica que trata-se de um desempenho regular. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição pode ser considerada uma Normal. Muitas cidades possuem um baixo nível de desenvolvimento, muitas cidades possuem um nível médio de desenvolvimento e muitas possuem um nível alto de desenvolvimento. Existem várias corcovas no gráfico que nos mostra que existem N realidades nos dados analisados, ou seja, existem vários tipos de municípios dentro do Brasil em relação a formalização dos empregos. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem T1_2 menor do que 57,417. O T1_2 médio é de 56,299, e o desvio-padrão (medida de dispersão) é de 18,233, que implica em uma dispersão grande da população de T1_2. 13

153 3.2.8 VARIÁVEL S1_1 (Taxa de mortalidade infantil, por mil nascidos vivos) Summary for S1_1 A nderson-darling Normality Test A -Squared 160,60 P -V alue < 0,005 Mean 14,261 StDev 14,282 V ariance 203,970 Skew ness 4,2577 Kurtosis 59,4287 N Minimum 0,000 1st Q uartile 4,287 Median 12,579 3rd Q uartile 20,068 M aximum 333,333 95% C onfidence Interv al for Mean 13,885 14,636 95% C onfidence Interv al for Median 12,295 12,920 95% Confidence Intervals 95% C onfidence Interv al for StDev 14,021 14,552 Mean Median 12,0 12,5 13,0 13,5 14,0 14,5 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores baixos de S1_1. Pouca cidades possuem um nível médio de S1_1 e quase nenhuma possuem um nível alto de S1_1. Existem duas corcovas visíveis no gráfico. Como trata-se de nascido vivos, o número baixo é bom porque a maioria dos nascidos vivos sobrevivem após um ano de vida. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem S1_1 menor do que 12,579. O S1_1 médio é de 14,261 e o desvio-padrão (medida de dispersão) é de 14,282, que implica em uma dispersão baixa do índice de S1_1. 14

154 3.2.9 VARIÁVEL E2_4 (Crianças entre 7 e 14 anos que estudam na série correta segundo sua idade) Summary for E2_4 A nderson-darling Normality Test A -Squared 95,36 P -V alue < 0,005 Mean 85,480 StDev 8,882 V ariance 78,890 Skew ness -0, Kurtosis 0, N Minimum 45,722 1st Q uartile 79,526 Median 87,510 3rd Q uartile 92,529 M aximum 100,000 95% C onfidence Interv al for Mean 85,246 85,713 95% C onfidence Interv al for Median 87,164 87,881 95% Confidence Intervals 95% C onfidence Interv al for StDev 8,720 9,050 Mean Median 85,0 85,5 86,0 86,5 87,0 87,5 88,0 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a direita, o que é comum para variáveis que indiquem desempenho alto e taxas elevadas. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão da série correta dos alunos. Os dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade entre a questão do grau correto de idade e escolaridade nos municípios. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem E2_4 menor do que 87,510. O E2_4 médio é de 85,480 e o desvio-padrão (medida de dispersão) é de 8,882, que implica em uma dispersão grande para a questão. 15

155 3.3 RELAÇÃO ENTRE VARIÁVEIS: CORRELAÇÃO, REGRESSÃO E TESTE QUI- QUADRADO Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade GRÁFICOS DE DISPERSÃO entre variáveis Saúde e ISDM GRAPH >> SCATTERPLOT >> SIMPLE A quantidade de dados analisados é muito grande, são 5565 municípios, o que causa uma mancha no gráfico e dificulta a visualização. Uma forma de contornar esta situação seria selecionar os dados por amostragem, mas neste caso não é aplicado, pois não existem critérios específicos que garantiriam a fidelidade da amostra em relação à população. Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade. 16

156 Direção: Da análise das correlações acima percebemos que quase todas possuem associações bastante neutras/lineares, ou seja, o crescimento de uma variável não é obrigatoriamente acompanhado do crescimento da outra. Contudo, parece que não há nenhuma associação negativa, ao menos de evidência visual. Intensidade: O gráfico acima parece indicar a existência de relações lineares, embora a característica de uma reta seja constante na imagem. Forma: O gráfico apresenta conglomerados que sugerem relações lineares, embora prejudicado pelo excesso de dados da população (5565 linhas) LINHAS DE TENDÊNCIAS entre Educação e Emprego e Renda GRAPH >> SCATTERPLOT >> WITH REGRESSION Para se verificar qual o tipo de relação (linear, quadrática, cúbica, exponencial, etc.) existente entre as variáveis, adicionamos em cada gráfico de dispersão uma linha de tendência. 17

157 O gráfico analisado neste caso contém a variável Saúde em relação ISDM. Podemos afirmar que os pontos estão muito próximos da linha e são ligeiramente lineares, o que nos aponta que o tipo de relação entre as variáveis é linear, embora existam valores atípicos distribuídos por toda a extensão da reta LINHAS DE TENDÊNCIAS entre Saúde e H6 (Proporção de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2) Este gráfico compara a tendência entre as variáveis Saúde e H6. Se compararmos com o gráfico anterior, podemos constatar que a nuvem de pontos continua relativamente linear, apesar de demonstrar tendência crescente. Pode-se concluir que quando aumenta o índice de Saúde há um desempenho positivo do ISDM e da questão da habitação. 18

158 3.3.4 CORRELAÇÃO LINEAR A matriz de correlação inclui o teste de significância p-value. Para a correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as variáveis não requer que exista uma relação de causa-efeito entre ambas. Esta primeira visão exibe a correlação entre todas as variáveis utilizadas no trabalho. STAT >> BASIC STATISTICS >> CORRELATION Correlations: ISDM; EMP & REN; IFGF; Liquidez; H6; R1; T1_2; S; S1_1; E; E2_4 ISDM EMP & REN IFGF Liquidez H6 R1 EMP & REN 0,815 0,000 IFGF 0,420 0,446 0,000 0,000 Liquidez 0,258 0,261 0,760 0,000 0,000 0,000 H6 0,695 0,522 0,327 0,244 0,000 0,000 0,000 0,000 R1-0,951-0,801-0,455-0,293-0,709 0,000 0,000 0,000 0,000 0,000 T1_2 0,806 0,737 0,430 0,291 0,449-0,781 0,000 0,000 0,000 0,000 0,000 0,000 S 0,286 0,205 0,106 0,069 0,220-0,195 0,000 0,000 0,000 0,000 0,000 0,000 S1_1-0,147-0,182-0,066-0,044-0,115 0,140 0,000 0,000 0,000 0,001 0,000 0,000 E 0,884 0,739 0,456 0,289 0,722-0,868 0,000 0,000 0,000 0,000 0,000 0,000 E2_4 0,764 0,705 0,419 0,244 0,613-0,768 0,000 0,000 0,000 0,000 0,000 0,000 T1_2 S S1_1 E S 0,137 0,000 S1_1-0,112-0,196 0,000 0,000 E 0,664 0,215-0,131 0,000 0,000 0,000 E2_4 0,599 0,194-0,128 0,811 0,000 0,000 0,000 0,000 19

159 A correlação é sempre um número entre zero e um e mede a intensidade de relações lineares. A correlação entre as variáveis analisadas é positiva em alguns casos e negativa em outros, mas de fraca intensidade, com exceção da correlação entre Renda (R1) e ISDM. Os valores mais representativos estão marcado com verde quando positivos e vermelhos quando negativos. Indica que a correlação entre estas variáveis é mais intensa. Portanto, podemos afirmar que estas variáveis possuem relações lineares REGRESSÃO DE MÍNIMOS QUADRADOS A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas variáveis quantitativas. Se um diagrama de dispersão mostra uma relação linear, é interessante resumirmos esse padrão geral traçando uma reta no diagrama de dispersão. Uma reta de regressão resume a relação entre duas variáveis, mas somente em um contexto específico: quando uma das variáveis ajuda a explicar ou a predizer a outra, ou seja, a regressão descreve uma relação entre uma variável explanatória e uma variável resposta. Abaixo, está o resultado da regressão entre as variáveis Saúde e ISDM. Regression Analysis: S versus ISDM The regression equation is S = 3,08 + 0,437 ISDM Predictor Coef SE Coef T P Constant 3, , ,37 0,000 ISDM 0, , ,29 0,000 S = 1,59986 R-Sq = 8,2% R-Sq(adj) = 8,2% Analysis of Variance Source DF SS MS F P Regression ,3 1271,3 496,68 0,000 Residual Error ,2 2,6 Total ,5 20

160 A tabela acima exibe o resultado da fórmula entre as variáveis Saúde e ISDM. Se substituísse o valor de Saúde se chegaria ao valor do ISDM esperado. A é a expressão numérica da reta de tendência que vimos nos itens acima. Esta equação tem um poder explicativo de 89,6%, que é o R-Quadrado. O valor da constante 3,08 significa que, se o ISDM fosse zero, o valor da Saúde seria 3, DENDROGRAMA Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação icônica que organiza determinados fatores e variáveis. É um diagrama de similaridade. A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo. Segue abaixo o Dendrograma das variáveis analisadas: STAT >> MULTIVARIATE >> CLUSTER VARIABLE Dendrogram Single Linkage; Correlation Coefficient Distance 47,79 Similarity 65,20 82,60 100,00 ISDM E EMP & REN T1_2 E2_4 H6 IFGF Liquidez S R1 S1_1 Variables 21

161 As variáveis ISDM e E são as que possuem o maior nível de similaridade, por volta de 94%. As variáveis (Emprego & Renda, T1_2 e E2_4) também são muito similares, variando até 85%. Com menor nível de similaridade estão as variáveis H6, IFGF e Liquidez. Já as Saúde, R1 e S1_1 encontram-se com baixo nível de similaridade RELAÇÕES ENTRE AS VARIÁVEIS CATEGÓRICAS Para correlacionarmos duas variáveis categóricas, criamos duas colunas categorizadas com informações sobre dados de S1_1 por quartil, tendo valores que variam de 1 a 4, e repetimos o processo para a variável R1, com os mesmos valores categóricos. Pie Chart of S1 Q; R1 Q S1 Q R1 Q Category 1,00 2,00 3,00 4,00 4, ; 23,4% 1, ; 25,0% 4, ; 25,0% 1, ; 25,0% 3, ; 26,6% 2, ; 25,0% 3, ; 25,0% 2, ; 25,0% Os gráficos acima foram gerados a partir das informações dos quartis utilizando a função Data >> Code >> Numeric to Numeric e colocando os intervalos para geração das variáveis categóricas. Em seguida foi gerado um Pie Chart através da função Graph >> Pie Chart. 22

162 Para analisar a semelhança entre as variáveis categóricas será executada a tabulação cruzada entre elas. STAT >> TABLES >> CROSS TABULATION AND CHI SQUARE Tabulated statistics: R1 Q; S1 Q Rows: R1 Q Columns: S1 Q 1,00 2,00 3,00 4,00 333,33 All 1, , , , All Cell Contents: Count Pearson Chi-Square = 298,009; DF = 12 Likelihood Ratio Chi-Square = 313,706; DF = 12 As linhas são representadas por R1 e as colunas por S1_1. Os dados aparecem distribuídos entre cada quartil de uma variável. 3.4 MODELOS DE REGRESSÃO LINEAR MULTIPLOS CORRELAÇÃO LINEAR, ANÁLISE DE REGRAÇÃO E STEPWISE Para o estudo em questão, queremos entender quais variáveis explicam melhor a variável específica. Para tanto utilizaremos o grupo das variáveis analíticas e sintética, comparando com a variável Saúde. Inicialmente serão analisadas as correlações lineares entre a variável SAÚDE com as variáveis analíticas e sintéticas, relacionadas a este estudo, para verificar quais variáveis melhor explicam a SAÚDE. 23

163 Correlations: ISDM; EMP & REN; IFGF; Liquidez; H6; R1; T1_2; S; S1_1; E; E2_4 ISDM EMP & REN IFGF Liquidez H6 R1 EMP & REN 0,815 0,000 IFGF 0,420 0,446 0,000 0,000 Liquidez 0,258 0,261 0,760 0,000 0,000 0,000 H6 0,695 0,522 0,327 0,244 0,000 0,000 0,000 0,000 R1-0,951-0,801-0,455-0,293-0,709 0,000 0,000 0,000 0,000 0,000 T1_2 0,806 0,737 0,430 0,291 0,449-0,781 0,000 0,000 0,000 0,000 0,000 0,000 S 0,286 0,205 0,106 0,069 0,220-0,195 0,000 0,000 0,000 0,000 0,000 0,000 S1_1-0,147-0,182-0,066-0,044-0,115 0,140 0,000 0,000 0,000 0,001 0,000 0,000 E 0,884 0,739 0,456 0,289 0,722-0,868 0,000 0,000 0,000 0,000 0,000 0,000 E2_4 0,764 0,705 0,419 0,244 0,613-0,768 0,000 0,000 0,000 0,000 0,000 0,000 T1_2 S S1_1 E S 0,137 0,000 S1_1-0,112-0,196 0,000 0,000 E 0,664 0,215-0,131 0,000 0,000 0,000 E2_4 0,599 0,194-0,128 0,811 0,000 0,000 0,000 0,000 As correlações significativas de acordo com o P-Value, para este trabalho, será considerada significativa quando >= 0,70). No geral, Saúde em fraca correlação com todas as demais variáveis. Apresentam uma correlação satisfatoriamente forte entre si as variáveis: ISDM e Emprego & Renda com Trabalho (T1_2), Educação (E) e E2_4 (Proporção de crianças de 7 a 14 anos na série adequada para sua idade). ISM e Emprego & Renda também tem forte correlação, assim como Liquidez e IFGF. 24

164 3.4.2 REGRESSÃO: SAÚDE COM DEMAIS VARIÁVEIS DO ESTUDO Regression Analysis: S versus ISDM; EMP & REN;... The regression equation is S = - 4,73 + 2,00 ISDM - 0,069 EMP & REN + 0,722 IFGF + 0,0673 Liquidez + 0,0125 H6 + 0,0762 R1-0,0225 T1_2-0,0179 S1_1-0,330 E + 0,0115 E2_ cases used, 303 cases contain missing values Predictor Coef SE Coef T P Constant -4,7318 0,5069-9,34 0,000 ISDM 2, , ,08 0,000 EMP & REN -0,0695 0,4036-0,17 0,863 IFGF 0,7219 0,2351 3,07 0,002 Liquidez 0, , ,78 0,435 H6 0, , ,23 0,000 R1 0, , ,80 0,000 T1_2-0, , ,71 0,000 S1_1-0, , ,23 0,000 E -0, , ,56 0,000 E2_4 0, , ,73 0,006 S = 1,49408 R-Sq = 20,1% R-Sq(adj) = 20,0% Analysis of Variance Source DF SS MS F P Regression ,04 294,90 132,11 0,000 Residual Error ,37 2,23 Total ,41 O R-Square é baixo = 20,1% e todos os valores Betas da equação apresentam valores próximos a zero, com exceção do ISDM que indica alto poder explicativo da variável Saúde. O P-value das variáveis possui valor baixo, sendo confiáveis para a explicação da variável Saúde. A exceção são as variáveis IFGF e Liquidez. 25

165 3.4.3 STEPWISE DA SAÚDE COM FILTRO DOS RESULTADOS OBTIDOS A análise STEPWISE demonstra o percentual de composição das variáveis Predictors na equação da Response. Stepwise Regression: S versus ISDM; EMP & REN;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is S on 10 predictors, with N = 5261 N(cases with missing observations) = 303 N(all cases) = 5564 Step Constant 3,004-3,932-3,507-3,300-2,866-3,395 ISDM 0,453 1,605 1,568 1,806 1,948 2,020 T-Value 22,07 25,36 25,11 27,55 27,15 27,77 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 R1 0,0746 0,0746 0,0714 0,0672 0,0703 T-Value 19,17 19,45 18,75 17,24 17,91 P-Value 0,000 0,000 0,000 0,000 0,000 S1_1-0,0184-0,0181-0,0181-0,0181 T-Value -12,41-12,36-12,38-12,40 P-Value 0,000 0,000 0,000 0,000 T1_2-0,0210-0,0230-0,0251 T-Value -10,84-11,61-12,50 P-Value 0,000 0,000 0,000 E -0,185-0,231 T-Value -4,84-5,90 P-Value 0,000 0,000 IFGF 0,88 T-Value 5,49 P-Value 0,000 S 1,60 1,54 1,52 1,51 1,50 1,50 R-Sq 8,48 14,46 16,90 18,71 19,07 19,54 R-Sq(adj) 8,46 14,43 16,85 18,65 19,00 19,44 Mallows Cp 756,9 366,0 207,9 90,4 68,7 40,4 O Próximo passo é calcular a fórmula utilizando as variáveis analíticas e sintéticas demonstradas pela função Stepwise como sendo as que mais explicam a Saúde. 26

166 STAT >> REGRESSION >> REGRESSION A fórmula resultante é: S = - 4,73 + 2,00 ISDM - 0,069 EMP & REN + 0,722 IFGF + 0,0673 Liquidez + 0,0125 H6 + 0,0762 R1-0,0225 T1_2-0,0179 S1_1-0,330 E + 0,0115 E2_4 Nesta equação foram utilizadas as variáveis analíticas e sintéticas. Uma outra forma de se fazer este estudo seria isolar um primeiro grupo de cálculo utilizando apenas as variáveis analíticas e um segundo grupo com as variáveis sintéticas. 3.5 COMPARAÇÕES O teste de hipótese nos permite comparar parâmetros de populações distintas de forma a fazermos inferências estatísticas sobre estas populações. Essencialmente as comparações realizadas nos testes de hipóteses se valem de testar uma hipótese nula (H0)e uma hipótese alternativa (H1) estabelecendo-se um grau de confiança em relação a se aceitar ou rejeitar as hipóteses estabelecidas. Há dois tipos de abordagem para a realização dos testes de hipóteses: a do intervalo de confiança na qual se faz o teste objetivando verificar a pertinência de um parâmetro em um intervalo de valores com certa probabilidade de acerto e a do teste de significância que leva em consideração a probabilidade de cometer-se um erro do tipo I (rejeitar a hipótese nula quando ela é verdadeira). Este trabalho propõe a comparação das médias entre as diversas regiões do Brasil, de acordo com as variáveis deste estudo. O objetivo é comparar a média dos indicadores e realizar testes de hipóteses das cidades com maiores índices de desenvolvimento. 27

167 3.5.1 Variável ISDM por Região 7 6 Ribeirão Vermelho Boxplot of ISDM 5 ISDM Centro-Oeste Nordeste Norte Região Sudeste Sul A Região Sudeste possui o maior ISDM do país, o que indica que esta é a Região mais desenvolvida do Brasil, segundo a pesquisa. A região Sul encontra-se próxima a Região Sudeste, e ocupa o segundo lugar. A Região que apresenta o ISDM médio mais baixo do País é a Norte, seguida bem próxima da Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância. Podemos afirmar que os dados da Região Norte possuem maior variabilidade que os dados das demais regiões. As regiões que possuem menor variabilidade dos dados são Centro- Oeste e Sul. 28

168 One-way ANOVA: ISDM versus Região Source DF SS MS F P Região , , ,23 0,000 Error ,518 0,442 Total ,353 S = 0,6648 R-Sq = 63,03% R-Sq(adj) = 63,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 467 4,6934 0,5237 (*) Nordeste ,4112 0,7136 (* Norte 447 3,3035 0,9794 (*) Sudeste ,2606 0,6436 (* Sul ,1271 0,5012 *) ,60 4,20 4,80 5,40 Pooled StDev = 0,6648 O grau de variação entre as Regiões é muito alto (2369), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente Variável SAÚDE por Região 16 Boxplot of S S Centro-Oeste Nordeste Norte Região Sudeste Sul 29

169 One-way ANOVA: S versus Região Source DF SS MS F P Região 4 754,22 188,56 71,05 0,000 Error ,25 2,65 Total ,47 S = 1,629 R-Sq = 4,86% R-Sq(adj) = 4,80% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 467 4,781 1,557 (----*---) Nordeste ,672 1,534 (-*--) Norte 447 4,425 1,603 (---*----) Sudeste ,309 1,671 (--*-) Sul ,444 1,741 (--*-) ,55 4,90 5,25 5,60 Pooled StDev = 1, Variável EMPREGO E RENDA por Região 1,0 Boxplot of EMP & REN 0,9 0,8 EMP & REN 0,7 0,6 0,5 0,4 0,3 Centro-Oeste Nordeste Norte Região Sudeste Sul 30

170 One-way ANOVA: EMP & REN versus Região Source DF SS MS F P Região 4 22, , ,06 0,000 Error , ,00510 Total ,05559 S = 0,07138 R-Sq = 44,52% R-Sq(adj) = 44,48% Level N Mean StDev Centro-Oeste 467 0, ,06610 Nordeste , ,06481 Norte 447 0, ,07128 Sudeste , ,08502 Sul , ,06118 Individual 95% CIs For Mean Based on Pooled StDev Level Centro-Oeste (*-) Nordeste *) Norte (*-) Sudeste (*) Sul (* ,550 0,600 0,650 0,700 Pooled StDev = 0, Variável LIQUIDEZ por Região 31

171 Boxplot of Liquidez 1,0 0,8 Liquidez 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: Liquidez versus Região Source DF SS MS F P Região 4 92,336 23, ,05 0,000 Error ,771 0,122 Total ,107 S = 0,3494 R-Sq = 12,58% R-Sq(adj) = 12,51% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 438 0,6856 0,3302 (---*--) Nordeste ,3985 0,3696 (-*-) Norte 391 0,5909 0,3864 (--*---) Sudeste ,5861 0,3552 (-*) Sul ,7486 0,3031 (-*-) ,40 0,50 0,60 0,70 Pooled StDev = 0, Variável H6 por Região 32

172 Boxplot of H6 90 Paiva H Japorã 10 0 Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: H6 versus Região Source DF SS MS F P Região ,10 0,000 Error Total S = 9,449 R-Sq = 51,44% R-Sq(adj) = 51,40% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,217 9,709 (*) Nordeste ,127 8,829 *) Norte ,253 14,618 (*) Sudeste ,053 9,008 (* Sul ,750 8,314 *) ,0 48,0 56,0 64,0 Pooled StDev = 9, Variável R1 por Região 33

173 Boxplot of R R Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: R1 versus Região Source DF SS MS F P Região ,59 0,000 Error Total S = 10,34 R-Sq = 65,92% R-Sq(adj) = 65,89% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,25 9,23 (*) Nordeste ,49 10,60 *) Norte ,65 15,18 (*) Sudeste ,07 10,54 *) Sul ,16 7,40 *) Pooled StDev = 10, Variável T1_2 por Região 34

174 100 Boxplot of T1_ T1_ Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: T1_2 versus Região Source DF SS MS F P Região ,83 0,000 Error Total S = 13,71 R-Sq = 43,50% R-Sq(adj) = 43,46% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,85 11,80 (-*) Nordeste ,17 13,36 *) Norte ,10 13,65 (-*) Sudeste ,65 15,77 (*) Sul ,16 11,69 (*) ,0 56,0 64,0 72,0 Pooled StDev = 13, Variável S1_1 por Região 35

175 Boxplot of S1_1 Capão Bonito do Sul 250 S1_ Tupirama Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: S1_1 versus Região Source DF SS MS F P Região ,13 0,000 Error Total S = 14,17 R-Sq = 1,71% R-Sq(adj) = 1,64% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,20 16,93 (----*----) Nordeste ,80 10,90 (-*--) Norte ,82 15,13 (----*-----) Sudeste ,60 13,91 (-*--) Sul ,56 17,01 (--*--) ,5 15,0 17,5 20,0 Pooled StDev = 14,17 36

176 3.5.9 Variável E2_4 por Região Boxplot of E2_ E2_ Centro-Oeste Nordeste Norte Região Sudeste Sul One-way ANOVA: E2_4 versus Região Source DF SS MS F P Região , ,0 1478,42 0,000 Error ,5 38,3 Total ,4 S = 6,185 R-Sq = 51,55% R-Sq(adj) = 51,51% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,202 4,818 (*) Nordeste ,645 7,045 (*) Norte ,120 9,991 (*-) Sudeste ,476 5,518 (*) Sul ,557 3,860 (*) ,0 84,0 88,0 92,0 Pooled StDev = 6,185 37

177 3.8 ANÁLISE MULTIVARIADA COMPONENTES PRINCIPAIS Nesta parte, o objetivo é efetuar uma análise das correlações e dos componentes principais (análise multivariada) de dados quantitativos sobre os dados de desenvolvimento dos Municípios do Brasil. Iniciamos com a análise da estatística descritiva. Em seguida, passamos para a análise das correlações e dendrogramas. E por fim, utilizamos a análise dos componentes principais CORRELAÇÃO LINEAR Segue abaixo a matriz de correlação incluindo o teste de significância p-value. Para a correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as variáveis não requer que exista uma relação de causa-efeito entre ambas. Correlations: ISDM; EMP & REN; IFGF; Liquidez; H6; R1; T1_2; S; S1_1; E; E2_4 ISDM EMP & REN IFGF Liquidez H6 R1 EMP & REN 0,815 0,000 IFGF 0,420 0,446 0,000 0,000 Liquidez 0,258 0,261 0,760 0,000 0,000 0,000 H6 0,695 0,522 0,327 0,244 0,000 0,000 0,000 0,000 R1-0,951-0,801-0,455-0,293-0,709 0,000 0,000 0,000 0,000 0,000 T1_2 0,806 0,737 0,430 0,291 0,449-0,781 0,000 0,000 0,000 0,000 0,000 0,000 S 0,286 0,205 0,106 0,069 0,220-0,195 0,000 0,000 0,000 0,000 0,000 0,000 S1_1-0,147-0,182-0,066-0,044-0,115 0,140 0,000 0,000 0,000 0,001 0,000 0,000 E 0,884 0,739 0,456 0,289 0,722-0,868 0,000 0,000 0,000 0,000 0,000 0,000 E2_4 0,764 0,705 0,419 0,244 0,613-0,768 0,000 0,000 0,000 0,000 0,000 0,000 T1_2 S S1_1 E S 0,137 0,000 S1_1-0,112-0,196 0,000 0,000 E 0,664 0,215-0,131 0,000 0,000 0,000 E2_4 0,599 0,194-0,128 0,811 0,000 0,000 0,000 0,000 38

178 As correlações significativas de acordo com o P-Value, para este trabalho, será considerada significativa quando >= 0,70). No geral, Saúde em fraca correlação com todas as demais variáveis. Apresentam uma correlação satisfatoriamente forte entre si as variáveis: ISDM e Emprego & Renda com Trabalho (T1_2), Educação (E) e E2_4 (Proporção de crianças de 7 a 14 anos na série adequada para sua idade). ISM e Emprego & Renda também tem forte correlação, assim como Liquidez e IFGF DENDROGRAMA A interpretação de um dendrograma de similaridade entre amostras fundamenta-se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre elas. STAT >> MULTIVARIATE >> CLUSTER VARIABLE Dendrogram Single Linkage; Correlation Coefficient Distance 47,79 Similarity 65,20 82,60 100,00 ISDM E EMP & REN T1_2 E2_4 H6 IFGF Liquidez S R1 S1_1 Variables As variáveis ISDM e E são as que possuem o maior nível de similaridade, por volta de 94%. As variáveis (Emprego & Renda, T1_2 e E2_4) também são muito similares, variando até 85%. Com menor nível de similaridade estão as variáveis H6, IFGF e Liquidez. Já as Saúde, R1 e S1_1 encontram-se com baixo nível de similaridade. 39

179 PRINCIPAIS COMPONENTES >> STAT >> MULTIVARIATE >> Principal Components Principal Component Analysis: ISDM; EMP & REN; IFGF; Liquidez; H6; R1; T1_2; S; Eigenanalysis of the Correlation Matrix 5261 cases used, 303 cases contain missing values Eigenvalue 5,9312 1,3778 1,0955 0,8126 0,6252 0,3780 0,2370 0,2089 Proportion 0,539 0,125 0,100 0,074 0,057 0,034 0,022 0,019 Cumulative 0,539 0,664 0,764 0,838 0,895 0,929 0,951 0,970 Eigenvalue 0,1835 0,1111 0,0392 Proportion 0,017 0,010 0,004 Cumulative 0,986 0,996 1,000 Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 ISDM 0,389 0,151-0,061-0,024 0,095-0,160-0,082-0,038 EMP & REN 0,352 0,081-0,041 0,130 0,324 0,151 0,782 0,302 IFGF 0,244-0,609 0,111-0,010 0,027 0,172 0,182-0,689 Liquidez 0,176-0,706 0,164-0,036-0,076-0,145-0,156 0,611 H6 0,303 0,114-0,025-0,171-0,705-0,403 0,203-0,007 R1-0,388-0,102 0,108-0,040-0,007 0,149 0,052 0,057 T1_2 0,334 0,025-0,124 0,151 0,509-0,411-0,379-0,068 S 0,118 0,182 0,630-0,705 0,226 0,014-0,025-0,004 S1_1-0,080-0,159-0,719-0,656 0,131 0,019 0,053 0,029 E 0,376 0,094-0,084-0,027-0,191 0,160-0,136-0,123 E2_4 0,345 0,098-0,079-0,001-0,137 0,723-0,339 0,187 Variable PC9 PC10 PC11 ISDM 0,307-0,267-0,783 EMP & REN -0,077 0,118 0,031 IFGF -0,114-0,058-0,047 Liquidez 0,130 0,010-0,005 H6-0,399 0,067-0,024 R1-0,288 0,614-0,581 T1_2-0,431 0,281 0,099 S -0,023 0,014 0,080 S1_1-0,006 0,001 0,008 E 0,538 0,656 0,164 E2_4-0,389-0,143-0,045 Existe um peso muito grande da primeira variável e as demais estão mais distantes. As variável 2 e 3 possuem peso maior que 1, e as demais variáveis possuem um peso ABAIXO DE 0.8. A conclusão é que podemos resumir as 11 variáveis em 3 principais variáveis para efeito de simplificação do trabalho com dados contendo muitas colunas. 40

180 Scree Plot of ISDM;...; E2_ Eigenvalue Component Number O gráfico acima demonstra a representatividade das variáveis para o componente, ou o grau de equivalência. Existe um peso muito grande da primeira variável e as demais estão bem distantes. As variáveis 2 e 3 possuem peso próximo de 1, as demais possuem um baixo peso. Loading Plot of ISDM;...; E2_4 0,2 0,1 0,0 S ISDM H6 E2_4 EMP & REN E T1_2 Second Component -0,1-0,2-0,3-0,4-0,5 R1 S1_1-0,6 IFGF -0,7 Liquidez -0,4-0,3-0,2-0,1 0,0 0,1 First Component 0,2 0,3 0,4 41

181 Podemos observar que as variáveis R1, S e S1_1 encontram-se isoladas. Liquidez e IFGF estão próximas e, juntas, se isolam das restantes. As demais variáveis: ISDM, H6, T1_2, E2_4, Emprego & Renda e Educação formam o grupo mais próximo. O gráfico acima é uma visão multidimensional das variáveis CP1, CP2 e CP3 agrupadas por região. 42

182 O gráfico acima repete a visão multidimensional das variáveis CP1, CP2 e CP3, agora agrupadas por estado. Nos dois gráficos a dificuldade de visualização dos dados ocorre pelo número elevado de indivíduos que compõem a população (5565 municípios). Pelo resultado das análises da correlação linear, dendograma e principais componentes, os dados podem ser reduzidos para três variáveis, o que torna o trabalho com os números mais fáceis e de prático manuseamento. 3.9 ANÁLISE DE CONGLOMERADOS DENDROGRAMA DA MÉDIA DE DESENVOLVIMENTO POR ESTADO (-DF) O Dendrograma permite uma análise do grau de similaridade dos dados para uma determinada variável. Abaixo, geramos o Dendrograma da média de desenvolvimento dos municípios, agrupado por Estado. 43

183 Dendrogram Single Linkage; Euclidean Distance 80,97 Similarity 87,31 93,66 100,00 AP AC RN PE PB PI CE BA AL RR PA MA SE TO AM ES Observations RJ MT MS GO MG SP SC RS PR RO Podemos observar no gráfico acima que existem 2 grandes grupos por similaridade, e também alguns estados com baixo grau de similaridade. 44

184 É possível gerar o gráfico solicitando um número específico de cluster, no caso abaixo foi solicitado que se gerasse 4 clusters. Dendrogram Single Linkage; Euclidean Distance 80,97 Similarity 87,31 93,66 100,00 AP AC RN PE PB PI CE BA AL RR PA MA SE TO AM ES Observations RO RJ MT MS GO MG SP SC RS PR Os destaques deste dendograma ficaram para os estados AM e SP que possuem baixo nível de similaridade com os demais estados. Podemos concluir que o nível de desenvolvimento do Brasil pode ser dividido em 2,5 Brasis, sendo o primeiro grupo composto pelos estados em vermelho e o segundo grupo pelos estados em azul e o terceiro pelos estados com baixa similaridade sobre as médias de desenvolvimento dos municípios. Mais prático então seria permanecer com o agrupamento em 2 Brasis. 45

185 Brasil Político Representação dos 2 Brasis, segundo o índice médio de desenvolvimento dos municípios DENDROGRAMA DA DESIGUALDADE DE DESENVOLVIMENTO POR ESTADO (-DF) Neste exemplo será demonstrado o índice de desigualdade de desenvolvimento dos municípios do Brasil agrupados por estados. Utilizaremos para isso o desvio padrão dos índices de desenvolvimento. 46

186 Dendrogram Single Linkage; Euclidean Distance 71,28 Similarity 80,86 90,43 100,00 MA PE CE AL RR AC BA PB RN PR RO SC AM MS SE SP PI Observations RJ MG TO ES PA AP RS MT GO O grau de similaridade dos índices de desigualdade dos estados é muito variado. Foram considerados 4 cluster neste primeiro agrupamento, sendo o primeiro composto pelos estados do AC e RR, o segundo composto isoladamente por MG e o terceiro por RJ, também isolada. O grande grupo é composto pelos estados desde AL até TO ANÁLISE DAS VARIANCIAS DOS ÍNDICES DE DESENVOLVIMENTO POR ESTADO ( DF) A análise das variâncias permite a verificação e visualização das médias e desvios padrões da variável a ser analisada. O gráfico BOXPLOT ilustra os agrupamentos, o seu tamanho varia de acordo com a quantidade de dados de cada grupo, e também é possível visualizar as ocorrências de outliers dentro de um grupo de dados. A primeira análise é do índice médio de Emprego e Renda dos municípios do Brasil. 47

187 0,80 Boxplot of Média Emprego e Renda 0,75 Emprego e Renda 0,70 0,65 0,60 0,55 0,50 CENTRO-OESTE NORDESTE NORTE Região 2 SUDESTE SUL Este gráfico exibe os resultados das médias dos estados, agrupados por região. Podemos ver que a região Sudeste é a que possui maior índice médio de desenvolvimento, quase empatada com a região Sul. A região que possui o pior desempenho médio de desenvolvimento é a Norte seguido pela Nordeste. No resumo descritivo dos dados podemos visualizar os desvios padrões de cada região, e as médias. One-way ANOVA: ER m versus Região 2 Source DF SS MS F P Região 2 4 0, , ,72 0,000 Error 21 0, ,00111 Total 25 0,12818 S = 0,03326 R-Sq = 81,88% R-Sq(adj) = 78,43% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CENTRO-OESTE 3 0, ,00249 (------*------) NORDESTE 10 0, ,03511 (--*---) NORTE 6 0, ,03528 (----*----) SUDESTE 4 0, ,04401 (-----*----) SUL 3 0, ,00649 (------*------) ,540 0,600 0,660 0,720 Pooled StDev = 0,

188 O segundo gráfico mostra o resulto do índice médio H6, e mostra que a região mais adiantada em relação à Habitação é a Sul, seguida pela Sudeste, e a pior região é a Norte. 70 Boxplot of H6 m H6 m CENTRO-OESTE NORDESTE NORTE Região 2 SUDESTE SUL Podemos observar que os desvios padrões são altos, existe uma grande variação nos dados de habitação entre os municípios das regiões do Brasil. One-way ANOVA: H6 m versus Região 2 Source DF SS MS F P Região ,2 789,8 10,03 0,000 Error ,3 78,8 Total ,5 S = 8,876 R-Sq = 65,63% R-Sq(adj) = 59,09% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev CENTRO-OESTE 3 55,863 6,752 (------*------) NORDESTE 10 42,672 6,549 (--*---) NORTE 6 33,112 14,541 (----*----) SUDESTE 4 56,980 5,687 (-----*-----) SUL 3 66,837 3,383 ( *------) Pooled StDev = 8,876 49

189 3.10 ANÁLISE DISCRIMINANTE A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e classificar objetos. É uma técnica da estatística multivariada que estuda a separação de objetos de uma população em duas ou mais classes. A discriminação ou separação é a primeira etapa, sendo a parte exploratória da análise e consiste em se procurar características capazes de serem utilizadas para alocar objetos em diferentes grupos previamente definidos. A classificação ou alocação pode ser definida como um conjunto de regras que serão usadas para alocar novos objetos. Este trabalho tem por objetivo efetuar uma análise comparativa de médias, intervalos de confiança e regressões de dados de indicadores relacionados ao desenvolvimento humano dos municípios do Brasil. Utilizamos a análise discriminante para tentar predizer ou explicar os indicadores relacionados ao desenvolvimento da educação dos municípios do Brasil ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO Nesta análise iremos discriminar os indicadores de desenvolvimento dos municípios do Brasil, e utilizaremos inicialmente a variável categórica Região. STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS Discriminant Analysis: Região versus ISDM; EMP & REN;... Linear Method for Response: Região Predictors: ISDM; EMP & REN; IFGF; Liquidez; H6; R1; T1_2; S; S1_1; E; E2_4 Group Centro-Oeste Nordeste Norte Sudeste Sul Count Summary of classification True Group Put into Group Centro-Oeste Nordeste Norte Sudeste Sul Centro-Oeste Nordeste Norte Sudeste Sul Total N N correct Proportion 0,651 0,812 0,631 0,802 0,639 N = 5564 N Correct = 4140 Proportion Correct = 0,744 50

190 A região que acertou mais é Nordeste (0,812) e a que errou mais é o Norte (0,631). O gráfico exibe o cruzamento de dados entre as regiões. Por exemplo, a região Sudeste possui 1669 municípios e apenas 1339 correspondem a região, sendo que 135 são semelhantes aos dados da região Centro-Oeste. Podemos concluir que o agrupamento por região não é uma boa escolha segundo esta avaliação. O percentual correto = 0, ANÁLISE DISCRIMINANTE LINEAR POR 3 BRASIS Aqui, iremos discriminar os indicadores de desenvolvimento dos municípios do Brasil, e utilizaremos a variável categórica 3 Brasis, que representa os agrupamentos segundo a análise anterior do Dendrograma por similaridade dos dados. Discriminant Analysis: 3 BRA TOTAL versus ISDM; EMP & REN;... Linear Method for Response: 3 BRA TOTAL Predictors: ISDM; EMP & REN; IFGF; Liquidez; H6; R1; T1_2; S; S1_1; E; E2_4 Group B1 B2 B3 Count Summary of classification True Group Put into Group B1 B2 B3 B B B Total N N correct Proportion 0,889 0,794 0,804 N = 5564 N Correct = 4625 Proportion Correct = 0,831 O grupo que acertou mais é B1 (0,889) e a que errou mais é o B2 (0,794). O gráfico exibe o cruzamento de dados entre as classificações de 3 Brasis. Por exemplo, o B1 possui 2123 municípios e apenas 1887 correspondem a região, sendo que 118 são semelhantes aos dados de B2 e B3. O nome desta matriz é confusion matrix ou matriz de confusão. O percentual correto = 0,831. O percentual de acerto para esta análise foi maior que para o cruzamento dos dados de Regiões do Brasil. 51

191 ANÁLISE DISCRIMINANTE QUADRÁTICA POR 3 BRASIS Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca probabilidade de má classificação, e para que isso ocorra a regra de classificação deve considerar as probabilidades a priori e os custos de má classificação. Outro fator que uma regra de classificação deve considerar é se as variâncias das populações são iguais ou não. Quando a regra de classificação assume que as variâncias das populações são iguais, as funções discriminantes são ditas lineares e quando não são funções discriminantes quadráticas. Vamos agora verificar a função quadrática para 3 Brasis. Discriminant Analysis: 3 BRA TOTAL versus ISDM; EMP & REN;... Quadratic Method for Response: 3 BRA TOTAL Predictors: ISDM; EMP & REN; IFGF; Liquidez; H6; R1; T1_2; S; S1_1; E; E2_4 Group B1 B2 B3 Count Summary of classification True Group Put into Group B1 B2 B3 B B B Total N N correct Proportion 0,885 0,818 0,835 N = 5564 N Correct = 4705 Proportion Correct = 0,846 No modelo quadrático a proporção foi alterada em menos de 1,5% (de 0,831 para 0,846). Seguindo o pensamento da simplicidade, vamos escolher o método linear por ser o mais simples. A parcimônia é a preferência pela explicação mais simples para uma observação. Esta geralmente é considerada a melhor maneira de julgar as hipóteses. Parcimônia também é um conceito utilizado na sistemática moderna que estabelece que ao construir e selecionar árvores filogenéticas, ou seja, os dados, o melhor critério é baseado em seus princípios. Normalmente é correto o relacionamento mais simples encontrado entre dois indivíduos, 52

192 aquele que apresente o menor número de passos intermediários ou mudanças evolucionárias. Portanto a diferença entre o método linear e o quadrático é pequena e não justifica a utilização do método quadrático ANÁLISE DISCRIMINANTE LINEAR PARA DADOS AGRUPADOS Neste exemplo abaixo vamos através do dendrograma pesquisar o grau de similaridade das variáveis das médias do desenvolvimento dos municípios do Brasil. Com base na similaridade poderemos definimos agrupamento de dados e após utilizamos a análise discriminante para verificar a proporção correta dos agrupamentos. Discriminant Analysis: 3 BRA versus ISDM m; ER m;... Linear Method for Response: 3 BRA Predictors: ISDM m; ER m; IFGF m; LIQ m; H6 m; R1 m; T1_2 m; S m; S1_1 m; E m; E2_4 m Group Count Summary of classification True Group Put into Group B1 B2 B3 B B B Total N N correct Proportion 1,000 1,000 1,000 N = 26 N Correct = 26 Proportion Correct = 1,000 Neste caso a proporção correta é de 100%, ou seja, os agrupamentos gerados anteriormente pelo agrupamento em 3 Brasis gerou a mesma proporção do método linear utilizado na análise discriminante. 53

193 3.11 REGRESSÃO LOGÍSTICA A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias1 2. O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos. Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo fato de a variável resposta ser categórica. Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binominalmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros fatores. Stat >> Regression >> Ordinal Logistical Regression 54

194 REGRESSÃO LOGÍSTICA AGRUPADA POR REGIÃO Ordinal Logistic Regression: Região versus ISDM; EMP & REN;... Link Function: Logit Response Information Variable Value Count Região Centro-Oeste 467 Nordeste 1790 Norte 447 Sudeste 1669 Sul 1191 Total 5564 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) -1, , ,01 0,003 Const(2) 0, , ,02 0,309 Const(3) 1, , ,98 0,048 Const(4) 3, , ,51 0,000 ISDM 1, , ,55 0,000 4,36 3,58 5,32 EMP & REN 1, , ,12 0,034 2,88 1,08 7,64 IFGF -2, , ,05 0,000 0,12 0,07 0,22 Liquidez 0, , ,88 0,004 1,36 1,10 1,68 H6-0, , ,22 0,000 0,96 0,95 0,96 R1 0, , ,56 0,000 1,06 1,05 1,07 T1_2-0, , ,92 0,000 0,95 0,95 0,96 S -0, , ,00 0,000 0,86 0,83 0,89 S1_1 0, , ,78 0,436 1,00 1,00 1,01 E -0, , ,87 0,000 0,56 0,50 0,62 E2_4-0, , ,90 0,058 0,99 0,98 1,00 Log-Likelihood = -6702,829 Test that all slopes are zero: G = 2914,043, DF = 11, P-Value = 0,000 55

195 REGRESSÃO LOGÍSTICA AGRUPADA POR REGIÃO Ordinal Logistic Regression: Região versus ISDM; EMP & REN;... Link Function: Logit Response Information Variable Value Count Região Centro-Oeste 467 Nordeste 1790 Norte 447 Sudeste 1669 Sul 1191 Total 5564 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) -1, , ,01 0,003 Const(2) 0, , ,02 0,309 Const(3) 1, , ,98 0,048 Const(4) 3, , ,51 0,000 ISDM 1, , ,55 0,000 4,36 3,58 5,32 EMP & REN 1, , ,12 0,034 2,88 1,08 7,64 IFGF -2, , ,05 0,000 0,12 0,07 0,22 Liquidez 0, , ,88 0,004 1,36 1,10 1,68 H6-0, , ,22 0,000 0,96 0,95 0,96 R1 0, , ,56 0,000 1,06 1,05 1,07 T1_2-0, , ,92 0,000 0,95 0,95 0,96 S -0, , ,00 0,000 0,86 0,83 0,89 S1_1 0, , ,78 0,436 1,00 1,00 1,01 E -0, , ,87 0,000 0,56 0,50 0,62 E2_4-0, , ,90 0,058 0,99 0,98 1,00 Log-Likelihood = -6702,829 Test that all slopes are zero: G = 2914,043, DF = 11, P-Value = 0,000 Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de colocá-la em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver. 56

196 REGRESSÃO LOGÍSTICA AGRUPADA POR 3 BRASIS Ordinal Logistic Regression: 3 BRA TOTAL versus ISDM; EMP & REN;... Link Function: Logit Response Information Variable Value Count 3 BRA TOTAL B B B3 709 Total 5564 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) 18,0394 0, ,33 0,000 Const(2) 23,0034 1, ,58 0,000 ISDM -1, , ,81 0,000 0,25 0,19 0,33 EMP & REN 0, , ,54 0,586 1,45 0,38 5,54 IFGF -1, , ,95 0,000 0,19 0,08 0,43 Liquidez 0, , ,39 0,693 1,06 0,79 1,43 H6 0, , ,56 0,000 1,06 1,05 1,07 R1 0, , ,36 0,001 1,02 1,01 1,04 T1_2 0, , ,59 0,111 1,01 1,00 1,01 S 0, , ,35 0,019 1,06 1,01 1,11 S1_1-0, , ,09 0,276 1,00 0,99 1,00 E -0, , ,37 0,000 0,38 0,32 0,46 E2_4-0, , ,61 0,000 0,87 0,85 0,88 Log-Likelihood = -2799,238 Test that all slopes are zero: G = 5300,331, DF = 11, P-Value = 0,000 Comparando os dois exemplos, no primeiro ele executou 4 interações enquanto que para os 3 Brasis apenas duas interações. O valor de G foi aumentado de 2914 para ANÁLISE DE CORRESPONDÊNCIA Análise de correspondência é uma técnica de análise exploratória de dados adequada para analisar tabelas de duas entradas ou tabelas de múltiplas entradas, levando em conta algumas medidas de correspondência entre linhas e colunas. Consiste na conversão de uma matriz de dados não negativos em um tipo particular de representação gráfica em que as linhas e colunas da matriz são simultaneamente representadas em dimensão reduzida, isto é, por pontos no gráfico. Este método permite estudar as relações e semelhanças existentes 57

197 entre as categorias de linhas e entre as categorias de colunas de uma tabela de contingência ou o conjunto de categorias de linhas e o conjunto categorias de colunas. A análise de correspondência mostra como as variáveis dispostas em linhas e colunas estão relacionadas e não somente se a relação existe. Embora seja considerada uma técnica descritiva e exploratória, esta análise simplifica dados complexos e produz análises exaustivas de informações que suportam conclusões a respeito das mesmas ANÁLISE DE CORRESPONDÊNCIA DOS ÍNDICES DE DESENVOLVIMENTO Nesta análise serão trabalhados os estados e as médias de desenvolvimento por estado. Na análise de correspondência será gerado um mapa contendo quais estados estão mais próximos e quais variáveis tem a ver entre si. O comando para gerar o gráfico é: STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS 0,6 Symmetric Plot 0,4 Component 2 0,2 0,0 SP RJ TL MS SC E MT PR I RO RS GO ES MG H AP RR AC IF SI PA ERE2 S TO AL RN SEPE MA PB CE PI BA AM R -0,2-0,4-0,4-0,2 0,0 0,2 Component 1 0,4 0,6 O gráfico acima é o resultado da análise de correspondência das médias de desenvolvimento dos municípios do Brasil, já agrupadas por estado. Os pontos azuis representam as variáveis ISDM (I), Emprego & Renda (ER), IFGF (IF), Liquidez (L), Habitação (H), Renda (R), Trabalho 58

198 (T), Saúde (S), Educação (E) e Percentual de crianças de 7 a 14 anos que estão na série correta segundo a idade (E2_4)-(E2). Os pontos em vermelho representam os estados do Brasil. Todas as variáveis se encontram próximas ao agrupamento, porém a mais distante é Renda (R). Eliminando a variável Renda, obtemos este resultado. 0,3 Symmetric Plot 0,2 Component 2 0,1 0,0 H RS SC GO MG ES PR I E BA PI CE PB PE RN S TO E2 SE ER RO AL MT IF MS MA PA AC RR SI AM -0,1 SP RJ T L AP -0,2-0,2-0,1 0,0 0,1 Component 1 0,2 0,3 A análise de correspondência pode ser considerada como um caso especial da análise de componentes principais (TRABALHO 7), porém dirigida a dados categóricos organizados em tabelas de contingência e não a dados contínuos. 59

199 3.13 ÁRVORES DE CLASSIFICAÇÃO ÁRVORE AGRUPADA POR REGIÃO COM AS MÉDIAS DE DESENVOLVIMENTO DOS MUNICÍPIOS Resumo do modelo Especificações Método de crescimento Variável dependente Variáveis independentes Validação CHAID REGIÕES5 ISDMm, ERm, IFGFm, LIQm, H6m, R1m, T1_2m, Sm, S1_1m, Em, E2_4m Nenhum Profundidade de árvore máxima 3 Casos mínimos em nó pai 2 Casos mínimos em nó filho 1 Variáveis independentes ISDMm, IFGFm, S1_1m incluídas Resultados Número de nós 9 Número de nós de terminal 6 Profundidade 3 Neste primeiro estudo a árvore de classificação será constituída pelo agrupamento das variáveis de desenvolvimento utilizadas neste estudo, por região. 60

200 61

201 A árvore indica que existem 6 nós a partir de ISDMm, IFGFm, e S1_1m. O primeiro nó representa os dados menores que 4,236, o segundo entre 4,236 a 4,997, o terceiro entre 4,997 e 5,224 e assim por diante. Risco Estimativas Modelo padrão,077,052 Método de crescimento: CHAID Variável dependente: REGIÕES5 Posto Observado Previsto CENTRO- OESTE NORDESTE NORTE SUDESTE SUL Porcentagem Correta CENTRO-OESTE ,0% NORDESTE ,0% NORTE ,0% SUDESTE ,0% SUL ,0% Porcentagem global 19,2% 38,5% 23,1% 7,7% 11,5% 92,3% Método de crescimento: CHAID Variável dependente: REGIÕES5 O percentual de acerto é 92,3%. 62

202 ÁRVORE AGRUPADA POR 3BRASIS COM OS ÍNDICES DE DESIGUALDADE (DESVIO PADRÃO) Resumo do modelo Especificações Método de crescimento Variável dependente Variáveis independentes Validação CHAID REGIÕES3 ISDMsdn, ERsdn, IFGFsdn, LIQsdn, H6sdn, R1sdn, T1_1sdn, Ssdn, S1_1sdn, Esdn, E2_4sdn Nenhum Profundidade de árvore máxima 3 Casos mínimos em nó pai 2 Casos mínimos em nó filho 1 Variáveis independentes ISDMsdn, LIQsdn incluídas Resultados Número de nós 7 Número de nós de terminal 5 Profundidade 2 Esta árvore de classificação é um agrupamento dos 3 Brasis com as variáveis que mais se assemelham segundo os outros estudos. São elas: ISDMm, Sm, S1_1m. Resumo do modelo Método de crescimento CHAID Variável dependente REGIÕES3 Variáveis independentes ISDMm, Sm, S1_1m Especificações Validação Profundidade de árvore Nenhum 3 máxima Casos mínimos em nó pai 2 Casos mínimos em nó filho 1 Variáveis independentes ISDMm incluídas Resultados Número de nós 5 Número de nós de terminal 4 Profundidade 1 63

203 A árvore indica que existem 4 nós a partir de ISDMm. O primeiro nó representa os dados menores que 4,671, o segundo entre 4,671 a 4,997, o terceiro entre 4,997 e 5,224 e o último nó cujos valores são maiores que 5,224. O percentual de acerto é 96,2%. Posto Observado Previsto NORCO SUD SUL Porcentagem Correta NORCO ,7% SUD ,0% SUL ,0% Porcentagem global 69,2% 19,2% 11,5% 96,2% 64

204 PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores relacionados a trabalho, educação, saúde e muito particularmente HABITAÇÃO MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA Professor Dr. Arnoldo Jose de Hoyos Hannah de Carvalho

205 INTRODUÇÃO 1.1 INTRODUÇÃO O presente trabalho tem por objetivo efetuar diversas análises dos dados da Pesquisa Firjan/FGV sobre o Desenvolvimento dos Municípios nos períodos de 2000 e Iniciamos com o entendimento dos dados, incluindo a definição dos indivíduos e das variáveis, suas classificações em variáveis categóricas ou quantitativas, os significados e unidades de medida, além da apresentação da tabela de dados. Na seqüência, analisamos cada uma das variáveis separadamente quanto a sua forma de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-plot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling). Em seguida faremos comparações entre as diversas variáveis analíticas, utilizando técnicas como relações entre as variáveis, regressões múltiplas, comparações, amostragem dos dados, análise multivariada, análise de conglomerados, análise discriminante, regressão logística, análise de correspondência e arvores de classificação. Não será possível, a partir destes dados, efetuarmos a análise de tendência pois não existem séries temporais de dados, requisitos para esta técnica. O software estatístico utilizado é o MINITAB 14. Este trabalho se concentrará nas diversas variáveis que compõem a pesquisa ISDM.

206 ANALISE EXPLORATORIO DE DADOS 1.2- PREPARAÇÃO DOS DADOS Antes da análise dos dados, é necessário avaliar se não existe alguma inconsistência ou falha que possa incorrer em algum erro nas análises futura. Neste caso, como se pode notar no item 1.1, coluna (N*), que indica o número de dados faltantes, em diversas variáveis estão faltando dados, como exemplo: 304 no IFGF e 22 na Emprego e Renda Estatística Descritiva - dados originais Descriptive Statistics: H; H1; H2; H3; H4; H5; H6; ISDM;... Variable N* Mean Minimum Q1 Median Q3 Maximum H 0 4,3854 0,2800 3,7000 4,4400 5,1900 6,4800 H1 0 69,480 0, ,860 73,330 89, ,000 H2 0 96,182 9,530 96,820 99,010 99, ,000 H3 0 84,293 4,320 74,345 93,750 98, ,000 H4 0 29,807 0, ,955 16,820 56,250 99,920 H5 0 77,076 26,770 70,200 77,390 84,430 97,500 H6 0 54,319 4,740 45,035 55,300 64,615 89,330 ISDM 0 4,4325 0,5500 3,6000 4,6400 5,3500 6,2800 IFDM 71 0, , , , , ,94860 IFGF 304 0, , , , , ,97000 E2_4 0 85,481 45,720 79,525 87,510 92, ,000 T1_2 0 56,304 6,400 41,275 57,420 71,380 94,910 S1_1 1 14,260 0, ,293 12,580 20, ,330 R1 0 24,525 0,0700 8,620 19,990 39,480 78,800 Educação 22 0, , , , , ,00000 Emprego e Renda 22 0, , , , , ,00000 Liquidez 304 0, , , , , , Estatística Descritiva dos dados originais (N*=0) Como foi observado no tópico anterior que os indicadores IFDM, IFGF, S1_1, Liquidez, Educação e Emprego & Renda estão faltando (N* - coluna) usaremos o número referente ao primeiro quartil para as células vazias. Descriptive Statistics: H; H1; H2; H3; H4; H5; H6; ISDM;... Variable N* Mean Minimum Q1 Median Q3 Maximum H 0 4,3854 0,2800 3,7000 4,4400 5,1900 6,4800 H1 0 69,480 0, ,860 73,330 89, ,000 H2 0 96,182 9,530 96,820 99,010 99, ,000 H3 0 84,293 4,320 74,345 93,750 98, ,000 H4 0 29,807 0, ,955 16,820 56,250 99,920 H5 0 77,076 26,770 70,200 77,390 84,430 97,500 H6 0 54,319 4,740 45,035 55,300 64,615 89,330 ISDM 0 4,4325 0,5500 3,6000 4,6400 5,3500 6,2800 IFDM 0 0, , , , , ,94860 IFGF 0 0, , , , , ,97000 E2_4 0 85,481 45,720 79,525 87,510 92, ,000 T1_2 0 56,304 6,400 41,275 57,420 71,380 94,910 S1_1 0 14,259 0, ,293 12,580 20, ,330 R1 0 24,525 0,0700 8,620 19,990 39,480 78,800 Educação 0 0, , , , , ,00000 Emprego e Renda 0 0, , , , , ,00000 Liquidez 0 0, , , , , ,00000 E2_ ,481 8,881 45,722 79,528 87,510 92,529

207 1.4 Estatística Descritiva dos dados (adequação dos indicadores à escala 1-0) Em seguida, para adequar os dados no estudo e possibilitar avaliações comparativas entre estes, os indicadores, foram transformados em indicadores que variam de 0 à 1, e para tal adotou-se à seguinte fórmula:

208 2.2 AS VARIÁVEIS As variáveis desta pesquisa incluem os 3 principais índices sintéticos que são ISDM, IFDM e IFGF, que são médias ponderadas dos dados analíticos globais da pesquisa, e variáveis analíticas, referente à educação, saúde, renda, emprego e habitação. Tabela 1. As Variáveis Variável Significado Tipo UF Abreviação de Unidade Federativa (ou Unidade da Variável Federação) do Brasil. As UF do Brasil são entidades Categórica autônomas, com governo e constituição próprias, que em seu conjunto constituem a República Federativa do Brasil. (IBGE, 2013) Município O município é a divisão administrativa autônoma da Variável UF. São as unidades de menor hierarquia dentro da Categórica organização político administrativa do Brasil, criadas através de leis ordinárias das Assembléias Legislativas de cada Unidade da Federação e sancionadas pelo Governador. (IBGE, 2013) UF2 Apresenta a sigla que representa as Unidades Variável Federativas (ou Unidades da Federação) do Brasil. Categórica H- Habitação Indicador do ISDM composto por H1, H2, H3, H4, H5, Variável H6. Quantitátiva Unidade de Medida N/A N/A N/A Percentual H1- Água Proporção de pessoas que vivem em domicilio com Variável Percentual Encanada acesso à água canalizada em pelo menos um cômodo. Quantitátiva H2- Proporção de pessoas que vivem em domicilio com Variável Percentual Esgotamento esgotamento sanitário do tipo rede geral ou esgoto Quantitátiva Sanitário pluvial. H3- Coleta de Proporção de pessoas que vivem em domicilio Variável Percentual Lixo atendido por coleta de lixo (realizada por serviço de Quantitátiva

209 limpeza, ou cujo lixo é colocado em caçamba de serviço de limpeza). H4- Energia Proporção de pessoas que vivem em domicilio que tem Variável Percentual Elétrica acesso à energia elétrica provida por companhia Quantitátiva distribuidora. H5- Proporção de pessoas que vivem em domicilio próprio Variável Percentual Domicilio de algum morador (Já pago ou ainda pagando). Quantitátiva Próprio H6- Percentual de pessoas que vivem em domicilio que tem Variável Percentual Densidade densidade de moradores por dormitório inferior à dois. Quantitátiva por Dormitório ISDM Indicador Social de Desenvolvimento dos Municipios, Variável Percentual calculado pelo Centro de Economia Aplicada da Quantitátiva Fundação Getulio Vargas (C-Micro-FGV)- pretende contribuir para o debate de políticas publicas brasileira fornecendo uma medida sintética de bem-estar dos municípios que considere algumas de suas caracteristicas importantes relacionadas à dimensão de Renda, Habitação, Educação, Trabalho, Saude e Segurança. IFDM Indice Firjan de Desenvolvimento Municipal é um Variável 0-1 estudo anual que acompanha o desenvolvimento dos Quantitátiva Proporção 5565 municipios do Brasil em três áreas: Emprego e Renda, Educação e Saúde, variando de 0à 1, sendo que quanto mais próximo de 1, maior é o desenvolvimento da localidade. IFGF Indice Firjan de Gestão Fiscal, para estimular a cultura Variável 0-1 de responsabilidade administrativa para Quantitátiva Proporção aperfeiçoamento das decisões quanto à alocação de recursos públicos afim de contribuir com uma gestão eficiente e democrática e maior controle social da gestão fiscal dos municípios. Indicadores: Receita própria, pessoal, investimentos, liquidez e custo da divida.

210 E2_4 Percentual de crianças de 7 a 14 anos que estão na série correta segundo a idade Numérico Escala convertida para intervalo entre 0 e 1. T1_2- Formalização empregados S1_1- Mortalidade Infantil R1- Linha de Pobreza Educação Emprego e Renda Taxa de formalização entre os empregados Numérico Escala convertida para intervalo entre 0 e 1. Taxa de sobrevivência infantil no primeiro ano de vida, Numérico Escala representada pela diferença entre o número de nascidos convertida vivos e o número de óbitos até um ano de idade. para intervalo entre 0 e 1. Numérico Escala convertida para intervalo entre 0 e 1. Média ponderada dos indicadores da dimensão Numérico Escala Educação (E1_1, E1_2, E2_1, E2_2, E2_3, E2_4, convertida E2_5, E2_6, E3_1, E3_2 e E3_3) padronizada pela para média do Brasil. intervalo entre 0 e 1. Geração, estoque e salários médios dos empregos Numérico Escala formais (IFDM). convertida para intervalo entre 0 e 1. Liquidez Índice de liquidez dos municípios. Numérico Escala convertida para intervalo entre 0 e 1.

211 3. ANÁLISE DAS VARIÁVEIS 3.1 Variáveis Categóricas ou qualitativas. Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo pie chart e barras Variável: UF e UF2 Nossa amostra totaliza 26 unidades federativas e 1 distrito federal. As unidades federativas estão distribuídas em 5 regiões. Unidades Federativas x Regiões Nordeste 32.2% Norte 7.8% Centro-Oeste 8.4% Category Norte Centro-Oeste Sul Sudeste Nordeste Sul 21.5% Sudeste 30.0% No que diz respeito a relação regiões e cidades pode-se observar no gráfico acima que as regiões Nordeste (32,2%), Sudeste (30,0%) e Sul (21,5%) concentram 83, 7% dos municípios

212 do território nacional, enquanto as demais regiões, Norte (7.8%) e Centro-Oeste (8,4%) somam apenas 16, 2% dos munícipios. Além da concentração dos municípios brasileiros, as três regiões tem em comum o fato de serem as três regiões banhadas significativamente pelo oceano Atlântico. Fato este, que nos ajuda a entender a concentração nestas regiões Variável: Munícipios Os gráficos abaixo nos ajudam a entender melhor o comportamento desta variável RS RR RO SC RN SE RJ PR Cidades X Estados SP PI TOther AC AL PE PB AMAP PA BA MT MS CE ES GO MA MG C ategory A C A L A M A P BA C E ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO O ther.

213 900 Cidades X Estados Cidades RO AC AP RR DF AM PA MT TO AL RJ MS ES SE RN UF2 PI PB MA PE CE SP RS BA PR SC GO MG

214 Análise: - O comportamento dos municipios por Unidades Federativas (UF2) não consiste em igualdade conforme demonstra os gráficos acima, pois enquanto o estado de Minas Gerais que contém a maior quantidade de municípios brasileiros tem 851 cidades que correspondem à 15,3 %, Roraima tem apenas 15 municipios que é correspondente à 0,3%. Portanto Minas Gerais tem 57 vezes mais municípios que Roraima. A distância aumenta ao considerarmos o Distrito Federal que tem somente uma cidade. - O Primeiro e o segundo quartil concentram-se nas regiões Norte e Centro-Oeste, de maneira que tem somente dois estados no Sudeste: Rio de Janeiro e Espirito Santo e no Nordeste apenas: Alagoas e Sergipe, exclui-se deste contexto Goiás que corresponde ao quarto quartil Portanto podemos afirmar que nestas regiões concentram-se os estados com menor quantidade de municípios que totalizam 1.015, ou seja, as Regiões Norte e Centro-Oeste somadas aos quatro estados descritos acima correspondem 18% do total de municípios brasileiros. - No terceiro Quartil os estados possuem a quantidade de municípios entre 167 e 223 concentrados na Região Sul e Sudeste, incluindo a Bahia que pertence à região Nordeste, exclui-se deste contexto Rio de Janeiro e Espirito Santo. Este quartil é composto por municipios que correspondem à 22% do total de municípios brasileiros. -No ultimo Quartil visualizamos os estados que possuem as maiores quantidades de municípios, com forte concentração na região Nordeste, excluindo-se destes os estados da Bahia, Alagoas e Sergipe e incluimos Goias correspondente à região centro-oeste. Deste total temos municipios que correspondem à 60% do total de municípios brasileiros., portanto a Região Nordeste é composta pelos estados que mais contém municípios. 3.2 Variáveis Quantitativas A variável quantitativa quando seus valores forem expressos em números, podendo estar subdivididas em quantitativa discreta e quantitativa continua,de modo que o primeiro caso refere-se aos valores contidos em um intervalo razoável e a segunda são aquelas cujo valor só pode pertencer à um conjunto enumerável. Usaremos neste caso ferramentas de análise tais como; histogramas, gráficos e as informações numéricas disponíveis Variável: IFGF Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

215 Histogra ma e Box-Plot Intervalo de variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável IFGF. Mean % Confidence Intervals Summary for IFGF A nderson-darling Normality Test A -Squared P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum % C onfidence Interv al for Mean % C onfidence Interv al for Median % C onfidence Interv al for StDev Medidas Numéri Median As principais observações que podemos fazer são: - Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda. Apresenta um pico decorrente do ajuste feito com informações do primeiro quartil para preenchimento de valor dos municípios sem dados. - Valores Atípicos: Há 5 valores de IFGF atípicos no gráfico. Trata-se de 3 municípios do Nordeste com valores muito baixos, Ilha Grande/PI (0,08), Buerarema/BA (0,10) e Conceição/PB (0,11) e dois muito acima Poá/SP (0,96) e Santa Isabel/GO (0,97) conforme demonstra o Box-plot.. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos munícipios têm IFGF menor do que 0,53 e metade IFGF maior do que este valor. O IFGF médio do dos municípios é de 0,5267, e o desvio-padrão (medida de dispersão) é 0,1479. O IFGF mínimo é de 0,08, e o máximo 0,97, demonstrando uma grande amplitude. A mediana é de 0,53, estando muito próxima da média Variável: IFDM Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável IFDM.

216 Summary for IFDM Histogra ma e Box-Plot A nderson-darling Normality Test A -Squared 6.01 P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum Medidas Numéri 95% C onfidence Interv al for Mean Intervalo de 95% Confidence Intervals % C onfidence Interv al for Median % C onfidence Interv al for StDev Mean Median As principais observações que podemos fazer são:

217 - Forma: O histograma apresenta uma curva de freqüência simétrica, pois neste caso a Mediana é igual à Média conforme está descrito no gráfico sumário e ranking acima. Portanto podemos concluir que existem apenas seis estados com alto desenvolvimento: 22% e por outro lado apenas Alagoas com desenvolvimento regular: 4%, os demais 20 estados que correspondem à 74% tem desenvolvimento regular. - Valores Atípicos: Há 4 valores de IFDM atípicos, 2 que apresentam resultados abaixo de 0,37, e 2 que representam dados acima de 0,97, ou seja: Alagoas, Amapá, São Paulo e Paraná respectivamente conforme demonstra o Box-plot.. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem IFDM menor do que 0, O IFDM médio é de 0,64888, bastante próximo da média o que nos confirma a simetria. O desvio-padrão (medida de dispersão) é de 0,09580, que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil Variável: ISDM Histogra ma e Box-Plot Intervalo de Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável ISDM. Mean % Confidence Intervals Summary for ISDM A nderson-darling Normality Test A -Squared P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum % C onfidence Interv al for Mean % C onfidence Interv al for Median % C onfidence Interv al for StDev Medidas Numéri Median Com base neste quadro-resumo, concluímos:

218 - Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda demonstrando que muitos municípios possuem um nível médio de desenvolvimento ou um nível baixo de desenvolvimento e poucas possuem um alto nível de desenvolvimento Existem duas corcovas no gráfico que nos mostra que existem duas realidades diferentes dentro dos dados analisados, ou seja, existem tipicamente dois tipos de municípios dentro do Brasil, e cada tipo está em um estágio diferente de desenvolvimento. - Valores Atípicos: Há 3 valores de ISDM atípicos, que apresentam resultados abaixo de 0,8, que são os municípios de Chaves, PA; Amajari, RR e Melgaço, PA, conforme demonstra o Box-plot.. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem ISDM menor do que 4, O ISDM médio é de 4,4324, mas o desvio-padrão (medida de dispersão) é de 1,0929, que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil Variável: H- Habitação Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável Habitação.

219 Summary for H Histogra ma e Box-Plot A nderson-darling Normality Test A -Squared P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum Medidas Numéri 95% C onfidence Interv al for Mean Intervalo de 95% Confidence Intervals % C onfidence Interv al for Median % C onfidence Interv al for StDev Mean Median Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda demonstrando que muitos municípios possuem um nível médio de desenvolvimento ou um nível baixo de desenvolvimento e poucas possuem um alto nível de desenvolvimento. - Valores Atípicos: Há 4 valores de Habitação atípicos, que apresentam resultados abaixo de 0,9 que são os municípios de Canaã, PA; Maracanã, PA; Pacaraima RR e Wenceslau, MG conforme demonstra o Box-plot.. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem o índice de habitação menor do que 4,44. O índice de habitação médio é de 4,3854, mas o desvio-padrão (medida de dispersão) é de 1,0228, que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil Variável: H1- Água Canalizada Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável H1-Água canalizada.

220 Summary for H1 Histogra ma e Box-Plot A nderson-darling Normality Test A -Squared P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum Medidas Numéri 95% C onfidence Interv al for Mean Intervalo de 95% Confidence Intervals % C onfidence Interv al for Median % C onfidence Interv al for StDev Mean Median Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda demonstrando que na maior parte dos municípios as pessoas vivem em domicilio com acesso à água canalizada em pelo menos um cômodo e poucos municípios não possuem água canalizada, conforme pesquisa realizada em julho de 2008 pela Unesp conclui-se que 72% da população recebe água canalizada, ratificando nossos dados acima: - Valores Atípicos: Não há conforme demonstra o Box-plot.. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem o índice de água canalizada menor do que O índice de água canalizada médio é de , mas o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil Variável: H2- Esgotamento Sanitário Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável H2- Esgotamento Sanitário.

221 Summary for H2 Histogra ma e Box-Plot A nderson-darling Normality Test A -Squared P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum Medidas Numéri 95% C onfidence Interv al for Mean Intervalo de 95% Confidence Intervals % C onfidence Interv al for Median % C onfidence Interv al for StDev Mean Median Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda demonstrando que na maior parte dos municípios as pessoas há uma alta taxa de pessoas vivem em domicilio com esgotamento Sanitário do tipo rede ou esgoto pluvial, as baixas taxas demonstram que existem cidades pouco desenvolvidas. - Valores Atípicos: Há muitos valores atípicos que apresentam resultados abaixo de que são as cidades com esgotamento sanitário do tipo rede ou fluvial, significa portanto que para estas cidades 6.82 % não são possuem esgotamento do tipo rede ou esgoto pluvial. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem o índice de esgotamento sanitário menor do que O índice de esgotamento sanitário médio é de , mas o desvio-padrão (medida de dispersão) é de 8.190, que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil Variável: H3- Coleta de Lixo Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável H3- Coleta de lixo.

222 Summary for H3 Histogra ma e Box-Plot A nderson-darling Normality Test A -Squared P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum Medidas Numéri 95% C onfidence Interv al for Mean Intervalo de 95% Confidence Intervals % C onfidence Interv al for Median % C onfidence Interv al for StDev Mean Median Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda demonstrando que na maior parte dos municípios as pessoas vivem em domicilio com Coleta de lixo. - Valores Atípicos: Há muitos valores atípicos que apresentam resultados abaixo de Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem o índice de coleta de lixo menor do que O índice de coleta de lixo médio é de , mas o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil Variável: H4- Energia elétrica Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável H4- Energia Elétrica.

223 Summary for H4 Histogra ma e Box-Plot A nderson-darling Normality Test A -Squared P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum Medidas Numéri 95% C onfidence Interv al for Mean Intervalo de 95% Confidence Intervals % C onfidence Interv al for Median % C onfidence Interv al for StDev Mean Median Forma: O histograma apresenta uma curva de freqüência com assimetria positiva, pois neste caso a Mediana é menor que a Média, a cauda é assimétrica à direita. - Valores Atípicos: Não há conforme demonstra o Box-plot.. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem o índice de energia elétrica menor do que O índice de energia elétrica médio é de , mas o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil Variável: H5- Domicilio Próprio Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável H5- Domicilio Próprio.

224 Summary for H5 Histogra ma e Box-Plot A nderson-darling Normality Test A -Squared P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum Medidas Numéri 95% C onfidence Interv al for Mean Intervalo de 95% Confidence Intervals % C onfidence Interv al for Median % C onfidence Interv al for StDev Mean Median Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda - Valores Atípicos: Existem muitos valores atípicos que apresentam resultados abaixo de Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem o índice de domicilio próprio menor do que O índice de domicilio próprio médio é de , mas o desvio-padrão (medida de dispersão) é de 9.53, que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil Variável: H6- Densidade por dormitório Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável H6- Densidade por dormitório.

225 Summary for H6 Histogra ma e Box-Plot A nderson-darling Normality Test A -Squared P-V alue < Mean StDev V ariance Skew ness Kurtosis N 5565 Minimum st Q uartile Median rd Q uartile Maximum Medidas Numéri 95% C onfidence Interv al for Mean Intervalo de 95% Confidence Intervals % C onfidence Interv al for Median % C onfidence Interv al for StDev Mean Median Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda. - Valores Atípicos: Existem muitos valores atípicos que apresentam resultados abaixo de Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem o índice de densidade por dormitório menor do que O índice densidade por dormitório médio é de , mas o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil VARIÁVEL EDUCAÇÃO

226 Summary for Educação A nderson-darling Normality Test A -Squared 8,14 P-V alue < 0,005 Mean 0,74065 StDev 0,11324 V ariance 0,01282 Skew ness -0, Kurtosis -0, N ,45 0,54 0,63 0,72 0,81 0,90 0,99 Minimum 0, st Q uartile 0,66200 Median 0, rd Q uartile 0,82310 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,11539 Mean Median 0,738 0,740 0,742 0,744 0,746 0,748 0,750 As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser simétrica cujo pico concentra-se no centro, o que é comum para variáveis que indiquem desempenho regular. A curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão da variabilidade sobre Educação nos municípios do Brasil. Os dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade entre os dados. - Valores Atípicos: Há muitos valores atípicos de Educação, que apresentam resultados abaixo de 0, O desempenho Educação é considerado médio nos municípios do Brasil. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem Educação menor do que 0, A Educação média é 0,58679 e o desvio-padrão (medida de dispersão) é de 0,17984, que implica em uma dispersão média para a questão VARIÁVEL EMPREGO E RENDA

227 Summary for Emprego e Renda A nderson-darling Normality Test A -Squared 105,67 P-V alue < 0,005 Mean 0,40375 StDev 0,15527 V ariance 0,02411 Skew ness 0,88830 Kurtosis 1,32099 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,30560 Median 0, rd Q uartile 0,47118 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,15821 Mean Median 0,37 0,38 0,39 0,40 0,41 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores baixos de EMPREGO E RENDA. Muitas cidades possuem um nível médio de EMPREGO E RENDA e poucas possuem um nível alto de EMPREGO E RENDA. Existe apenas uma corcova no gráfico. - Valores Atípicos: Há alguns valores atípicos de EMPREGO E RENDA atípicos, que apresentam resultados abaixo de 0,4742, e muitos valores atípicos acima da curva (0,72208). Esta informação nos diz que existem municípios no Brasil que apresentam Taxas de EMPREGO E RENDA acima da curva e alguns abaixo da curva. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem EMPREGO E RENDA menor do que O EMPREGO E RENDA médio é de 0,40414 e o desvio-padrão (medida de dispersão) é de 0,15543, que implica em uma dispersão alta do índice de EMPREGO E RENDA VARIÁVEL LIQUIDEZ

228 O indicador demonstra se o município possui recursos financeiros suficientes para fazer frente ao montante de restos a pagar. Se o município apresentar mais restos a pagar do que ativos financeiros disponíveis a pontuação será zero. Na leitura dos resultados, quanto mais próximo de 1,00, menos o município está postergando pagamentos para o exercício seguinte sem a devida cobertura Summary for Liquidez A nderson-darling Normality Test A -Squared 257,92 P-V alue < 0,005 Mean 0,55136 StDev 0,37352 V ariance 0,13952 Skew ness -0,32322 Kurtosis -1,46949 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,19000 Median 0, rd Q uartile 0,91000 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,38059 Mean Median 0,550 0,575 0,600 0,625 0,650 0,675 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição totalmente assimétrica tendendo levemente para a direita, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. Os valores de LIQUIDEZ se espalham por todo o gráfico, não tendo um pico dos dados. - Valores Atípicos: Não existem valores atípicos de LIQUIDEZ visto que a variabilidade dos dados é tão alta que se distribui uniformemente por todo o gráfico. Não existe um padrão nesta variável. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem LIQUIDEZ menor do que O LIQUIDEZ médio é de 0,55130 e o desvio-padrão

229 (medida de dispersão) é de 0,37328, que implica em uma dispersão absoluta do índice de LIQUIDEZ VARIÁVEL R1 - Pessoas com renda domiciliar per capita abaixo da linha de pobreza (R$ 140,00) Summary for R1 A nderson-darling Normality Test A -Squared 154,09 P-V alue < 0,005 Mean 24,528 StDev 17,698 V ariance 313,220 Skew ness 0, Kurtosis -0, N Minimum 0,070 1st Q uartile 8,630 Median 19,995 3rd Q uartile 39,480 Maximum 78,800 95% C onfidence Interv al for Mean 24,063 24,993 95% C onfidence Interv al for Median 19,064 20,990 95% Confidence Intervals 95% C onfidence Interv al for StDev 17,375 18,033 Mean Median Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser levemente assimétrica cujo pico concentra-se à esquerda, o que é comum para variáveis que indiquem desempenho baixo. A curva apresenta algumas corcovas, sendo duas altamente acentuadas, a primeira com maior pico e localizada fortemente à esquerda do gráfico. Indica que o comportamento atípico da variabilidade sobre os dados de R1. Os dados se dispersam bastante, e podemos afirmar que a variável R1 tem alta dispersão em relação aos municípios do Brasil. - Valores Atípicos: Não existem valores atípicos de R1. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem R1 menor do que O R1 médio é de e o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão alta para R VARIÁVEL T1_2 - Taxa de formalização entre os empregados

230 Summary for T1_2 A nderson-darling Normality Test A -Squared 41,06 P-V alue < 0,005 Mean 56,299 StDev 18,233 V ariance 332,425 Skew ness -0, Kurtosis -0, N Minimum 6,400 1st Q uartile 41,273 Median 57,415 3rd Q uartile 71,380 Maximum 94,910 95% C onfidence Interv al for Mean 55,820 56,778 95% C onfidence Interv al for Median 56,580 58,206 95% Confidence Intervals 95% C onfidence Interv al for StDev 17,900 18,578 Mean Median 56,0 56,5 57,0 57,5 58,0 58,5 As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição simétrica, embora o gráfico apresente várias corcovas na sua distribuiçõ. Indica que trata-se de um desempenho regular. Esta conclusão está comprovada pelo teste de normalidade de Anderson- Darling que indica que a distribuição pode ser considerada uma Normal. Muitas cidades possuem um baixo nível de desenvolvimento, muitas cidades possuem um nível médio de desenvolvimento e muitas possuem um nível alto de desenvolvimento. Existem várias corcovas no gráfico que nos mostra que existem N realidades nos dados analisados, ou seja, existem vários tipos de municípios dentro do Brasil em relação à formalização dos empregos. - Valores Atípicos: Não existem valores atípicos de T1_2. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem T1_2 menor do que O T1_2 médio é de , e o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão grande da população de T1_ VARIÁVEL S1_1 - Taxa de mortalidade infantil, por mil nascidos vivos.

231 Summary for S1_1 A nderson-darling Normality Test A -Squared 160,55 P-V alue < 0,005 Mean 14,261 StDev 14,283 V ariance 204,007 Skew ness 4,2572 Kurtosis 59,4151 N Minimum 0,000 1st Q uartile 4,278 Median 12,575 3rd Q uartile 20,080 Maximum 333,330 95% C onfidence Interv al for Mean 13,885 14,636 95% C onfidence Interv al for Median 12,294 12,916 95% Confidence Intervals 95% C onfidence Interv al for StDev 14,023 14,554 Mean Median 12,0 12,5 13,0 13,5 14,0 14,5 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores baixos de S1_1. Pouca cidades possuem um nível médio de S1_1 e quase nenhuma possuem um nível alto de S1_1. Existem duas corcovas visíveis no gráfico. Como trata-se de nascido vivos, o número baixo é bom porque a maioria dos nascidos vivos sobrevivem após um ano de vida. - Valores Atípicos: Há alguns valores atípicos de S1_1, que apresentam resultados acima de 0, Esta informação nos diz que existem municípios no Brasil que apresentam Taxas de S1_1 acima da curva, ou seja, que o índice de mortalidade é alto. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem S1_1 menor do que O S1_1 médio é de e o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão baixa do índice de S1_ VARIÁVEL E2_4 Crianças entre 7 e 14 anos que estudam na série correta segundo sua idade

232 Summary for E2_4 A nderson-darling Normality Test A -Squared 95,36 P-V alue < 0,005 Mean 85,480 StDev 8,882 V ariance 78,889 Skew ness -0, Kurtosis 0, N Minimum 45,720 1st Q uartile 79,523 Median 87,510 3rd Q uartile 92,530 Maximum 100,000 95% C onfidence Interv al for Mean 85,246 85,713 95% C onfidence Interv al for Median 87,164 87,880 95% Confidence Intervals 95% C onfidence Interv al for StDev 8,720 9,050 Mean Median 85,0 85,5 86,0 86,5 87,0 87,5 88,0 - Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente assimétrica tendendo para a direita, o que é comum para variáveis que indiquem desempenho alto e taxas elevadas. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão da série correta dos alunos. Os dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe muita diversidade entre a questão do grau correto de idade e escolaridade nos municípios. - Valores Atípicos: Há muitos valores atípicos de E2_4 atípicos, que apresentam resultados abaixo de 0,25933 que são as cidades cujas crianças que estão na série correta. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem E2_4 menor do que O E2_4 médio é de e o desvio-padrão (medida de dispersão) é de , que implica em uma dispersão grande para a questão.

233 RELAÇÃO ENTRE AS VARIÁVEIS 4 RELAÇÃO ENTRE VARIÁVEIS: CORRELAÇÃO, REGRESSÃO E TESTE QUI- QUADRADO. 4.1 Gráficos de dispersão com LINHAS DE TENDÊNCIAS Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade. 4.2 GRÁFICOS DE DISPERSÃO entre variáveis Habitação e Emprego e Renda GRAFH >> SCATTERPLOT >> SIMPLE A quantidade de dados analisados é muito grande, são 5565 municípios, o que causa uma mancha no gráfico e dificulta a visualização. Uma forma de contornar esta situação seria selecionar os dados por amostragem, mas neste caso não é aplicado, pois não existem critérios específicos que garantiriam a fidelidade da amostra em relação à população. 1,0 Scatterplot of Emprego e Renda vs H 0,8 Emprego e Renda 0,6 0,4 0,2 0,0 0,0 0,2 0,4 H 0,6 0,8 1,0

234 Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção e intensidade. Direção: Da análise das correlações acima percebemos que quase todas possuem associações positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. O que nos parece é que não há nenhuma associação negativa, ao menos de evidência visual. Intensidade: O gráfico acima parece indicar a existência de relações lineares, embora no ponto mais alto do gráfico os pontos tendem a decair, e perde a característica de uma reta. Forma: O gráfico apresenta conglomerados que sugerem relações lineares, embora prejudicado pelo excesso de dados da população (5565 linhas). Valores Atípicos: Todos os gráficos indicam a existência de valores atípicos, ou seja, indivíduos ou municípios que possuem seus indicadores de Habitação e Emprego e Renda fora da curva. 4.3 LINHAS DE TENDÊNCIAS entre Habitação e Emprego e Renda GRAFH >> SCATTERPLOT >> WITH REGRESSION

235 Scatterplot of H vs Emprego e Renda 1,0 0,8 0,6 H 0,4 0,2 0,0 0,0 0,2 0,4 0,6 Emprego e Renda 0,8 1,0 Para se verificar qual o tipo de relação (linear, quadrática, cúbica, exponencial, etc.) existente entre as variáveis, adicionamos em cada gráfico de dispersão uma linha de tendência. O gráfico analisado neste caso contém a variável Habitação em relação Emprego e Renda. Podemos afirmar que os pontos estão muito próximos da linha e são ascendentes, o que nos aponta que o tipo de relação entre as variáveis é linear, embora existam valores atípicos distribuídos por toda a extensão da reta. 4.4 LINHAS DE TENDÊNCIAS entre Educação e H6 (Proporção de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2)

236 Scatterplot of Educação vs H6 1,0 0,9 0,8 Educação 0,7 0,6 0,5 0,4 0,3 0,0 0,2 0,4 H6 0,6 0,8 1,0 O segundo gráfico compara a tendência entre as variáveis Educação com H6. Se compararmos com o gráfico anterior, podemos constatar que a nuvem de pontos está mais concentrada na parte superior que o gráfico anterior. As duas linhas são crescentes, e concluíse que quando aumenta o índice de Educação, cresce o Emprego e Renda e melhora a questão da habitação. 4.5 CORRELAÇÃO LINEAR A matriz de correlação incluí o teste de significância p-value. Para a correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as variáveis não requer que exista uma relação de causa-efeito entre ambas. Esta primeira visão exibe a correlação entre todas as variáveis utilizadas no trabalho. STAT >> BASIC STATISTICS >> CORRELATION

237 Correlations: H; H1; H2; H3; H4; H5; H6; ISDM;... H H1 H2 H3 H1 0,829 0,000 H2 0,829 1,000 0,000 * H3 0,831 0,684 0,684 0,000 0,000 0,000 H4 0,769 0,543 0,543 0,404 0,000 0,000 0,000 0,000 H5-0,443-0,515-0,515-0,481 0,000 0,000 0,000 0,000 H6 0,644 0,384 0,384 0,688 0,000 0,000 0,000 0,000 ISDM 0,916 0,808 0,808 0,869 0,000 0,000 0,000 0,000 IFDM 0,723 0,672 0,672 0,673 0,000 0,000 0,000 0,000 IFGF 0,309 0,284 0,284 0,367 0,000 0,000 0,000 0,000 E2_4 0,648 0,527 0,527 0,696 0,000 0,000 0,000 0,000 T1_2 0,672 0,682 0,682 0,642 0,000 0,000 0,000 0,000 S1_1-0,102-0,085-0,085-0,115 0,000 0,000 0,000 0,000 R1-0,807-0,738-0,738-0,837 0,000 0,000 0,000 0,000 Educação 0,710 0,592 0,592 0,664 0,000 0,000 0,000 0,000 Emprego e Re 0,475 0,521 0,521 0,385 0,000 0,000 0,000 0,000 Liquidez 0,197 0,185 0,185 0,255 0,000 0,000 0,000 0,000 H4 H5 H6 ISDM H5-0,434 0,000 H6 0,209-0,205 0,000 0,000 ISDM 0,583-0,501 0,695 0,000 0,000 0,000 IFDM 0,464-0,432 0,522 0,815 0,000 0,000 0,000 0,000 IFGF 0,104-0,127 0,327 0,420 0,000 0,000 0,000 0,000 E2_4 0,329-0,394 0,613 0,764

238 0,000 0,000 0,000 0,000 T1_2 0,405-0,375 0,449 0,806 0,000 0,000 0,000 0,000 S1_1-0,026 0,040-0,115-0,147 0,054 0,003 0,000 0,000 R1-0,431 0,514-0,709-0,951 0,000 0,000 0,000 0,000 Educação 0,488-0,454 0,552 0,782 0,000 0,000 0,000 0,000 Emprego e Re 0,354-0,261 0,211 0,525 0,000 0,000 0,000 0,000 Liquidez 0,017-0,051 0,260 0,276 0,194 0,000 0,000 0,000 IFDM IFGF E2_4 T1_2 IFGF 0,446 0,000 E2_4 0,705 0,420 0,000 0,000 T1_2 0,737 0,429 0,599 0,000 0,000 0,000 S1_1-0,182-0,066-0,128-0,112 0,000 0,000 0,000 0,000 R1-0,801-0,455-0,768-0,782 0,000 0,000 0,000 0,000 Educação 0,810 0,386 0,765 0,609 0,000 0,000 0,000 0,000 Emprego e Re 0,778 0,330 0,363 0,586 0,000 0,000 0,000 0,000 Liquidez 0,282 0,766 0,263 0,302 0,000 0,000 0,000 0,000 S1_1 R1 Educação Emprego e Re R1 0,140 0,000 Educação -0,122-0,753 0,000 0,000 Emprego e Re -0,077-0,509 0,377 0,000 0,000 0,000 Liquidez -0,049-0,308 0,234 0,197 0,000 0,000 0,000 0,000 Cell Contents: Pearson correlation P-Value

239 4.6 Regressão dos mínimos quadrados A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas variáveis quantitativas. Se um diagrama de dispersão mostra uma relação linear, é interessante resumirmos esse padrão geral traçando uma reta no diagrama de dispersão. Uma reta de regressão resume a relação entre duas variáveis, mas somente em um contexto específico: quando uma das variáveis ajuda a explicar ou a predizer a outra, ou seja, a regressão descreve uma relação entre uma variável explanatória e uma variável resposta. A regressão linear assume sempre a forma de uma equação linear: Y = a + bx, sendo: Y= Variável dependente; a = uma constante, o intercepto; b = a inclinação na reta; x = variável independente ou explicativa. O b, ou seja, a declividade é dada pela multiplicação do índice de correlação pela divisão dos desvios-padrão entre as variáveis x e y. E a é dado pela média de Y menos a multiplicação de b pela média de x. Assim, percebe-se muito claramente que a regressão depende da correlação entre as variáveis, além de medidas de centro de cada uma das variáveis. Segue abaixo o resultado da regressão entre as variáveis R1 e H3. Regression Analysis: R1 versus H3 The regression equation is R1 = 1,10-0,940 H3 Predictor Coef SE Coef T P Constant 1, , ,10 0,000 H3-0, , ,30 0,000 S = 0, R-Sq = 70,1% R-Sq(adj) = 70,1% Analysis of Variance Source DF SS MS F P Regression 1 197,19 197, ,11 0,000 Residual Error ,97 0,02 Total ,16

240 A tabela acima exibe o resultado da fórmula entre as variáveis R1 e H3(Coleta de Lixo). Se substituísse o valor de H3 se chegaria ao valor de R1 esperado. A é a expressão numérica da reta de tendência que vimos nos itens acima. Esta equação tem um poder explicativo de 70,18%, que é o R-Quadrado. O valor da constante 1,10 significa que, se o H3 fosse zero, o valor da R1 seria 1, Dendrograma Dendrogram with Single Linkage and Correlation Coefficient Distance 48,71 Similarity 65,80 82,90 100,00 H ISDM H3 H1 H2 IFDM Educação T1_2 Emprego e Renda H4 E2_4 H6 IFGF Liquidez H5 R1 S1_1 Variables Gráfico 1 - Dendrograma das 13 variáveis Cluster Analysis of Variables: H; H1; H2; H3; H4; H5; H6; ISDM;... Correlation Coefficient Distance, Single Linkage Amalgamation Steps Number Number of obs. of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,000 0, ,795 0, ,435 0, ,442 0, ,744 0, ,476 0,

241 ,318 0, ,922 0, ,444 0, ,304 0, ,263 0, ,756 0, ,721 0, ,322 0, ,016 0, ,707 1, ANÁLISE DE REGRESSÃO E STEPWISE 5 REGRESSÕES MULTIPLAS 5.1 Regressão Stepwise Stepwise Regression: ISDM versus H; H1;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is ISDM on 15 predictors, with N = 5565 Step Constant 0,9282 0,5117 0,4391 0,3839 0,3592 0,3352 R1-0,8069-0,5153-0,4463-0,4125-0,4070-0,3907 T-Value -229,28-148,50-117,94-97,91-96,31-85,20 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 H 0,4923 0,4760 0,4707 0,4606 0,4390 T-Value 104,12 109,57 110,69 105,54 88,21 P-Value 0,000 0,000 0,000 0,000 0,000 T1_2 0,1098 0,1103 0,1095 0,1124 T-Value 33,33 34,31 34,30 35,26 P-Value 0,000 0,000 0,000 0,000 E2_4 0,0654 0,0480 0,0415 T-Value 16,66 11,04 9,48 P-Value 0,000 0,000 0,000 Educação 0,0579 0,0641 T-Value 9,09 10,07 P-Value 0,000 0,000 H3 0,0381 T-Value 8,86 P-Value 0,000 S 0,0590 0,0344 0,0314 0,0306 0,0304 0,0302 R-Sq 90,43 96,76 97,30 97,42 97,46 97,50 R-Sq(adj) 90,43 96,75 97,29 97,42 97,46 97,49 Step Constant 0,3387 0,3404 0,3426 0,3410 R1-0,3891-0,3902-0,3912-0,3898 T-Value -85,24-85,25-85,02-83,70 P-Value 0,000 0,000 0,000 0,000 H 0,4399 0,4382 0,4399 0,4336

242 T-Value 88,86 87,97 87,13 72,16 P-Value 0,000 0,000 0,000 0,000 T1_2 0,1122 0,1133 0,1155 0,1144 T-Value 35,39 35,52 34,24 33,41 P-Value 0,000 0,000 0,000 0,000 E2_4 0,0408 0,0413 0,0411 0,0421 T-Value 9,37 9,48 9,45 9,61 P-Value 0,000 0,000 0,000 0,000 Educação 0,0631 0,0632 0,0626 0,0630 T-Value 9,97 10,00 9,89 9,95 P-Value 0,000 0,000 0,000 0,000 H3 0,0380 0,0386 0,0374 0,0381 T-Value 8,88 9,02 8,64 8,78 P-Value 0,000 0,000 0,000 0,000 S1_1-0,0748-0,0748-0,0750-0,0753 T-Value -7,87-7,88-7,90-7,94 P-Value 0,000 0,000 0,000 0,000 Liquidez -0,0034-0,0033-0,0032 T-Value -2,96-2,89-2,82 P-Value 0,003 0,004 0,005 Emprego e Renda -0,0065-0,0074 T-Value -2,00-2,24 P-Value 0,045 0,025 H2 0,0066 T-Value 1,92 P-Value 0,055 S 0,0300 0,0300 0,0300 0,0300 R-Sq 97,52 97,53 97,53 97,53 R-Sq(adj) 97,52 97,52 97,53 97, Regressão Múltiplas O Próximo passo é calcular a formula utilizando as variáveis demonstradas pela função Stepwise como sendo as que mais explicam Habitação Regression Analysis: H versus H1; H2;... H = - 0, ,239 H1 + 0,245 H3 + 0,228 H4 + 0,157 H5 + 0,216 H6 + 0,131 ISDM + 0,0143 E2_4-0,0209 T1_2-0,00458 S1_1 + 0,0680 R1 + 0,00621 Educação + 0,00177 Emprego e Renda - 0,00240 Liquidez Predictor Coef SE Coef T P

243 Constant -0, , ,65 0,000 H1 0, , ,60 0,000 H3 0, , ,23 0,000 H4 0, , ,34 0,000 H5 0, , ,73 0,000 H6 0, , ,77 0,000 ISDM 0, , ,21 0,000 E2_4 0, , ,40 0,000 T1_2-0, , ,04 0,000 S1_1-0, , ,96 0,339 R1 0, , ,87 0,000 Educação 0, , ,91 0,056 Emprego e Renda 0, , ,06 0,289 Liquidez -0, , ,13 0,000 S = 0, R-Sq = 99,2% R-Sq(adj) = 99,2% Regression Analysis: H versus H1; H2;. Na Segunda tentativa, expurgando os dados da última análise que não faziam parte dos indicadores de Habitação, basicamente, mantivemos o mesmo nível explicativo da equação (99,2%). The regression equation is H = - 0, ,238 H1 + 0,245 H3 + 0,228 H4 + 0,158 H5 + 0,215 H6 + 0,131 ISDM + 0,0232 IFDM - 0,0188 IFGF + 0,0154 E2_4-0,0217 T1_2 + 0,0674 R1 + 0,00250 Liquidez Predictor Coef SE Coef T P Constant -0, , ,33 0,000 H1 0, , ,78 0,000 H3 0, , ,54 0,000 H4 0, , ,67 0,000 H5 0, , ,14 0,000 H6 0, , ,21 0,000 ISDM 0, , ,59 0,000 IFDM 0, , ,90 0,000 IFGF -0, , ,12 0,000 E2_4 0, , ,37 0,000 T1_2-0, , ,71 0,000 R1 0, , ,79 0,000 Liquidez 0, , ,96 0,003 S = 0, R-Sq = 99,2% R-Sq(adj) = 99,2% Analysis of Variance Source DF SS MS F P Regression ,194 12, ,64 0,000 Residual Error ,232 0,000 Total ,426 COMPARAÇÕES

244 6 COMPARAÇÕES - ANOVA 6.1 Variável ISDM por Região 1,0 Boxplot of ISDM by Região 0,8 ISDM 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sudeste possui o maior ISDM do país, o que indica que esta é a região com melhor desenvolvimento dos municípios do Brasil, segundo a pesquisa. A região Sul e Centro Oeste encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a menor e o da região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P- value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: ISDM versus Região Source DF SS MS F P Região 4 127, , ,30 0,000 Error ,8397 0,0135 Total ,4062

245 S = 0,1160 R-Sq = 63,02% R-Sq(adj) = 63,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,7235 0,0916 (*) Nordeste ,4993 0,1245 (* Norte 447 0,4806 0,1709 (*) Sudeste ,8221 0,1123 *) Sul ,7988 0,0875 (*) ,50 0,60 0,70 0,80 Pooled StDev = 0, Variável H por Região 1,0 Boxplot of H by Região 0,8 0,6 H 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sudeste possui o maior Habitação do país, o que indica que esta é a região com melhor desenvolvimento de Habitação nos municípios do Brasil, segundo a pesquisa. A região Sul e Centro Oeste encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a menor e o da região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-

246 value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: H versus Região Source DF SS MS F P Região 4 81, , ,15 0,000 Error ,9939 0,0126 Total ,4261 S = 0,1122 R-Sq = 53,78% R-Sq(adj) = 53,74% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,6383 0,0938 (*) Nordeste ,5501 0,1284 (*) Norte 447 0,4479 0,1392 (*) Sudeste ,8053 0,1058 (* Sul ,7198 0,0873 (*) ,50 0,60 0,70 0,80 Pooled StDev = 0, Variável H1 por Região 1,0 Boxplot of H1 by Região 0,8 0,6 H1 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sudeste possui o maior índice de ÁGUA ENCANADA-H1 do país, o que indica que esta é a região com melhor no Brasil neste quesito, segundo a pesquisa. A região Sul e Centro Oeste encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e

247 terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a menor e o da região Nordeste, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P- value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: H1 versus Região Source DF SS MS F P Região 4 71, , ,84 0,000 Error ,8990 0,0379 Total ,1858 S = 0,1948 R-Sq = 25,26% R-Sq(adj) = 25,21% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,7459 0,1560 (-*-) Nordeste ,5624 0,2136 (*) Norte 447 0,5460 0,1981 (-*--) Sudeste ,8117 0,1793 (*-) Sul ,7657 0,1982 (-*) ,560 0,640 0,720 0,800 Pooled StDev = 0,1948

248 6.4 Variável H2 por Região 1,0 Boxplot of H2 by Região 0,8 0,6 H2 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sudeste possui o maior índice de ESGOTAMENTO SANITÁRIO- H2 do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Sul e Centro Oeste encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a menor e o da região Nordeste, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P- value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: H2 versus Região Source DF SS MS F P Região 4 71, , ,84 0,000 Error ,8990 0,0379 Total ,1858 S = 0,1948 R-Sq = 25,26% R-Sq(adj) = 25,21% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev

249 Centro-Oeste 468 0,7459 0,1560 (-*-) Nordeste ,5624 0,2136 (*) Norte 447 0,5460 0,1981 (-*--) Sudeste ,8117 0,1793 (*-) Sul ,7657 0,1982 (-*) ,560 0,640 0,720 0,800 Pooled StDev = 0, Variável H3 por Região 1,0 Boxplot of H3 by Região 0,8 0,6 H3 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sul possui o maior índice de COLETA DE LIXO- H3do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Sudeste e Centro Oeste encontram-se próxima a região Sul, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da região Nordeste, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: H3 versus Região

250 Source DF SS MS F P Região 4 120, , ,01 0,000 Error ,2424 0,0184 Total ,1687 S = 0,1356 R-Sq = 54,19% R-Sq(adj) = 54,15% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,9244 0,0877 (*-) Nordeste ,6664 0,1921 (* Norte 447 0,6205 0,2160 (*) Sudeste ,9530 0,0757 *) Sul ,9724 0,0439 (*) ,70 0,80 0,90 1,00 Pooled StDev = 0, Variável H4 por Região 1,0 Boxplot of H4 by Região 0,8 0,6 H4 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sudeste possui o maior índice de ENERGIA ELÉTRICA- H4 do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Nordeste e Sul encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Centro-Oeste e, por último, com o pior desempenho, pela região Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Norte possui a menor e o da

251 região Sudeste, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: H4 versus Região Source DF SS MS F P Região 4 283, , ,87 0,000 Error ,9829 0,0496 Total ,2864 S = 0,2228 R-Sq = 50,65% R-Sq(adj) = 50,62% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,1054 0,1862 (-*) Nordeste ,1885 0,2263 (* Norte 447 0,0357 0,0777 (*-) Sudeste ,6372 0,2572 (* Sul ,1628 0,2152 (*) ,16 0,32 0,48 0,64 Pooled StDev = 0, Variável H5 por Região 1,0 Boxplot of H5 by Região 0,8 0,6 H5 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Norte possui o maior índice de DOMICILIO PRÓPRIO- H5 do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Nordeste e Sul encontram-se próxima a região Norte, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Sudeste e, por último, com o pior desempenho, pela região Centro-Oeste.

252 Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a menor e o da região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P- value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: H5 versus Região Source DF SS MS F P Região 4 24,5395 6, ,39 0,000 Error ,9035 0,0137 Total ,4431 S = 0,1168 R-Sq = 24,43% R-Sq(adj) = 24,38% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,5885 0,1122 (-*-) Nordeste ,7744 0,1142 (*) Norte 447 0,7754 0,1262 (-*-) Sudeste ,6430 0,1209 (*) Sul ,7360 0,1132 (*) ,600 0,660 0,720 0,780 Pooled StDev = 0,1168

253 6.8 Variável H6 por Região 1,0 Boxplot of H6 by Região 0,8 0,6 H6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sul possui o maior índice de DENSIDADE POR DORMITÓRIO- H6 do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Sudeste e Centro-Oeste encontram-se próxima a região Sul, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Nordeste e, por último, com o pior desempenho, pela região Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Sudeste possui a menor e o da região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: H6 versus Região Source DF SS MS F P Região 4 73, , ,36 0,000 Error ,3587 0,0125 Total ,8273 S = 0,1117 R-Sq = 51,44% R-Sq(adj) = 51,40% Individual 95% CIs For Mean Based on Pooled StDev

254 Level N Mean StDev Centro-Oeste 468 0,6321 0,1147 (*) Nordeste ,4774 0,1044 (* Norte 447 0,3725 0,1728 (*) Sudeste ,6421 0,1065 *) Sul ,7331 0,0983 *) ,40 0,50 0,60 0,70 Pooled StDev = 0, Variável E2_4 por Região 1,0 Boxplot of E2_4 by Região 0,8 0,6 E2_4 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sudeste possui o maior índice de CRIANÇAS NA SÉRIE CORRETA- E2_4 do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Sul e Centro-Oeste encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: E2_4 versus Região

255 Source DF SS MS F P Região 4 76, , ,82 0,000 Error ,1743 0,0130 Total ,9604 S = 0,1139 R-Sq = 51,55% R-Sq(adj) = 51,51% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,8011 0,0887 (*-) Nordeste ,5882 0,1298 (*) Norte 447 0,5969 0,1841 (*-) Sudeste ,8245 0,1017 (*) Sul ,8445 0,0711 (*) ,630 0,700 0,770 0,840 Pooled StDev = 0, Variável T1_2 por Região 1,0 Boxplot of T1_2 by Região 0,8 0,6 T1_2 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sul possui o maior índice de FORMALIZAÇÃO DE EMPREGADOS- T1 _2 do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Sudeste e Centro-Oeste encontram-se próxima a região Sul, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região Nordeste Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a

256 menor e o da região Sudeste a maior variabilidade de quando comparo com os dados das demais regiões. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: T1_2 versus Região Source DF SS MS F P Região 4 102, , ,66 0,000 Error ,4452 0,0240 Total ,1366 S = 0,1549 R-Sq = 43,49% R-Sq(adj) = 43,45% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,5931 0,1337 (*-) Nordeste ,3929 0,1510 *) Norte 447 0,4486 0,1542 (-*) Sudeste ,6581 0,1782 (*) Sul ,7204 0,1321 (*) ,40 0,50 0,60 0,70 Pooled StDev = 0, Variável S1_1 por Região 1,0 Boxplot of S1_1 by Região 0,8 0,6 S1_1 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul

257 A semelhança em todas as regiões dá-se pelo motivo que a saúde é de péssima qualidade em todo o Brasil, e que a taxa de Mortalidade Infantil é de forma semelhante com uma leve acentuação na Região Norte e Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Nordeste possui a menor e o da região Sudeste, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: S1_1 versus Região Source DF SS MS F P Região 4 0, , ,14 0,000 Error , ,00181 Total ,21426 S = 0,04249 R-Sq = 1,71% R-Sq(adj) = 1,64% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0, ,05075 (-----*----) Nordeste , ,03271 (--*--) Norte 447 0, ,04539 (----*-----) Sudeste , ,04173 (--*--) Sul , ,05104 (---*--) ,0350 0,0420 0,0490 0,0560 Pooled StDev = 0,04249

258 6.12 Variável R1 por Região 1,0 Boxplot of R1 by Região 0,8 0,6 R1 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Norte possui o maior índice de LINHA DE POBREZA-R1 do país, o que indica que esta é a região no Brasil onde existem mais pessoas que ganham renda domiciliar per capita abaixo de R$140,00o, segundo a pesquisa. A região Nordeste encontra-se próxima a região Norte, e ocupando o segundo lugar. Seguidas pela região Sudeste, Centro-Oeste e, por último, com o melhor desempenho, pela região Sul. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: R1 versus Região Source DF SS MS F P Região 4 185, , ,36 0,000 Error ,8256 0,0172 Total ,1591 S = 0,1313 R-Sq = 65,92% R-Sq(adj) = 65,89% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev

259 Centro-Oeste 468 0,1926 0,1171 (*) Nordeste ,5388 0,1346 (* Norte 447 0,5027 0,1928 (*) Sudeste ,1778 0,1339 (* Sul ,1281 0,0940 (* ,12 0,24 0,36 0,48 Pooled StDev = 0, Variável Educação por Região 1,0 Boxplot of Educação by Região 0,9 0,8 Educação 0,7 0,6 0,5 0,4 0,3 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sudeste possui o maior índice de Educação do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Sul e Centro- Oeste encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Nordeste e, por último, com o pior desempenho, pela região Norte. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da região Sudeste, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: Educação versus Região

260 Source DF SS MS F P Região 4 35, , ,69 0,000 Error , ,00619 Total ,25236 S = 0,07869 R-Sq = 51,00% R-Sq(adj) = 50,96% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0, ,07162 (*-) Nordeste , ,08127 *) Norte 447 0, ,08599 (*) Sudeste , ,08138 (*) Sul , ,07021 (*) ,660 0,720 0,780 0,840 Pooled StDev = 0, Variável Emprego e Renda por Região 1,0 Boxplot of Emprego e Renda by Região 0,8 Emprego e Renda 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sudeste possui o maior índice de Emprego e Renda do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Centro- Oeste e Sul encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Nordeste possui a menor e o

261 da região Sudeste, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: Emprego e Renda versus Região Source DF SS MS F P Região 4 17,7960 4, ,70 0,000 Error ,2982 0,0209 Total ,0942 S = 0,1446 R-Sq = 13,27% R-Sq(adj) = 13,21% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,4173 0,1389 (--*---) Nordeste ,3348 0,1288 (-*) Norte 447 0,3415 0,1419 (--*---) Sudeste ,4490 0,1681 (*-) Sul ,4620 0,1345 (-*--) ,360 0,400 0,440 0,480 Pooled StDev = 0, Variável Liquidez por Região 1,0 Boxplot of Liquidez by Região 0,8 Liquidez 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul A região Sul possui o maior índice de Liquidez do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Centro-oeste e

262 Norte encontram-se próxima a região Sul, e ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Sudeste e, por último, com o pior desempenho, pela região Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: Liquidez versus Região Source DF SS MS F P Região 4 99,409 24, ,15 0,000 Error ,864 0,122 Total ,273 S = 0,3489 R-Sq = 12,81% R-Sq(adj) = 12,74% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,6540 0,3420 (--*---) Nordeste ,3822 0,3592 (*-) Norte 447 0,5408 0,3850 (--*--) Sudeste ,5719 0,3565 (*-) Sul ,7402 0,3085 (-*-) ,40 0,50 0,60 0,70 Pooled StDev = 0,3489 AMOSTRAGEM 7.1 AMOSTRAGEM Neste estudo, realizou-se uma amostragem aleatória por meio do software Minitab14 de um universo de 5565 indivíduos, obtendo-se uma amostra de 50 indivíduos e outra de 100 indivíduos. A partir dessas amostras se estabeleceu comparações entre o universo e as amostras de 50 e 100 para as variáveis T1_2( Formalização entre empregados), Emprego e Renda e H4(Energia Elétrica). Por meio de duas ferramentas estatísticas: Estatística Descritiva e Analise de Variância (ANOVA), Observou-se um comportamento muito próximo tanto nas médias, como nas curvas de distribuição. E, apesar de um p médio (entre 4% e 9%) em todos os casos, nota-se que trabalhar com amostragem é viável em todos os casos.

263 Boxplot of H4; H4 100; H4 50 1,0 0,8 0,6 Data 0,4 0,2 0,0 H4 H4 100 H4 50 One-way ANOVA: H4; H4 100; H4 50 Source DF SS MS F P Factor 2 0,025 0,013 0,13 0,882 Error ,719 0,100 Total ,744 S = 0,3169 R-Sq = 0,00% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev H ,2983 0,3170 (-*) H ,3057 0,3044 ( * ) H ,2784 0,3277 ( * ) ,200 0,250 0,300 0,350 Pooled StDev = 0,3169

264 Boxplot of T1_2; T1_2 50; T1_100 1,0 0,8 0,6 Data 0,4 0,2 0,0 T1_2 T1_2 50 T1_100 One-way ANOVA: T1_2; T1_2 50; T1_100 Source DF SS MS F P Factor 2 0,0743 0,0372 0,88 0,416 Error ,9604 0,0424 Total ,0347 S = 0,2058 R-Sq = 0,03% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev T1_ ,5638 0,2060 (*) T1_ ,5300 0,1810 ( * ) T1_ ,5769 0,2064 ( * ) ,480 0,520 0,560 0,600 Pooled StDev = 0,2058

265 Boxplot of Emprego e Renda; E&R 100; E&R 50 1,0 0,8 0,6 Data 0,4 0,2 0,0 Emprego e Renda E&R 100 E&R 50 One-way ANOVA: Emprego e Renda; E&R 100; E&R 50 Source DF SS MS F P Factor 2 0,0019 0,0010 0,04 0,961 Error ,4109 0,0241 Total ,4129 S = 0,1551 R-Sq = 0,00% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Emprego e Renda ,4038 0,1552 (-*) E&R ,3998 0,1612 ( * ) E&R ,4008 0,1232 ( * ) ,375 0,400 0,425 0,450 Pooled StDev = 0,1551

266 7.2 Quadro Resumo: Amostragem H4 Summary for H4 A nderson-darling Normality Test A -Squared 339,06 P-Value < 0,005 Mean 0,29831 StDev 0,31705 V ariance 0,10052 Skew ness 0, Kurtosis -0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,00956 Median 0, rd Q uartile 0,56295 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,32305 Mean Median 0,150 0,175 0,200 0,225 0,250 0,275 0,300 Summary for H4 100 A nderson-darling Normality Test A -Squared 4,82 P-Value < 0,005 Mean 0,30570 StDev 0,30436 V ariance 0,09264 Skew ness 0, Kurtosis -0, N 100 0,0 0,2 0,4 0,6 0,8 1,0 Minimum 0, st Q uartile 0,01176 Median 0, rd Q uartile 0,54591 Maximum 0, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,35357 Mean Median 0,10 0,15 0,20 0,25 0,30 0,35 0,40 Summary for H4 50 A nderson-darling Normality Test A -Squared 4,30 P-Value < 0,005 Mean 0,27842 StDev 0,32768 V ariance 0,10738 Skew ness 0, Kurtosis -0, N 50 0,0 0,2 0,4 0,6 0,8 Minimum 0, st Q uartile 0,01218 Median 0, rd Q uartile 0,56055 Maximum 0, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,40833 Mean Median 0,0 0,1 0,2 0,3 0,4

267 7.3 Quadro Resumo: Amostragem Emprego e Renda Summary for Emprego e Renda A nderson-darling Normality Test A -Squared 105,84 P-Value < 0,005 Mean 0,40375 StDev 0,15524 V ariance 0,02410 Skew ness 0,88857 Kurtosis 1,32259 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,30630 Median 0, rd Q uartile 0,47115 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,15818 Mean Median 0,37 0,38 0,39 0,40 0,41 Summary for E&R 100 A nderson-darling Normality Test A -Squared 1,96 P-Value < 0,005 Mean 0,39983 StDev 0,16123 V ariance 0,02600 Skew ness 0,99362 Kurtosis 2,27390 N 100 0,0 0,2 0,4 0,6 0,8 Minimum 0, st Q uartile 0,30178 Median 0, rd Q uartile 0,47080 Maximum 0, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,18730 Mean Median 0,36 0,38 0,40 0,42 0,44 Summary for E&R 50 A nderson-darling Normality Test A -Squared 0,28 P-V alue 0,619 Mean 0,40075 StDev 0,12315 V ariance 0,01517 Skew ness 0, Kurtosis -0, N 50 0,2 0,3 0,4 0,5 0,6 0,7 Minimum 0, st Q uartile 0,32158 Median 0, rd Q uartile 0,49415 Maximum 0, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,15347 Mean Median 0,34 0,36 0,38 0,40 0,42 0,44

268 7.4 Quadro Resumo: Amostragem T1_2 Summary for T1_2 A nderson-darling Normality Test A -Squared 41,12 P-Value < 0,005 Mean 0,56382 StDev 0,20601 V ariance 0,04244 Skew ness -0, Kurtosis -0, N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,39402 Median 0, rd Q uartile 0,73415 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,20991 Mean Median 0,560 0,565 0,570 0,575 0,580 0,585 Summary for T1_100 A nderson-darling Normality Test A -Squared 1,11 P-V alue 0,006 Mean 0,57688 StDev 0,20641 V ariance 0,04260 Skew ness 0,01291 Kurtosis -1,11250 N 100 0,15 0,30 0,45 0,60 0,75 0,90 Minimum 0, st Q uartile 0,38465 Median 0, rd Q uartile 0,75051 Maximum 0, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,23978 Mean Median 0,500 0,525 0,550 0,575 0,600 0,625 0,650 Summary for T1_2 50 A nderson-darling Normality Test A -Squared 0,69 P-V alue 0,067 Mean 0,52997 StDev 0,18104 V ariance 0,03278 Skew ness 0, Kurtosis -0, N 50 0,2 0,4 0,6 0,8 Minimum 0, st Q uartile 0,40156 Median 0, rd Q uartile 0,63939 Maximum 0, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,22560 Mean Median 0,40 0,45 0,50 0,55 0,60

269 ANÁLISE MULTIVARIADA COMPONENTES PRINCIPAIS 8 ANÁLISE MULTIVARIADA COMPONENTES PRINCIPAIS Esta parte do estudo efetuará analisa as correlações e os componentes principais (análise multivariada) dos dados quantitativos Habitação e de Desenvolvimento dos Municípios do Brasil. 8.1 Dendograma Cluster Analysis of Variables: H; H1; H2; H3; H4; H5; H6; ISDM;... Correlation Coefficient Distance, Single Linkage Amalgamation Steps Number Number of obs. of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,000 0, ,795 0, ,435 0, ,442 0, ,744 0, ,476 0, ,318 0, ,922 0, ,444 0, ,304 0, ,263 0, ,756 0, ,721 0, ,322 0, ,016 0, ,707 1, Final Partition Cluster 1 H H1 H2 H3 H4 ISDM IFDM E2_4 T1_2 Educação Emprego e Renda Cluster 2 H5 Cluster 3 H6 Cluster 4 IFGF Liquidez Cluster 5 S1_1 Cluster 6 R1

270 Dendrogram with Single Linkage and Correlation Coefficient Distance 48,71 Similarity 65,80 82,90 100,00 H ISDM H3 H1 H2 IFDM Educação T1_2 Emprego e Renda H4 E2_4 H6 IFGF Liquidez H5 R1 S1_1 Variables Nota-se Erro! Fonte de referência não encontrada.- que houve uma divisão em dois grupos, com similaridades muito próximas, em torno de 80%, a saber: Gestão Fiscal (IFGF e Liquidez) e Habitação e Desenvolvimento dos munícipios (H, ISDM, H3, H1, H2, IFDM, Educação, T1_2, Emprego e Renda, H4, E2_4 e H6). Os indicadores H5, R1 e S1_1 ficaram isolados e com um nível de similaridade pouco expressiva. 8.2 Componentes Principais Principal Component Analysis: H; H1; H2; H3; H4; H5; H6; ISDM; E2_4; T1_2; S1_1 Eigenanalysis of the Correlation Matrix Eigenvalue 8,4477 1,3430 0,9842 0,9695 0,7069 0,6573 0,5914 0,4313 Proportion 0,563 0,090 0,066 0,065 0,047 0,044 0,039 0,029 Cumulative 0,563 0,653 0,718 0,783 0,830 0,874 0,913 0,942 Eigenvalue 0,3163 0,2254 0,1940 0,1073 0,0200 0,0058 0,0000 Proportion 0,021 0,015 0,013 0,007 0,001 0,000 0,000 Cumulative 0,963 0,978 0,991 0,998 1,000 1,000 1,000 Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 H 0,320-0,111 0,111-0,021 0,183-0,322 0,058-0,083 H1 0,296-0,263-0,142 0,042 0,001 0,002 0,426 0,220 H2 0,296-0,263-0,142 0,042 0,001 0,002 0,426 0,220 H3 0,299 0,139 0,155-0,067 0,005 0,046 0,216-0,215 H4 0,210-0,434 0,133 0,025 0,049-0,606-0,399-0,107 H5-0,196 0,288-0,196-0,005 0,758-0,293 0,072 0,356 H6 0,229 0,436 0,285-0,129 0,237-0,065 0,116-0,450 ISDM 0,337 0,049 0,044-0,008 0,080-0,012 0,024-0,023

271 E2_4 0,269 0,267 0,165-0,060-0,050 0,199-0,304 0,368 T1_2 0,279 0,027-0,282 0,026 0,111 0,210-0,057 0,142 S1_1-0,050-0,217-0,057-0,964 0,080 0,101-0,027 0,018 R1-0,322-0,145-0,024 0,030 0,001-0,160-0,037 0,074 Educação 0,279 0,108 0,174-0,033-0,094 0,013-0,389 0,455 Emprego e Renda 0,199-0,159-0,548 0,119 0,290 0,319-0,399-0,375 Liquidez 0,104 0,434-0,586-0,156-0,461-0,464 0,009-0,027 9 Scree Plot of H;...; Liquidez Eigenvalue Component Number Loading Plot of H;...; Liquidez 0,6 Liquidez IFGF 0,4 Second Component 0,2 0,0-0,2 H6 E2_4 IFDM T1_2 Educação H3 Emprego e Renda ISDM H H2 H1 S1_1 H5 R1 H4-0,4-0,4-0,3-0,2-0,1 0,0 First Component 0,1 0,2 0,3

272 D Scatterplot 3D Scatterplot of CP1 vs CP2 vs CP3 Região Centro-Oeste Nordeste Norte Sudeste Sul 10 CP CP CP2 Com base nos gráficos trabalhados neste capítulo é perceptível que os dados podem ser reduzidos em 3 variáveis, o que facilita o trabalho por gerarem números mais fáceis e práticos de serem manuseados. ANÁLISE DE CONGLOMERADOS 9 ANÁLISE DE CONGLOMERADOS (DENDROGRAMA E ANOVA) O Dendrograma permite uma análise do grau de similaridade dos dados para uma determinada variável. Neste estudo, gerou-se o Dendrograma da média dos indicadores de Gestão Fiscal e de Desenvolvimento dos municípios, agrupado por Estado e, também, do índice de disparidade das mesmas variáveis. Os resultados de ambos foram ilustrados no mapa do Brasil, cujo objetivo foi representar os agrupamentos por similaridade.

273 9.1 Dendrograma das médias por UF (-DF) O Dendrograma permite uma análise do grau de similaridade dos dados para uma determinada variável. Em seguida geramos o Dendrograma da média de desenvolvimento dos municípios, agrupado por Estado. Cluster Analysis of Observations: Hm; H1m; H2m; H3m; H4m; H5m; H6m; isdmm;... Euclidean Distance, Single Linkage Amalgamation Steps Number Number of obs. of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,6846 0, ,4590 0, ,8937 0, ,5162 0, ,6488 0, ,1268 0, ,7356 0, ,6869 0, ,5305 0, ,3960 0, ,1926 0, ,9296 0, ,9243 0, ,0200 0, ,9514 0, ,9179 0, ,7714 0, ,4183 0, ,7382 0, ,0678 0, ,4024 0, ,6901 0, ,6526 0, ,5888 0, ,5263 0, Final Partition Number of clusters: 5 Within Average Maximum cluster distance distance Number of sum of from from observations squares centroid centroid Cluster1 6 0, , , Cluster2 16 3, , , Cluster3 2 0, , , Cluster4 1 0, , , Cluster5 1 0, , , Cluster Centroids

274 Grand Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 centroid Hm 0, , , , , , H1m 0, , , , , , H2m 0, , , , , , H3m 0, , , , , , H4m 0, , , , , , H5m 0, , , , , , H6m 0, , , , , , isdmm 0, , , , , , ifdmm 0, , , , , , ifgfm 0, , , , , , E2_4m 0, , , , , , T1_2m 0, , , , , , S1_1m 0, , , , , , R1m 0, , , , , , Educm 0, , , , , , E&Rm 0, , , , , , Liqm 0, , , , , , Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster1 0, , , , ,60748 Cluster2 0, , , , ,97073 Cluster3 1, , , , ,51573 Cluster4 1, , , , ,38906 Cluster5 1, , , , ,00000

275 Dendrogram with Single Linkage and Euclidean Distance 77,53 Similarity 85,02 92,51 100,00 PA PI MA RR AC AL BA PB PE CE RN SE AP AM Observations RO SC RS MT MS PR GO ES TO MG SP RJ 9.2 Dendrograma dos índices de variabilidade por UF (-DF) Cluster Analysis of Observations: Hid; H1id; H2id; H3id; H4id; H5id; H6id;...

276 Euclidean Distance, Single Linkage Amalgamation Steps Number Number of obs. of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,9794 0, ,8957 0, ,4487 0, ,1697 0, ,8431 1, ,7617 1, ,5848 1, ,5312 1, ,4836 1, ,9122 1, ,5035 1, ,1973 1, ,9246 1, ,1791 1, ,9688 1, ,3954 1, ,1940 1, ,9281 1, ,2166 2, ,4019 2, ,2076 3, ,4769 3, ,7045 3, ,6804 3, ,5314 6, Final Partition Number of clusters: 5 Within Average Maximum cluster distance distance Number of sum of from from observations squares centroid centroid Cluster ,816 2, ,87112 Cluster2 1 0,000 0, ,00000 Cluster3 1 0,000 0, ,00000 Cluster4 1 0,000 0, ,00000 Cluster5 1 0,000 0, ,00000 Cluster Centroids Grand Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 centroid Hid 1, , ,4865 1, , ,28209 H1id 1, , ,6676 4, , ,26422 H2id 1, , ,6676 4, , ,26422 H3id 1, , ,8110 0, , ,50692 H4id 1, , ,6694 4, , ,34272 H5id 1, , ,6087 2, , ,33139 H6id 0, , ,6208 2, , ,17517 isdmid 1, , ,5939 1, , ,34748 ifdmid 0, , ,0284 1, , ,81782 ifgfid 1, , ,5576 2, , ,59750 E2_4ID 1, , ,6468 1, , ,24151 T1_2ID 1, , ,1336 2, , ,79392 S1_1ID 0, , ,3387 1, , ,51198

277 R1ID 1, , ,3149 2, , ,53517 EducID 0, , ,8126 1, , ,84862 E&R ID 1, , ,0689 2, , ,80191 LiqID 3, , ,3491 4, , ,37106 Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster1 0,0000 7, ,0078 6, ,58415 Cluster2 7,1164 0, ,2067 3, ,90913 Cluster3 13,0078 6, ,0000 8, ,14168 Cluster4 6,2774 3, ,1389 0, ,23384 Cluster5 7,5842 4, ,1417 6, ,00000 Indices de Variabilidade 63,53 Similarity 75,69 87,84 100,00 RO RR AP AC MS SE ES RJ AL CE RN MT TO PB PE PA MA PI AM Observations RS SP BA PR SC GO MG

278 Para se chegar ao índice de variabilidade (disparidade), utilizou-se do seguinte cálculo: ID= Índice de Disparidade s= Desvio Padrão da Média (do Estado) n= Número de Indivíduos (Munícipios do Estado)

279 One-way ANOVA: H4 versus Região Source DF SS MS F P Região 4 282, , ,47 0,000 Error ,3817 0,0497 Total ,8615 S = 0,2229 R-Sq = 50,64% R-Sq(adj) = 50,60% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 467 0,1040 0,1837 (*-) Nordeste ,1885 0,2263 (* Norte 431 0,0355 0,0772 (*-) Sudeste ,6372 0,2572 (* Sul ,1628 0,2152 (*) ,16 0,32 0,48 0,64 Pooled StDev = 0,2229 One-way ANOVA: Emprego e Renda versus Região Source DF SS MS F P Região 4 17,8157 4, ,23 0,000 Error ,7805 0,0209 Total ,5962 S = 0,1445 R-Sq = 13,34% R-Sq(adj) = 13,27% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 467 0,4175 0,1390 (--*---) Nordeste ,3348 0,1288 (-*) Norte 431 0,3400 0,1404 (--*--) Sudeste ,4490 0,1681 (*-) Sul ,4620 0,1345 (-*--) ,360 0,400 0,440 0,480 Pooled StDev = 0,1445 One-way ANOVA: T1_2 versus Região Source DF SS MS F P Região 4 102, , ,24 0,000 Error ,0327 0,0240 Total ,8725 S = 0,1549 R-Sq = 43,60% R-Sq(adj) = 43,56% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 467 0,5925 0,1333 (*-) Nordeste ,3929 0,1510 *) Norte 431 0,4448 0,1544 (*-) Sudeste ,6581 0,1782 (*)

280 Sul ,7204 0,1321 (*) ,40 0,50 0,60 0,70 Pooled StDev = 0,1549 One-way ANOVA: H4 versus UF2 Source DF SS MS F P UF , , ,71 0,000 Error ,8095 0,0413 Total ,0449 S = 0,2033 R-Sq = 59,07% R-Sq(adj) = 58,89% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 0,0537 0,1045 (--*---) AL 101 0,1524 0,2105 (*-) AM 62 0,0582 0,0902 (-*-) AP 16 0,0422 0,0935 (---*---) BA 416 0,2544 0,2559 (*) CE 184 0,1596 0,1493 (*-) ES 78 0,4829 0,2048 (*-) GO 247 0,1318 0,2167 (*) MA 217 0,0184 0,0494 (*) MG 852 0,5506 0,2627 (*) MS 78 0,1020 0,1459 (-*-) MT 142 0,0568 0,1201 (*-) PA 142 0,0170 0,0443 (-*) PB 222 0,2729 0,2197 (*) PE 185 0,3921 0,2119 (*) PI 223 0,0201 0,0585 (*) PR 399 0,1971 0,2489 (*) RJ 92 0,5819 0,2314 (*-) RN 167 0,1796 0,2302 (*) RO 52 0,0239 0,0700 (-*-) RR 15 0,0905 0,1400 (---*---) RS 497 0,1541 0,2094 (*) SC 295 0,1311 0,1640 (*) SE 75 0,2035 0,1987 (-*-) SP 647 0,7776 0,1856 (*) TO 138 0,0398 0,0808 (-*) ,00 0,25 0,50 0,75 Pooled StDev = 0,2033 One-way ANOVA: Emprego e Renda versus UF2 Source DF SS MS F P UF ,6671 1, ,24 0,000 Error ,4175 0,0190 Total ,0847 S = 0,1380 R-Sq = 21,38% R-Sq(adj) = 21,02% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 0,3717 0,1183 (------* ) AL 101 0,3174 0,1295 (---*--) AM 62 0,3027 0,1306 (---*---) AP 16 0,3807 0,1789 ( * )

281 BA 416 0,3515 0,1283 (-*-) CE 184 0,3189 0,1271 (--*-) ES 78 0,4520 0,1380 (--*---) GO 247 0,4052 0,1432 (-*-) MA 217 0,2890 0,1309 (-*-) MG 852 0,3844 0,1394 (*) MS 78 0,4369 0,1334 (---*--) MT 142 0,4284 0,1333 (--*-) PA 142 0,3741 0,1506 (--*--) PB 222 0,3211 0,1101 (-*-) PE 185 0,3862 0,1366 (-*--) PI 223 0,3064 0,1167 (-*--) PR 399 0,4383 0,1268 (-*) RJ 92 0,5317 0,1923 (--*---) RN 167 0,3391 0,1088 (-*--) RO 52 0,3976 0,1289 (----*---) RR 15 0,3471 0,1740 ( * ) RS 497 0,4664 0,1344 (*-) SC 295 0,4865 0,1398 (-*-) SE 75 0,4251 0,1385 (---*---) SP 647 0,5220 0,1675 (*-) TO 138 0,2941 0,1188 (--*--) ,320 0,400 0,480 0,560 Pooled StDev = 0,1380 One-way ANOVA: T1_2 versus UF2 Source DF SS MS F P UF ,5377 5, ,82 0,000 Error ,5197 0,0194 Total ,0573 S = 0,1393 R-Sq = 54,45% R-Sq(adj) = 54,25% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 0,4947 0,0864 (---*---) AL 101 0,4900 0,1590 (-*) AM 62 0,3269 0,1450 (--*-) AP 16 0,5490 0,1099 (----*---) BA 416 0,3797 0,1498 (*) CE 184 0,3475 0,1318 (*-) ES 78 0,5615 0,1688 (-*-) GO 247 0,5624 0,1260 (*-) MA 217 0,3400 0,1279 (-*) MG 852 0,5730 0,1759 *) MS 78 0,6569 0,1156 (-*-) MT 142 0,6095 0,1400 (-*) PA 142 0,3851 0,1499 (-*) PB 222 0,3801 0,1346 (*-) PE 185 0,4389 0,1829 (*-) PI 223 0,3615 0,1112 (*) PR 399 0,6756 0,1228 (*) RJ 92 0,6999 0,1184 (-*-) RN 167 0,4483 0,1350 (-*) RO 52 0,5845 0,1078 (--*-) RR 15 0,4352 0,1123 (----*----) RS 497 0,7143 0,1320 (* SC 295 0,7910 0,1141 (*) SE 75 0,4928 0,1790 (-*-) SP 647 0,7760 0,1050 (* TO 138 0,4998 0,1214 (*-)

282 0,30 0,45 0,60 0,75 Pooled StDev = 0, Resumo dos Boxplot 1,0 Boxplot of H4 by Região 0,8 0,6 H4 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul Boxplot of Emprego e Renda by Região 1,0 0,8 Emprego e Renda 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul

283 Boxplot of T1_2 by Região 1,0 0,8 0,6 T1_2 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul Boxplot of H4 by UF2 1,0 0,8 0,6 H4 0,4 0,2 0,0 1,0 AL AC ES CE BA AP AM MS MG GO MA PB PA MT UF2 RN RJ PR PI PE Boxplot of Emprego e Renda by UF2 SP SE SC RS RR RO TO 0,8 Emprego e Renda 0,6 0,4 0,2 0,0 1,0 AL AC ES CE BA AP AM MS MG GO MA PB PA MT UF2 RN RJ PR PI PE Boxplot of T1_2 by UF2 SP SE SC RS RR RO TO 0,8 T1_2 0,6 0,4 0,2 0,0 AL AC ES CE BA AP AM MS MG GO MA PB PA MT UF2 RN RJ PR PI PE SP SE SC RS RR RO TO

284 ANÁLISE DISCRIMINANTE LINEAR 10 ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO Neste estudo avaliaremos a análise discriminante linear em três grupos: primeiro pelas regiões politicas do Brasil (Norte, Nordeste, Centro-Oeste, Sudeste e Sul), segundo pelo agrupamento dos estados por similaridades de médias (5 Brasis M) e, por fim, o agrupamento dos estados por similaridade de variabilidade (5 Brasis Id), como explicado no tópico anterior Cinco Regiões Brasileiras Mapa Político Discriminant Analysis: Região versus H; H1;... Linear Method for Response: Região Predictors: H; H1; H3; H4; H5; H6; ISDM; E2_4; T1_2; S1_1; R1; Educação; Emprego e Renda; Liquidez Group Centro-Oeste Nordeste Norte Sudeste Sul Count Summary of classification True Group Put into Group Centro-Oeste Nordeste Norte Sudeste Sul Centro-Oeste Nordeste Norte Sudeste Sul Total N N correct Proportion 0,790 0,854 0,593 0,847 0,738 N = 5564 N Correct = 4454 Proportion Correct = 0,801 Este agrupamento, por regiões politicas, obteve o nível de acerto, 80,10% Discriminant Analysis: 3 Regioes versus H; H1;... Linear Method for Response: 3 Regioes Predictors: H; H1; H3; H4; H5; H6; ISDM; E2_4; T1_2; S1_1; R1; Educação; Emprego e Renda; Liquidez

285 Group COSS Nordeste Norte Count Summary of classification True Group Put into Group COSS Nordeste Norte COSS Nordeste Norte Total N N correct Proportion 0,945 0,884 0,635 N = 5564 N Correct = 5009 Proportion Correct = 0,900 Squared Distance Between Groups COSS Nordeste Norte COSS 0, , ,8316 Nordeste 12,2550 0,0000 6,9204 Norte 12,8316 6,9204 0,0000 Este agrupamento, por similaridade de médias, obteve o melhor nível de acerto, 90% Brasis Similaridade nas médias Discriminant Analysis: 5BrasisM versus H; H1;... Linear Method for Response: 5BrasisM Predictors: H; H1; H3; H4; H5; H6; ISDM; IFDM; IFGF; E2_4; T1_2; S1_1; R1; Educação; Emprego e Renda; Liquidez Group B1 B2 B3 B4 B5 Count Summary of classification True Group Put into Group B1 B2 B3 B4 B5 B B B B B Total N N correct Proportion 0,811 0,769 0,694 0,859 0,893 N = 5564 N Correct = 4326 Proportion Correct = 0,777

286 Este agrupamento, por regiões politicas, obteve o nível de acerto: 77,7% 10.3 Brasis similaridade nos índices de variabilidade Discriminant Analysis: 5BrasisId versus H; H1;... Linear Method for Response: 5BrasisId Predictors: H; H1; H3; H4; H5; H6; ISDM; IFDM; IFGF; E2_4; T1_2; S1_1; R1; Educação; Emprego e Renda; Liquidez Group D1 D2 D3 D4 D5 Count Summary of classification True Group Put into Group D1 D2 D3 D4 D5 D D D D D Total N N correct Proportion 0,673 0,853 0,929 0,887 0,757 N = 5564 N Correct = 4164 Proportion Correct = 0,748 Este agrupamento, por regiões politicas, obteve o nível de acerto, 74,8%

287 REGRESSÃO LOGISTICA 11 REGRESSÃO LOGISTICA 11.1Regressão REGIÃO Nominal Logistic Regression: Região versus H; H1;... Response Information Variable Value Count Região Sul 1191 (Reference Event) Sudeste 1669 Norte 447 Nordeste 1790 Centro-Oeste 467 Total 5564 Logistic Regression Table Predictor Coef SE Coef Z P Odds Ratio Logit 1: (Sudeste/Sul) Constant 6, , ,20 0,027 H -56, ,3761-2,93 0,003 0,00 H1 10,7302 4, ,25 0, ,84 H3 1, , ,23 0,815 3,35 H4 19,8233 4, ,25 0,000 4,06579E+08 H5 4, , ,27 0,203 75,91 H6 2, , ,68 0,494 16,53 ISDM 26,4816 3, ,51 0,000 3,16826E+11 IFDM -48,8047 4, ,57 0,000 0,00 IFGF 1, , ,48 0,138 4,24 E2_4-6, , ,95 0,000 0,00 T1_2-13,5059 0, ,23 0,000 0,00 S1_1-2, , ,30 0,194 0,11 R1 15,2296 1, ,39 0, ,17 Educação 41,1244 2, ,86 0,000 7,24572E+17 Emprego e Renda 15,1414 1, ,82 0, ,25 Liquidez -1, , ,08 0,002 0,34 Logit 2: (Norte/Sul) Constant 35,2315 3, ,97 0,000 H -63, ,8336-3,39 0,001 0,00 H1 20,3912 4, ,36 0,000 7,17406E+08 H3-1, , ,30 0,764 0,22 H4 9, , ,01 0, ,31 H5 2, , ,79 0,430 14,60 H6-4, , ,21 0,226 0,01 ISDM 13,7511 3, ,55 0, ,25 IFDM -43,4694 4, ,89 0,000 0,00 IFGF 1, , ,92 0,360 3,07 E2_4-6, , ,86 0,000 0,00 T1_2-12,3198 1, ,02 0,000 0,00 S1_1-2, , ,88 0,376 0,13 R1 8, , ,93 0, ,59 Educação 19,2478 2, ,06 0,000 2,28672E+08 Emprego e Renda 13,6499 1, ,62 0, ,79 Liquidez -0, , ,33 0,742 0,87 Logit 3: (Nordeste/Sul) Constant 27,9040 3, ,15 0,000 H -4, ,8828-0,25 0,806 0,01 H1 8, , ,87 0, ,18 H3-15,6400 5, ,10 0,002 0,00

288 H4 5, , ,11 0, ,14 H5-5, , ,58 0,114 0,00 H6-6, , ,61 0,108 0,00 ISDM 3, , ,91 0,363 25,90 IFDM -22,9628 4, ,01 0,000 0,00 IFGF -4, , ,97 0,000 0,01 E2_4-9, , ,81 0,000 0,00 T1_2-13,3409 1, ,92 0,000 0,00 S1_1-4, , ,88 0,060 0,01 R1 16,7093 2, ,23 0, ,86 Educação 15,5491 2, ,19 0, ,44 Emprego e Renda 10,3364 1, ,17 0, ,32 Liquidez -0, , ,52 0,601 0,81 Logit 4: (Centro-Oeste/Sul) Constant 30,0825 2, ,60 0,000 H -80, ,5696-4,32 0,000 0,00 H1 23,4449 4, ,09 0,000 1,52054E+10 H3 6, , ,24 0, ,76 H4 17,2415 4, ,85 0, ,38 H5 0, , ,23 0,821 2,09 H6 11,1085 3, ,81 0, ,04 ISDM 4, , ,38 0,166 55,28 IFDM -26,7127 4, ,60 0,000 0,00 IFGF -2, , ,54 0,011 0,10 E2_4-1, , ,32 0,186 0,22 T1_2-10,3345 0, ,64 0,000 0,00 S1_1-0, , ,13 0,898 0,82 R1 0, , ,30 0,763 1,69 Educação 12,2838 2, ,76 0, ,73 Emprego e Renda 9, , ,47 0, ,12 Liquidez 0, , ,08 0,037 1,98 95% CI Predictor Lower Upper Logit 1: (Sudeste/Sul) Constant H 0,00 0,00 H1 4,06 5,15072E+08 H3 0, ,61 H ,70 3,77346E+12 H5 0, ,34 H6 0, ,58 ISDM 7,12499E+08 1,40882E+14 IFDM 0,00 0,00 IFGF 0,63 28,68 E2_4 0,00 0,01 T1_2 0,00 0,00 S1_1 0,00 3,09 R ,57 1,44357E+08 Educação 7,93589E+15 6,61556E+19 Emprego e Renda , ,11 Liquidez 0,17 0,68 Logit 2: (Norte/Sul) Constant H 0,00 0,00 H ,73 6,85709E+12 H3 0, ,88 H4 1, ,21 H5 0, ,75 H6 0,00 20,33 ISDM 476,64 1,84450E+09 IFDM 0,00 0,00 IFGF 0,28 33,75 E2_4 0,00 0,02 T1_2 0,00 0,00 S1_1 0,00 11,44 R1 72, ,08 Educação ,71 4,80016E+10

289 Emprego e Renda 25304, ,26 Liquidez 0,37 2,02 Logit 3: (Nordeste/Sul) Constant H 0,00 1,14433E+14 H1 0, ,13 H3 0,00 0,00 H4 0, ,33 H5 0,00 3,56 H6 0,00 4,14 ISDM 0, ,15 IFDM 0,00 0,00 IFGF 0,00 0,11 E2_4 0,00 0,00 T1_2 0,00 0,00 S1_1 0,00 1,20 R ,43 9,66303E+08 Educação 41118,15 7,79368E+08 Emprego e Renda 1158, ,35 Liquidez 0,38 1,76 Logit 4: (Centro-Oeste/Sul) Constant H 0,00 0,00 H ,74 1,27730E+14 H3 0, ,72 H4 4775,05 1,98072E+11 H5 0, ,73 H6 28,61 1,55660E+08 ISDM 0, ,74 IFDM 0,00 0,00 IFGF 0,02 0,58 E2_4 0,02 2,09 T1_2 0,00 0,00 S1_1 0,04 15,86 R1 0,06 50,61 Educação 3295, ,84 Emprego e Renda 833, ,71 Liquidez 1,04 3,78 Log-Likelihood = -2324,984 Test that all slopes are zero: G = 11669,733, DF = 64, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson ,000 Deviance ,000

290 ANÁLISE DE CORRESPONDÊNCIA 12 ANÁLISE DE CORRESPONDÊNCIA DOS ÍNDICES HABITAÇÃO E DE DESENVOLVIMENTO Análise de correspondência é uma técnica de análise exploratória de dados adequada para analisar tabelas de duas entradas ou tabelas de múltiplas entradas, levando em conta algumas medidas de correspondência entre linhas e colunas. Consiste na conversão de uma matriz de dados não negativos em um tipo particular de representação gráfica em que as linhas e colunas da matriz são simultaneamente representadas em dimensão reduzida, isto é, por pontos no gráfico. Este método permite estudar as relações e semelhanças existentes entre as categorias de linhas e entre as categorias de colunas de uma tabela de contingência ou o conjunto de categorias de linhas e o conjunto categorias de colunas. A análise de correspondência mostra como as variáveis dispostas em linhas e colunas estão relacionadas e não somente se a relação existe. Embora seja considerada uma técnica descritiva e exploratória, esta análise simplifica dados complexos e produz análises exaustivas de informações que suportam conclusões a respeito das mesmas. Possui diversos aspectos que a distingue de outras técnicas de análise de dados. A sua natureza multivariada permite revelar relações que não seriam detectadas em comparações aos pares das variáveis. É altamente flexível quanto a pressuposições sobre os dados: o único requisito é o de uma matriz retangular com entradas não negativas. É possível transformar qualquer característica quantitativa em qualitativa, realizando-se uma partição de seu domínio de variação em classes. A análise de correspondência é mais efetiva se a matriz de dados é bastante grande, de modo que a inspeção visual ou análise estatística simples não consegue revelar sua estrutura. Nesta análise serão trabalhados os estados e as médias de desenvolvimento por estado. Na análise de correspondência será gerado um mapa contendo quais estados estão mais próximos e quais variáveis tem a ver entre si. O comando para gerar o gráfico é:

291 STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS 12.1 Todas as variáveis do projeto observa-se seu alinhamento no centro dos quadrantes com tendência para os inferiores, sendo no primeiro composto pelos Estados: SP, MG RJ, ES e PE bem próximo das variáveis de habitação e desenvolvimento e apesar de compor o mesmo quadrante distante da variável H4, no segundo quadrante composto pelos Estados: PB, BA, RN, SE, AL, AC, PA, RR, MA e AM com alta proximidade com a variável S1_1, H5 e apesar de compor o mesmo quadrante baixa proximidade da variável R1. No terceiro quadrante composto pelos Estados: PR, GO, RS, SC, MS e MT é bastante próximo das variáveis de gestão fiscal: IFGF e Liquidez. E no ultimo quadrante composto pelos Estados: RO, TO, AP e PI próximo de todas as demais variáveis de Desenvolvimento e Habitação. Nota-se que há um distanciamento muito grande de R1 e H4 dos demais pontos e, por esta razão, optou-se por refazer a análise excluindo estas variáveis.. 0,50 H4 Symmetric Plot Component 2 0,25 0,00-0,25 SP PE MG PB RJ BA RN H SE CE ES E&R Educ S1_1 H5 H2 H1 AL PA RRMA T1_2 E2_4 ifdm AC AM PI isdm H6 H3 AP PR ifgf GO TO SC RS MS MTLiq RO R1-0,50-0,75-0,75-0,50-0,25 0,00 Component 1 0,25 0,50

292 Column Plot H4 0,50 0,25 R1 Component 2 0,00-0,25 HH2 H1 E&R Educ T1_2 E2_4 ifdm isdm H6 H3 ifgf Liq S1_1 H5-0,50-0,75-0,75-0,50-0,25 0,00 0,25 Component 1 0,50 Row Plot 0,4 0,3 Component 2 0,2 0,1 0,0-0,1-0,2 SP MG RJ ES PR GO SC RS MS MT PE PB BA RN CE SE AL AP TO RO PA RR AC PI MA AM -0,3-0,4-0,4-0,3-0,2-0,1 0,0 0,1 Component 1 0,2 0,3 0,4 Simple Correspondence Analysis: Hm_1; H1m_1; H2m_1; H3m_1; H4m_1; H5m_1; H6m_1;

293 Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0322 0,5895 0,5895 ****************************** 2 0,0134 0,2451 0,8346 ************ 3 0,0036 0,0661 0,9007 *** 4 0,0023 0,0425 0,9433 ** 5 0,0012 0,0223 0,9655 * 6 0,0008 0,0151 0, ,0004 0,0065 0, ,0003 0,0049 0, ,0002 0,0028 0, ,0001 0,0021 0, ,0001 0,0015 0, ,0000 0,0008 0, ,0000 0,0005 0, ,0000 0,0002 0, ,0000 0,0001 1,0000 Total 0,0546 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 AC 0,851 0,032 0,041 0,243 0,851 0,059 0,006 0,001 0,000 2 AL 0,626 0,036 0,016 0,118 0,556 0,015 0,042 0,070 0,005 3 AM 0,775 0,031 0,088 0,343 0,768 0,114 0,031 0,006 0,002 4 AP 0,502 0,035 0,034 0,161 0,489 0,029-0,026 0,013 0,002 5 BA 0,553 0,036 0,016 0,040 0,065 0,002 0,109 0,488 0,032 6 CE 0,566 0,035 0,019 0,103 0,371 0,012 0,075 0,194 0,015 7 ES 0,861 0,045 0,042-0,206 0,826 0,059 0,042 0,035 0,006 8 GO 0,789 0,042 0,027-0,117 0,386 0,018-0,119 0,403 0,045 9 MA 0,901 0,030 0,066 0,325 0,889 0,099 0,037 0,012 0, MG 0,939 0,044 0,054-0,216 0,701 0,064 0,126 0,237 0, MS 0,919 0,041 0,025-0,080 0,195 0,008-0,155 0,723 0, MT 0,960 0,041 0,023-0,044 0,064 0,002-0,165 0,896 0, PA 0,857 0,030 0,043 0,256 0,840 0,061 0,037 0,017 0, PB 0,796 0,035 0,018 0,033 0,038 0,001 0,148 0,758 0, PE 0,930 0,037 0,032-0,024 0,012 0,001 0,211 0,919 0, PI 0,809 0,032 0,043 0,243 0,809 0,059-0,004 0,000 0, PR 0,864 0,044 0,025-0,140 0,616 0,027-0,089 0,248 0, RJ 0,860 0,047 0,069-0,246 0,755 0,088 0,092 0,105 0, RN 0,295 0,037 0,013 0,031 0,053 0,001 0,067 0,242 0, RO 0,831 0,039 0,035 0,018 0,006 0,000-0,201 0,825 0, RR 0,836 0,032 0,048 0,258 0,805 0,066 0,051 0,031 0, RS 0,922 0,046 0,033-0,110 0,313 0,017-0,154 0,609 0, SC 0,939 0,046 0,039-0,121 0,319 0,021-0,169 0,619 0, SE 0,276 0,039 0,008 0,034 0,096 0,001 0,046 0,180 0, SP 0,951 0,050 0,127-0,329 0,775 0,167 0,157 0,176 0, TO 0,789 0,038 0,015 0,079 0,281 0,007-0,106 0,508 0,032 Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 H 0,762 0,064 0,015-0,093 0,676 0,017 0,033 0,086 0,005 2 H1 0,270 0,071 0,018-0,058 0,249 0,007 0,017 0,021 0,002 3 H2 0,270 0,071 0,018-0,058 0,249 0,007 0,017 0,021 0,002 4 H3 0,668 0,083 0,021-0,084 0,505 0,018-0,048 0,163 0,014 5 H4 0,974 0,022 0,295-0,614 0,508 0,254 0,589 0,467 0,563 6 H5 0,934 0,080 0,095 0,241 0,892 0,144 0,052 0,042 0,016 7 H6 0,423 0,055 0,052-0,129 0,326 0,028-0,070 0,097 0,020 8 isdm 0,929 0,066 0,022-0,124 0,845 0,031-0,039 0,084 0,008 9 ifdm 0,462 0,068 0,003 0,035 0,451 0,003 0,005 0,010 0, ifgf 0,492 0,057 0,018 0,059 0,207 0,006-0,069 0,285 0, E2_4 0,173 0,075 0,016-0,006 0,003 0,000-0,044 0,170 0,011

294 12 T1_2 0,506 0,058 0,022-0,065 0,205 0,008-0,079 0,301 0, S1_1 0,695 0,005 0,007 0,233 0,685 0,008 0,028 0,010 0, R1 0,993 0,043 0,318 0,588 0,860 0,464 0,231 0,133 0, Educ 0,311 0,077 0,006 0,032 0,265 0,003 0,013 0,046 0, E&R 0,003 0,043 0,007-0,001 0,000 0,000-0,005 0,003 0, Liq 0,500 0,061 0,068-0,000 0,000 0,000-0,175 0,500 0, Todas as variáveis do projeto estão bem distribuídas entre os quatro quadrantes, sendo no primeiro composto pelos Estados: RO,MS, MT, RS, SC, ES e RJ, bem próximo das variáveis de T1_2, no segundo quadrante composto pelos Estados: TO, AL, AP, AC, RR e AM com alta proximidade com as variáveis IFGF e Emprego e Renda e apesar de compor o mesmo quadrante distante da variável de Liquidez, No terceiro quadrante composto pelos Estados: SP, GO, PR, MG é bastante próximo das variáveis de Desenvolvimento e Habitação; H6, ISDM, H3, H2, H1 e H. E no ultimo quadrante composto pelos Estados: RN, PE, PB, BA, CE, SE, PI, PA e MA próximo das variáveis : IFDM e Educação, somente a variável MA é próxima das variáveis S1_1 e H5, distante de todas as demais como demosntra estudos anteriores. 0,3 Symmetric Plot Liq 0,2 RO AM Component 2 0,1 0,0-0,1 MS ifgf SC RS T1_2 MT TO ES RJ E2_4AL AP isdmh3 E&R SP GOPR H6 Educ ifdm PI MG H2 H1 SE H BACE RNPE PB ACRR MA PA S1_1 H5-0,2-0,2-0,1 0,0 0,1 Component 1 0,2 0,3

295 0,3 Column Plot Liq 0,2 Component 2 0,1 0,0 H6 isdmh3 H T1_2 H2 H1 E2_4 E&R Educ ifdm ifgf S1_1 H5-0,1-0,2-0,2-0,1 0,0 0,1 Component 1 0,2 0,3 Row Plot 0,3 0,2 RO AM Component 2 0,1 0,0 MS SC RS MT ES RJ SP GOPR MG TO AL SE AP PI ACRR MA -0,1 BA CE RNPE PB PA -0,1 0,0 0,1 Component 1 0,2 0,3 Todas as variáveis do projeto exceto (R1 e H4),assim como no anterior, observa-se um comportamento semelhante quanto a divisão das regiões, em direita e esquerda, porém o

296 centro da escala da componente 1 não é mais a referência que divide os grupos. No grupo da esquerda, é distinta a separação das regiões Norte predominantemente no quadrante inferior e a Nordeste no quadrante superior. Simple Correspondence Analysis: Hm_1; H1m_1; H2m_1; H3m_1; H5m_1; H6m_1; isdmm_ Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0107 0,4866 0,4866 ****************************** 2 0,0051 0,2321 0,7186 ************** 3 0,0030 0,1380 0,8567 ******** 4 0,0013 0,0575 0,9142 *** 5 0,0007 0,0335 0,9477 ** 6 0,0004 0,0192 0,9669 * 7 0,0002 0,0098 0, ,0002 0,0073 0, ,0001 0,0054 0, ,0001 0,0047 0, ,0001 0,0038 0, ,0000 0,0016 0, ,0000 0,0004 1,0000 Total 0,0220 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 AC 0,816 0,031 0,055 0,174 0,788 0,089 0,033 0,028 0,007 2 AL 0,129 0,035 0,010 0,024 0,088 0,002 0,016 0,041 0,002 3 AM 0,926 0,030 0,134 0,268 0,732 0,202 0,138 0,194 0,112 4 AP 0,277 0,035 0,056 0,097 0,271 0,031 0,014 0,006 0,001 5 BA 0,441 0,035 0,026 0,014 0,012 0,001-0,084 0,430 0,048 6 CE 0,504 0,035 0,028 0,036 0,070 0,004-0,089 0,434 0,053 7 ES 0,772 0,045 0,029-0,096 0,658 0,039 0,040 0,114 0,014 8 GO 0,866 0,043 0,029-0,113 0,857 0,052-0,011 0,008 0,001 9 MA 0,753 0,029 0,074 0,202 0,737 0,111-0,030 0,016 0, MG 0,820 0,043 0,026-0,089 0,618 0,032-0,051 0,201 0, MS 0,883 0,043 0,027-0,079 0,452 0,025 0,077 0,431 0, MT 0,866 0,042 0,016-0,052 0,329 0,011 0,067 0,538 0, PA 0,837 0,030 0,048 0,151 0,640 0,064-0,084 0,197 0, PB 0,889 0,034 0,024 0,012 0,009 0,000-0,118 0,879 0, PE 0,930 0,035 0,029 0,004 0,001 0,000-0,130 0,929 0, PI 0,487 0,032 0,045 0,119 0,452 0,042-0,033 0,035 0, PR 0,877 0,045 0,024-0,100 0,859 0,042-0,014 0,017 0, RJ 0,387 0,047 0,041-0,085 0,378 0,032 0,013 0,009 0, RN 0,888 0,037 0,030-0,007 0,003 0,000-0,125 0,885 0, RO 0,748 0,040 0,050-0,020 0,015 0,002 0,141 0,733 0, RR 0,817 0,031 0,067 0,195 0,793 0,110 0,034 0,024 0, RS 0,718 0,048 0,025-0,062 0,333 0,017 0,067 0,384 0, SC 0,727 0,049 0,027-0,076 0,469 0,026 0,056 0,258 0, SE 0,186 0,038 0,018 0,001 0,000 0,000-0,043 0,186 0, SP 0,683 0,049 0,048-0,120 0,667 0,066-0,019 0,016 0, TO 0,360 0,038 0,014 0,014 0,023 0,001 0,052 0,337 0,021 Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 H 0,821 0,069 0,041-0,079 0,477 0,040-0,067 0,344 0,060 2 H1 0,280 0,076 0,046-0,042 0,133 0,013-0,044 0,148 0,029

297 3 H2 0,280 0,076 0,046-0,042 0,133 0,013-0,044 0,148 0,029 4 H3 0,700 0,089 0,042-0,085 0,697 0,060-0,006 0,003 0,001 5 H5 0,965 0,086 0,291 0,263 0,925 0,554-0,055 0,040 0,050 6 H6 0,507 0,059 0,121-0,147 0,477 0,119-0,037 0,030 0,016 7 isdm 0,908 0,071 0,044-0,112 0,905 0,082-0,006 0,003 0,001 8 ifdm 0,732 0,073 0,016 0,051 0,555 0,018-0,029 0,178 0,012 9 ifgf 0,822 0,061 0,046 0,081 0,400 0,037 0,083 0,422 0, E2_4 0,009 0,080 0,037 0,003 0,001 0,000 0,009 0,008 0, T1_2 0,367 0,062 0,044-0,046 0,135 0,012 0,060 0,232 0, S1_1 0,683 0,005 0,021 0,244 0,681 0,030-0,013 0,002 0, Educ 0,560 0,083 0,023 0,049 0,388 0,019-0,033 0,172 0, E&R 0,073 0,046 0,019 0,025 0,071 0,003-0,004 0,002 0, Liq 0,939 0,065 0,163 0,013 0,003 0,001 0,227 0,936 0,656 ÁRVORE DE CLASSIFICAÇÃO 13 ÁRVORE CLASSIFICATÓRIA ÁRVORES DE CLASSIFICAÇÃO DAS VARIÁVEIS HABITAÇÃO POR REGIÃO Este resultado se refere à variável dependente REGIÃO e as variáveis independente: ISDM, H, H1, H2, H3, H4, H5, H6, Resumo do modelo Especificações Método de crescimento Variável dependente Variáveis independentes Validação CHAID VAR00002 VAR00001, VAR00003, VAR00004, VAR00005, VAR00006, VAR00007, VAR00008, VAR00009 Nenhum Profundi00dade de árvore máxima 3 Casos mínimos em nó pai 2 Casos mínimos em nó filho 1 Variáveis independentes VAR00003 incluídas Resultados Número de nós 7 Número de nós de terminal 6 Profundidade 1

298 Posto Observado Previsto Centro-Oeste Nordeste Norte Região Sudeste Sul Porcentagem Correta % Centro-Oeste % Nordeste % Norte % Região % Sudeste % Sul % Porcentagem global 0.0% 0.1% 99.8% 0.1% 0.0% 0.0% 0.1% 32.4% Método de crescimento: CHAID Variável dependente: VAR00002 Risco Estimativas Modelo padrão

299 Método de crescimento: CHAID Variável dependente: VAR ÁRVORES DE CLASSIFICAÇÃO DAS VARIÁVEIS HABITAÇÃO POR 3 BRASIS. Este resultado se refere à variável dependente 3 BRASIS e as variáveis independente: ISDM, H, H1, H2, H3, H4, H5, H6, Resumo do modelo Especificações Método de crescimento Variável dependente Variáveis independentes Validação CHAID VAR00010 VAR00001, VAR00003, VAR00004, VAR00005, VAR00006, VAR00007, VAR00008, VAR00009 Nenhum Profundidade de árvore máxima 3 Casos mínimos em nó pai 2 Casos mínimos em nó filho 1 Variáveis independentes VAR00003 incluídas Resultados Número de nós 5 Número de nós de terminal 4 Profundidade 1

300 Risco Estimativas Modelo padrão Método de crescimento: CHAID Variável dependente: VAR00010 Posto Observado Previsto 3 Brasis Centro-Oeste Nor Su Porcentagem Correta % 3 Brasis % Centro-Oeste % Nor % Su % Porcentagem global 0.0% 0.0% 0.1% 0.3% 99.6% 51.7%

301 Método de crescimento: CHAID Variável dependente: VAR ÁRVORES DE CLASSIFICAÇÃO DAS VARIÁVEIS HABITAÇÃO POR 2 BRASIS. Este resultado se refere à variável dependente 2 BRASIS e as variáveis independente: ISDM, H, H1, H2, H3, H4, H5, H6, Resumo do modelo Especificações Método de crescimento Variável dependente Variáveis independentes Validação CHAID VAR00011 VAR00001, VAR00003, VAR00004, VAR00005, VAR00006, VAR00007, VAR00008, VAR00009 Nenhum Profundidade de árvore máxima 3 Casos mínimos em nó pai 2 Casos mínimos em nó filho 1 Variáveis independentes VAR00003 incluídas Resultados Número de nós 4 Número de nós de terminal 3 Profundidade 1

302 Posto Observado Previsto 2 Brasis Centro-Oeste SSNN Porcentagem Correta % 2 Brasis % Centro-Oeste % SSNN %

303 Porcentagem global 0.0% 0.0% 0.1% 99.9% 91.6% Método de crescimento: CHAID Variável dependente: VAR00011 Risco Estimativas Modelo padrão Método de crescimento: CHAID Variável dependente: VAR00011 Conclusão: Entre as três variáveis categóricas apresentadas, observou-se um índice de previsibilidade na dos 2 Brasis (Variável 11), que alcançou 91,6 % de acerto, contra 3 Brasis (Variável 10), que alcançou 51,7 e 32,4 % das Regiões (Variável 2) ÁRVORES DE CLASSIFICAÇÃO DAS VARIÁVEIS COMPARTILHADAS POR 3 BRASIS Resumo do modelo Especificações Método de crescimento Variável dependente Variáveis independentes Validação CHAID VAR00002 VAR00006, VAR00007, VAR00008, VAR00009, VAR00010, VAR00011, VAR00012, VAR00013, VAR00014, VAR00015, VAR00016, VAR00017, VAR00018, VAR00019, VAR00020, VAR00021, VAR00022 Nenhum Profundidade de árvore máxima 3 Casos mínimos em nó pai 2 Casos mínimos em nó filho 1 Variáveis independentes VAR00006 incluídas Resultados Número de nós 3 Número de nós de terminal 2 Profundidade 1

304 osto Observado Previsto 3 BRASISM B123 B4 B5 Porcentagem Correta 3 BRASISM ,0% B ,0% B ,0% B ,0% Porcentagem global 0,0% 100,0% 0,0% 0,0% 86,7% Método de crescimento: CHAID Variável dependente: VAR00002

305 PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICPAL NO BRASIL Focando principalmente indicadores relacionados a Habitação, Educação, Trabalho e muito particularmente EMPREGO e RENDA. MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA Professor: Dr. Arnoldo José de Hoyos José Felipe Ferreira de Souza

306 2 SUMÁRIO 1 INTRODUÇÃO OS DADOS Os Indivíduos As Variáveis ANÁLISE DAS VARIÁVEIS Variáveis Categóricas Variável: Estados ANÁLISE EXPLORATÓRIA DE DADOS Histograma ISDM EMPREGO E RENDA R T1_ H EDUCAÇÃO E2_ SAÚDE S1_ LIQUIDEZ RELAÇÃO ENTRE AS VARIÁVEIS Correlações Dendograma Gráficos Scaterplot e Regressão de mínimos quadrados ISDM versus EMPREGO E RENDA ISDM versus R ISDM versus T1_ ISDM versus H ISDM versus EDUCAÇÃO ISDM versus E2_ ISDM versus SAÚDE ISDM versus S1_

307 ISDM versus LIQUIDEZ MODELO DE REGRESSÃO LINEAR ISDM versus Emprego e Renda; Educação; e Saúde ISDM versus E2_4; T1_2; S1_1; R1; H6; e Liquidez TESTE DE COMPARAÇÕES Variável ISDM Variável Emprego e Renda Variável Educação Variável Saúde Variável E2_ Variável T1_ Variável S1_ Variável R Variável H Variável Liquidez AMOSTRAGEM VARIÁVEL ISDM VARIÁVEL EMPREGO E RENDA VARIÁVEL EDUCAÇÃO ANÁLISE MULTIVARIADA Dendograma dos agrupamentos das variáveis por similaridade Principais Componentes ANÁLISE DE CONGLOMERADOS ANOVA ANOVA de ISDM por Estado ANOVA de Emprego e Renda por Estado ANOVA de R1 por Estado ANOVA de T1_2 por Estado ANOVA de H6 por Estado ANOVA de Educação por Estado ANOVA de E2_4 por Estado ANOVA de Saúde por Estado ANOVA de S1_1 por Estado ANOVA de Liquidez por Estado... 73

308 DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DAS MÉDIAS ANÁLISE DISCRIMINANTE DENDOGRAMA DAS REGIÕES BRASILEIRAS ANÁLISE DESCRIMINANTE DAS CINCO REGIÕES VERSUS ISDM, EMPREGO E RENDA, EDUCAÇÃO E SAÚDE REGRESSÃO LOGÍSTICA ÁRVORES DE CLASSIFICAÇÃO Os três brasis Árvore de classificação das variáveis: ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_ Árvore de classificação das médias Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis Árvore de classificação dos desvios padrões Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis Árvore de classificação das médias Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região Árvore de classificação dos desvios padrões Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região CONSIDERAÇÕES FINAIS... 89

309 5 1 INTRODUÇÃO O presente trabalho propõe trabalhar com os 12 exercícios que foram realizados ao longo da disciplina, com a incrementação de seis novas variáveis: E2_4 (Proporção de crianças de 7 a 14 anos na série adequada para sua idade); T1_2 (Taxa de formalização entre os empregados); S1_1 (Taxa de mortalidade infantil, por mil nascidos vivos); R1 (Proporção de pessoas com renda domiciliar per capita abaixo da linha de pobreza); H6 (Proporção de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2); e Liquidez. Somam-se a essas 6 variáveis as outras 5 variáveis que vem sido trabalhadas ao longo da disciplina: ISDM; Emprego e Renda; Educação; e Saúde mais as cinco regiões brasileiras: Norte, Nordeste, Centro-Oeste, Sul e Sudeste. Neste novo momento as 16 variáveis foram trabalhadas com os exercícios de: Análise exploratória de dados; relação entre variáveis, correlação, regressão linear, teste de comparação, análise multivariada, analise de conglomerados, análise discriminante, regressão logística, análise de correspondência e árvore de classificação. Para tanto serão utilizados os dados da Pesquisa Firjan/FGV sobre o Desenvolvimento dos Municípios nos períodos de 2000 e 2010 e utilizará a classificação por regiões brasileiras: Norte, Nordeste, Centro-Oeste, Sudeste e Sul. O software estatístico a ser utilizado é o MINITAB16 e o SPSS. 2 OS DADOS 2.1 Os Indivíduos Os indivíduos desta análise são os 5565 Municípios brasileiros classificados em suas regiões cujas prefeituras disponibilizaram os dados referentes ao ISDM, IFDM, IFGF, Emprego e Renda, Educação e Saúde. Fonte: Tabela ISDM, IFDM e IFGF por municípios brasileiros; e

310 6 2.2 As Variáveis Para o objetivo do presente trabalho, foram trabalhados os dados de 16 variáveis: ISDM, Emprego e Renda, Educação, Saúde, E2_4 (Proporção de crianças de 7 a 14 anos na série adequada para sua idade); T1_2 (Taxa de formalização entre os empregados); S1_1 (Taxa de mortalidade infantil, por mil nascidos vivos); R1 (Proporção de pessoas com renda domiciliar per capita abaixo da linha de pobreza); H6 (Proporção de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2); e Liquidez, e as regiões Norte, Nordeste, Centro-Oeste, Sudeste e Sul. Variável Significado Tipo Unidade de Medida ISDM Indicador Social de Desenvolvimento dos Variável Numérico Municípios (ISDM). Consiste na média Quantitativa ponderada dos indicadores das dimensões Habitação, Renda, Trabalho, Saúde e Segurança e Educação (H, R, T, S e E) padronizada pela média do Brasil. Renda Média ponderada dos indicadores da dimensão Variável Numérico (R) Renda (R1 e R2) padronizada pela média do Quantitativa Brasil. R1 Proporção de pessoas com renda domiciliar per Variável Numérico capita abaixo da linha de pobreza Quantitativa Emprego/Trabalho Média ponderada dos indicadores da dimensão Variável Numérico (T) Trabalho (T1_1, T1_2 e T2_1) padronizada pela média do Brasil. Quantitativa T1_2 Taxa de formalização entre os empregados. Variável Numérico Quantitativa H6 Proporção de pessoas que vivem em domicílio Variável Numérico que tem densidade de moradores por dormitório inferior a 2. Quantitativa Educação Média ponderada dos indicadores da dimensão Variável Numérico (E) Educação (E1_1, E1_2, E2_1, E2_2, E2_3, Quantitativa E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3)

311 7 padronizada pela média do Brasil. E2_4 Proporção de crianças de 7 a 14 anos na série adequada para sua idade. Saúde Média ponderada dos indicadores da dimensão Saúde e Segurança (S1_1, S1_2, S1_3, S2_1, S2_2 e S3_1) padronizada pela média do Brasil. S1_1 Taxa de mortalidade infantil, por mil nascidos vivos. Liquidez Refere-se à velocidade e facilidade com a qual um ativo pode ser convertido em caixa. O indicador procura verificar se o município possui recursos financeiros suficientes para fazer frente ao montante de restos a pagar. Se o município apresentar mais restos a pagar do que ativos financeiros disponíveis a pontuação será zero. Na leitura dos resultados, quanto mais próximo de 1,00, menos o município está postergando pagamentos para o exercício seguinte sem a devida cobertura. Norte A Região Norte é a região que possui a maior área ( ,9 km², ou 45% do território nacional) e com população de 16,3 milhões de habitantes. É a região com a menor densidade demográfica (3,77 hab./km², segundo o censo IBGE 2010). A cidade mais populosa da região, Manaus, com 1,8 milhão de habitantes, é a sétima mais populosa do Brasil. Nordeste A Região Nordeste possui um território de km² (18,2% do território nacional), dentro dos quais está localizado o Polígono das secas. Sua população é pouco superior a 50 milhões de habitantes. A região possui nove estados. Variável Quantitativa Variável Quantitativa Variável Quantitativa Variável Quantitativa Variável Quantitativa Variável Quantitativa Numérico Numérico Numérico Numérico Numérico Numérico

312 8 Centro-Oeste Ocupa 18,86% do território brasileiro, com uma área de ,2 km2. Sua população é de cerca de 12 milhões de habitantes. A região possui três estados mais um distrito federal. Sudeste Possui um território de km² (10,6% do território nacional). Sua população é de cerca de 77 milhões de habitantes. Possui o maior PIB bem como as duas cidades mais populosas do Brasil: São Paulo, com pouco mais de 11 milhões de habitantes e Rio de Janeiro com cerca de 6 milhões. Sul A Região Sul é a que possui a menor área ( km², ou 6,8% do território nacional) e sua população é de mais de 26 milhões de habitantes, é a segunda região mais rica do país, depois da Região Sudeste, e a que possui o maior IDH, a maior taxa de alfabetização e os melhores níveis de educação, saúde e bem estar social do país. A região possui três estados. Variável Quantitativa Variável Quantitativa Variável Quantitativa Numérico Numérico Numérico 3. ANÁLISE DAS VARIÁVEIS 3.1 Variáveis Categóricas Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo pie chart e barras Variável: Estados Fazem parte desta pesquisa os 27 Estados brasileiros e seus 5565 municípios classificados em 5 regiões brasileiras. Nos gráficos abaixo é possível visualizar a distribuição de municípios por Estado brasileiro e as cinco regiões brasileiras.

313 9 Distribuição dos Estados brasileiros com Municípios participantes Estado A C A L A M A P BA C E ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO O ther

314 Municípios por Estado brasileiro 800 Numero de Municípios MG SC PR BA RS SP PB PI GO RN CE PE MA SE MS ES RJ AL TO PA MT Estados AM RO AC AP RR DF Os dados dos gráficos nos permite visualizar que, os Estados com maior participação de municípios são: Minas Gerais (852 cidades), São Paulo (647 cidades), Rio Grande do Sul (497 cidades), Bahia (416 cidades) e Paraná (399 cidades).

315 11 Já entre os Estados com menor número de cidades participantes, temos: Distrito Federal (1 cidade), Roraima (15 cidades), Amapá (16 cidades) e Acre (22 cidades). 4. ANÁLISE EXPLORATÓRIA DE DADOS Para iniciar a análise exploratória dos dados, foi realizada a analise descritiva das variáveis para verificar se existem lacunas, como resultado foi obtido o seguinte: Descriptive Statistics: ISDM; Emprego e Re; R1; T1_2; H6; Educação; E2_4;... Total Variable Count N* Minimum Q1 Median Q3 Maximum ISDM ,5476 3,5973 4,6446 5,3454 6,2778 Emprego e Renda , , , , ,00000 R ,073 8,618 19,990 39,479 78,801 T1_ ,400 41,272 57,421 71,384 94,914 H ,735 45,035 55,297 64,616 89,335 Educação , , , , ,00000 E2_ ,722 79,528 87,510 92, ,000 Saúde , , , , ,00000 S1_ ,000 4,294 12,579 20, ,333 Liquidez , , , , ,00000 É possível observar que as variáveis S1_1 e a Liquidez apresentaram lacunas, para preenche-las, foram utilizados os valores do primeiro quartil (Q1), o resultado foi: Descriptive Statistics: ISDM; Emprego e Re; R1; T1_2; H6; Educação; E2_4;... Total Variable Count N* Minimum Q1 Median Q3 Maximum ISDM ,5476 3,5973 4,6446 5,3454 6,2778 Emprego e Renda , , , , ,00000 R ,073 8,618 19,990 39,479 78,801 T1_ ,400 41,272 57,421 71,384 94,914 H ,735 45,035 55,297 64,616 89,335 Educação , , , , ,00000 E2_ ,722 79,528 87,510 92, ,000 Saúde , , , , ,00000 S1_ ,000 4,294 12,579 20, ,333 Liquidez , , , , ,00000 Uma vez que todas as lacunas foram preenchidas foi feito o histograma de todas as variáveis. 4.1 Histograma ISDM

316 12 Summary for ISDM A nderson-darling Normality Test A -Squared 75,76 P-V alue < 0,005 Mean 4,4324 StDev 1,0929 V ariance 1,1945 Skew ness -0, Kurtosis -0, N ,8 1,6 2,4 3,2 4,0 4,8 5,6 Minimum 0,5476 1st Q uartile 3,5973 Median 4,6446 3rd Q uartile 5,3454 Maximum 6, % C onfidence Interv al for Mean 4,4037 4, % C onfidence Interv al for Median 4,5898 4, % Confidence Intervals 95% C onfidence Interv al for StDev 1,0730 1,1136 Mean Median 4,40 4,45 4,50 4,55 4,60 4,65 4,70 Observações: Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita, o que é comum para variáveis que indiquem ganhos, receitas, salários, etc. Valores Atípicos: Há 3 valores de ISDM atípicos, que apresentam resultados abaixo de 0,8, que são os municípios de Chaves, PA; Amajari, RR e Melgaço, PA. Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem ISDM menor do que 4, O ISDM médio é de 4,4324, mas o desviopadrão (medida de dispersão) é de 1,0929, que implica em uma dispersão grande da população e uma variação grande entre os diversos municípios do Brasil.

317 EMPREGO E RENDA Summary for Emprego e Renda A nderson-darling Normality Test A -Squared 105,84 P-V alue < 0,005 Mean 0,40375 StDev 0,15524 V ariance 0,02410 Skew ness 0,88857 Kurtosis 1,32253 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,30631 Median 0, rd Q uartile 0,47111 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,15818 Mean Median 0,37 0,38 0,39 0,40 0,41 Observações: Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a esquerda. Centro e Dispersão: A mediana nos indica que muitos municípios apresentam Emprego e Renda menor do que 0, A média é de 0,40375, e o desvio-padrão (medida de dispersão) é de 0,15524.

318 R1 Summary for R1 A nderson-darling Normality Test A -Squared 154,22 P-V alue < 0,005 Mean 24,525 StDev 17,698 V ariance 313,215 Skew ness 0, Kurtosis -0, N Minimum 0,073 1st Q uartile 8,618 Median 19,990 3rd Q uartile 39,479 Maximum 78,801 95% C onfidence Interv al for Mean 24,060 24,990 95% C onfidence Interv al for Median 19,062 20,991 95% Confidence Intervals 95% C onfidence Interv al for StDev 17,375 18,033 Mean Median Observações: Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a esquerda. Centro e Dispersão: A mediana nos indica que muitos municípios apresentam R1 menor do que 19,990. A média é de 24,525, e o desvio-padrão (medida de dispersão) é de 17,698.

319 T1_2 Summary for T1_2 A nderson-darling Normality Test A -Squared 41,12 P-V alue < 0,005 Mean 56,304 StDev 18,234 V ariance 332,476 Skew ness -0, Kurtosis -0, N Minimum 6,400 1st Q uartile 41,272 Median 57,421 3rd Q uartile 71,384 Maximum 94,914 95% C onfidence Interv al for Mean 55,824 56,783 95% C onfidence Interv al for Median 56,580 58,208 95% Confidence Intervals 95% C onfidence Interv al for StDev 17,901 18,579 Mean Median 56,0 56,5 57,0 57,5 58,0 58,5 Observações: Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente simétrica. Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios apresentam T1_2 menor do que 57,421. A média é de 56,304, e o desviopadrão (medida de dispersão) é de 18,234.

320 H6 Summary for H6 A nderson-darling Normality Test A -Squared 15,83 P-V alue < 0,005 Mean 54,319 StDev 13,553 V ariance 183,682 Skew ness -0, Kurtosis -0, N Minimum 4,735 1st Q uartile 45,035 Median 55,297 3rd Q uartile 64,616 Maximum 89,335 95% C onfidence Interv al for Mean 53,963 54,675 95% C onfidence Interv al for Median 54,880 55,797 95% Confidence Intervals 95% C onfidence Interv al for StDev 13,306 13,810 Mean Median 54,0 54,5 55,0 55,5 56,0 Observações: Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica. Centro e Dispersão: A mediana nos indica que uma quantidade significativa dos municípios apresentam H6 maior do que 55,297. A média é de 54,319, e o desvio-padrão (medida de dispersão) é de 13,553.

321 EDUCAÇÃO Summary for Educação A nderson-darling Normality Test A -Squared 7,27 P-V alue < 0,005 Mean 0,74125 StDev 0,11237 V ariance 0,01263 Skew ness -0, Kurtosis -0, N ,45 0,54 0,63 0,72 0,81 0,90 0,99 Minimum 0, st Q uartile 0,66324 Median 0, rd Q uartile 0,82305 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,11449 Mean Median 0,7400 0,7425 0,7450 0,7475 0,7500 Observações: Forma: O Histograma permite verificar que se trata de uma distribuição assimétrica. A posição da linha da mediana mais a direita do quadrado principal do Box- Plot também indica esta assimetria. Considerando que o valor mínimo apresentado é de 0 em alguns municípios e o valor máximo é de 1 nos municípios de Araucária (PR) e Ipojuca (PE), e a mediana ser apresentada pelo valor 0,74595, pode-se dizer que a maior parte dos Estados brasileiros possuem um bom índice de educação por município. Centro e Dispersão: A mediana nos indica que grande parte dos municípios brasileiros apresentam os valores de sua distribuição de Educação acima da média ponderada brasileira. Isso é bom, pois indica que há boa frequência de crianças do ensino infantil, fundamental e médio/geral indo a escola e uma pequena proporção de crianças do ensino fundamental e médio sofrem de analfabetismo. Na pesquisa não foram apurados os dados referentes a educação superior.

322 E2_4 Summary for E2_4 A nderson-darling Normality Test A -Squared 95,44 P-V alue < 0,005 Mean 85,481 StDev 8,881 V ariance 78,880 Skew ness -0, Kurtosis 0, N Minimum 45,722 1st Q uartile 79,528 Median 87,510 3rd Q uartile 92,529 Maximum 100,000 95% C onfidence Interv al for Mean 85,247 85,714 95% C onfidence Interv al for Median 87,165 87,883 95% Confidence Intervals 95% C onfidence Interv al for StDev 8,719 9,050 Mean Median 85,0 85,5 86,0 86,5 87,0 87,5 88,0 Observações: Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita. Centro e Dispersão: A mediana nos indica que mais da metade dos municípios apresentam E2_4 maior do que 87,510. A média é de 85,481, e o desvio-padrão (medida de dispersão) é de 8,881.

323 SAÚDE Summary for Saúde A nderson-darling Normality Test A -Squared 34,12 P-V alue < 0,005 Mean 0,79828 StDev 0,10036 V ariance 0,01007 Skew ness -0, Kurtosis -0, N ,48 0,56 0,64 0,72 0,80 0,88 0,96 Minimum 0, st Q uartile 0,72978 Median 0, rd Q uartile 0,87642 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,10226 Mean Median 0,795 0,800 0,805 0,810 0,815 Observações: Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a direita. Centro e Dispersão: A mediana nos indica que mais da metade dos municípios apresentam SAÚDE maior do que 0, A média é de 0,79828, e o desvio-padrão (medida de dispersão) é de 0,10036.

324 S1_1 Summary for S1_1 A nderson-darling Normality Test A -Squared 160,67 P-V alue < 0,005 Mean 14,259 StDev 14,280 V ariance 203,915 Skew ness 4,2583 Kurtosis 59,4424 N Minimum 0,000 1st Q uartile 4,294 Median 12,579 3rd Q uartile 20,050 Maximum 333,333 95% C onfidence Interv al for Mean 13,883 14,634 95% C onfidence Interv al for Median 12,295 12,912 95% Confidence Intervals 95% C onfidence Interv al for StDev 14,020 14,550 Mean Median 12,0 12,5 13,0 13,5 14,0 14,5 Observações: Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica para a esquerda. Centro e Dispersão: A mediana nos indica que mais da metade dos municípios apresentam S1_1 menor do que 12,579. A média é de 14,259, e o desvio-padrão (medida de dispersão) é de 14,280.

325 LIQUIDEZ Summary for Liquidez A nderson-darling Normality Test A -Squared 257,10 P-V alue < 0,005 Mean 0,55146 StDev 0,37328 V ariance 0,13934 Skew ness -0,32363 Kurtosis -1,46781 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,19358 Median 0, rd Q uartile 0,90601 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,38035 Mean Median 0,550 0,575 0,600 0,625 0,650 0,675 Observações: Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica. Centro e Dispersão: A mediana nos indica que mais da metade dos municípios apresentam LIQUIDEZ maior do que 0, A média é de 0,55146, e o desvio-padrão (medida de dispersão) é de 0, Esse dado indica que ao menos metade dos município estão postergando pagamentos para o exercício seguinte sem a devida cobertura.

326 22 5. RELAÇÃO ENTRE AS VARIÁVEIS O presente capítulo fez uma analise das variáveis com relação ao ISDM. Abaixo segue os resultados obtidos. 5.1 Correlações Sobre as correlações das variáveis estudadas, obteve-se o seguinte: Correlations: ISDM; Emprego e Re; R1; T1_2; H6; Educação; E2_4; Saúde;... ISDM Emprego e Renda Emprego e Renda 0,525 0,000 R1 R1-0,951-0,509 0,000 0,000 T1_2 0,806 0,586-0,782 0,000 0,000 0,000 H6 0,695 0,211-0,709 0,000 0,000 0,000 Educação 0,782 0,377-0,753 0,000 0,000 0,000 E2_4 0,764 0,363-0,768 0,000 0,000 0,000 Saúde 0,697 0,345-0,713 0,000 0,000 0,000 S1_1-0,147-0,077 0,140 0,000 0,000 0,000 Liquidez 0,276 0,197-0,308 0,000 0,000 0,000 T1_2 H6 Educação H6 0,449 0,000 Educação 0,609 0,552 0,000 0,000 E2_4 0,599 0,613 0,765 0,000 0,000 0,000 Saúde 0,559 0,590 0,654 0,000 0,000 0,000 S1_1-0,112-0,115-0,122 0,000 0,000 0,000 Liquidez 0,302 0,260 0,233 0,000 0,000 0,000

327 23 E2_4 Saúde S1_1 Saúde 0,640 0,000 S1_1-0,128-0,268 0,000 0,000 Liquidez 0,263 0,259-0,049 0,000 0,000 0,000 Cell Contents: Pearson correlation P-Value Sobre os resultados obtidos, é possível notar que ISDM x T1_2, ISDM x Educação, ISDM x E2_4, ISDM x Saúde, T1_2 x Educação, E2_4 x Saúde, H6 x E2_4, Educação x E2_4, e Educação x Saúde são as variáveis que apresentam as maiores correlações, enquanto ISDM x R1, T1_2 x R1, Educação x R1, e E2_4 x R1 apresentam as menores correlações. Na próxima etapa foram retiradas, do total de 5565 municípios, 50 amostras para a elaboração dos gráficos de Scatterplot. Foi realizado o dendograma e o cruzamentos entre ISDM com as demais variáveis para verificar o grau de proximidade entre elas. 5.2 Dendograma O dendograma permite uma melhor visualização sobre a proximidade das variáveis estudadas. Abaixo segue o resultado do dendograma: 47,80 Dendrogram Single Linkage; Correlation Coefficient Distance Similarity 65,20 82,60 100,00 ISDM_A50 Educação_A50 E2_4_A50 Saúde_A50 H6_A50 T1_2_A50 Emprego e Renda_A50 Liquidez_A50 R1_A50 S1_1_A50 Variables

328 24 Nesta amostra é possível observar a existência de 3 grupos principais, sendo um primeiro grupo: ISDM, Educação, E2_4, Saúde, H6 e T1_2 um grupo com similaridade acima de 85%. Um segundo grupo composto por Emprego e renda e Liquidez, com um grau de similaridade acima de 65% e um terceiro grupo com baixo grau de similaridade com os demais composto por R1 e S1_1 que possuem similaridade acima de 45% Cluster Analysis of Variables: ISDM_A50; Emprego e Re; R1_A50; T1_2_A50;... Correlation Coefficient Distance, Single Linkage Amalgamation Steps Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,8941 0, ,6434 0, ,2285 0, ,6548 0, ,7641 0, ,0191 0, ,1737 0, ,7530 0, ,7985 1, Gráficos Scaterplot e Regressão de mínimos quadrados ISDM versus EMPREGO E RENDA Scatterplot of ISDM_A50 vs Emprego e Renda_A ISDM_A ,0 0,1 0,2 0,3 0,4 0,5 0,6 Emprego e Renda_A50 0,7 0,8 0,9

329 25 Observações: Direção: Da análise das correlações acima percebemos que algumas possuem associações positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. Intensidade: O gráfico acima parece indicar pouca existência de relações lineares, sendo que há grande disparidade entre os pontos. Forma: O gráfico apresenta conglomerados que sugerem relações pouco lineares. Regression Analysis: ISDM_A50 versus Emprego e Renda_A50 The regression equation is ISDM_A50 = 3,67 + 2,82 Emprego e Renda_A50 Predictor Coef SE Coef T P Constant 3,6671 0,3896 9,41 0,000 Emprego e Renda_A50 2,8192 0,9048 3,12 0,003 S = 0, R-Sq = 16,8% R-Sq(adj) = 15,1% Analysis of Variance Source DF SS MS F P Regression 1 8,3066 8,3066 9,71 0,003 Residual Error 48 41,0666 0,8556 Total 49 49,3731 Unusual Observations Emprego e Obs Renda_A50 ISDM_A50 Fit SE Fit Residual St Resid 4 0,817 6,026 5,972 0,395 0,054 0,06 X 9 0,932 6,157 6,294 0,494-0,137-0,18 X 16 0,896 5,942 6,194 0,463-0,252-0,31 X 23 0,360 2,557 4,682 0,137-2,126-2,32R 34 0,337 2,259 4,617 0,145-2,358-2,58R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage.

330 ISDM versus R1 Scatterplot of ISDM_A50 vs R1_A ISDM_A R1_A Observações: Direção: Da análise das correlações acima percebemos que possuem associações negativas, apesar de manter características de linearidade. Intensidade: O gráfico acima parece indicar a existência de relações lineares, apesar de sua relação negativa. Forma: O gráfico apresenta conglomerados que sugerem relações lineares. Regression Analysis: ISDM_A50 versus R1_A50 The regression equation is ISDM_A50 = 6,03-0,0648 R1_A50 Predictor Coef SE Coef T P Constant 6, , ,35 0,000 R1_A50-0, , ,35 0,000 S = 0, R-Sq = 86,3% R-Sq(adj) = 86,0% Analysis of Variance Source DF SS MS F P Regression 1 42,585 42, ,14 0,000 Residual Error 48 6,788 0,141 Total 49 49,373 Unusual Observations

331 27 Obs R1_A50 ISDM_A50 Fit SE Fit Residual St Resid 10 26,3 5,1375 4,3283 0,0600 0,8092 2,18R 23 37,9 2,5568 3,5766 0,0888-1,0198-2,79R 31 59,4 2,9181 2,1844 0,1604 0,7337 2,16RX 34 55,1 2,2589 2,4630 0,1454-0,2040-0,59 X 45 28,0 5,0099 4,2207 0,0631 0,7892 2,13R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage ISDM versus T1_2 Scatterplot of ISDM_A50 vs T1_2_A ISDM_A T1_2_A Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, e características pouco lineares. Intensidade: O gráfico acima parece indicar pouca existência de relações lineares, apesar de sua relação positiva. Forma: O gráfico apresenta conglomerados que sugerem relações pouco lineares, com bastante disparidade entre os pontos. Regression Analysis: ISDM_A50 versus T1_2_A50 The regression equation is ISDM_A50 = 1,98 + 0,0464 T1_2_A50 Predictor Coef SE Coef T P Constant 1,9792 0,4117 4,81 0,000 T1_2_A50 0, , ,09 0,000

332 28 S = 0, R-Sq = 51,2% R-Sq(adj) = 50,1% Analysis of Variance Source DF SS MS F P Regression 1 25,261 25,261 50,29 0,000 Residual Error 48 24,112 0,502 Total 49 49,373 Unusual Observations Obs T1_2_A50 ISDM_A50 Fit SE Fit Residual St Resid 23 62,1 2,557 4,861 0,100-2,304-3,28R 34 44,4 2,259 4,038 0,148-1,779-2,57R 40 42,8 5,467 3,964 0,156 1,504 2,17R R denotes an observation with a large standardized residual ISDM versus H6 Scatterplot of ISDM_A50 vs H6_A ISDM_A H6_A Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, apesar de manter poucas características de linearidade. Intensidade: O gráfico acima parece indicar a existência de pequenas relações lineares.

333 29 Forma: O gráfico apresenta conglomerados que sugerem relações não lineares devido a sua alta disparidade entre os pontos. Regression Analysis: ISDM_A50 versus H6_A50 The regression equation is ISDM_A50 = 1,57 + 0,0565 H6_A50 Predictor Coef SE Coef T P Constant 1,5724 0,4445 3,54 0,001 H6_A50 0, , ,47 0,000 S = 0, R-Sq = 53,7% R-Sq(adj) = 52,8% Analysis of Variance Source DF SS MS F P Regression 1 26,535 26,535 55,77 0,000 Residual Error 48 22,838 0,476 Total 49 49,373 Unusual Observations Obs H6_A50 ISDM_A50 Fit SE Fit Residual St Resid 15 55,4 6,1445 4,7031 0,0986 1,4414 2,11R 21 27,1 3,3845 3,1024 0,2487 0,2822 0,44 X 34 21,8 2,2589 2,8026 0,2860-0,5437-0,87 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage ISDM versus EDUCAÇÃO Scatterplot of ISDM_A50 vs Educação_A ISDM_A ,5 0,6 0,7 0,8 Educação_A50 0,9 1,0

334 30 Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, e apesar da baixa relação linear, é possível observar certa linearidade. Intensidade: O gráfico acima parece indicar um pouco da existência de relações lineares, e associação positiva. Forma: O gráfico apresenta conglomerados que sugerem relações lineares. Regression Analysis: ISDM_A50 versus Educação_A50 The regression equation is ISDM_A50 = - 0, ,12 Educação_A50 Predictor Coef SE Coef T P Constant -0,8208 0,4924-1,67 0,102 Educação_A50 7,1174 0, ,57 0,000 S = 0, R-Sq = 73,6% R-Sq(adj) = 73,0% Analysis of Variance Source DF SS MS F P Regression 1 36,337 36, ,79 0,000 Residual Error 48 13,036 0,272 Total 49 49,373 Unusual Observations Obs Educação_A50 ISDM_A50 Fit SE Fit Residual St Resid 8 0,750 5,8617 4,5138 0,0780 1,3479 2,62R 11 0,730 5,7514 4,3758 0,0827 1,3756 2,67R 23 0,520 2,5568 2,8806 0,1824-0,3238-0,66 X 31 0,674 2,9181 3,9765 0,1031-1,0584-2,07R 34 0,521 2,2589 2,8840 0,1821-0,6250-1,28 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage.

335 ISDM versus E2_4 Scatterplot of ISDM_A50 vs E2_4_A ISDM_A E2_4_A Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, e poucas características lineares. Intensidade: O gráfico acima parece indicar pequena existência de linearidade e alta disparidade. Forma: O gráfico apresenta alta dispersão com pouco conglomerado. Regression Analysis: ISDM_A50 versus E2_4_A50 The regression equation is ISDM_A50 = - 3,86 + 0,0991 E2_4_A50 Predictor Coef SE Coef T P Constant -3,8612 0,8356-4,62 0,000 E2_4_A50 0, , ,43 0,000 S = 0, R-Sq = 69,4% R-Sq(adj) = 68,7% Analysis of Variance Source DF SS MS F P Regression 1 34,249 34, ,69 0,000 Residual Error 48 15,125 0,315 Total 49 49,373 Unusual Observations Obs E2_4_A50 ISDM_A50 Fit SE Fit Residual St Resid 19 84,8 2,9811 4,5452 0,0834-1,5642-2,82R 21 65,1 3,3845 2,5947 0,2269 0,7899 1,54 X

336 ,5 2,9181 4,3127 0,0926-1,3946-2,52R 34 65,1 2,2589 2,5926 0,2271-0,3337-0,65 X 36 66,4 3,3779 2,7239 0,2153 0,6540 1,26 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage ISDM versus SAÚDE Scatterplot of ISDM_A50 vs Saúde_A ISDM_A ,5 0,6 0,7 0,8 Saúde_A50 0,9 1,0 Observações: Direção: Da análise das correlações acima percebemos que possuem associações positivas, e pouca linearidade. Intensidade: O gráfico acima parece indicar baixa linearidade, apesar de um pouco de conglomerado do lado direito superior. Forma: O gráfico apresenta conglomerados, porém baixa linearidade. Regression Analysis: ISDM_A50 versus Saúde_A50 The regression equation is ISDM_A50 = - 1,53 + 7,73 Saúde_A50 Predictor Coef SE Coef T P Constant -1,5349 0,7776-1,97 0,054 Saúde_A50 7,7335 0,9410 8,22 0,000 S = 0, R-Sq = 58,5% R-Sq(adj) = 57,6%

337 33 Analysis of Variance Source DF SS MS F P Regression 1 28,862 28,862 67,54 0,000 Residual Error 48 20,511 0,427 Total 49 49,373 Unusual Observations Obs Saúde_A50 ISDM_A50 Fit SE Fit Residual St Resid 23 0,552 2,5568 2,7311 0,2694-0,1743-0,29 X 34 0,532 2,2589 2,5809 0,2866-0,3220-0,55 X 42 0,744 2,8790 4,2198 0,1171-1,3408-2,08R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage ISDM versus S1_1 Scatterplot of ISDM_A50 vs S1_1_A ISDM_A S1_1_A Observações: Direção: Da análise das correlações acima percebemos que possuem associações negativas, e praticamente nenhuma linearidade. Intensidade: O gráfico acima parece indicar baixa linearidade, e alta dispersão. Forma: O gráfico não apresenta conglomerados e linearidade. Regression Analysis: ISDM_A50 versus S1_1_A50 The regression equation is ISDM_A50 = 5,00-0,0136 S1_1_A50

338 34 Predictor Coef SE Coef T P Constant 4,9967 0, ,54 0,000 S1_1_A50-0, , ,18 0,246 S = 0, R-Sq = 2,8% R-Sq(adj) = 0,8% Analysis of Variance Source DF SS MS F P Regression 1 1,3808 1,3808 1,38 0,246 Residual Error 48 47,9923 0,9998 Total 49 49,3731 Unusual Observations Obs S1_1_A50 ISDM_A50 Fit SE Fit Residual St Resid 23 22,9 2,557 4,684 0,178-2,127-2,16R 34 18,1 2,259 4,749 0,151-2,490-2,52R 38 43,5 5,487 4,403 0,374 1,084 1,17 X 42 50,8 2,879 4,303 0,455-1,424-1,60 X 47 44,4 4,874 4,390 0,385 0,484 0,52 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage ISDM versus LIQUIDEZ Scatterplot of ISDM_A50 vs Liquidez_A ISDM_A ,0 0,2 0,4 0,6 Liquidez_A50 0,8 1,0 Observações: Direção: Da análise das correlações acima é visível que possuem associações positivas, e praticamente nenhuma linearidade. Intensidade: O gráfico acima parece indicar baixa linearidade, e alta dispersão, apesar de apresentar indícios de conglomerados no final do lado direito.

339 35 Forma: O gráfico apresenta vestígios de conglomerado e não apresenta linearidade. Regression Analysis: ISDM_A50 versus Liquidez_A50 The regression equation is ISDM_A50 = 4,49 + 0,517 Liquidez_A50 Predictor Coef SE Coef T P Constant 4,4870 0, ,19 0,000 Liquidez_A50 0,5171 0,3816 1,36 0,182 S = 0, R-Sq = 3,7% R-Sq(adj) = 1,7% Analysis of Variance Source DF SS MS F P Regression 1 1,8192 1,8192 1,84 0,182 Residual Error 48 47,5540 0,9907 Total 49 49,3731 Unusual Observations Obs Liquidez_A50 ISDM_A50 Fit SE Fit Residual St Resid 23 0,00 2,557 4,487 0,277-1,930-2,02R 31 0,98 2,918 4,995 0,196-2,076-2,13R 34 0,80 2,259 4,901 0,156-2,642-2,69R 42 0,94 2,879 4,972 0,184-2,093-2,14R R denotes an observation with a large standardized residual. 6. MODELO DE REGRESSÃO LINEAR Nesta etapa foi realizada a Stepwise Regression da seguinte maneira: ISDM versus Emprego e Renda; Educação; e Saúde. ISDM versus E2_4; T1_2; S1_1; R1; H6; e Liquidez. 6.1 ISDM versus Emprego e Renda; Educação; e Saúde Stepwise Regression: ISDM versus Emprego e Renda; Educação; Saúde Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is ISDM on 3 predictors, with N = 5565

340 36 Step Constant -1,203-1,236-2,363 Educação 7,602 6,618 4,926 T-Value 93,46 82,17 52,55 P-Value 0,000 0,000 0,000 Emprego e Renda 1,891 1,662 T-Value 32,45 30,41 P-Value 0,000 0,000 Saúde 3,10 T-Value 29,92 P-Value 0,000 S 0,682 0,625 0,580 R-Sq 61,09 67,28 71,82 R-Sq(adj) 61,08 67,27 71,81 Mallows Cp 2117,5 897,5 4,0 Com relação ao ISDM nota-se, através dos dados acima, que Emprego e Renda, Educação e Saúde representam 71,82% do ISDM. Sendo que Emprego e Renda representa 61,09%, Educação 6,19% e Saúde 4,54%. Para o ISDM tem-se a seguinte equação: -2, , , , ISDM versus E2_4; T1_2; S1_1; R1; H6; e Liquidez Stepwise Regression: ISDM versus R1; T1_2; H6; E2_4; S1_1; Liquidez Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is ISDM on 6 predictors, with N = 5565 Step Constant 5,873 5,132 4,586 3,813 3,814 3,832 R1-0, , , , , ,04346 T-Value -229,28-131,18-93,10-79,85-80,62-80,53 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 T1_2 0, , , , ,01131 T-Value 25,85 29,06 28,97 30,10 30,10 P-Value 0,000 0,000 0,000 0,000 0,000 H6 0, , , ,00607 T-Value 14,57 12,69 13,53 13,48 P-Value 0,000 0,000 0,000 0,000 E2_4 0, , ,00902 T-Value 12,02 12,39 12,31 P-Value 0,000 0,000 0,000 Liquidez -0,109-0,109 T-Value -9,29-9,30 P-Value 0,000 0,000

341 37 S1_1-0,00085 T-Value -2,92 P-Value 0,004 S 0,338 0,319 0,314 0,310 0,307 0,307 R-Sq 90,43 91,46 91,77 91,98 92,10 92,11 R-Sq(adj) 90,43 91,45 91,77 91,97 92,10 92,11 Mallows Cp 1183,7 462,1 242,8 97,9 13,5 7,0 Com relação ao ISDM nota-se, através dos dados acima, que R1; T1_2; H6; E2_4; S1_1 e Liquidez representam 92,11% do ISDM. 7. TESTE DE COMPARAÇÕES 7.1 Variável ISDM Os pontos que aparecem abaixo da linha representam os dados que estão fora da curva, e abaixo da média. A Região Sudeste possui o maior ISDM do país, o que indica que esta é a Região mais desenvolvida do Brasil, segundo a pesquisa. A região Sul encontra-se próxima a Região Sudeste, e ocupa o segundo lugar. A Região que apresenta o ISDM médio mais baixo do País é a Norte, seguida da Nordeste. Pelo tamanho da caixa do BloxPlot pode-se visualizar a amplitude da variância. É possível afirmar que os dados da Região Norte possuem maior variabilidade que os dados das demais regiões. As Regiões que possuem menor variabilidade dos dados são Centro-Oeste e Sul.

342 38 One-way ANOVA: ISDM versus Região Source DF SS MS F P Região , ,109 0,000 Error ,544 0,442 Total ,979 S = 0,6648 R-Sq = 63,02% R-Sq(adj) = 63,00% Grau de diferença entre as variáveis Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 4,6956 0,5252 (*) Nordeste ,4112 0,7136 (* Norte 447 0,9794 (*) Sudeste ,6436 (* Sul ,1271 0,5012 *) ,60 4,20 4,80 5,40 Pooled StDev = 0,6648 O grau de variação entre as Regiões é muito alto (2369), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente. Com base nos dados acima é possível afirmar que a região que apresenta melhores níveis de ISDM é a região Sudeste enquanto a região com os piores níveis é o Norte. 7.2 Variável Emprego e Renda

343 39 One-way ANOVA: Emprego e Renda versus Região Source DF SS MS F P Região 4 17,7959 4, ,70 0,000 Error ,2990 0,0209 Total ,0949 S = 0,1446 R-Sq = 13,27% R-Sq(adj) = 13,21% Grau de diferença entre as variáveis Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,4173 0,1389 (--*---) Nordeste ,3348 0,1288 (-*) Norte 447 0,3415 0,1419 (--*---) Sudeste ,4490 0,1681 (*-) Sul ,4620 0,1345 (-*--) ,360 0,400 0,440 0,480 Pooled StDev = 0,1446 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de Emprego e Renda é a região Sul, seguida de perto pelo Sudeste enquanto a região com os menores níveis de emprego e renda é o Nordeste.

344 7.3 Variável Educação 40

345 41 One-way ANOVA: Educação versus Região Source DF SS MS F P Região 4 35, , ,69 0,000 Error , ,00619 Total ,25070 S = 0,07868 R-Sq = 51,00% R-Sq(adj) = 50,96% Grau de diferença entre as variáveis Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0, ,07162 (*-) Nordeste , ,08127 *) Norte 447 0, ,08599 (*) Sudeste , ,08138 (*) Sul , ,07021 (*) ,660 0,720 0,780 0,840 Pooled StDev = 0,07868 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de Educação é a região Sudeste enquanto a região com os menores níveis é o Norte. 7.4 Variável Saúde

346 42 One-way ANOVA: Saúde versus Região Source DF SS MS F P Região 4 23, , ,38 0,000 Error , ,00590 Total ,03879 S = 0,07681 R-Sq = 41,46% R-Sq(adj) = 41,42% Grau de diferença entre as variáveis Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0, ,07475 (*-) Nordeste , ,08148 (* Norte 447 0, ,08605 (*) Sudeste , ,07713 *) Sul , ,06543 (* ,720 0,780 0,840 0,900 Pooled StDev = 0,07681 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de Saúde é a região Sul enquanto a região com os menores níveis é o Norte.

347 Variável E2_4 Individual Value Plot of R1 vs Região R Centro-Oeste Nordeste Norte Região Sudeste Sul Residual Plots for R1 99,99 Normal Probability Plot 50 Versus Fits Percent Residual , Residual Fitted Value Histogram 50 Versus Order Frequency Residual Residual Observation Order

348 44 One-way ANOVA: R1 versus Região Source DF SS MS F P Região ,34 0,000 Error Total S = 10,34 R-Sq = 65,92% R-Sq(adj) = 65,89% Grau de diferença entre as variáveis Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,23 9,22 (*) Nordeste ,49 10,60 *) Norte ,65 15,18 (*) Sudeste ,07 10,54 *) Sul ,16 7,40 *) Pooled StDev = 10,34 Com base nos dados acima é possível afirmar que a região que apresenta os maiores níveis de R1 é a região Nordeste enquanto a região com os menores níveis é o Sul. 7.6 Variável T1_2 100 Individual Value Plot of T1_2 vs Região T1_ Centro-Oeste Nordeste Norte Região Sudeste Sul

349 45 Residual Plots for T1_2 99,99 Normal Probability Plot 50 Versus Fits Percent Residual , Residual Fitted Value 70 Frequency Histogram Residual Residual Versus Order 2500 Observation Order One-way ANOVA: T1_2 versus Região Source DF SS MS F P Região ,67 0,000 Error Total S = 13,71 R-Sq = 43,49% R-Sq(adj) = 43,45% Grau de diferença entre as variáveis Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,89 11,83 (-*) Nordeste ,17 13,36 *) Norte ,10 13,65 (-*) Sudeste ,65 15,77 (*) Sul ,16 11,69 (*) ,0 56,0 64,0 72,0 Pooled StDev = 13,71 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de T1_2 é a região Sul enquanto a região com os menores níveis é o Nordeste.

350 Variável S1_1 350 Individual Value Plot of S1_1 vs Região S1_ Centro-Oeste Nordeste Norte Região Sudeste Sul Residual Plots for S1_1 Normal Probability Plot Versus Fits Percent 99, ,01 Residual Residual ,0 13,5 15,0 Fitted Value 16,5 18,0 Histogram Versus Order Frequency Residual Residual Observation Order

351 47 One-way ANOVA: S1_1 versus Região Source DF SS MS F P Região ,14 0,000 Error Total S = 14,16 R-Sq = 1,71% R-Sq(adj) = 1,64% Grau de diferença entre as variáveis Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,19 16,91 (----*----) Nordeste ,80 10,90 (-*--) Norte ,82 15,13 (----*-----) Sudeste ,60 13,91 (-*--) Sul ,56 17,01 (--*--) ,5 15,0 17,5 20,0 Pooled StDev = 14,16 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de S1_1 é a região Norte enquanto a região com os menores níveis é o Sul. 7.8 Variável R1 Individual Value Plot of R1 vs Região R Centro-Oeste Nordeste Norte Região Sudeste Sul

352 48 Residual Plots for R1 99,99 Normal Probability Plot 50 Versus Fits Percent Residual , Residual Fitted Value Histogram 50 Versus Order Frequency Residual One-way ANOVA: R1 versus Região 48 Residual Observation Order Grau de diferença entre as variáveis Source DF SS MS F P Região ,34 0,000 Error Total S = 10,34 R-Sq = 65,92% R-Sq(adj) = 65,89% Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,23 9,22 (*) Nordeste ,49 10,60 *) Norte ,65 15,18 (*) Sudeste ,07 10,54 *) Sul ,16 7,40 *) Pooled StDev = 10,34 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de R1 é a região Nordeste enquanto a região com os menores níveis é o Sul.

353 Variável H6 Individual Value Plot of H6 vs Região H Centro-Oeste Nordeste Norte Região Sudeste Sul Residual Plots for H6 99,99 Normal Probability Plot 40 Versus Fits Percent Residual , Residual Fitted Value Frequency Histogram Residual Residual Versus Order Observation Order

354 50 One-way ANOVA: H6 versus Região Source DF SS MS F P Região ,35 0,000 Error Total S = 9,448 R-Sq = 51,44% R-Sq(adj) = 51,40% Grau de diferença entre as variáveis Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste ,213 9,699 (*) Nordeste ,127 8,829 *) Norte ,253 14,618 (*) Sudeste ,053 9,008 (* Sul ,750 8,314 *) ,0 48,0 56,0 64,0 Pooled StDev = 9,448 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de H6 é a região Sul enquanto a região com os menores níveis é o Norte Variável Liquidez 1,0 Individual Value Plot of Liquidez vs Região 0,8 Liquidez 0,6 0,4 0,2 0,0 Centro-Oeste Nordeste Norte Região Sudeste Sul

355 51 Residual Plots for Liquidez 99,99 Normal Probability Plot 0,8 Versus Fits Percent Residual 0,4 0,0-0,4 0, Residual 1-0,8 0,4 0,5 0,6 Fitted Value 0,7 Histogram Versus Order Frequency ,700-0,525-0,350-0,175 0,000 Residual 0,175 0,350 0,525 Residual 0,8 0,4 0,0-0,4-0, Observation Order One-way ANOVA: Liquidez versus Região Source DF SS MS F P Região 4 99,198 24, ,94 0,000 Error ,095 0,122 Total ,293 S = 0,3487 R-Sq = 12,79% R-Sq(adj) = 12,73% Grau de diferença entre as variáveis Chance de não ser diferente. Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,6541 0,3415 (--*---) Nordeste ,3825 0,3591 (*-) Norte 447 0,5411 0,3846 (--*--) Sudeste ,5719 0,3564 (*-) Sul ,7402 0,3084 (-*-) ,40 0,50 0,60 0,70 Pooled StDev = 0,3487 Com base nos dados acima é possível afirmar que a região que apresenta maiores níveis de Liquidez é a região Sul enquanto a região com os menores níveis é o Nordeste.

356 52 8. AMOSTRAGEM 8.1 VARIÁVEL ISDM ISDM para amostra com 50 linhas: É possível observar que a média dos dados é de 4,25 e o desvio padrão 1,27. Existe 95% de confiança de que a média está entre o intervalo de 3,89 e 4,61. ISDM para amostra com 100 linhas: É possível observar que a média dos dados é de 4,48 e o desvio padrão 1,04. Existe 95% de confiança de que a média está entre o intervalo de 4,28 e 4,69.

357 53 ISDM para toda a população (5565 linhas) É possível observar que a média dos dados é de 4,43 e o desvio padrão 1,09. Existe 95% de confiança de que a média está entre o intervalo de 4,40 e 4,46. Boxplot de ISDM para amostras de 50, 100 e população: O Boxplot confirma a semelhança dos resultados das duas amostras comparados com a população total. Existe uma variabilidade dos dados em todas as três variáveis. One-way ANOVA: ISDM; ISDM_50; ISDM_100 Source DF SS MS F P Factor 2 1,90 0,95 0,79 0,453 Error ,27 1,20 Total ,17

358 54 S = 1,094 R-Sq = 0,03% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ISDM ,432 1,093 (-*) ISDM_ ,255 1,277 ( * ) ISDM_ ,489 1,046 ( * ) ,00 4,20 4,40 4,60 Pooled StDev = 1,094 A análise de variância entre as amostras e a população nos indica que a variação é de 0,79; e o P-Value: 0, VARIÁVEL EMPREGO E RENDA EMPREGO E RENDA para amostra com 50 linhas: É possível observar que a média dos dados é de 4,40 e o desvio padrão 1,44. Existe 95% de confiança de que a média está entre o intervalo de 0,36 e 0,44.

359 55 EMPREGO E RENDA para amostra com 100 linhas: É possível observar que a média dos dados é de 0,41 e o desvio padrão 0,17. Existe 95% de confiança de que a média está entre o intervalo de 0,38 e 0,45. EMPREGO E RENDA para toda a população (5565 linhas) É possível observar que a média dos dados é de 0,40 e o desvio padrão 0,15. Existe 95% de confiança de que a média está entre o intervalo de 0,39 e 0,40.

360 56 Boxplot de EMPREGO E RENDA para amostras de 50, 100 e população: O Boxplot confirma a semelhança dos resultados das duas amostras comparados com a população total. Existe uma variabilidade dos dados em todas as três variáveis. One-way ANOVA: Emprego e Renda; Emprego e Renda_50; Emprego e Renda_100 Source DF SS MS F P Factor 2 0,0240 0,0120 0,50 0,608 Error ,0660 0,0242 Total ,0900 S = 0,1555 R-Sq = 0,02% R-Sq(adj) = 0,00% Level N Mean StDev Emprego e Renda ,4038 0,1552 Emprego e Renda_ ,4039 0,1448 Emprego e Renda_ ,4194 0,1724 Individual 95% CIs For Mean Based on Pooled StDev Level Emprego e Renda (-*) Emprego e Renda_50 ( * ) Emprego e Renda_100 ( * )

361 57 0,375 0,400 0,425 0,450 Pooled StDev = 0,1555 A análise de variância entre as amostras e a população indica que a variação é de 0,50; e o P-Value: 0, VARIÁVEL EDUCAÇÃO EDUCAÇÃO para amostra com 50 linhas: É possível observar que a média dos dados é de 0,74 e o desvio padrão 0,11. Existe 95% de confiança de que a média está entre o intervalo de 0,71 e 0,78. EDUCAÇÃO para amostra com 100 linhas:

362 58 É possível observar que a média dos dados é de 0,74 e o desvio padrão 0,10. Existe 95% de confiança de que a média está entre o intervalo de 0,72 e 0,76. EDUCAÇÃO para toda a população (5565 linhas) É possível observar que a média dos dados é de 0,74 e o desvio padrão 0,11. Existe 95% de confiança de que a média está entre o intervalo de 0,73 e 0,74. Boxplot de EDUCAÇÃO para amostras de 50, 100 e população: O Boxplot confirma a semelhança dos resultados das duas amostras comparados com a população total. Existe uma variabilidade dos dados em todas as três variáveis. One-way ANOVA: Educação; Educação_50; Educação_100 Source DF SS MS F P Factor 2 0,0051 0,0026 0,20 0,816

363 59 Error ,0111 0,0126 Total ,0163 S = 0,1123 R-Sq = 0,01% R-Sq(adj) = 0,00% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Educação ,7413 0,1124 (-*-) Educação_ ,7497 0,1138 ( * ) Educação_ ,7453 0,1066 ( * ) ,720 0,736 0,752 0,768 Pooled StDev = 0,1123 A análise de variância entre as amostras e a população indica que a variação é de 0,20; e o P-Value: 0, ANÁLISE MULTIVARIADA 9.1 Dendograma dos agrupamentos das variáveis por similaridade 47,80 Dendrogram Single Linkage; Correlation Coefficient Distance Similarity 65,20 82,60 100,00 ISDM_A50 Educação_A50 E2_4_A50 Saúde_A50 H6_A50 T1_2_A50 Emprego e Renda_A50 Liquidez_A50 R1_A50 S1_1_A50 Variables

364 60 O dendograma acima permite que sejam visualizadas as variáveis que possuem um percentual de similaridade forte, na faixa de 85% são ISDM, Educação, E2_4, Saúde, H6 e T1_2. As variáveis Emprego e Renda, Liquidez, R1 e S1_1 tem nível de similaridade abaixo de 80%. 9.2 Principais Componentes A análise de componentes principais é uma técnica estatística poderosa que pode ser utilizada para redução do número de variáveis e para fornecer uma visão estatisticamente privilegiada do conjunto de dados. A análise de componentes principais fornece as ferramentas adequadas para identificar as variáveis mais importantes no espaço das componentes principais. Loading Plot of ISDM_A50;...; Liquidez_A50 0,75 Emprego e Renda_A50 0,50 T1_2_A50 Second Component 0,25 0,00 R1_A50 S1_1_A50 Liquidez_A50 ISDM_A50 Educação_A50 E2_4_A50 Saúde_A50-0,25 H6_A50-0,50-0,4-0,3-0,2-0,1 0,0 0,1 First Component 0,2 0,3 0,4 0,5 É possível observar a existência de três grupos principais, sendo o primeiro composto pelas variáveis ISDM, Educação, E2_4, Saúde, Liquidez e H6. O segundo composto por Emprego e Renda e T1_2 e o terceiro composto por S1_1 e R1.

365 61 6 Scree Plot of ISDM_A50;...; Liquidez_A Eigenvalue Component Number É notável um peso superior da primeira variável enquanto as outras variáveis aparecem com bastante distância. As variáveis 2, 3 e 4 podem ser aproveitadas, por apresentarem valores superiores a 1, entretanto as demais variáveis (5 a 10) não serão utilizadas por apresentarem valores inferiores a 1. Principal Component Analysis: ISDM_A50; Emprego e Re; R1_A50; T1_2_A50; H6_A50; Eigenanalysis of the Correlation Matrix Eigenvalue 5,5664 1,1561 0,9927 0,9407 0,4112 0,3563 0,2870 0,1583 Proportion 0,557 0,116 0,099 0,094 0,041 0,036 0,029 0,016 Cumulative 0,557 0,672 0,772 0,866 0,907 0,942 0,971 0,987 Eigenvalue 0,0751 0,0563 Proportion 0,008 0,006 Cumulative 0,994 1,000 Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 ISDM_A50 0,407 0,017 0,039-0,115-0,094-0,103 0,049 Emprego e Renda_A50 0,197 0,719-0,123 0,097 0,519 0,365-0,127 R1_A50-0,404 0,031-0,006 0,112 0,011 0,219 0,227 T1_2_A50 0,305 0,494 0,091 0,026-0,439-0,500-0,109 H6_A50 0,335-0,399 0,006-0,123 0,282 0,028-0,683 Educação_A50 0,377-0,030 0,160-0,050-0,279 0,427 0,228 E2_4_A50 0,373-0,141-0,022-0,119-0,200 0,462 0,229 Saúde_A50 0,348-0,190-0,062 0,080 0,535-0,399 0,581 S1_1_A50-0,099 0,079 0,925-0,272 0,208-0,004 0,033 Liquidez_A50 0,124-0,125 0,301 0,923-0,044 0,056-0,095 Variable PC8 PC9 PC10 ISDM_A50 0,134 0,645 0,602

366 62 Emprego e Renda_A50 0,001 0,027-0,002 R1_A50-0,222-0,353 0,742 T1_2_A50-0,237-0,370 0,083 H6_A50-0,089-0,325 0,233 Educação_A50 0,604-0,389 0,020 E2_4_A50-0,701 0,066-0,156 Saúde_A50-0,035-0,221 0,001 S1_1_A50-0,092 0,033-0,032 Liquidez_A50-0,043 0,104-0,015 Com base nos gráficos trabalhados neste capítulo é perceptível que os dados podem ser reduzidos em 3 variáveis, o que facilita o trabalho por gerarem números mais fáceis e práticos de serem manuseados. 10. ANÁLISE DE CONGLOMERADOS Neste capítulo foram geradas análises comparativas dos dados de ISDM, Educação, Emprego e Renda e Saúde agrupado por Estado, excluindo o Distrito Federal por ter apenas um Município. Também foi calculada a Anova do ISDM com relação a Educação, Emprego e Renda e Saúde por Estado, foram gerados diversos gráficos com as diversas variáveis citadas. Comparando-se os resultados das médias por estado, poderemos agrupar as linhas de dados pelo nível de desigualdade dos fatores de ISDM, Educação, Emprego e Renda e Saúde ANOVA ANOVA de ISDM por Estado 7 Individual Value Plot of ISDM vs UF2 6 5 ISDM AL AC MA GO ES CE BA AP AM MS MG PB PA MT UF2 RN RJ PR PI PE TO SP SE SC RS RR RO

367 63 O gráfico acima possibilita visualizar que a média do ISDM varia bastante entre os Estados brasileiros. São Paulo é o Estado que apresenta o maior valor de ISDM, passando de 6, enquanto o Amazonas apresenta o menor ISDM, ficando abaixo de 1. One-way ANOVA: ISDM versus UF2 Source DF SS MS F P UF , , ,65 0,000 Error ,584 0,341 Total ,353 S = 0,5837 R-Sq = 71,61% R-Sq(adj) = 71,48% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 2,8837 1,0103 (--*-) AL 101 3,1996 0,6982 (*) AM 62 2,3550 0,7750 (-*) AP 16 3,4060 0,6679 (--*--) BA 416 3,6024 0,6378 (*) CE 184 3,4534 0,5689 (* ES 78 4,9080 0,4716 (*) GO 247 4,7989 0,4546 (*) MA 217 2,7076 0,7130 (*) MG 852 4,9973 0,7056 * MS 78 4,6714 0,5353 (-*) MT 142 4,5219 0,5831 (*) PA 142 2,9406 0,8605 (*) PB 222 3,5758 0,5246 (*) PE 185 3,6533 0,6738 (* PI 223 3,0103 0,6091 (*) PR 399 5,0427 0,4915 *) RJ 92 5,2888 0,3299 (*) RN 167 3,7924 0,5833 (*) RO 52 4,2359 0,4502 (*-) RR 15 2,6668 1,2718 (--*--) RS 497 5,1373 0,5099 *) SC 295 5,2241 0,4816 *) SE 75 3,8260 0,5672 (*-) SP 647 5,6458 0,3415 *) TO 138 3,8761 0,6077 (*) ,0 4,0 5,0 6,0 Pooled StDev = 0,5837 É possível notar que existe uma variação grande entre as médias de ISDM por Estado, por exemplo o Estado que apresenta a maior média é São Paulo, com 5,6458, e a menor média está no Amazonas, com 2,3550.

368 ANOVA de Emprego e Renda por Estado 1,0 Individual Value Plot of Emprego e Renda vs UF2 0,8 Emprego e Renda 0,6 0,4 0,2 0,0 AL AC ES CE BA AP AM GO MA MS MG PB PA MT UF2 RN RJ PR PI PE SP SE SC RS RR RO TO One-way ANOVA: Emprego e Renda versus UF2 Source DF SS MS F P UF ,6670 1, ,24 0,000 Error ,4184 0,0190 Total ,0854 S = 0,1380 R-Sq = 21,38% R-Sq(adj) = 21,02% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 0,3718 0,1183 (------* ) AL 101 0,3174 0,1295 (---*--) AM 62 0,3027 0,1306 (---*---) AP 16 0,3807 0,1789 ( * ) BA 416 0,3515 0,1283 (-*-) CE 184 0,3189 0,1271 (--*-) ES 78 0,4520 0,1380 (--*---) GO 247 0,4052 0,1432 (-*-) MA 217 0,2890 0,1309 (-*-) MG 852 0,3844 0,1394 (*) MS 78 0,4369 0,1334 (---*--) MT 142 0,4284 0,1333 (--*-) PA 142 0,3741 0,1506 (--*--) PB 222 0,3211 0,1101 (-*-) PE 185 0,3862 0,1366 (-*--) PI 223 0,3064 0,1167 (-*--) PR 399 0,4383 0,1268 (-*) RJ 92 0,5317 0,1923 (--*---) RN 167 0,3391 0,1088 (-*--) RO 52 0,3976 0,1289 (----*---) RR 15 0,3471 0,1740 ( * ) RS 497 0,4664 0,1344 (*-) SC 295 0,4865 0,1398 (-*-) SE 75 0,4251 0,1385 (---*---)

369 65 SP 647 0,5220 0,1675 (*-) TO 138 0,2941 0,1188 (--*--) ,320 0,400 0,480 0,560 Pooled StDev = 0,1380 É possível notar que existe uma variação grande entre as médias de Emprego e Renda por Estado, por exemplo o Estado que apresenta a maior média é Rio de Janeiro, e a menor média está no Maranhão ANOVA de R1 por Estado Individual Value Plot of R1 vs UF R AL AC ES CE BA AP AM GO MA MG MS PB PA MT UF2 TO SP SE SC RS RR RO RN RJ PR PI PE One-way ANOVA: R1 versus UF2 Source DF SS MS F P UF ,69 0,000 Error Total S = 9,218 R-Sq = 72,99% R-Sq(adj) = 72,87% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 44,640 14,190 (--*-) AL ,940 9,556 (*) AM 62 54,113 11,654 (*-) AP 16 40,595 11,928 (--*--) BA ,141 9,530 (* CE ,530 9,440 (*) ES 78 16,215 6,082 (-*) GO ,654 8,626 (*) MA ,013 11,804 (*) MG ,894 11,638 (* MS 78 15,912 10,111 (-*) MT ,655 9,224 (*) PA ,129 13,264 (*) PB ,918 7,867 (*

370 66 PE ,045 10,280 (*) PI ,309 9,314 (*) PR ,575 7,408 (* RJ 92 12,849 3,900 (-*) RN ,007 9,428 (*) RO 52 22,981 7,014 (*-) RR 15 49,050 16,658 (--*--) RS ,267 7,277 (* SC 295 8,058 7,128 *) SE 75 39,037 9,458 (*) SP 647 7,620 5,362 *) TO ,882 11,610 (*) Pooled StDev = 9,218 É possível notar que existe uma variação grande entre as médias de R1 por Estado, por exemplo o Estado que apresenta a maior média é Amazonas, e a menor média está no Paraná ANOVA de T1_2 por Estado 100 Individual Value Plot of T1_2 vs UF T1_ AL AC ES CE BA AP AM GO MA MG MS PB PA MT UF2 RN RJ PR PI PE SP SE SC RS RR RO TO One-way ANOVA: T1_2 versus UF2 Source DF SS MS F P UF ,82 0,000 Error Total S = 12,33 R-Sq = 54,45% R-Sq(adj) = 54,25% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 50,19 7,64 (---*---) AL ,77 14,08 (-*-) AM 62 35,33 12,83 (-*--) AP 16 54,99 9,73 (----*----) BA ,01 13,26 (*)

371 67 CE ,16 11,67 (-*) ES 78 56,10 14,94 (--*-) GO ,18 11,15 (*) MA ,49 11,32 (*-) MG ,12 15,57 (* MS 78 64,54 10,23 (-*-) MT ,35 12,39 (*-) PA ,48 13,26 (-*) PB ,05 11,92 (*-) PE ,25 16,19 (-*) PI ,40 9,84 (*) PR ,20 10,87 (*) RJ 92 68,34 10,48 (-*-) RN ,07 11,95 (*-) RO 52 58,14 9,54 (-*--) RR 15 44,92 9,94 (----*-----) RS ,62 11,69 (*) SC ,41 10,10 (*) SE 75 50,01 15,84 (--*-) SP ,08 9,30 (* TO ,64 10,74 (-*-) Pooled StDev = 12,33 É possível notar que existe uma variação grande entre as médias de T1_2 por Estado, por exemplo o Estado que apresenta a maior média é Santa Catarina, e a menor média está no Amazonas ANOVA de H6 por Estado H6 Individual Value Plot of H6 vs UF AL AC ES CE BA AP AM GO MA MG MS PB PA MT UF2 TO SP SE SC RS RR RO RN RJ PR PI PE One-way ANOVA: H6 versus UF2 Source DF SS MS F P UF ,40 0,000 Error Total

372 68 S = 7,731 R-Sq = 67,61% R-Sq(adj) = 67,46% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 30,184 7,443 (-*-) AL ,133 5,483 (*) AM 62 19,822 6,180 (*) AP 16 23,745 4,779 (--*-) BA ,911 8,059 *) CE ,671 5,658 (*) ES 78 60,211 7,461 (*) GO ,633 7,662 *) MA ,569 7,084 (*) MG ,288 7,595 (* MS 78 51,429 8,588 (*) MT ,526 7,705 (*) PA ,824 9,744 (*) PB ,243 6,860 (*) PE ,797 6,212 (* PI ,022 6,920 (*) PR ,966 6,757 (* RJ 92 49,396 7,565 (*) RN ,800 6,484 (*) RO 52 55,114 7,033 (-*) RR 15 22,784 9,665 (-*--) RS ,317 8,862 (* SC ,228 7,467 *) SE 75 46,745 6,646 (*) SP ,027 9,078 *) TO ,023 9,001 (*) Pooled StDev = 7,731 É possível notar que existe uma variação grande entre as médias de H6 por Estado, por exemplo o Estado que apresenta a maior média é Santa Catarina, e a menor média está no Amazonas ANOVA de Educação por Estado 1,0 Individual Value Plot of Educação vs UF2 0,9 0,8 Educação 0,7 0,6 0,5 0,4 0,3 AL AC ES CE BA AP AM GO MA MS MG PB PA MT UF2 RN RJ PR PI PE SP SE SC RS RR RO TO

373 69 One-way ANOVA: Educação versus UF2 Source DF SS MS F P UF , , ,12 0,000 Error , ,00418 Total ,24462 S = 0,06468 R-Sq = 67,02% R-Sq(adj) = 66,87% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 0, ,08581 (--*--) AL 101 0, ,06785 (-*) AM 62 0, ,06003 (*-) AP 16 0, ,03819 (---*--) BA 416 0, ,06767 (*) CE 184 0, ,04756 (* ES 78 0, ,05457 (*-) GO 247 0, ,07622 (*) MA 217 0, ,07051 (*) MG 852 0, ,06210 (* MS 78 0, ,05297 (*) MT 142 0, ,06685 (*) PA 142 0, ,07192 (*) PB 222 0, ,06866 (*) PE 185 0, ,06338 (*) PI 223 0, ,07257 (*) PR 399 0, ,06330 *) RJ 92 0, ,06950 (*-) RN 167 0, ,07062 (*) RO 52 0, ,05534 (-*-) RR 15 0, ,05907 (---*--) RS 497 0, ,07711 *) SC 295 0, ,05324 *) SE 75 0, ,05106 (-*) SP 647 0, ,05082 *) TO 138 0, ,07383 (*) ,60 0,70 0,80 0,90 Pooled StDev = 0,06468 É possível notar que existe uma variação grande entre as médias de Educação por Estado, por exemplo o Estado que apresenta a maior média é São Paulo, e a menor média está no Pará ANOVA de E2_4 por Estado

374 70 Individual Value Plot of E2_4 vs UF E2_ AL AC ES CE BA AP AM MS MG MA GO PB PA MT UF2 RN RJ PR PI PE SP SE SC RS RR RO TO One-way ANOVA: E2_4 versus UF2 Source DF SS MS F P UF , ,4 457,82 0,000 Error ,0 25,8 Total ,4 S = 5,083 R-Sq = 67,39% R-Sq(adj) = 67,24% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 76,360 9,122 (--*--) AL ,660 4,711 (*) AM 62 72,401 7,826 (*-) AP 16 78,409 4,467 (---*---) BA ,175 6,578 *) CE ,207 5,105 (*) ES 78 88,301 4,006 (*-) GO ,452 4,038 (*) MA ,635 6,573 (*) MG ,464 4,922 *) MS 78 86,282 3,973 (*-) MT ,632 5,646 (-*) PA ,147 8,616 (*) PB ,696 6,056 (*) PE ,436 5,232 (*) PI ,384 7,203 (*) PR ,651 3,396 (*) RJ 92 81,614 3,931 (-*) RN ,561 5,916 (*) RO 52 86,627 4,629 (-*-) RR 15 80,692 5,480 (--*---) RS ,665 4,178 (* SC ,932 3,463 (*) SE 75 74,245 4,758 (-*-) SP ,648 2,845 *) TO ,655 5,362 (*-) ,0 77,0 84,0 91,0 Pooled StDev = 5,083

375 71 É possível notar que existe uma variação grande entre as médias de E2_4 por Estado, por exemplo o Estado que apresenta a maior média é São Paulo, e a menor média está no Pará ANOVA de Saúde por Estado 1,0 Individual Value Plot of Saúde vs UF2 0,9 0,8 Saúde 0,7 0,6 0,5 0,4 AL AC ES CE BA AP AM GO MA MS MG PB PA MT UF2 RN RJ PR PI PE SP SE SC RS RR RO TO One-way ANOVA: Saúde versus UF2 Source DF SS MS F P UF , , ,16 0,000 Error , ,00454 Total ,03409 S = 0,06738 R-Sq = 55,13% R-Sq(adj) = 54,93% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 0, ,06595 (--*---) AL 101 0, ,05788 (-*-) AM 62 0, ,07749 (--*-) AP 16 0, ,05655 (---*---) BA 416 0, ,07114 (*) CE 184 0, ,05808 (-*) ES 78 0, ,05686 (-*-) GO 247 0, ,06867 (*) MA 217 0, ,06948 (*) MG 852 0, ,08317 (*) MS 78 0, ,07894 (-*-) MT 142 0, ,08224 (-*) PA 142 0, ,06429 (*-) PB 222 0, ,06596 (-*)

376 72 PE 185 0, ,05659 (*) PI 223 0, ,05934 (*) PR 399 0, ,05848 (*) RJ 92 0, ,06287 (-*) RN 167 0, ,07119 (-*) RO 52 0, ,05249 (--*-) RR 15 0, ,07725 (---*---) RS 497 0, ,06212 *) SC 295 0, ,06902 (*) SE 75 0, ,07763 (-*-) SP 647 0, ,05239 *) TO 138 0, ,06498 (-*) ,640 0,720 0,800 0,880 Pooled StDev = 0,06738 É possível notar que existe uma variação grande entre as médias de Saúde por Estado, por exemplo o Estado que apresenta a maior média é Rio Grande do Sul, e a menor média está no Amapá ANOVA de S1_1 por Estado 350 Individual Value Plot of S1_1 vs UF S1_ AL AC ES CE BA AP AM GO MA MG MS PB PA MT UF2 RN RJ PR PI PE SP SE SC RS RR RO TO One-way ANOVA: S1_1 versus UF2 Source DF SS MS F P UF ,47 0,000 Error Total S = 14,14 R-Sq = 2,41% R-Sq(adj) = 1,97% Individual 95% CIs For Mean Based on

377 73 Pooled StDev Level N Mean StDev AC 22 18,35 8,62 ( * ) AL ,47 8,89 (-----*----) AM 62 17,56 10,58 (------*------) AP 16 20,01 14,81 ( * ) BA ,60 10,37 (--*--) CE ,92 8,84 (---*---) ES 78 12,90 7,92 (-----*-----) GO ,46 16,69 (---*--) MA ,86 8,27 (---*--) MG ,41 15,29 (-*-) MS 78 16,33 10,61 (------*-----) MT ,04 19,72 (----*----) PA ,80 8,95 (----*---) PB ,26 13,18 (---*--) PE ,43 7,81 (---*---) PI ,12 14,02 (--*---) PR ,69 11,80 (-*--) RJ 92 13,59 5,91 (-----*-----) RN ,46 12,26 (---*---) RO 52 15,81 10,82 ( *------) RR 15 15,15 9,69 ( * ) RS ,79 21,74 (--*-) SC ,32 13,52 (---*--) SE 75 14,22 11,01 (-----*------) SP ,61 13,32 (-*-) TO ,67 22,82 (---*----) ,0 15,0 20,0 25,0 Pooled StDev = 14,14 É possível notar que existe uma variação grande entre as médias de S1_1 por Estado, por exemplo o Estado que apresenta a maior média é Amapá, e a menor média está em Roraima ANOVA de Liquidez por Estado

378 74 Individual Value Plot of Liquidez vs UF2 1,0 0,8 Liquidez 0,6 0,4 0,2 0,0 AL AC ES CE BA AP AM GO MA MS MG PB PA MT UF2 RN RJ PR PI PE SP SE SC RS RR RO TO One-way ANOVA: Liquidez versus UF2 Source DF SS MS F P UF ,292 6,092 54,16 0,000 Error ,873 0,112 Total ,164 S = 0,3354 R-Sq = 19,65% R-Sq(adj) = 19,28% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 0,4904 0,4256 (------*------) AL 101 0,5706 0,3496 (---*--) AM 62 0,6947 0,3481 (---*---) AP 16 0,5427 0,4010 ( * ) BA 416 0,4115 0,3616 (-*) CE 184 0,3383 0,3004 (--*-) ES 78 0,7489 0,2363 (--*---) GO 247 0,5983 0,3638 (-*-) MA 217 0,3580 0,3701 (-*-) MG 852 0,5086 0,3544 (*-) MS 78 0,7308 0,3219 (---*--) MT 142 0,7122 0,2917 (--*-) PA 142 0,2884 0,3343 (-*--) PB 222 0,3269 0,3627 (-*--) PE 185 0,2936 0,3350 (--*-) PI 223 0,4299 0,3814 (-*--) PR 399 0,5773 0,3704 (-*-) RJ 92 0,7053 0,3185 (--*---) RN 167 0,3165 0,3276 (--*-) RO 52 0,8367 0,2007 (----*---) RR 15 0,4440 0,3233 ( * ) RS 497 0,8415 0,2153 (*-) SC 295 0,7898 0,2551 (*-) SE 75 0,5376 0,3429 (---*---) SP 647 0,6150 0,3578 (-*) TO 138 0,6393 0,3468 (--*--) ,40 0,60 0,80 1,00

379 75 Pooled StDev = 0,3354 É possível notar que existe uma variação grande entre as médias de Liquidez por Estado, por exemplo o Estado que apresenta a maior média é Rio Grande do Sul, e a menor média está no Pará DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DAS MÉDIAS Dendrogram Single Linkage; Euclidean Distance 81,54 Similarity 87,69 93,85 100,00 AC AP AL BA PB PE RN SE PI CE TO RR PA MA AM ES Observations MG GO MS MT SP SC RS PR RJ RO No dendograma acima é possível observar a existência de três grupos principais que no decorrer do presente trabalho, sofrerão algumas alterações e serão classificados como os três brasis. Abaixo foi elaborado um mapa com a distribuição brasileira dos estados de forma a melhorar a visualização destes três brasis:

380 76 O presente capítulo 10 possibilitou a percepção sobre o quanto as análises comparativas dos dados geram um resumo dos dados através de cálculos específicos como médias e desvios padrões, tornando a análise dos dados mais fácil e simples. Os gráficos de Boxplot e Dendograma são excelentes figuras visuais para que se possa analisar e interpretar os diferentes comportamentos dos dados. No dendograma pode-se analisar as similaridades dos dados e no Boxplot pode-se ver as relações entre as médias e as variâncias dos agrupamentos analisados. Trata-se de ferramentas úteis para análise de grandes volumes de dados.

381 ANÁLISE DISCRIMINANTE 11.1 DENDOGRAMA DAS REGIÕES BRASILEIRAS Dendrograma das regiões brasileiras Single Linkage; Euclidean Distance 88,71 Similarity 92,47 96,24 100,00 AC PA PI AL MA RR AP BA PB PE CE RN TO SE AM ES MG PR RS RJ SC GO MS MT RO DF SP Observations 11.2 ANÁLISE DESCRIMINANTE DAS CINCO REGIÕES VERSUS ISDM, EMPREGO E RENDA, EDUCAÇÃO E SAÚDE Discriminant Analysis: Região versus ISDM; Emprego e Re; Educação; Saúde Linear Method for Response: Região Predictors: ISDM; Emprego e Renda; Educação; Saúde Group Centro-Oeste Nordeste Norte Sudeste Sul Count Summary of classification True Group Put into Group Centro-Oeste Nordeste Norte Sudeste Sul Centro-Oeste Nordeste Norte Sudeste Sul Total N N correct Proportion 0,361 0,503 0,555 0,681 0,607 N = 5565 N Correct = 3177 Proportion Correct = 0,571

382 78 Essa análise permite verificar que a região sudeste apresenta maior numero de acertos, com Enquanto o Centro-Oeste é a que menos apresenta acertos. A proporção de acerto geral foi de 57%. Com o objetivo de buscar uma proporção de acerto maior e como consequência da quantidade de municípios que aparecem dentro de duas regiões, serão unificadas as regiões Sudeste x Sul (SULD) e Nordeste x Norte (NOR). Discriminant Analysis: 3 Brasis versus ISDM; Emprego e Renda;... Linear Method for Response: 3 Brasis Predictors: ISDM; Emprego e Renda; Educação; Saúde Group Centro-Oeste NOR SULD Count Summary of classification True Group Put into Group Centro-Oeste NOR SULD Centro-Oeste NOR SULD Total N N correct Proportion 0,571 0,812 0,688 N = 5565 N Correct = 4051 Proportion Correct = 0,728 É possível notar que, ao transformar as cinco regiões brasileiras em 3 regiões brasileiras os índices de proporção melhoram consideravelmente em todos os sentidos. A proporção de acerto agora é de 72,8% e o grupo NOR (Nordeste e Norte) apresenta os maiores números de acerto enquanto o Centro-Oeste continua com o menor numero de acertos, porém com melhora quando comparado com a análise anterior. Discriminant Analysis: 3 Brasis versus ISDM; Emprego e Renda;... Linear Method for Response: 3 Brasis Predictors: ISDM; Emprego e Renda; Educação; Saúde Group Centro-Oeste NOR SULD Count

383 79 Summary of classification True Group Put into Group Centro-Oeste NOR SULD Centro-Oeste NOR SULD Total N N correct Proportion 0,571 0,812 0,688 N = 5565 N Correct = 4051 Proportion Correct = 0,728 É possível notar que, ao transformar as cinco regiões brasileiras em 3 regiões brasileiras os índices de proporção melhoram consideravelmente em todos os sentidos. A proporção de acerto agora é de 72,8% e o grupo NOR (Nordeste e Norte) apresenta os maiores números de acerto enquanto o Centro-Oeste continua com o menor numero de acertos, porém com melhora quando comparado com a análise anterior. 12. REGRESSÃO LOGÍSTICA A regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neuronais, entre outras), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de coloca-las em concorrência para escolha de um melhor modelo para determinado problema que se espera resolver. Ordinal Logistic Regression: Região versus ISDM; Emprego e Renda;... Link Function: Logit Response Information Variable Value Count Região Centro-Oeste 467 Nordeste 1790 Norte 447 Sudeste 1669 Sul 1191 Total 5564 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) -0, , ,10 0,918 Const(2) 2, , ,74 0,000 Const(3) 2, , ,64 0,000 Const(4) 5, , ,05 0,000 ISDM 0, , ,07 0,000 2,22 1,87 2,64 Emprego e Renda 0, , ,20 0,028 1,58 1,05 2,36

384 80 R1 0, , ,18 0,000 1,05 1,04 1,06 T1_2-0, , ,67 0,000 0,96 0,95 0,96 H6-0, , ,62 0,000 0,95 0,95 0,96 Educação 0, , ,79 0,073 2,07 0,94 4,60 E2_4-0, , ,04 0,000 0,97 0,96 0,97 Saúde -0, , ,29 0,022 0,41 0,19 0,88 S1_1 0, , ,33 0,185 1,00 1,00 1,01 Liquidez -0, , ,87 0,000 0,70 0,61 0,81 Log-Likelihood = -6832,772 Test that all slopes are zero: G = 2654,157, DF = 10, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 45499, ,000 Deviance 13665, ,000 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant ,9 Somers' D 0,56 Discordant ,5 Goodman-Kruskal Gamma 0,57 Ties ,6 Kendall's Tau-a 0,42 Total ,0 13. ÁRVORES DE CLASSIFICAÇÃO 13.1 Os três brasis Com base na classificação do capítulo 11, foi elaborado o mapa do Brasil com a divisão dos três brasis, com base na similaridade entre os Estados brasileiros:

385 Árvore de classificação das variáveis: ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 Foram transportados os seguintes dados do Minitab para o software SPSS: Nesta etapa faz-se importante observar que os dados trabalhados se referem a média e o desvio padrão das variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1, com suas classificações por regiões e também uma nova classificação baseada na divisão do Brasil e três regiões principais ( Três_Brasis ). A próxima etapa será elaborar a árvore de classificação no software SPSS com os dados copiados do MiniTab. Serão montadas árvores de classificação para as variáveis Três_Brasis e Região1, ambos referentes a nova classificação brasileira em 3 divisões: Centro-Oeste, NORD (Nordeste e Norte) e SUD (Sudeste e Sul).

386 Árvore de classificação das médias Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis Risk Estimate Std. Error,038,038 Growing Method: CHAID Dependent Variable: Três_Brasis Classification Observed Predicted B1 B2 B3 Percent Correct B ,0% B ,0% B ,7% Overall Percentage 30,8% 61,5% 7,7% 96,2% Growing Method: CHAID Dependent Variable: Três_Brasis

387 Árvore de classificação dos desvios padrões Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Três Brasis

388 84 Risk Estimate Std. Error,000,000 Growing Method: CHAID Dependent Variable: Três_Brasis Classification Observed Predicted B1 B2 B3 Percent Correct B ,0% B ,0% B ,0% Overall Percentage 26,9% 61,5% 11,5% 100,0% Growing Method: CHAID Dependent Variable: Três_Brasis

389 Árvore de classificação das médias Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região Risk Estimate Std. Error,115,063 Growing Method: CHAID Dependent Variable: Região

390 86 Classification Observed Predicted Centro-Oeste Nordeste Norte Sudeste Sul Percent Correct Centro-Oeste ,0% Nordeste ,9% Norte ,0% Sudeste ,0% Sul ,0% Overall Percentage 19,2% 30,8% 30,8% 7,7% 11,5% 88,5% Growing Method: CHAID Dependent Variable: Região

391 Árvore de classificação dos desvios padrões Variáveis ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e Renda, Liquidez, R1 e S1_1 x Região

392 88 Risk Estimate Std. Error,269,087 Growing Method: CHAID Dependent Variable: Região Classification Observed Predicted Centro-Oeste Nordeste Norte Sudeste Sul Percent Correct Centro-Oeste ,0% Nordeste ,0% Norte ,9% Sudeste ,0% Sul ,0% Overall Percentage 0,0% 53,8% 11,5% 23,1% 11,5% 73,1% Growing Method: CHAID Dependent Variable: Região

393 CONSIDERAÇÕES FINAIS No decorrer dos capítulos foram utilizados dois softwares estatísticos: MINITAB e o SPSS. Com esses dois softwares foram aplicadas diversas ferramentas estatísticas para apurar e analisar os dados referentes aos indicadores: ISDM, Educação, E2_4, Saúde, H6, T1_2, Emprego e renda, Liquidez, R1 e S1_1 dos 5565 municípios que disponibilizaram os dados por suas prefeituras. Os municípios foram agrupados por Estados e regiões e a partir de então obteve-se a média e o desvio padrão relativo aos Estados e regiões para cada uma das variáveis. Este exercício fez-se bastante importante para compreender a importância da estatística para o trabalho quantitativo. A estatística é responsável pelo desenvolvimento cientifico em geral. Para além da sua aplicabilidade nas ciências naturais, na medicina, na agronomia e na economia, a estatística constitui um suporte de cientificidade para as ciências humanas e sociais. É assim que ciências como a sociologia, a psicologia, a história e a pedagogia têm beneficiado de consideráveis desenvolvimentos e de aumento de credibilidade pública com a sua utilização. Para a administração não é diferente, pois a estatística cria possibilidades e facilidades para análise de dados, seja, pelo agrupamento de informações ou pelas tabelas e gráficos que melhoram o entendimento das informações. No presente trabalho essas ferramentas foram utilizadas a fim de entender sobre a maneira como a Educação, Emprego e renda e Saúde funcionam nos Estados brasileiros. Os resultados demonstraram que o Brasil ainda carece bastante e que a desigualdade é um fator de bastante peso, por exemplo quando compara-se o Sudeste com o Nordeste percebe-se uma significante diferença nos dados, seja no sentido da Educação, da Saúde ou do Emprego e da Renda.

394 PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores relacionados a habitação, educação, trabalho e muito particularmente os referentes a GESTÃO FISCAL MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA Professor Dr. Arnoldo Jose de Hoyos Maurício Roberto Ortiz de Camargo 1

395 LISTA DE GRÁFICOS Gráfico 1 - Distribuição das Unidades Federativas em Regiões Gráfico 2 - Distirbuição das Cidades por Região Gráfico 3 - Distribuição das Cidades por UF (Ordem Alfabética) Gráfico 4 - Distribuição das Cidades por UF (Ordem Crescente) Gráfico 5 Gráficos de dispersão Liq; Inv; Pes; ReP; R1i; T1_2i vs IFGF Gráfico 6 - Gráficos de dispersão ReP; T1_2i; R1i; Edu; E2_4i; IFGF vs (EeR) Emprego e Renda Gráfico 7 - Gráficos de dispersão E2_4i; R1i; T1_2i; H6i; ReP; IFGF vs Edu (Educação) Gráfico 8 - Dendrograma das 13 variáveis Gráfico 9 Boxplot de IFGF por Região Gráfico 10 - Boxplot de Receita Própria por Região Gráfico 11 - Boxplot de Gastos com Pessoal por Região Gráfico 12 - Boxplot de Investimeto por Região Gráfico 13 - Boxplot de Liquidez por Região Gráfico 14 - Boxplot de Custo da Divida por Região Gráfico 15 - Boxplot de Emprego e Renda por Região Gráfico 16 - Boxplot de Educação por Região Gráfico 17 - Boxplot de H6 por Região Gráfico 18 - Boxplot de R1 por Região Gráfico 19 - Boxplot de T1_2 por Região Gráfico 20 - Boxplot de S1_1 por Região Gráfico 21 - Boxplot de E2_4 por Região Gráfico 22 - Dendrograma das Variáveis Quantitativas Gráfico 23 - Scree Plot das Variáveis Quatitativas Gráfico 24 - Loading Plot das Váriáveis Quantitativas Gráfico 25-3D Scatterplot CP1 vs CP2 vs CP3 (6 s ângulos) Gráfico 26 - Dendograma similaridade das Médias das UFs Gráfico 27 - Dendrograma dos Índices de Variabilidade das UFs Gráfico 28 - Symetric Plot [todas as variáveis quantitativas do projeto] Gráfico 29 - Symetric Plot [todas as variáveis quantitativas do projeto - R1] Gráfico 30 - Árvore Classificatória - Regiões do Brasil Gráfico 31 - Árvore Classificatória - 2Brasis agrupados pela similaridade das médias Gráfico 32 - Árvore Classificatória - 2Brasis agrupados por similaridade de "variabilidade" 96 2

396 LISTA DE FIGURAS Figura 1 - Resumo do IFGF Figura 2 - Resumo do indicador Receita Própria Figura 3 - Resumo do indicador Gastos com Pessoal Figura 4 - Resumo do indicador Investimentos Figura 5 - Resumo do indicador Liquidez Figura 6 - Resumo do indicador Custo da Dívida Figura 7 - Resumo do indicador Emprego e Renda Figura 8 - Resumo do indicador Educação Figura 9 - Resumo do indicador H Figura 10 - Resumo do indicador R Figura 11 - Resumo do indicador T1_ Figura 12 - Resumo do indicador S1_ Figura 13 - Resumo do indicador E2_ Figura 14 - Quadro resumo das comparações das variáveis quantitativas Figura 15 - Analise de variância entre IFGF, IFGF100 e IFGF Figura Analise de variância entre EeR, EeR100 e EeR Figura Analise de variância entre Edu, Edu100 e Edu Figura 18 - Quadro resumo comparativo do universo e das amostras 100 e 50 indivíduos - IFGF Figura 19 - Quadro resumo comparativo do universo e das amostras 100 e 50 indivíduos - Emprego e Renda [EeR] Figura 20- Quadro resumo comparativo do universo e das amostras 100 e 50 indivíduos - Educação [Edu] Figura 21 - Mapa 2Brasis agrupados pela similaridade das médias Figura 22 - Mapa 2Brasis agrupamento por similaridade dos índices de variabilidade

397 SUMÁRIO INTRODUÇÃO... 8 ANALISE EXPLORATORIO DE DADOS PREPARAÇÃO DOS DADOS Estatística Descritiva - dados originais Estatística Descritiva dos dados originais (N*=0) Estatística Descritiva dos dados (adequação dos indicadores à escala 1-0) ENTENDENDO OS DADOS Os Indivíduos As Variáveis ANÁLISE DAS VARIÁVEIS Variáveis Categóricas Variável: UF e UF Variáveis Quantitativas Variável: IFGF Variável: Receita Própria Variável: Gastos com Pessoal Variável: Investimentos Variável: Liquidez Variável: Custo da Divida Variável: Emprego e Renda Variável: Educação Variável: H Variável: R Variável: T1_ Variável: S1_ Variável: E2_ RELAÇÃO ENTRE VARIÁVEIS

398 4 RELAÇÃO ENTRE VARIÁVEIS: CORRELAÇÃO, REGRESSÃO E TESTE QUI- QUADRADO Gráficos de dispersão com LINHAS DE TENDÊNCIAS Scatterplot of Liq; Inv; Pes; ReP; R1i; T1_2i vs IFGF Scatterplot of ReP; T1_2i; R1i; Edu; E2_4i; IFGF vs (EeR) Emprego e Renda Scatterplot of E2_4i; R1i; T1_2i; H6i; ReP; IFGF vs Edu (Educação) Correlação Linear Correlations: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu; Regressão dos mínimos quadrados Regression Analysis: IFGF versus LIQ Regression Analysis: EeR versus ReP Regression Analysis: Edu versus E2_4i Dendrograma Cluster Analysis of Variables: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu; ANÁLISE DE REGRESSÃO E STEPWISE REGRESSÕES MULTIPLAS Regressão Stepwise Stepwise Regression: IFGF versus Liq; Inv; Stepwise Regression: EeR versus IFGF; ReP; Stepwise Regression: Edu versus IFGF; ReP; Regressão Múltiplas Regression Analysis: IFGF versus Liq; Inv; Regression Analysis: IFGF versus Liq; Inv; Pes; ReP Regression Analysis: EDUCAÇÀO e RENDA (EeR) versus ReP; T1_2i; R1i; Edu; E2_4i; IFGF Regression Analysis: EDUCAÇÀO e RENDA versus ReP; T1_2i Regression Analysis: EDUCAÇÃO versus E2_4i; R1i; T1_2i; H6i; ReP; IFGF; EeR Regression Analysis: Edu versus E2_4i; R1i COMPARAÇÕES COMPARAÇÕES - ANOVA Variável IFGF por Região

399 6.2 Variável Receita Própria por Região Variável Pessoal (Gastos com Pessoal) por Região Variável Investimentos por Região Variável Liquidez, por Região Variável Custo da Divida Variável Emprego e Renda Variável Educação Variável H Variável R Variável T Variável S1_ Variável E Resumo das variáveis AMOSTRAGEM Quadro Resumo: Amostragem IFGF Quadro Resumo: Amostragem Emprego e Renda Qaudro Resumo: Amostragem Educação ANÁLISE MULTIVARIADA COMPONENTES PRINCIPAIS ANÁLISE MULTIVARIADA COMPONENTES PRINCIPAIS Dendograma Cluster Analysis of Variables: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu; Componentes Principais D Scatterplot ANÁLISE DE CONGLOMERADOS ANÁLISE DE CONGLOMERADOS (DENDROGRAMA e ANOVA) Dendrograma das médias por UF (-DF) Dendrograma dos índices de variabilidade por UF (-DF) Análise das variâncias dos agrupamentos das UFs

400 9.3.1 Região - IFGF UFs - IFGF Região - Emprego e Renda UFs Emprego e Renda Região - Educação UFs - Educação Resumo dos Boxplot ANÁLISE DISCRIMINANTE LINEAR ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO Cinco Regiões Brasileiras Mapa Político Brasis similaridade nas médias Brasis similaridade nos índices de variabilidade REGRESSÃO LOGISTICA REGRESSÃO LOGISTICA Regressão REGIÃO Regressão Logística 2 Brasis similaridade pelas médias Regressão Logística 2 Brasis similaridade pelos índices de variabilidade 85 ANÁLISE DE CORRESPONDÊNCIA ANÁLISE DE CORRESPONDÊNCIA DOS ÍNDICES DE GESTÃO FISCAL E DE DESENVOLVIMENTO ÁRVORE DE CLASSIFICAÇÃO ÁRVORE CLASSIFICATÓRIA Árvore de decisão. - Região_1 IFGF_1, ReP_1, Pes_1, Inv_1, Liq_1, CD_1, EeR_1, Edu_1, H6i_1, R1i_1, T1_2i_1, S1_1i_1, E2_4i_ Árvore de decisão.- BrasisM_1 pelas variáveis: IFGF_1, ReP_1, Pes_1, Inv_1, Liq_1, CD_1, EeR_1, Edu_1, H6i_1, R1i_1, T1_2i_1, S1_1i_1, E2_4i_ Árvore de decisão.- BrasisV_1 pelas variáveis: IFGF_3, ReP_3, Pes_3, Inv_3, Liq_3, CD_3, EeR_3, Edu_3, H6i_3, R1i_3, T1_2i_3, S1_1i_3, E2_4i_ REFERÊNCIAS

401 INTRODUÇÃO O presente trabalho tem por objetivo efetuar diversas análises dos dados da Pesquisa Firjan/FGV sobre o Desenvolvimento dos Municípios nos períodos de 2000 e Iniciamos com o entendimento dos dados, incluindo a definição dos indivíduos e das variáveis, suas classificações em variáveis categóricas ou quantitativas, os significados e unidades de medida, além da apresentação da tabela de dados. Na seqüência, analisamos cada uma das variáveis separadamente quanto a sua forma de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-plot e curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão, variância, intervalo de confiança e teste de normalidade de Anderson-Darling). Em seguida faremos comparações entre as diversas variáveis analíticas, utilizando técnicas como relações entre as variáveis, regressões múltiplas, comparações, amostragem dos dados, análise multivariada, análise de conglomerados, análise discriminante, regressão logística, análise de correspondência e arvores de classificação. Não será possível, a partir destes dados, efetuarmos a análise de tendência pois não existem séries temporais de dados, requisitos para esta técnica. Os softwares estatísticos utilizados são: o MINITAB 16 e o SPSS Statistic

402 ANALISE EXPLORATORIO DE DADOS 1 PREPARAÇÃO DOS DADOS Antes da análise dos dados, é necessário avaliar se não existe alguma inconsistência ou falha que possa incorrer em algum erro nas análises futura. Neste caso, como se pode notar no item 1.1, coluna (N*), que indica o número de dados faltantes, em diversas variáveis estão faltando dados, como exemplo: 304 no IFGF e 22 na Emprego e Renda. 1.1 Estatística Descritiva - dados originais Descriptive Statistics: IFGF; ReP; Pes; Inv; Liq; CD; EmpRen; Educ;... Variable N N* Mean StDev Minimum Q1 Median Q3 IFGF , , , , , ,64571 ReP , , , , , ,31945 Pes , , , , , ,69061 Inv , , , , , ,89366 Liq , , , , , ,91435 CD , , , , , ,92474 EmpRen , , , , , ,47134 Educ , , , , , ,82351 H ,319 13,553 4,735 45,035 55,297 64,616 R ,525 17,698 0,073 8,618 19,990 39,479 T1_ ,304 18,234 6,400 41,272 57,421 71,384 S1_ ,260 14,281 0,000 4,294 12,579 20,059 E2_ ,481 8,881 45,722 79,528 87,510 92,529 Variable Maximum IFGF 0,97475 ReP 1,00000 Pes 1,00000 Inv 1,00000 Liq 1,00000 CD 1,00000 EmpRen 1,00000 Educ 1,00000 H6 89,335 R1 78,801 T1_2 94,914 S1_1 333,333 E2_4 100, Estatística Descritiva dos dados originais (N*=0) Como foi observado no tópico anterior que em todos os indicadores de Gestão Fiscal estão faltando (N* - coluna) 304 dados, e nos indicadores Gerais, Emprego e Renda e Educação, estão faltando 22 e no de Saúde (S1_1) está faltando apenas 1. Para corrigir este problema, adotou-se usar o número referente ao primeiro pior quartil para as células vazias. Descriptive Statistics: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu;... Variable N N* Mean StDev Minimum Q1 Median Q3 9

403 IFGF , , , , , ,64000 ReP , , , , , ,31000 Pes , , , , , ,68441 Inv , , , , , ,87000 Liq , , , , , ,91000 CD , , , , , ,91716 EeR , , , , , ,47111 Edu , , , , , ,82305 H ,319 13,553 4,735 45,035 55,297 64,616 R ,525 17,698 0,073 8,618 19,990 39,479 T1_ ,304 18,234 6,400 41,272 57,421 71,384 S1_ ,259 14,280 0,000 4,294 12,579 20,050 E2_ ,481 8,881 45,722 79,528 87,510 92,529 Variable Maximum IFGF 0,97000 ReP 1,00000 Pes 1,00000 Inv 1,00000 Liq 1,00000 CD 1,00000 EeR 1,00000 Edu 1,00000 H6 89,335 R1 78,801 T1_2 94,914 S1_1 333,333 E2_4 100, Estatística Descritiva dos dados (adequação dos indicadores à escala 1-0) Em seguida, para adequar os dados no estudo e possibilitar avaliações comparativas entre estes, os indicadores: H6, R1, T1_2, S1_1 e E2_4, foram transformados em indicadores que variam de 0 à 1, e para tal adotou-se à seguinte fórmula: 10

404 Edu 1,00000 H6i 1,00000 R1i 1,00000 T1_2i 1,00000 S1_1i 1,00000 E2_4i 1, ENTENDENDO OS DADOS 2.1 Os Indivíduos Os indivíduos desta base de dados são os municípios brasileiros ano Trata-se de um total de 5565 munícipios, distribuídos em 27 unidades federativas, sendo 26 estados e um distrito federal. Para o desenvolvimento desta pesquisa, não consideraremos as informações do distrito federal, pois as comparações serão com base nos estados e, não, nas unidades federativas. Os dados analisados de cada munícipio são as variáveis que descrevemos a seguir. 2.2 As Variáveis São 16 as variáveis desta pesquisa, sendo 3 categóricas e 13 variáveis quantitativas. As mesmas são melhor explicadas na Tabela 1. Ressaltamos que todos os dados desta pesquisa são referentes ao ano de Variável Significado Tipo UF Município UF2 IFGF Abreviação de Unidade Federativa (ou Unidade da Federação) do Brasil. As UF do Brasil são entidades autônomas, com governo e constituição próprias, que em seu conjunto constituem a República Federativa do Brasil. (IBGE, 2013) O município é a divisão administrativa autônoma da UF. São as unidades de menor hierarquia dentro da organização político administrativa do Brasil, criadas através de leis ordinárias das Assembléias Legislativas de cada Unidade da Federação e sancionadas pelo Governador. (IBGE, 2013) Apresenta a sigla que representa as Unidades Federativas (ou Unidades da Federação) do Brasil. Índice Firjan de Gestão Fiscal. O IFGF é composto por cinco indicadores: Receita Própria, Gastos com Pessoal, Investimentos, Liquidez e Custo da Dívida. Os quatro primeiros possuem peso 22,5% e o último 10,0% no resultado final do Índice. A seguir, a descrição de cada um deles. (FIRJAN, 2013) Variável Categórica Variável Categórica Variável Categórica Variável Quantitativa Unidade de Medida N/A N/A N/A 0-1 (qto + próx. de 1 melhor) 11

405 Receita Própria Pessoal é, de acordo com a FIRJAN (2013), a dependência de transferências intergovernamentais engessa o orçamento dos municípios, uma vez que é pautada por incertezas e está sujeita á programação das administrações superiores. Assim, um município deve ser capaz de gerar um alto nível de receita própria para ter condições de colocar em prática projetos de longo prazo. Este indicador tem o objetivo de verificar o grau de autonomia das receitas do município. A receita própria do município é formada por IPTU, ISS, IRFF e Outras Receitas Próprias". refere-se aos Gastos com Pessoal, ou seja, é "a despesa com pessoal é o principal item da despesa do setor público. Este indicador busca avaliar o comprometimento das receitas com as despesas de pessoal, a formula de cálculo leva em consideração, bases da Lei de Responsabilidade Fiscal LRF". (FIRJAN, 2013) Investimentos o objetivo deste indicador é medir a parcela dos investimentos nos orçamentos municipais. Estabeleceu-se que a nota de corte seria investir 20% da RCL Receita Corrente Líquida. (FIRJAN, 2013) Liquidez Custo da Dívida Emprego e Renda Educação H6 R1 "o indicador procura verificar se o município possui recursos financeiros suficientes para fazer frente ao montante de restos a pagar. Se o município apresentar mais restos a pagar do que ativos financeiros disponíveis a pontuação será zero". (FIRJAN, 2013) "este indicador avalia o peso dos encargos da dívida em relação às receitas líquidas reais, destacando-se que o limite é de 13%". (FIRJAN, 2013) Geração, estoque e salários médios dos empregos formais (IFDM). Média ponderada dos indicadores da dimensão Educação (E1_1, E1_2, E2_1, E2_2, E2_3, E2_4, E2_5, E2_6, E3_1, E3_2 e E3_3) padronizada pela média do Brasil. Percentual de pessoas que vivem em domicílio que tem densidade de moradores por dormitório inferior a 2. Percentual da população residente com renda domiciliar mensal per capita abaixo de R$ 140, a preços de Foi utilizado o INPC para encontrar o valor da linha de extrema pobreza em Variável Quantitativa Variável Quantitativa Variável Quantitativa Variável Quantitativa Variável Quantitativa Variável Quantitativa Variável Quantitativa Variável Quantitativa Variável Quantitativa T1_2 Taxa de formalização entre os empregados Variável Quantitativa 0-1 (qto + próx. de 1 melhor) 0-1 (qto + próx. de 1 melhor) 0-1 (qto + próx. de 1 melhor) 0-1 (qto + próx. de 1 melhor) 0-1 (qto + próx. de 1 melhor) 0-1 (qto + próx. de 1 melhor) 0-1 (qto + próx. de 1 melhor) 0-1 (qto + próx. de 1 melhor) 0-1 (qto + próx. de 0 melhor) 0-1 (qto + próx. de 1 melhor) 12

406 S1_1 E2_4 Tabela 1- As Variáveis Taxa de sobrevivência infantil no primeiro ano de vida, representada pela diferença entre o número de nascidos vivos e o número de óbitos até um ano de idade. Percentual de crianças de 7 a 14 anos que estão na série correta segundo a idade Variável Quantitativa Variável Quantitativa 0-1 (qto + próx. de 1 melhor) 0-1 (qto + próx. de 1 melhor) 3 ANÁLISE DAS VARIÁVEIS 3.1 Variáveis Categóricas Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo pie chart e barras Variável: UF e UF2 Nossa amostra, apurou-se um total de 27 unidades federativas, sendo 25 estados e 01 distrito federal. As unidades federativas estão distribuídas em 5 regiões, como representada no Gráfico 1 - Distribuição das Unidades Federativas em Regiões. Distribuição das Unidades Federativas em Regiões Sul 3; 11,5% Centro-Oeste 3; 11,5% Category Centro-Oeste Nordeste Norte Sudeste Sul Sudeste 4; 15,4% Nordeste 9; 34,6% Norte 7; 26,9% Gráfico 1 - Distribuição das Unidades Federativas em Regiões Variável: Munícipios 13

407 Os gráficos abaixo nos ajudam a entender melhor o comportamento desta variável Distiribuição das cidades por região - População Sul 1191; 21,4% Centro-Oeste 468; 8,4% Category Centro-Oeste Nordeste Norte Sudeste Sul Nordeste 1790; 32,2% Sudeste 1669; 30,0% Norte 447; 8,0% Gráfico 2 - Distirbuição das Cidades por Região No que diz respeito a relação regiões e cidades pode-se observar no Gráfico 2 - Distirbuição das Cidades por Região - que as regiões Nordeste (32,2%), Sudeste (30,0%) e Sul (21,4%) concentram 83, 6% dos municípios do território nacional, enquanto as demais regiões, Norte (8,0%) e Centro-Oeste (8,4%) somam apenas 16, 4% dos munícipios. Além da concentração dos municípios brasileiros, as três regiões tem em comum o fato de serem as três regiões banhadas significativamente pelo oceano Atlântico. Fato este, que nos ajuda a entender a concentração nestas regiões. 14

408 . RS SC RR RO RN SE RJ Distribuição das Cidades por UF PR SP PI TO PE AC AL PB AMAP PA BA MT MS CE DF ES GO MG MA C ategory A C A L A M A P BA C E DF ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO Qtde de Cidades AL AC Distribuição das Cidades por Unidades da Federação (ordem alfabética) AP BA CE DF ES GO MA AM MT MS MG RN RJ PR PI PE PB PA Unidades Federativas (UF2) RR RO TO SP SE SC RS UF 2 A C A L A M A P BA C E DF ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO Gráfico 3 - Distribuição das Cidades por UF (Ordem Alfabética) 15

409 Qtde de Cidades DF RR AP AC RO 0 Distribuição das Cidades por Unidades da Federação (ordem crescente) mediana RJ MS ES SE AM AL PI PB MA PE CE RN PA MT TO Unidades Federativas (UF2) Gráfico 4 - Distribuição das Cidades por UF (Ordem Crescente) SP RS BA PR SC GO 852 MG UF 2 A C A L A M A P BA C E DF ES GO MA MG MS MT PA PB PE PI PR RJ RN RO RR RS SC SE SP TO Com base na análise dos gráficos acima: Gráfico 3 - Distribuição das Cidades por UF (Ordem Alfabética)- e Gráfico 4 - Distribuição das Cidades por UF (Ordem Crescente), podemos tecer alguns comentários em relação ao comportamento da relação de munícipios por unidades federativas: - A distribuição de municípios por Unidades Federativas (UF) brasileiras são muito desiguais. Como exemplo, o estado de Minas Gerais (852 munícipios) tem 56 (cinquenta e seis) vezes mais munícipios que o estado de Roraima (15 municípios). - O primeiro quartil das UF está concentrado na região Norte e extremo oeste do país, sendo que das 6 (seis) UF com menor número de municípios, 5 (cinco) fazem parte da região Norte, bioma amazônico brasileiro. Em ordem crescente, as UF com menos munícipios são: Roraima (15), Amapá (16), Acre (22), Roraima (52) e Amazonas (62). Estas 5 (cinco) UF abrangem apenas 3% do total dos munícipios brasileiros. - No outro extremo, temos 5 (cinco) UF que estão divididas em mais de 300 (trezentos) munícipios, a saber, em ordem decrescente: Minas Gerais (852), São Paulo (647), Rio Grande do Sul (497), Bahia (416) e Paraná (399). Nestes cinco estados (pouco menos de 20% das UF) concentram (2811) mais de 50% dos municípios brasileiros. - As demais UF (61%) tem entre 75 e 295 munícipios, ou seja, 16 UF compõe 46,5% municípios brasileiros. 16

410 3.2 Variáveis Quantitativas A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de confiança e teste de normalidade de Anderson-Darling Variável: IFGF Segue abaixo Figura 1 - Resumo IFGF contendo: Histograma, Curva de Densidade, Box- Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável IFGF. Summary for IFGF A nderson-darling Normality Test A -Squared 14,16 P-V alue < 0,005 Mean 0,52670 StDev 0,14790 V ariance 0,02188 Skew ness -0, Kurtosis -0, N ,12 0,24 0,36 0,48 0,60 0,72 0,84 0,96 Minimum 0, st Q uartile 0,43000 Median 0, rd Q uartile 0,64000 Maximum 0, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,15070 Mean Median 0,525 0,530 0,535 0,540 Figura 1 - Resumo do IFGF As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que trata-se de uma distribuição visivelmente assimétrica com cauda levemente alongada para a esquerda. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal (p-value < 0,05). A distribuição tem um único pico, decorrente dos ajustes feitos em 0,43 para preencher os municípios sem dados. O Box-Plot e a análise dos 5 números, nos deixam ainda mais clara esta assimetria da distribuição. A posição da linha da mediana afastada do centro do quadrado principal do Box-Plot nos confirma estas afirmativas. 17

411 - Valores Atípicos: Há 5 valores de IFGF atípicos no gráfico. Trata-se de 3 municípios do Nordeste com valores muito baixos, Ilha Grande/PI (0,08), Buerarema/BA (0,10) e Conceição/PB (0,11) e dois muito acima Poá/SP (0,96) e Santa Isabel/GO (0,97). - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos munícipios têm IFGF menor do que 0,53 e metade IFGF maior do que este valor. O IFGF médio do dos municípios é de 0,5267, e o desvio-padrão (medida de dispersão) é 0,1479. O IFGF mínimo é de 0,08, e o máximo 0,97, demonstrando uma grande amplitude. A mediana é de 0,53, estando muito próxima da média. Com 95% de confiança, podemos afirmar que a média encontra-se entre os valores 0,52281 e 0, Variável: Receita Própria Segue abaixo Figura 2 - Resumo do indicador Receita Própria contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável Receita Propria. Summary for Receita Própria A nderson-darling Normality Test A -Squared 263,55 P-V alue < 0,005 Mean 0,23375 StDev 0,18961 V ariance 0,03595 Skew ness 1,67653 Kurtosis 3,01314 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,10000 Median 0, rd Q uartile 0,31000 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,19320 Mean Median 0,16 0,18 0,20 0,22 0,24 Figura 2 - Resumo do indicador Receita Própria As principais observações que podemos fazer são: 18

412 - Forma: O Histograma nos permite verificar que se trata de uma distribuição visivelmente assimétrica com cauda alongada para a direita, o que é comum para variáveis que indiquem ganhos, receitas, salários, etc. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma normal. Muitos munícipios dependem de despesas voluntárias de outros entes. A distribuição tem um único pico, que representa municípios com Receita Própria entre 0,09 e 0,11. Porém, alguma municípios tem o indicador de Receitas Própria muito altas, o que faz com o gráfico se estenda para a direita. O Box-Plot e a análise dos 5 números, nos deixam ainda mais clara esta assimetria da distribuição. A posição da linha da mediana longe do centro do quadrado principal do Box-Plot nos confirma estas afirmativas. - Valores Atípicos: Há mais de 40 valores de Receita atípicos no gráfico. Trata-se de munícipios de maiores indicadores de Receita Própria, referentes às regiões Sul e Sudeste que apresentam infraestrutura e níveis de atividades econômicas que justificam tal disparidade. - Centro e Dispersão: A mediana nos indica que aproximadamente metade das municípios tem indicador de Receita Própria menor do que 0,17 e a outra metade dos indicadores de Receita Própria maior do que este valor. O indicador de Receita Própria médio entre os munícipios brasileiros é 0,23, mas o desvio-padrão (medida de dispersão) é comparativamente bastante elevado 0,1861, maior que a mediana. O indicador de Receita Própria mínima é de 0,01 (menor valor possível), e a máxima de 1,00, demonstrando uma grande amplitude. A mediana é de 0,17, estando longe da média, o que por si só parece demonstrar uma assimetria na distribuição Variável: Gastos com Pessoal Segue abaixo Figura 3 - Resumo do indicador Gastos com Pessoal contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável Gastos com Pessoal. 19

413 Summary for Pessoal A nderson-darling Normality Test A -Squared 235,44 P-V alue < 0,005 Mean 0,58357 StDev 0,19632 V ariance 0,03854 Skew ness -1,47306 Kurtosis 2,95968 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,52000 Median 0, rd Q uartile 0,69000 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,20003 Mean Median 0,580 0,585 0,590 0,595 0,600 0,605 0,610 Figura 3 - Resumo do indicador Gastos com Pessoal Com base neste quadro-resumo, concluímos: - Forma: O Histograma nos permite verificar que se trata de uma distribuição assimétrica, o que é confirmado pelo P-Value muito menor do que 5% no teste de normalidade de Anderson-Darling. Este é um indicador financeiro que relaciona o comprometimento da receita com as despesas de pessoal. A curva de densidade e o P-Value não nos permitem assumir que trata-se de uma distribuição Normal. A distribuição tem dois picos, o primeiro em torno de 0, com 385 municípios, dos quais 276 são munícipios de unidades da federação da região nordeste, e outra em torno de 0,69, terceiro quartil, como resultado do ajuste que foi com os munícipios que não tinham dados. O Box-Plot e a análise dos 5 números, nos confirmam as observações acima. A linha da mediana está no centro da caixa principal do Box-Plot, entre o 1º e 3º, levemente deslocada para a direita. - Valores Atípicos: Os valores atípicos identificados referentes ao indicador Gastos com Pessoal despontam nas duas extremidades, de um lado, os 385 munícipios com o indicador igual a zero, sendo que destes 276 são munícipios de unidades da federação da região nordeste, e, de outro, os munícipios (59) que tiveram o indicador de Gastos com Pessoal acima de 0,95. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos munícipios tem indicador de Gastos com Pessoal menor do que 0,61 e metade apresentam os indicadores Gastos com Pessoal maior do que este valor. O indicador Gasto com Pessoal médio entre os munícipios é 0,5835 e com desvio-padrão (dispersão) de 0, A mediana está relativamente próxima da média, o que por si só pode demonstrar uma maior simetria, entretanto não há intersecção entre os intervalos de confiança das duas. O valor mínimo é de 0,00 e o máximo de 1,00. 20

414 3.2.4 Variável: Investimentos Segue abaixo Figura 4 - Resumo do indicador Investimentos contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável Investimentos. Summary for Investimentos A nderson-darling Normality Test A -Squared 111,50 P-V alue < 0,005 Mean 0,60344 StDev 0,28091 V ariance 0,07891 Skew ness 0,04022 Kurtosis -1,21177 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,38000 Median 0, rd Q uartile 0,87000 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % C onfidence Interv al for StDev 0, , % Confidence Intervals Mean Median 0,56 0,57 0,58 0,59 0,60 0,61 Figura 4 - Resumo do indicador Investimentos - Forma: O Histograma nos permite verificar que se trata de uma distribuição assimétrica, o que é confirmado pelo P-Value muito menor do que 5% (p-value < 0,005) no teste de normalidade de Anderson-Darling. Este é um indicador financeiro que se propõe a medir a parcela de investimentos nos orçamentos municipais, sendo que, para tal, estabeleceu-se uma nota de corte de 20% da receita corrente líquida. A curva de densidade e o P-Value não nos permitem assumir que se trata de uma distribuição Normal. A distribuição tem dois picos, que um deles em torno de 0,99 à 1,00 com 1043 municípios, distribuídos em todas as regiões, com uma leve concentração no Sul e Sudeste, respectivamente 350 e 302, e outra em torno de 0,38, primeiro quartil, em decorrência do ajuste que foi com os munícipios que não tinham dados (304 munícipios). O Box-Plot e a análise dos 5 números, nos confirmam as observações acima. A linha da mediana está descentralizada na caixa principal do Box-Plot, entre o 1º e 3º, levemente para a esquerda. - Valores Atípicos: Não foram identificados valores atípicos identificados referentes ao indicador Investimentos. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos munícipios tem indicador de Investimentos menor do que 0,58 e metade apresentam os indicadores Investimentos maior do que este valor. O indicador Investimentos médio entre os munícipios é 0,60344 e com desvio-padrão (dispersão) de 0, A mediana está 21

415 relativamente próxima da média, o que por si só pode demonstrar uma certa simetria, entretanto, não há se quer intersecção entre os intervalos de confiança das duas. O valor mínimo é de 0,01 e o máximo de 1, Variável: Liquidez Segue abaixo Figura 5 - Resumo do indicador Liquidez contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável Liquidez. Summary for Liquidez A nderson-darling Normality Test A -Squared 257,90 P-V alue < 0,005 Mean 0,55130 StDev 0,37352 V ariance 0,13952 Skew ness -0,32281 Kurtosis -1,46980 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,19000 Median 0, rd Q uartile 0,91000 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,38059 Mean Median 0,550 0,575 0,600 0,625 0,650 0,675 Figura 5 - Resumo do indicador Liquidez - Forma: O Histograma nos permite verificar que se trata de uma distribuição assimétrica, o que é confirmado pelo P-Value muito menor do que 5% (p-value < 0,005) no teste de normalidade de Anderson-Darling. Este é um indicador financeiro que tem por objetivo verificar se o munícipio possui recursos financeiros suficientes para fazer frente ao montante de restos a pagar. Isto posto, primeiro pico apresenta 1029 municípios que estão postergando os pagamentos para o exercícios seguintes sem a devida cobertura, sendo que destes 557, mais da metade, são de unidades federativas da região nordeste. O segundo pico, em torno de 0,19 à 0,21 concentra 334 munícipios, decorrentes do ajuste que foi feito com 304 munícipios que não tinham dados, e assumiu-se os dados do primeiro quartil, 0,19. E, por fim, 531 munícipios tem as suas contas em dia, ou melhor, próximo do que o indicador aponta como ideal, entre 0,99 e 1,00. O Box-Plot e a análise dos 5 22

416 números, nos confirmam as observações acima. A linha da mediana está descentralizada na caixa principal do Box-Plot, entre o 1º e 3º, levemente para a direita. - Valores Atípicos: Não foram identificados valores atípicos identificados referentes ao indicador Liquidez. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos munícipios tem indicador de Liquidez menor do que 0,66 e metade apresentam os indicadores Liquidez maior do que este valor. O indicador Liquidez médio entre os munícipios é 0,55130 e desvio-padrão (dispersão) de 0, O valor mínimo é de 0,00 e o máximo de 1, Variável: Custo da Divida Segue abaixo Figura 6 - Resumo do indicador Custo da Dívida - contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável Custo da Divida. Summary for Custo da Dívida A nderson-darling Normality Test A -Squared 101,89 P-V alue < 0,005 Mean 0,81168 StDev 0,15803 V ariance 0,02497 Skew ness -1,28417 Kurtosis 2,49243 N ,00 0,14 0,28 0,42 0,56 0,70 0,84 0,98 Minimum 0, st Q uartile 0,73000 Median 0, rd Q uartile 0,92000 Maximum 1, % C onfidence Interv al for Mean 0, , % C onfidence Interv al for Median 0, , % Confidence Intervals 95% C onfidence Interv al for StDev 0, ,16103 Mean Median 0,810 0,815 0,820 0,825 0,830 0,835 0,840 Figura 6 - Resumo do indicador Custo da Dívida - Forma: O Histograma nos permite verificar que se trata de uma distribuição visivelmente assimétrica formando uma cauda alongada para a esquerda. Esta conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a distribuição não pode ser considerada uma normal, pois o P-Value é 5%. Este indicador avalia o peso dos encargos financeiros da dívida no que tange às receitas liquidas reais, cujo limite é de 13%. A distribuição tem dois picos, o primeiro é fruto do ajuste feito nos munícipios (304) que estavam sem dados neste indicador e, neste caso, assumiu-se o valor do terceiro 23

417 quartil. O segundo pico refere-se aos munícipios que estão dentro do que indicador aponta como ideal, acima de 0,99, cujo destaque fica para a região nordeste que possui 309 municipios dentro desta condição. Porém, alguns munícipios têm o indicador de Custo da Dívida muito alt o que faz com o gráfico se concentre para a direita. O Box-Plot e a análise dos 5 números, nos deixam ainda mais clara esta assimetria da distribuição. A posição da linha da mediana levemente deslocada do centro do quadrado principal do Box-Plot nos confirma estas afirmativas. - Valores Atípicos: Os valores atípicos identificados referentes ao indicador Custo da Dívida despontam na extremidade que apresentam os menores valores, de 0 à 0,44, sendo 153 munícipios com o indicador dentro desta faixa, sendo que destes 58 são munícipios de unidades da federação da região nordeste 56 do Sul. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem indicador de Custo da Dívida menor do que 0,84 e a outra metade dos indicadores de Custo da Dívida maior do que este valor. O indicador de Custo da Dívida médio entre os munícipios brasileiros é 0,81168, mas o desvio-padrão (medida de dispersão) é 0, O indicador de Custo da Dívida mínima é de 0,00 (menor valor possível), e a máxima de 1,00, demonstrando uma grande amplitude Variável: Emprego e Renda Segue abaixo Figura 7 - Resumo do indicador Emprego e Renda - contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável Emprego e Renda. As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que se trata de uma distribuição positivamente assimétrica tendendo um alongamento para a direita para a direita, o que é comum para variáveis que indiquem desempenho baixo e menores números dentro de toda a distribuição dos dados. Existe apenas uma corcova no gráfico. - Valores Atípicos: Há alguns valores atípicos que apresentam resultados muito baixos, concentrando no valor mínimo possível, zero, e muitos valores atípicos acima da curva (0,72208). Esta informação nos diz que existem municípios no Brasil que apresentam taxas de Emprego e Renda com valores extremos, acima da curva e alguns abaixo da curva. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem Emprego e Renda menor do que 0,37608, e que o indicador Emprego e Renda médio é de 0,40414 e o desvio-padrão (medida de dispersão) é de 0, A amplitude é a maior possível, atingindo os dois extremos da escala, 0 e 1. 24

418 Figura 7 - Resumo do indicador Emprego e Renda Variável: Educação Segue abaixo Figura 8 - Resumo do indicador Educação - contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável Educação. As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que se trata de uma distribuição que tende a ser simétrica, cujas medidas centrais estão no pico da curva, o que é comum para variáveis que indiquem desempenho regular. - Valores Atípicos: Há muitos valores atípicos de Educação, sendo que estes se concentram no lado inferior da escala. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem o indicador Educação menor do que 0,74595, sendo a média 0,74125 e o desvio-padrão (medida de dispersão) 0,11237, que denota em uma dispersão média para a questão. A amplitude é resultado do mínimo 0,37456 e máximo 1,

419 Figura 8 - Resumo do indicador Educação Variável: H6 Segue abaixo Figura 9 - Resumo do indicador H6 - contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável H6. As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que se trata de uma distribuição que tende a ser levemente assimétrica cujo pico concentra-se à direita, o que é comum para variáveis que indiquem desempenho médio para alto. A curva apresenta duas corcovas distintas, o que indica que temos um comportamento atípico da variabilidade sobre os dados de H6 - Valores Atípicos: Há muitos valores atípicos de H6, que se concentram no lado inferior (próximo de zero) da escala. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem H6 menor do que 0, O H6 médio é de 0,58610 e o desvio-padrão (medida de dispersão) é de 0,16020, que implica em uma dispersão média para H6. A amplitude desta variável é muita alta, atingindo ambos os extremos da escala, zero e um. 26

420 Figura 9 - Resumo do indicador H Variável: R1 Segue abaixo Figura 10 - Resumo do indicador R1 - contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável R1. As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que se trata de uma distribuição positivamente assimétrica, com um alongamento de cauda a direita, cujo pico concentra-se à esquerda, indicando uma concentração de munícipios com desempenho baixo. A curva apresenta algumas corcovas, sendo duas distintas, a primeira com maior pico e localizada fortemente à esquerda do gráfico e a outra no centro da escala.. - Valores Atípicos: Os dados de R1 não apresentam valores atípicos. - Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem R1 menor do que 0,25299, sendo que a média do indicador R1 é de 0,31059 e o desvio-padrão é de 0,22480, valor muito alto, que implica em uma dispersão alta para R1. 27

421 Figura 10 - Resumo do indicador R Variável: T1_2 Segue abaixo Figura 11 - Resumo do indicador T1_2 - contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável T1_2. As principais observações que podemos fazer são: - Forma: O Histograma nos permite verificar que se trata de uma distribuição aproximadamente simétrica, embora o gráfico apresente várias corcovas na sua distribuição. Indica que se trata de um desempenho regular. Os municípios apresentam uma regularidade na distribuição de frequência no nível de desenvolvimento. Existem várias corcovas no gráfico que nos mostra que existem realidades distintas nos dados analisados, ou seja, existem vários agrupamentos de tipos de municípios dentro do Brasil em relação a formalização dos empregos. - Valores Atípicos: Não há valores atípicos de T1_2. - Centro e Dispersão: A mediana nos indica que metade dos municípios tem o indicador T1_2 menor do que 0,57642, e a outra medida de tendência central, a média, é de 0, Quanto a dispersão, o desvio-padrão é de 0,20600 e a amplitude 1,0000, valor máximo possível neste caso, logo, pode-se dizer que esta variável tem uma dispersão alta. 28

422 Figura 11 - Resumo do indicador T1_ Variável: S1_1 Segue abaixo Figura 12 - Resumo do indicador S1_1 - contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável S1_1. As principais observações que podemos fazer são: - Forma: O Histograma tem um formato de despenhadeiro e nos permite identificar que se trata de uma distribuição positivamente assimétrica com uma cauda alongada para a direita. A concentração está na parte inferior da escala, ou seja, a maior parte das cidades possui valores baixos do indicador de S1_1, com uma queda abrupta, apresentando uma quantidade muito pequena de cidades que possuem um nível médio de S1_1 e quase nenhuma possuem um nível alto de S1_1. - Valores Atípicos: Há valores atípicos de S1_1, que apresentam taxas de S1_1 acima da curva. - Centro e Dispersão: Ambas as medidas de posição estão muito próximas de zero. A mediana nos indica que metade dos municípios tem S1_1 menor do que 0,03774, enquanto a média nos aponta um valor de 0, O desvio-padrão, como medida de dispersão, é de 0,04285, que implica em uma dispersão baixa do índice de S1_1. 29

423 Figura 12 - Resumo do indicador S1_ Variável: E2_4 Segue abaixo Figura 13 - Resumo do indicador E2_4 - contendo: Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da média e mediana, além das medidas numéricas como média, desvio-padrão, variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável E2_4. As principais observações que podemos fazer são: - Forma: o histograma nos permite verificar que se trata de uma distribuição negativamente assimétrica com uma cauda alongada para a esquerda. A curva apresenta diversas corcovas, pelo quais podemos inferir que temos realidades diferentes sobre a questão da série correta dos alunos. - Valores Atípicos: Os valores atípicos do indicador E2_4 se concentram no lado esquerdo, mais próximos de zero, ou seja, representam municípios cujas crianças não estão na série correta - Centro e Dispersão: A mediana nos indica que metade dos municípios tem o indicador E2_4 menor do que ou igual a 0,76989, e que a média deste indicador é de 0, No que tange a dispersão, o desvio-padrão é de 0,16363 e a amplitude é alta, 1,0000, que implica em uma dispersão grande para a questão. 30

424 Figura 13 - Resumo do indicador E2_4 31

425 RELAÇÃO ENTRE VARIÁVEIS 4 RELAÇÃO ENTRE VARIÁVEIS: CORRELAÇÃO, REGRESSÃO E TESTE QUI- QUADRADO 4.1 Gráficos de dispersão com LINHAS DE TENDÊNCIAS A proposta do gráfico de dispersão é que por meio de sua simples observação, em muitos casos, permite inferir sobre uma possível forma de correlação entre duas variáveis. Neste estudo analisaremos por meio do gráfico de dispersão a correlação da variável IFGF com outras seis variáveis (Liquidez; Investimentos; Gastos com Pessoal; Receita Própria; R1 e T1_2), e o mesmo também com a variável Emprego e Renda (EeR) e outras seis variáveis (Receita Própria; T1_2; R1; Edu; E2_4 e IFGF), assim como com a variável Educação (Edu) versus outras 6 variáveis (E2_4; R1; T1_2; H6; Receita Própria e IFGF) Scatterplot of Liq; Inv; Pes; ReP; R1i; T1_2i vs IFGF Gráfico 5 Gráficos de dispersão Liq; Inv; Pes; ReP; R1i; T1_2i vs IFGF Nos gráficos acima (Gráfico 5) pode-se observar, apesar da grande concentração de pontos que existe uma correlação entre os indicadores de gestão fiscal (Liq, Inv, Pes, ReP), sendo todas positivas, ou seja, diretamente proporcional, e o maior o nível de correlação no indicador Liquidez (Liq). Com T1_2 e R1 além de baixa, no caso de R1 é inversaemente proporcional. 32

426 4.1.2 Scatterplot of ReP; T1_2i; R1i; Edu; E2_4i; IFGF vs (EeR) Emprego e Renda Gráfico 6 - Gráficos de dispersão ReP; T1_2i; R1i; Edu; E2_4i; IFGF vs (EeR) Emprego e Renda No caso da variável Emprego e Renda observa-se um baixo nível de correlação entre as variáveis escolhidas para análise, com exceção da variável Receita Própria (ReP), a qual é diretamente proporcional 33

427 4.1.3 Scatterplot of E2_4i; R1i; T1_2i; H6i; ReP; IFGF vs Edu (Educação) Gráfico 7 - Gráficos de dispersão E2_4i; R1i; T1_2i; H6i; ReP; IFGF vs Edu (Educação) Embora a grande concentração de pontos e pontos atípicos possam dificultar a análise, percebe-se que com as variáveis E2_4, R1, T1_2 e H6 as correlações tem um nível maior e apresenta um comportamento positivo, com exceção de R1 que apresenta uma correlação negativa. As demais, variáveis de Gestão Fiscal, não apresentam ou apresentam um nível muito baixo de correlação. 4.2 Correlação Linear A matriz de correlação inclui um valor que varia de zero a um, sendo que quanto mais próximo de um, maior é o nível de correlação. Os sinais de positivo e negativo, respectivamente, indicam se a correlação é positiva ou negativa. Foi identificado em amarelo as correlações entre variáveis que apresentaram uma relação mais significativa. Vale ressaltar que o índice de correlação entre as variáveis não requer que exista uma relação de causaefeito entre ambas. 34

428 4.2.1 Correlations: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu;... IFGF ReP Pes Inv Liq CD EeR Edu H6i ReP 0,463 0,000 Pes 0,594 0,159 0,000 0,000 Inv 0,602 0,074 0,242 0,000 0,000 0,000 Liq 0,766 0,229 0,266 0,173 0,000 0,000 0,000 0,000 CD 0,184-0,098 0,069 0,094 0,110 0,000 0,000 0,000 0,000 0,000 EeR 0,330 0,639 0,135 0,037 0,197-0,066 0,000 0,000 0,000 0,006 0,000 0,000 Edu 0,386 0,403 0,217 0,209 0,234 0,034 0,377 0,000 0,000 0,000 0,000 0,000 0,011 0,000 H6i 0,327 0,214 0,251 0,153 0,260-0,024 0,211 0,552 0,000 0,000 0,000 0,000 0,000 0,076 0,000 0,000 R1i -0,455-0,512-0,268-0,180-0,308 0,030-0,509-0,753-0,709 0,000 0,000 0,000 0,000 0,000 0,027 0,000 0,000 0,000 T1_2i 0,429 0,560 0,217 0,126 0,302-0,048 0,586 0,609 0,449 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 S1_1i -0,066-0,071-0,042-0,024-0,049 0,011-0,077-0,122-0,115 0,000 0,000 0,002 0,073 0,000 0,412 0,000 0,000 0,000 E2_4i 0,420 0,396 0,274 0,231 0,263-0,016 0,363 0,765 0,613 0,000 0,000 0,000 0,000 0,000 0,225 0,000 0,000 0,000 R1i T1_2i S1_1i T1_2i -0,782 0,000 S1_1i 0,140-0,112 0,000 0,000 E2_4i -0,768 0,599-0,128 0,000 0,000 0,000 Cell Contents: Pearson correlation P-Value 4.3 Regressão dos mínimos quadrados A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas variáveis quantitativas. Se um diagrama de dispersão mostra uma relação linear, é interessante resumirmos esse padrão geral traçando uma reta no diagrama de dispersão. Uma reta de regressão resume a relação entre duas variáveis, mas somente em um contexto específico: 35

429 quando uma das variáveis ajuda a explicar ou a predizer a outra, ou seja, a regressão descreve uma relação entre uma variável explanatória e uma variável resposta. Neste estudo, apresentaremos a regressão para três pares de variáveis: IFGF e Liquidez (Liq), Emprego e Renda (EeR) e Receita própria (ReP), e, também, Educação (Edu) e E2_4. Sendo que a relação analisada é das variáveis: Liquidez (Liq), Receita Própria (ReP) e E2_4, respectivamente, como explanatórias (independente) de IFGF, Emprego e Renda (EeR) e Educação (Edu) como variáveis respostas (dependente). Segue abaixo o resultado da regressão dos três grupos de variáveis e suas respectivas equações das retas Regression Analysis: IFGF versus LIQ The regression equation is IFGF = 0, ,303 LIQ Predictor Coef SE Coef T P Constant 0, , ,19 0,000 LIQ 0, , ,90 0,000 S = 0, R-Sq = 58,7% R-Sq(adj) = 58,7% Analysis of Variance Source DF SS MS F P Regression 1 71,431 71, ,34 0,000 Residual Error ,285 0,009 Total , Regression Analysis: EeR versus ReP The regression equation is EeR = 0, ,523 ReP Predictor Coef SE Coef T P 36

430 Constant 0, , ,78 0,000 ReP 0, , ,95 0,000 S = 0, R-Sq = 40,8% R-Sq(adj) = 40,8% Analysis of Variance Source DF SS MS F P Regression 1 54,727 54, ,91 0,000 Residual Error ,327 0,014 Total , Regression Analysis: Edu versus E2_4i The regression equation is Edu = 0, ,526 E2_4i Predictor Coef SE Coef T P Constant 0, , ,10 0,000 E2_4i 0, , ,67 0,000 S = 0, R-Sq = 58,6% R-Sq(adj) = 58,6% Analysis of Variance Source DF SS MS F P Regression 1 41,141 41, ,46 0,000 Residual Error ,109 0,005 Total ,251 37

431 4.4 Dendrograma Gráfico 8 - Dendrograma das 13 variáveis Cluster Analysis of Variables: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu;... Correlation Coefficient Distance, Single Linkage Amalgamation Steps Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,3036 0, ,2635 0, ,9472 0, ,6440 0, ,4258 0, ,0923 0, ,6758 0, ,2961 0, ,1337 0, ,1964 0, ,0157 0, ,4793 0,

432 ANÁLISE DE REGRESSÃO E STEPWISE 5 REGRESSÕES MULTIPLAS 5.1 Regressão Stepwise Stepwise Regression: IFGF versus Liq; Inv;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is IFGF on 12 predictors, with N = 5565 Step Constant 0, , , , , ,03361 Liq 0, , , , , ,21605 T-Value 88,90 116,18 145,67 238,95 279,10 276,20 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 Inv 0,2547 0,2194 0,2174 0,2139 0,2142 T-Value 82,36 100,86 182,44 214,54 214,67 P-Value 0,000 0,000 0,000 0,000 0,000 Pes 0,2514 0,2315 0,2286 0,2298 T-Value 78,59 131,49 155,52 154,47 P-Value 0,000 0,000 0,000 0,000 ReP 0,2002 0,2100 0,2110 T-Value 113,92 141,94 141,50 P-Value 0,000 0,000 0,000 CD 0,0861 0,0856 T-Value 49,29 49,08 P-Value 0,000 0,000 H6i -0,0086 T-Value -4,79 P-Value 0,000 S 0,0951 0,0638 0,0439 0,0241 0,0201 0,0200 R-Sq 58,69 81,39 91,18 97,36 98,16 98,17 R-Sq(adj) 58,68 81,38 91,18 97,35 98,16 98,17 Mallows Cp , , ,3 2489,2 44,9 23,9 39

433 5.1.2 Stepwise Regression: EeR versus IFGF; ReP;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is EeR on 12 predictors, with N = 5565 Step Constant 0,2815 0,1759 0,1926 0,3017 0,3163 0,3457 ReP 0,5231 0,3707 0,3688 0,3520 0,3517 0,3527 T-Value 61,95 38,97 38,78 36,19 36,20 36,31 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 T1_2i 0,2505 0,2666 0,2085 0,2079 0,2089 T-Value 28,61 27,87 16,95 16,93 17,01 P-Value 0,000 0,000 0,000 0,000 0,000 H6i -0,043-0,111-0,109-0,103 T-Value -4,14-8,03-7,91-7,37 P-Value 0,000 0,000 0,000 0,000 R1i -0,106-0,111-0,128 T-Value -7,45-7,78-8,24 P-Value 0,000 0,000 0,000 Inv -0,0229-0,0207 T-Value -4,26-3,81 P-Value 0,000 0,000 E2_4i -0,040 T-Value -2,79 P-Value 0,005 S 0,119 0,111 0,111 0,111 0,111 0,111 R-Sq 40,82 48,42 48,58 49,08 49,25 49,32 R-Sq(adj) 40,81 48,40 48,55 49,05 49,20 49,27 Mallows Cp 924,6 94,4 79,0 25,3 9,2 3,4 40

434 5.1.3 Stepwise Regression: Edu versus IFGF; ReP;... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15 Response is Edu on 12 predictors, with N = 5565 Step Constant 0,3563 0,5743 0,5445 0,5196 0,5172 0,5230 E2_4i 0,5255 0,3133 0,3127 0,3128 0,3084 0,3108 T-Value 88,67 36,98 37,05 37,12 36,23 36,42 P-Value 0,000 0,000 0,000 0,000 0,000 0,000 R1i -0,2012-0,2023-0,1805-0,1800-0,1818 T-Value -32,63-32,93-22,94-22,90-23,09 P-Value 0,000 0,000 0,000 0,000 0,000 CD 0,0382 0,0392 0,0372 0,0384 T-Value 6,77 6,95 6,58 6,78 P-Value 0,000 0,000 0,000 0,000 T1_2i 0,0305 0,0310 0,0314 T-Value 4,44 4,51 4,58 P-Value 0,000 0,000 0,000 Inv 0,0113 0,0134 T-Value 3,49 4,07 P-Value 0,000 0,000 Pes -0,0165 T-Value -3,43 P-Value 0,001 S 0,0723 0,0663 0,0660 0,0659 0,0658 0,0658 R-Sq 58,56 65,22 65,50 65,63 65,70 65,77 R-Sq(adj) 58,56 65,21 65,49 65,60 65,67 65,74 Mallows Cp 1178,3 97,7 53,5 35,7 25,5 15,7 41

435 5.2 Regressão Múltiplas Primeiramente, foi feita a regressão com os indicadores que apresentaram correlação maior do 0,3000 com IFGF (Liq + Inv + Pes + ReP + R1i + T1_2i - E2_4i + Edu +086 EeR). Encontramos, como resultado da equação, alguns indicadores que tem uma participação maior (todos os relacionados com Gestão Fiscal CD) e outros praticamente inexpressivos para explicar o IFGF Regression Analysis: IFGF versus Liq; Inv;... The regression equation is IFGF = 0, ,220 Liq + 0,218 Inv + 0,233 Pes + 0,201 ReP + 0,00187 R1i + 0,00215 T1_2i - 0,0166 E2_4i + 0,0173 Edu + 0,00086 EeR Predictor Coef SE Coef T P Constant 0, , ,97 0,000 Liq 0, , ,20 0,000 Inv 0, , ,19 0,000 Pes 0, , ,42 0,000 ReP 0, , ,08 0,000 R1i 0, , ,62 0,538 T1_2i 0, , ,79 0,429 E2_4i -0, , ,78 0,000 Edu 0, , ,55 0,000 EeR 0, , ,30 0,766 S = 0, R-Sq = 97,4% R-Sq(adj) = 97,4% Analysis of Variance Source DF SS MS F P Regression 9 118,515 13, ,40 0,000 Residual Error ,202 0,001 Total ,717 Source DF Seq SS Liq 1 71,431 Inv 1 27,631 Pes 1 11,922 ReP 1 7,514 R1i 1 0,002 T1_2i 1 0,001 E2_4i 1 0,007 Edu 1 0,007 EeR 1 0, Regression Analysis: IFGF versus Liq; Inv; Pes; ReP 42

436 Na Segunda tentativa, expurgando os dados da última análise que não faziam parte dos indicadores de gestão fiscal ((Liq + Inv + Pes + ReP), basicamente, mantivemos o mesmo nível explicativo da equação (97,4%). The regression equation is IFGF = 0, ,220 Liq + 0,217 Inv + 0,232 Pes + 0,200 ReP Predictor Coef SE Coef T P Constant 0, , ,99 0,000 Liq 0, , ,95 0,000 Inv 0, , ,44 0,000 Pes 0, , ,49 0,000 ReP 0, , ,92 0,000 S = 0, R-Sq = 97,4% R-Sq(adj) = 97,4% Analysis of Variance Source DF SS MS F P Regression 4 118,498 29, ,29 0,000 Residual Error ,219 0,001 Total ,717 Source DF Seq SS Liq 1 71,431 Inv 1 27,631 Pes 1 11,922 ReP 1 7,514 R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large leverage Regression Analysis: EDUCAÇÀO e RENDA (EeR) versus ReP; T1_2i; R1i; Edu; E2_4i; IFGF The regression equation is EeR = 0, ,375 ReP + 0,228 T1_2i - 0,0751 R1i - 0,0286 Edu - 0,0516 E2_4i - 0,0321 IFGF Predictor Coef SE Coef T P Constant 0, , ,86 0,000 ReP 0, , ,55 0,000 T1_2i 0, , ,77 0,000 R1i -0, , ,37 0,000 Edu -0, , ,27 0,205 E2_4i -0, , ,23 0,001 IFGF -0, , ,68 0,007 S = 0, R-Sq = 48,8% R-Sq(adj) = 48,7% 43

437 Analysis of Variance Source DF SS MS F P Regression 6 65,380 10, ,90 0,000 Residual Error ,674 0,012 Total ,054 Source DF Seq SS ReP 1 54,727 T1_2i 1 10,179 R1i 1 0,102 Edu 1 0,127 E2_4i 1 0,155 IFGF 1 0, Regression Analysis: EDUCAÇÀO e RENDA versus ReP; T1_2i The regression equation is EeR = 0, ,371 ReP + 0,251 T1_2i EeR = 0, ,371 ReP + 0,251 T1_2i Predictor Coef SE Coef T P Constant 0, , ,08 0,000 ReP 0, , ,97 0,000 T1_2i 0, , ,61 0,000 S = 0, R-Sq = 48,4% R-Sq(adj) = 48,4% Analysis of Variance Source DF SS MS F P Regression 2 64,906 32, ,41 0,000 Residual Error ,148 0,012 Total ,054 Source DF Seq SS ReP 1 54,727 T1_2i 1 10, Regression Analysis: EDUCAÇÃO versus E2_4i; R1i; T1_2i; H6i; ReP; IFGF; EeR The regression equation is Edu = 0, ,314 E2_4i - 0,187 R1i + 0,0263 T1_2i - 0,0122 H6i + 0,00813 ReP + 0,00572 IFGF - 0,0112 EeR Edu = 0, ,314 E2_4i - 0,187 R1i + 0,0263 T1_2i - 0,0122 H6i + 0,00813 ReP + 0,00572 IFGF - 0,0112 EeR Predictor Coef SE Coef T P Constant 0, , ,84 0,000 E2_4i 0, , ,33 0,000 R1i -0, , ,92 0,000 44

438 T1_2i 0, , ,48 0,001 H6i -0, , ,45 0,148 ReP 0, , ,21 0,226 IFGF 0, , ,80 0,424 EeR -0, , ,40 0,161 S = 0, R-Sq = 65,4% R-Sq(adj) = 65,3% Analysis of Variance Source DF SS MS F P Regression 7 45,9176 6, ,05 0,000 Residual Error ,3331 0,0044 Total ,2507 Source DF Seq SS E2_4i 1 41,1415 R1i 1 4,6758 T1_2i 1 0,0752 H6i 1 0,0094 ReP 1 0,0040 IFGF 1 0,0031 EeR 1 0, Regression Analysis: Edu versus E2_4i; R1i The regression equation is Edu = 0, ,313 E2_4i - 0,201 R1i Edu = 0, ,313 E2_4i - 0,201 R1i Predictor Coef SE Coef T P Constant 0, , ,38 0,000 E2_4i 0, , ,98 0,000 R1i -0, , ,63 0,000 S = 0, R-Sq = 65,2% R-Sq(adj) = 65,2% Analysis of Variance Source DF SS MS F P Regression 2 45,817 22, ,91 0,000 Residual Error ,433 0,004 Total ,251 Source DF Seq SS E2_4i 1 41,141 R1i 1 4,676 45

439 COMPARAÇÕES 6 COMPARAÇÕES - ANOVA 6.1 Variável IFGF por Região Gráfico 9 Boxplot de IFGF por Região A região Sul possui o maior IFGF do país, o que indica que esta é a região melhor gestão fiscal do Brasil, segundo a pesquisa. A região Sudeste e Centro Oeste encontram-se próxima a região Sul, e ocupam, empatadas, o segundo lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região Nordeste. Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da região Norte, apesar da pequena diferença, a maior variabilidade de quando comparo com os dados das demais regiões. A região que possui menor variabilidade dos dados é a Sul..O P- value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. IFGF One-way ANOVA: IFGF versus Região 46

440 Source DF SS MS F P Região 4 29,5975 7, ,60 0,000 Error ,1194 0,0166 Total ,7169 S = 0,1287 R-Sq = 24,32% R-Sq(adj) = 24,26% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,5590 0,1286 (-*-) Nordeste ,4274 0,1305 (*) Norte 447 0,5229 0,1395 (-*-) Sudeste ,5619 0,1288 (*) Sul ,6154 0,1215 (-*) ,420 0,480 0,540 0,600 Pooled StDev = 0,1287 O grau de variação entre as Regiões é muito alto (2369), e o P-value nos indica que a informação é confiável e não existe chance deste valor ser diferente. 47

441 6.2 Variável Receita Própria por Região Gráfico 10 - Boxplot de Receita Própria por Região A média para a RECEITA PRÓPRIA é maior para a região Sudeste, sendo que fica muito próximo da região Sul e Centro-Oeste, diferente do resultado do IFGF, que aponta o Sul com o melhor IFGF. As menores RECEITAS PRÓPRIAS estão para a região Norte e Nordeste. Nota-se um diferença sensível entre a média e mediana, sendo a primeira maior. Está diferença é explicada pela grande quantidade de outlier (pontos fora da curva) que são muitos e estão muito acima da média em todas as regiões..o P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: Receita Própria versus Região Source DF SS MS F P Região 4 30,6761 7, ,78 0,000 Error ,3519 0,0305 Total ,0281 S = 0,1745 R-Sq = 15,34% R-Sq(adj) = 15,28% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,2824 0,1736 (--*---) Nordeste ,1366 0,1142 (*-) 48

442 Norte 447 0,1749 0,1545 (--*--) Sudeste ,3013 0,2153 (*-) Sul ,2881 0,1922 (-*-) ,150 0,200 0,250 0,300 Pooled StDev = 0,1745 O grau de variação entre as Regiões é baixo (251,78), e ainda menor que o do IFGF e o P- value nos indica que a informação é confiável e não existe chance deste valor ser diferente. O F de 251,78 é aproximadamente a metade do F do IFGF, o que mostra que a variabilidade entre as regiões é menor na RECEITA PRÓPRIA comparada com o IFGF..O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. 6.3 Variável Pessoal (Gastos com Pessoal) por Região Gráfico Boxplot de Gastos com Pessoal por Região No indicador de PESSOAL, podemos verificar que a Região Sul possui o maior índice de PESSOAL médio (0,6739), e seguida de perto pelas regiões Sudeste (0,6019) e Centro-Oeste (0,5903), e os menores índices médios são o da Região Norte (0,5803) e (da Nordeste (0,5042). 49

443 Podemos constatar também uma similaridade entre os resultados dos indicadores IFGF e Receita Própria com os índices de PESSOAL..O P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: Pessoal versus Região Source DF SS MS F P Região 4 21,6257 5, ,90 0,000 Error ,8090 0,0347 Total ,4347 S = 0,1862 R-Sq = 10,08% R-Sq(adj) = 10,02% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,5947 0,1716 (--*--) Nordeste ,5042 0,2441 (-*-) Norte 447 0,5803 0,2107 (--*---) Sudeste ,6019 0,1470 (*-) Sul ,6739 0,1181 (-*-) ,500 0,550 0,600 0,650 Pooled StDev = 0, Variável Investimentos por Região Gráfico Boxplot de Investimeto por Região 50

444 Pode-se observar que o índice de INVESTIMENTOS em média, é maior na região Sul, e, apesar do índice, na região Sudeste ser o segundo melhor, tem a melhor distribuição de todo o território nacional, a despeito de concentrar o maior número de munícipios, pois tem o menor nível de dispersão..o P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. One-way ANOVA: Investimentos versus Região Source DF SS MS F P Região 4 31,1085 7, ,99 0,000 Error ,9619 0,0734 Total ,0704 S = 0,2709 R-Sq = 7,09% R-Sq(adj) = 7,02% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,5636 0,2910 (---*---) Nordeste ,5057 0,2732 (-*-) Norte 447 0,6268 0,2923 (---*----) Sudeste ,6495 0,2492 (-*-) Sul ,6927 0,2799 (-*--) ,540 0,600 0,660 0,720 Pooled StDev = 0, Variável Liquidez, por Região O índice de LIQUIDEZ da região Sul é melhor tanto do ponto vista da melhor média e mediana - que é muito alta, como pelo fato de ter o menor nível de disparidade (baixa dispersão 0,3085) quando comparado com as demais regiões. Por outro lado, as regiões Nordeste e Norte são destaques negativos, a primeira pela pior média de investimentos e segunda maior dispersão dos índices de investimentos, enquanto a outra tem a segunda pior média de investimento e a maior dispersão. Destaque, também negativo, para a região Sudeste que tem valores muito próximos da região, que chama muito a atenção pelo alto nível de investimento privado e de atividades econômicas..o P-value = 0 nos indica que a informação é confiável e não existe chance deste valor ser diferente. 51

445 Gráfico 13 - Boxplot de Liquidez por Região. One-way ANOVA: Liquidez versus Região Source DF SS MS F P Região 4 99,409 24, ,15 0,000 Error ,864 0,122 Total ,273 S = 0,3489 R-Sq = 12,81% R-Sq(adj) = 12,74% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,6540 0,3420 (--*---) Nordeste ,3822 0,3592 (*-) Norte 447 0,5408 0,3850 (--*--) Sudeste ,5719 0,3565 (*-) Sul ,7402 0,3085 (-*-) ,40 0,50 0,60 0,70 Pooled StDev = 0,

446 6.6 Variável Custo da Divida Gráfico Boxplot de Custo da Divida por Região Todas as regiões possuem dados fora da curva de distribuição, exclusivamente abaixo, e que fogem do padrão. Outro fator que chama a atenção é o fato do F ser muito baixo, fato este que indica a uniformidade entre as regiões e pode percebida visualmente nos gráficos. O destaque positivo referente ao índice da região Norte, pode ser justificado pelo baixo nível de investimento. One-way ANOVA: Custo da Dívida versus Região Source DF SS MS F P Região 4 5,7471 1, ,97 0,000 Error ,2111 0,0240 Total ,9582 S = 0,1548 R-Sq = 4,14% R-Sq(adj) = 4,07% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,8579 0,1377 (---*---) Nordeste ,8089 0,1666 (-*-) Norte 447 0,8598 0,1329 (---*---) Sudeste ,8265 0,1402 (-*-) Sul ,7588 0,1692 (--*-) ,770 0,805 0,840 0,875 Pooled StDev = 0,

447 6.7 Variável Emprego e Renda One-way ANOVA: EeR versus Região_1 Source DF SS MS F P Região_1 4 17,7937 4, ,74 0,000 Error ,2605 0,0209 Total ,0542 S = 0,1446 R-Sq = 13,27% R-Sq(adj) = 13,21% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,4174 0,1389 (--*---) Nordeste ,3348 0,1288 (-*) Norte 447 0,3415 0,1419 (--*---) Sudeste ,4491 0,1680 (*-) Sul ,4620 0,1344 (--*-) ,360 0,400 0,440 0,480 Pooled StDev = 0,1446 Boxplot of EeR Gráfico 15 - Boxplot de Emprego e Renda por Região No indicador de Emprego e Renda, podemos verificar que a Região Sul possui o maior índice Médio (0,4624), e seguida da Região Sudeste, e o menor índice é o da Região Nordeste (0,3348). A maior dispersão, segundo o desvio padrão, é da Região Sudeste, 0,

448 6.8 Variável Educação One-way ANOVA: Edu versus Região_1 Source DF SS MS F P Região_1 4 35, , ,69 0,000 Error , ,00619 Total ,25070 S = 0,07868 R-Sq = 51,00% R-Sq(adj) = 50,96% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0, ,07162 (*-) Nordeste , ,08127 *) Norte 447 0, ,08599 (*) Sudeste , ,08138 (*) Sul , ,07021 (*) ,660 0,720 0,780 0,840 Pooled StDev = 0,07868 Boxplot of Edu Gráfico 16 - Boxplot de Educação por Região No indicador de Educação, observa-se que a Região Sudeste possui o maior índice de Educação (0,83427), e seguida da Região Sul, e o menor índice é o da Região Norte (0,63739). A maior dispersão, segundo os desvios padrões, está na Região Norte, entretanto, a diferença é bem pequena. 55

449 6.9 Variável H6 One-way ANOVA: H6i versus Região_1 Source DF SS MS F P Região_1 4 73, , ,35 0,000 Error ,3446 0,0125 Total ,7976 S = 0,1117 R-Sq = 51,44% R-Sq(adj) = 51,40% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,6321 0,1147 (*) Nordeste ,4774 0,1044 (* Norte 447 0,3725 0,1728 (*) Sudeste ,6421 0,1065 *) Sul ,7330 0,0983 *) ,40 0,50 0,60 0,70 Pooled StDev = 0,1117 Boxplot of H6i Gráfico 17 - Boxplot de H6 por Região Na matriz e no Gráfico 17 - Boxplot de H6 por Região pode-se observar que a Região Sul possui a maior média (0,7330), seguida pela da Região Sudeste. Já o menor índice é o da Região Norte (0,3725), assim como a maior dispersão, segundo o desvio padrão, 0,

450 6.10 Variável R1 One-way ANOVA: R1i versus Região_1 Source DF SS MS F P Região_ , , ,34 0,000 Error ,8304 0,0172 Total ,1720 S = 0,1313 R-Sq = 65,92% R-Sq(adj) = 65,89% Level N Mean StDev Centro-Oeste 468 0,1925 0,1171 Nordeste ,5388 0,1346 Norte 447 0,5026 0,1928 Sudeste ,1777 0,1339 Sul ,1281 0,0940 Individual 95% CIs For Mean Based on Pooled StDev Level Centro-Oeste (*) Nordeste (* Norte (*) Sudeste (* Sul (* ,12 0,24 0,36 0,48 Pooled StDev = 0,1313 Boxplot of R1i Gráfico 18 - Boxplot de R1 por Região No indicador de R1, verifica-se que a Região Sul possui a menor média (0,1281), seguida pela Região Sudeste, e que o maior índice é o da Região Nordeste (0,5388). Neste caso a informação diz que a Renda é abaixo da linha da pobreza, então quanto menor melhor. 57

451 6.11 Variável T1-2 One-way ANOVA: T1_2i versus Região_1 Source DF SS MS F P Região_ , , ,67 0,000 Error ,4330 0,0240 Total ,1162 S = 0,1549 R-Sq = 43,49% R-Sq(adj) = 43,45% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,5930 0,1337 (*-) Nordeste ,3928 0,1510 *) Norte 447 0,4486 0,1542 (-*) Sudeste ,6581 0,1782 (*) Sul ,7203 0,1321 (*) ,40 0,50 0,60 0,70 Pooled StDev = 0,1549 Boxplot of T1_2i Gráfico 19 - Boxplot de T1_2 por Região Na matriz de T1_2 e no Gráfico 19 - Boxplot de T1_2 por Região, verifica-se que a Região Sul possui a maior média (0,7203), seguida da Região Sudeste, e que a menor média é a da Região Nordeste (0,3928). 58

452 6.12 Variável S1_1 One-way ANOVA: S1_1i versus Região_1 Source DF SS MS F P Região_1 4 0, , ,14 0,000 Error , ,00181 Total ,21404 S = 0,04249 R-Sq = 1,71% R-Sq(adj) = 1,64% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0, ,05074 (-----*----) Nordeste , ,03271 (--*--) Norte 447 0, ,04539 (----*-----) Sudeste , ,04173 (--*--) Sul , ,05104 (---*--) ,0350 0,0420 0,0490 0,0560 Pooled StDev = 0,04249 Boxplot of S1_1i Gráfico 20 - Boxplot de S1_1 por Região No Gráfico 20 - Boxplot de S1_1 por Região e na matriz, verifica-se que a Região Sul possui a menor média (0,03467) entre as regiões, seguida da Região Sudeste, e que a maior médiae é a da Região Norte (0,5346). Neste caso a informação diz que a mortalidade infantil, então quanto menor melhor. Chama a atenção, apesar da concentração próxima dos valores mínimos da escala, é a quantidade de outlier em todas as regiões. 59

453 6.13 Variável E2-4 One-way ANOVA: E2_4i versus Região_1 Source DF SS MS F P Região_1 4 76, , ,82 0,000 Error ,1806 0,0130 Total ,9736 S = 0,1139 R-Sq = 51,55% R-Sq(adj) = 51,51% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 468 0,8011 0,0887 (*-) Nordeste ,5881 0,1298 (*) Norte 447 0,5969 0,1841 (*-) Sudeste ,8245 0,1017 (*) Sul ,8444 0,0711 (*) ,630 0,700 0,770 0,840 Pooled StDev = 0,1139 Boxplot of E2_4i Gráfico 21 - Boxplot de E2_4 por Região A maior dispersão, segundo o desvio padrão, é o da Região Norte (0,1841), e o pior desempenho, com a menor média é da Região Nordeste, e a região que apresenta a maior média de E2_4 é a Sul (0,8444), seguida pela da Região Sudeste. 60

454 6.14 Resumo das variáveis Figura 14 - Quadro resumo das comparações das variáveis quantitativas No Figura 14 - Quadro resumo das comparações das variáveis quantitativas, observa-se, tanto nos indicadores de Gestão Fiscal quanto nos de Desenvolvimento, salvo poucas exceções, um melhor desempenho nas Regiões Sul e Sudeste, acompanhado de perto pela Região Centro- Oeste, e os piores desempenhos na Região Norte e Nordeste. 61

455 7 AMOSTRAGEM Neste estudo, realizou-se uma amostragem aleatória por meio do software Minitab16 de um universo de 5565 indivíduos, obtendo-se uma amostra de 50 indivíduos e outra de 100 indivíduos. A partir dessas amostras se estabeleceu comparações entre o universo e as amostras de 50 e 100 para as variáveis IFGF, Emprego e Renda e Educação. Por meio de duas ferramentas estatísticas: Estatística Descritiva e Analise de Variância (ANOVA), Observou-se um comportamento muito próximo tanto nas médias, como nas curvas de distribuição. E, apesar de um p alto (acima de 10%) em todos os casos, nota-se que trabalhar com amostragem é viável em todos os casos. Figura 15 - Analise de variância entre IFGF, IFGF100 e IFGF50 Figura Analise de variância entre EeR, EeR100 e EeR50. Figura Analise de variância entre Edu, Edu100 e Edu50 62

456 7.1 Quadro Resumo: Amostragem IFGF Figura 18 - Quadro resumo comparativo do universo e das amostras 100 e 50 indivíduos - IFGF 63

457 7.2 Quadro Resumo: Amostragem Emprego e Renda Figura 19 - Quadro resumo comparativo do universo e das amostras 100 e 50 indivíduos - Emprego e Renda [EeR] 64

458 7.3 Qaudro Resumo: Amostragem Educação Figura 20- Quadro resumo comparativo do universo e das amostras 100 e 50 indivíduos - Educação [Edu] 65

459 ANÁLISE MULTIVARIADA COMPONENTES PRINCIPAIS 8 ANÁLISE MULTIVARIADA COMPONENTES PRINCIPAIS Esta parte do estudo efetuará analisa as correlações e os componentes principais (análise multivariada) dos dados quantitativos de gestão Fiscal e de Desenvolvimento dos Municípios do Brasil. 8.1 Dendograma Cluster Analysis of Variables: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu;... Correlation Coefficient Distance, Single Linkage Amalgamation Steps Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,3036 0, ,2635 0, ,9472 0, ,6440 0, ,4258 0, ,0923 0, ,6758 0, ,2961 0, ,1337 0, ,1964 0, ,0157 0, ,4793 0, Final Partition Cluster 1 IFGF Pes Inv Liq Cluster 2 ReP EeR Edu H6i T1_2i E2_4i Cluster 3 CD Cluster 4 R1i Cluster 5 S1_1i 66

460 Gráfico 22 - Dendrograma das Variáveis Quantitativas Nota-se Gráfico 22 - Dendrograma das Variáveis Quantitativas- que houve uma divisão em dois grupos, com similaridades muito próximas, em torno de 80%, a saber: Gestão Fiscal (IFGF, Pes, Inv e Liq) e Desenvolvimento dos munícipios mais Receita Própria (ReP, EeR, Edu, H6i, T1_2i e E2_4i). Os indicadores CD (custo da dívida) e R1 e S1_1 ficaram isolados e com um nível de similaridade pouco expressiva. 8.2 Componentes Principais Principal Component Analysis: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu; H6i; R1i; Principal Component Analysis: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu; H6i; R1i; Eigenanalysis of the Correlation Matrix Eigenvalue 5,1005 1,7419 1,2138 0,9680 0,9299 0,8118 0,7206 0,4363 Proportion 0,392 0,134 0,093 0,074 0,072 0,062 0,055 0,034 Cumulative 0,392 0,526 0,620 0,694 0,766 0,828 0,884 0,917 Eigenvalue 0,3856 0,3311 0,2254 0,1239 0,0111 Proportion 0,030 0,025 0,017 0,010 0,001 Cumulative 0,947 0,972 0,990 0,999 1,000 Variable PC1 PC2 PC3 IFGF 0,323-0,482-0,182 ReP 0,285 0,161-0,500 Pes 0,197-0,364 0,011 Inv 0,154-0,429 0,115 Liq 0,227-0,378-0,188 CD 0,009-0,325 0,150 EeR 0,270 0,224-0,489 Edu 0,349 0,153 0,263 H6i 0,297 0,092 0,437 R1i -0,395-0,187-0,152 T1_2i 0,357 0,198-0,118 S1_1i -0,074-0,069-0,161 E2 4i 0,359 0,127 0,288 67

461 Gráfico 23 - Scree Plot das Variáveis Quatitativas Gráfico 24 - Loading Plot das Váriáveis Quantitativas 68

462 D Scatterplot Gráfico 25-3D Scatterplot CP1 vs CP2 vs CP3 (6 s ângulos) 69

463 ANÁLISE DE CONGLOMERADOS 9 ANÁLISE DE CONGLOMERADOS (DENDROGRAMA E ANOVA) O Dendrograma permite uma análise do grau de similaridade dos dados para uma determinada variável. Neste estudo, gerou-se o Dendrograma da média dos indicadores de Gestão Fiscal e de Desenvolvimento dos municípios, agrupado por Estado e, também, do índice de disparidade das mesmas variáveis. Os resultados de ambos foram ilustrados no mapa do Brasil, cujo objetivo foi representar os agrupamentos por similaridade. 9.1 Dendrograma das médias por UF (-DF) Dendrograma Cluster Analysis of Observations: IFGF_1; ReP_1; Pes_1; Inv_1; Liq_1; CD_1;... Euclidean Distance, Single Linkage Amalgamation Steps Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,0156 0, ,3952 0, ,9233 0, ,3588 0, ,2452 0, ,3493 0, ,0358 0, ,7794 0, ,6710 0, ,4230 0, ,3559 0, ,4193 0, ,3874 0, ,9561 0, ,1694 0, ,4749 0, ,4070 0, ,3664 0, ,3556 0, ,2288 0, ,0033 0, ,8926 0, ,5827 0, ,9814 0, ,0152 0, Final Partition Number of clusters: 2 70

464 Average Maximum Within distance distance Number of cluster sum from from observations of squares centroid centroid Cluster1 14 0, , , Cluster2 12 0, , , Cluster Centroids Grand Variable Cluster1 Cluster2 centroid IFGF_1 0, , , ReP_1 0, , , Pes_1 0, , , Inv_1 0, , , Liq_1 0, , , CD_1 0, , , EeR_1 0, , , Edu_1 0, , , H6i_1 0, , , R1i_1 0, , , T1_2i_1 0, , , S1_1i_1 0, , , E2_4i_1 0, , , Distances Between Cluster Centroids Cluster1 Cluster2 Cluster1 0, , Cluster2 0, , Gráfico 26 - Dendograma similaridade das Médias das UFs 71

465 Figura 21 - Mapa 2Brasis agrupados pela similaridade das médias 72

466 9.2 Dendrograma dos índices de variabilidade por UF (-DF) Cluster Analysis of Observations: IFGF_3; ReP_3; Pes_3; Inv_3; Liq_3; CD_3;... Euclidean Distance, Single Linkage Amalgamation Steps Number of obs. Number of Similarity Distance Clusters New in new Step clusters level level joined cluster cluster ,1456 0, ,7457 0, ,0161 0, ,3538 0, ,2684 1, ,2480 1, ,0516 1, ,7325 1, ,4101 1, ,5827 1, ,1278 1, ,8436 1, ,6761 1, ,4710 1, ,0598 1, ,0664 1, ,7728 1, ,7155 1, ,2171 1, ,8394 2, ,3057 2, ,7073 2, ,9386 3, ,5334 3, ,5814 4, Final Partition Number of clusters: 5 Average Maximum Within distance distance Number of cluster sum from from observations of squares centroid centroid Cluster ,038 2, ,77625 Cluster2 2 3,535 1, ,32946 Cluster3 1 0,000 0, ,00000 Cluster4 1 0,000 0, ,00000 Cluster5 1 0,000 0, ,00000 Cluster Centroids Grand Variable Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 centroid IFGF_3 1, , ,5576 2, , ,59750 ReP_3 1, , ,9000 3, , ,04408 Pes_3 2, , ,9956 2, , ,

467 Inv_3 2, , ,3591 6, , ,44035 Liq_3 3, , ,3491 4, , ,37106 CD_3 1, , ,6286 3, , ,93379 EeR_3 1, , ,0685 2, , ,80151 Edu_3 0, , ,8125 1, , ,84860 H6i_3 0, , ,6204 2, , ,17505 R1i_3 1, , ,3150 2, , ,53521 T1_2i_3 1, , ,1334 2, , ,79384 S1_1i_3 0, , ,3387 1, , ,51197 E2_4i_3 1, , ,6469 1, , ,24157 Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Cluster1 0,0000 5, ,3050 5, ,42149 Cluster2 5,7609 0, ,7951 3, ,39117 Cluster3 11,3050 5, ,0000 6, ,42073 Cluster4 5,5990 3, ,9946 0, ,31589 Cluster5 9,4215 4, ,4207 5, ,00000 Dendrogram Gráfico 27 - Dendrograma dos Índices de Variabilidade das UFs. 74

468 Figura 22 - Mapa 2Brasis agrupamento por similaridade dos índices de variabilidade. Para se chegar ao índice de variabilidade (disparidade), utilizou-se do seguinte cálculo: ID= Índice de Disparidade s= Desvio Padrão da Média (do Estado) n= Número de Indivíduos (Munícipios do Estado) 75

469 9.3 Análise das variâncias dos agrupamentos das UFs Neste tópico, será feita a análise das variâncias de três indicadores: IFGF, Emprego e Renda e Educação, sendo estes analisados por meio de duas variáveis categóricas: Região e UFs, gerando seis matrizes e gráficos tipo Boxplot. Os gráficos e análises foram concentradas em um quadro resumo ao final deste tópico Região - IFGF One-way ANOVA: IFGF_1 versus Região_1 Source DF SS MS F P Região_1 4 0, , ,67 0,000 Error 21 0, ,00256 Total 25 0,18331 S = 0,05057 R-Sq = 70,71% R-Sq(adj) = 65,13% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 3 0, ,04893 ( * ) Nordeste 9 0, ,03656 (---*----) Norte 7 0, ,06449 (----*----) Sudeste 4 0, ,03820 (------*------) Sul 3 0, ,06663 ( *------) ,400 0,480 0,560 0,640 Pooled StDev = 0, UFs - IFGF One-way ANOVA: IFGF versus UF2 Source DF SS MS F P UF ,5716 1, ,77 0,000 Error ,1359 0,0147 Total ,7075 S = 0,1210 R-Sq = 33,34% R-Sq(adj) = 33,03% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 0,4782 0,1469 (----*----) AL 101 0,4261 0,1260 (--*-) AM 62 0,5373 0,1164 (--*--) AP 16 0,4687 0,1373 (-----*-----) BA 416 0,4302 0,1245 (*) CE 184 0,4723 0,1106 (-*-) ES 78 0,6003 0,1236 (--*--) GO 247 0,5211 0,1259 (*-) MA 217 0,4778 0,1177 (-*) MG 852 0,5269 0,1219 (* 76

470 MS 78 0,6129 0,1069 (-*--) MT 142 0,5961 0,1232 (-*-) PA 142 0,4340 0,1254 (-*-) PB 222 0,3605 0,1403 (-*-) PE 185 0,3889 0,1436 (-*-) PI 223 0,4387 0,1200 (-*) PR 399 0,5381 0,1260 (*) RJ 92 0,6103 0,1189 (-*--) RN 167 0,4215 0,1220 (-*-) RO 52 0,6110 0,0969 (--*--) RR 15 0,5300 0,0951 (-----*-----) RS 497 0,6579 0,0966 (*) SC 295 0,6484 0,1013 (-*) SE 75 0,4292 0,1261 (--*--) SP 647 0,5965 0,1271 (*) TO 138 0,5872 0,1235 (-*-) ,40 0,50 0,60 0,70 Pooled StDev = 0, Região - Emprego e Renda One-way ANOVA: EeR_1 versus Região_1 Source DF SS MS F P Região_1 4 0, , ,45 0,000 Error 21 0, ,00191 Total 25 0,11966 S = 0,04365 R-Sq = 66,56% R-Sq(adj) = 60,19% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 3 0, ,01650 ( * ) Nordeste 9 0, ,04268 (----*----) Norte 7 0, ,03993 (-----*----) Sudeste 4 0, ,06870 ( *------) Sul 3 0, ,02421 ( * ) ,360 0,420 0,480 0,540 Pooled StDev = 0, UFs Emprego e Renda One-way ANOVA: EeR versus UF2 Source DF SS MS F P UF ,6693 1, ,27 0,000 Error ,3773 0,0190 Total ,0466 S = 0,1379 R-Sq = 21,39% R-Sq(adj) = 21,03% Individual 95% CIs For Mean Based on 77

471 Pooled StDev Level N Mean StDev AC 22 0,3718 0,1183 (------* ) AL 101 0,3174 0,1295 (---*--) AM 62 0,3027 0,1306 (---*---) AP 16 0,3807 0,1789 ( * ) BA 416 0,3515 0,1283 (-*-) CE 184 0,3189 0,1271 (--*-) ES 78 0,4521 0,1378 (---*--) GO 247 0,4052 0,1432 (-*-) MA 217 0,2890 0,1309 (-*-) MG 852 0,3844 0,1394 (*) MS 78 0,4371 0,1331 (---*--) MT 142 0,4284 0,1332 (--*-) PA 142 0,3741 0,1506 (--*--) PB 222 0,3212 0,1101 (-*-) PE 185 0,3864 0,1365 (-*--) PI 223 0,3064 0,1168 (-*--) PR 399 0,4383 0,1268 (-*) RJ 92 0,5319 0,1921 (--*---) RN 167 0,3392 0,1088 (-*--) RO 52 0,3976 0,1289 (----*---) RR 15 0,3471 0,1740 ( * ) RS 497 0,4665 0,1344 (*-) SC 295 0,4866 0,1398 (-*-) SE 75 0,4251 0,1385 (---*---) SP 647 0,5221 0,1675 (*-) TO 138 0,2943 0,1189 (--*--) ,320 0,400 0,480 0,560 Pooled StDev = 0, Região - Educação One-way ANOVA: Edu_1 versus Região_1 Source DF SS MS F P Região_1 4 0, , ,71 0,000 Error 21 0, ,00208 Total 25 0,19098 S = 0,04560 R-Sq = 77,13% R-Sq(adj) = 72,78% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev Centro-Oeste 3 0, ,01921 (------*------) Nordeste 9 0, ,04758 (---*---) Norte 7 0, ,04790 (---*----) Sudeste 4 0, ,05693 (-----*-----) Sul 3 0, ,02586 (------*------) ,640 0,720 0,800 0,880 Pooled StDev = 0, UFs - Educação 78

472 One-way ANOVA: Edu versus UF2 Source DF SS MS F P UF , , ,12 0,000 Error , ,00418 Total ,24462 S = 0,06468 R-Sq = 67,02% R-Sq(adj) = 66,87% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev AC 22 0, ,08581 (--*--) AL 101 0, ,06785 (-*) AM 62 0, ,06003 (*-) AP 16 0, ,03819 (---*--) BA 416 0, ,06767 (*) CE 184 0, ,04756 (* ES 78 0, ,05457 (*-) GO 247 0, ,07622 (*) MA 217 0, ,07051 (*) MG 852 0, ,06210 (* MS 78 0, ,05297 (*) MT 142 0, ,06685 (*) PA 142 0, ,07192 (*) PB 222 0, ,06866 (*) PE 185 0, ,06338 (*) PI 223 0, ,07257 (*) PR 399 0, ,06330 *) RJ 92 0, ,06950 (*-) RN 167 0, ,07062 (*) RO 52 0, ,05534 (-*-) RR 15 0, ,05907 (---*--) RS 497 0, ,07711 *) SC 295 0, ,05324 *) SE 75 0, ,05106 (-*) SP 647 0, ,05082 *) TO 138 0, ,07383 (*) ,60 0,70 0,80 0,90 Pooled StDev = 0,

473 9.3.7 Resumo dos Boxplot No boxplot das três variáveis, IFGF, Emprego e Renda e Educação, observa-se um desempenho muito abaixo, senão o pior, o segundo pior, da região Nordeste alternando o posto com a região Norte. Um desempenho semelhante, porém inverso, acontece com as regiões Sudeste e Sul, alternando a posição de melhor e segundo melhor desempenho. A região Centro Oeste ocupa uma zona intermediária em todos os casos. 80

474 ANÁLISE DISCRIMINANTE LINEAR 10 ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO Neste estudo avaliaremos a análise discriminante linear em três grupos: primeiro pelas regiões politicas do Brasil (Norte, Nordeste, Centro-Oeste, Sudeste e Sul), segundo pelo agrupamento dos estados por similaridades de médias (2BrasisM) e, por fim, o agrupamento dos estados por similaridade de variabilidade (2BraisV), como explicado no tópico anterior Cinco Regiões Brasileiras Mapa Político Discriminant Analysis: Região versus IFGF; ReP;... Linear Method for Response: Região Predictors: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu; H6i; R1i; T1_2i; S1_1i; E2_4i Group Centro-Oeste Nordeste Norte Sudeste Sul Count Summary of classification True Group Put into Group Centro-Oeste Nordeste Norte Sudeste Sul Centro-Oeste Nordeste Norte Sudeste Sul Total N N correct Proportion 0,625 0,724 0,606 0,647 0,730 N = 5564 N Correct = 3808 Proportion Correct = 0,684 Este agrupamento, por regiões politicas, obteve o menor nível de acerto, 68,4% Brasis similaridade nas médias Discriminant Analysis: BrasisM versus IFGF; ReP;... Linear Method for Response: BrasisM Predictors: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu; H6i; R1i; T1_2i; S1_1i; E2_4i 81

475 Group NN SSO Count Summary of classification True Group Put into Group NN SSO NN SSO Total N N correct Proportion 0,947 0,927 N = 5564 N Correct = 5198 Proportion Correct = 0,934 Este agrupamento, por similaridade de médias, obteve o melhor nível de acerto, 93,4% Brasis similaridade nos índices de variabilidade Discriminant Analysis: BrasisV versus IFGF; ReP;... Linear Method for Response: BrasisV Predictors: IFGF; ReP; Pes; Inv; Liq; CD; EeR; Edu; H6i; R1i; T1_2i; S1_1i; E2_4i Group AA BB Count Summary of classification True Group Put into Group AA BB AA BB Total N N correct Proportion 0,799 0,696 N = 5564 N Correct = 4162 Proportion Correct = 0,748 Este agrupamento, por similaridades de variabilidade, obteve o segundo menor e, também, o segundo melhor nível de acerto, 74,8%. 82

476 REGRESSÃO LOGISTICA 11 REGRESSÃO LOGISTICA 11.1 Regressão REGIÃO Nominal Logistic Regression: Região versus IFGF; ReP;... Response Information Variable Value Count Região Sul 1191 (Reference Event) Sudeste 1669 Norte 447 Nordeste 1790 Centro-Oeste 467 Total 5564 Logistic Regression Table Predictor Coef SE Coef Z P Odds Ratio Logit 1: (Sudeste/Sul) Constant -6, , ,87 0,000 IFGF 2, , ,60 0,550 9,12 ReP 1, , ,96 0,049 5,39 Pes -5, , ,67 0,000 0,01 Inv -0, , ,84 0,398 0,50 Liq -1, , ,26 0,024 0,16 CD 3, , ,56 0,000 48,65 EeR 0, , ,88 0,380 1,53 Edu 28,8102 1, ,38 0,000 3,25156E+12 H6i -10,4277 0, ,86 0,000 0,00 R1i 7, , ,19 0, ,87 T1_2i -5, , ,90 0,000 0,00 S1_1i 2, , ,30 0,021 13,07 E2_4i -8, , ,03 0,000 0,00 Logit 2: (Norte/Sul) Constant 16,8729 1, ,64 0,000 IFGF 6, , ,28 0, ,51 ReP 1, , ,56 0,119 6,35 Pes -6, , ,17 0,000 0,00 Inv -1, , ,65 0,099 0,17 Liq -1, , ,54 0,123 0,20 CD 4, , ,18 0, ,94 EeR -0, , ,64 0,520 0,60 Edu 9, , ,88 0, ,28 H6i -26,3474 1, ,92 0,000 0,00 R1i 7, , ,70 0, ,08 T1_2i -7, , ,00 0,000 0,00 S1_1i 5, , ,60 0, ,23 E2_4i -10,4796 1, ,68 0,000 0,00 Logit 3: (Nordeste/Sul) Constant 10,7929 1, ,69 0,000 IFGF -6, , ,53 0,126 0,00 ReP 3, , ,39 0,001 40,95 Pes -4, , ,91 0,000 0,01 83

477 Inv -0, , ,23 0,820 0,80 Liq -0, , ,03 0,977 0,97 CD 4, , ,21 0,000 61,38 EeR 2, , ,92 0,000 15,57 Edu 14,5120 1, ,42 0, ,04 H6i -15,9048 0, ,16 0,000 0,00 R1i 14,0949 0, ,61 0, ,96 T1_2i -8, , ,42 0,000 0,00 S1_1i 0, , ,26 0,794 1,60 E2_4i -12,0802 0, ,18 0,000 0,00 Logit 4: (Centro-Oeste/Sul) Constant 9, , ,13 0,000 IFGF 10,3909 4, ,58 0, ,41 ReP 0, , ,55 0,584 1,67 Pes -7, , ,16 0,000 0,00 Inv -3, , ,06 0,000 0,02 Liq -2, , ,89 0,004 0,08 CD 5, , ,47 0, ,40 EeR -0, , ,54 0,587 0,73 Edu 7, , ,78 0, ,45 H6i -12,5286 0, ,64 0,000 0,00 R1i -1, , ,47 0,142 0,24 T1_2i -8, , ,78 0,000 0,00 S1_1i 2, , ,00 0,045 15,18 E2_4i -3, , ,49 0,000 0,03 95% CI Predictor Lower Upper Logit 1: (Sudeste/Sul) Constant IFGF 0, ,16 ReP 1,00 28,96 Pes 0,00 0,04 Inv 0,10 2,53 Liq 0,03 0,78 CD 17,78 133,11 EeR 0,59 3,94 Edu 3,51470E+11 3,00813E+13 H6i 0,00 0,00 R1i 358, ,91 T1_2i 0,00 0,01 S1_1i 1,46 116,86 E2_4i 0,00 0,00 Logit 2: (Norte/Sul) Constant IFGF 0, ,74 ReP 0,62 64,89 Pes 0,00 0,02 Inv 0,02 1,40 Liq 0,03 1,55 CD 23,38 435,92 EeR 0,13 2,80 Edu 462, ,49 H6i 0,00 0,00 R1i 148, ,11 T1_2i 0,00 0,00 S1_1i 3, ,53 E2_4i 0,00 0,00 Logit 3: (Nordeste/Sul) Constant IFGF 0,00 6,82 ReP 4,80 349,40 Pes 0,00 0,12 84

478 Inv 0,11 5,68 Liq 0,14 6,72 CD 16,72 225,28 EeR 3,94 61,47 Edu , ,43 H6i 0,00 0,00 R1i , ,87 T1_2i 0,00 0,00 S1_1i 0,05 53,52 E2_4i 0,00 0,00 Logit 4: (Centro-Oeste/Sul) Constant IFGF 12, ,42 ReP 0,27 10,40 Pes 0,00 0,01 Inv 0,00 0,15 Liq 0,01 0,44 CD 56,53 641,29 EeR 0,23 2,28 Edu 105, ,14 H6i 0,00 0,00 R1i 0,04 1,60 T1_2i 0,00 0,00 S1_1i 1,06 217,35 E2_4i 0,01 0,23 Log-Likelihood = -3764,004 Test that all slopes are zero: G = 8791,693, DF = 52, P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson ,000 Deviance , Regressão Logística 2 Brasis similaridade pelas médias Não foi possível, pois é necessário que haja pelos menos três grupos, como no caso há somente 2 grupos está ferramenta estatística não pode ser usada Regressão Logística 2 Brasis similaridade pelos índices de variabilidade Não foi possível, pois é necessário que haja pelos menos três grupos, como no caso há somente 2 grupos está ferramenta estatística não pode ser usada. 85

479 ANÁLISE DE CORRESPONDÊNCIA 12 ANÁLISE DE CORRESPONDÊNCIA DOS ÍNDICES DE GESTÃO FISCAL E DE DESENVOLVIMENTO Para se gerar o gráfico e facilitar a leitura, usar-se-á siglas que representem as variáveis quantitativas deste projeto, assim como as siglas das unidades federativas para representa-los. Abaixo, elenca-se na tabela abaixo as siglas das variáveis quantitativas: Indicador Sigla Descrição IFGF_1 If IFGF ReP_1 Rp Receita Própria Pes_1 P Gastos com Pessoal Inv_1 In Investimento Liq_1 L Liquidez CD_1 C Custo da Divida EeR_1 Er Emprego e Renda Edu_1 Ed Educação H6i_1 H Habitação R1i_1 R1 Renda T1_2i_1 T1 Trabalho S1_1i_1 S1 Saúde E2_4i_1 E2 Educação série correta No Gráfico 26 - Symetric Plot [todas as variáveis quantitativas do projeto] - se observa dois grandes grupos distribuídos nos quadrantes à esquerda e a direita, sendo no primeiro os estados que compõem a regiões Norte e Nordeste, excetuando-se os estados do Tocantins que ficou no centro da linha que divide a componente 1 e de Rondônia que ficou no quadrante a direita, e no segundo todos os estados que compõem as regiões Centro-Oeste, Sudeste e Sul. No que diz respeito as variáveis, nota-se que há um distanciamento muito grande de R1dos demais pontos e, por esta razão, optou-se por refazer a análise excluindo esta variável. 86

480 Gráfico 28 - Symetric Plot [todas as variáveis quantitativas do projeto] Simple Correspondence Analysis: IFGF_1; ReP_1; Pes_1; Inv_1; Liq_1; CD_1; EeR_1 Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0303 0,6804 0,6804 ****************************** 2 0,0054 0,1212 0,8017 ***** 3 0,0034 0,0763 0,8779 *** 4 0,0026 0,0573 0,9353 ** 5 0,0009 0,0194 0, ,0007 0,0147 0, ,0005 0,0118 0, ,0004 0,0086 0, ,0003 0,0070 0, ,0001 0,0020 0, ,0000 0,0011 0, ,0000 0,0001 1,0000 Total 0,0446 Row Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 AC 0,889 0,036 0,028-0,167 0,797 0,033-0,057 0,093 0,021 2 AL 0,502 0,035 0,038-0,156 0,502 0,028-0,003 0,000 0,000 3 AM 0,946 0,036 0,091-0,270 0,642 0,085-0,185 0,304 0,227 4 AP 0,596 0,035 0,035-0,137 0,419 0,022-0,089 0,177 0,051 5 BA 0,596 0,034 0,027-0,110 0,345 0,013 0,093 0,250 0,055 6 CE 0,634 0,037 0,035-0,152 0,546 0,028 0,061 0,088 0,025 87

481 7 ES 0,826 0,043 0,026 0,148 0,820 0,031-0,012 0,006 0,001 8 GO 0,865 0,040 0,035 0,167 0,723 0,037 0,074 0,142 0,041 9 MA 0,865 0,035 0,059-0,254 0,864 0,075 0,008 0,001 0, MG 0,897 0,041 0,019 0,114 0,610 0,017 0,078 0,287 0, MS 0,951 0,043 0,028 0,155 0,820 0,034-0,062 0,131 0, MT 0,966 0,042 0,019 0,135 0,889 0,025-0,040 0,077 0, PA 0,810 0,032 0,046-0,227 0,808 0,055 0,010 0,002 0, PB 0,901 0,032 0,032-0,156 0,543 0,026 0,127 0,359 0, PE 0,656 0,034 0,033-0,112 0,293 0,014 0,124 0,363 0, PI 0,811 0,034 0,044-0,207 0,754 0,049 0,057 0,057 0, PR 0,897 0,041 0,045 0,202 0,833 0,055 0,056 0,064 0, RJ 0,792 0,043 0,047 0,188 0,714 0,050-0,062 0,079 0, RN 0,846 0,035 0,019-0,101 0,427 0,012 0,100 0,419 0, RO 0,658 0,042 0,024 0,101 0,406 0,014-0,079 0,251 0, RR 0,725 0,036 0,058-0,204 0,583 0,050-0,101 0,143 0, RS 0,932 0,046 0,055 0,220 0,911 0,073-0,033 0,021 0, SC 0,957 0,047 0,062 0,239 0,955 0,087-0,011 0,002 0, SE 0,340 0,036 0,024-0,092 0,286 0,010 0,040 0,054 0, SP 0,833 0,045 0,062 0,227 0,829 0,076 0,017 0,004 0, TO 0,222 0,041 0,009-0,013 0,016 0,000-0,046 0,206 0,016 Column Contributions Component 1 Component 2 ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr 1 If 0,827 0,080 0,009 0,020 0,086 0,001-0,060 0,741 0,053 2 Rp 0,739 0,033 0,066 0,256 0,725 0,070-0,035 0,014 0,007 3 P 0,045 0,085 0,023 0,002 0,000 0,000-0,024 0,045 0,009 4 In 0,127 0,092 0,048-0,019 0,016 0,001-0,051 0,111 0,044 5 L 0,729 0,085 0,097 0,115 0,258 0,037-0,155 0,471 0,378 6 C 0,744 0,126 0,047-0,111 0,732 0,051 0,014 0,013 0,005 7 Er 0,150 0,060 0,019 0,042 0,126 0,003 0,018 0,023 0,004 8 Ed 0,541 0,109 0,013 0,002 0,001 0,000 0,054 0,541 0,058 9 H 0,853 0,077 0,116 0,170 0,429 0,073 0,169 0,424 0, R1 0,993 0,061 0,475-0,589 0,993 0,694 0,011 0,000 0, T1 0,641 0,081 0,050 0,133 0,637 0,047-0,011 0,005 0, S1 0,735 0,007 0,009-0,200 0,733 0,009-0,011 0,002 0, E2 0,469 0,105 0,027 0,060 0,322 0,013 0,041 0,147 0,033 88

482 Symmetric Plot Gráfico 29 - Symetric Plot [todas as variáveis quantitativas do projeto - R1] No Gráfico 27 - Symetric Plot [todas as variáveis quantitativas do projeto - R1],assim como no anterior, observa-se um comportamento semelhante quanto a divisão das regiões, em direita e esquerda, porém o centro da escala da componente 1 não é mais a referência que divide os grupos. No grupo da esquerda, é distinta a separação das regiões Norte predominantemente no quadrante inferior e a Nordeste no quadrante superior. Simple Correspondence Analysis: IFGF_1; ReP_1; Pes_1; Inv_1; Liq_1; CD_1; EeR_1 Analysis of Contingency Table Axis Inertia Proportion Cumulative Histogram 1 0,0091 0,3839 0,3839 ****************************** 2 0,0058 0,2447 0,6286 ******************* 3 0,0034 0,1440 0,7726 *********** 4 0,0027 0,1149 0,8875 ******** 5 0,0009 0,0393 0,9268 *** 6 0,0007 0,0293 0,9561 ** 7 0,0005 0,0215 0,9775 * 8 0,0003 0,0142 0,9918 * 9 0,0001 0,0056 0, ,0001 0,0024 0, ,0000 0,0002 1,0000 Total 0,

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração Mestrado em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração Mestrado em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração Mestrado em Administração PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando principalmente indicadores

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICPAL NO BRASIL Focando

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESINVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS

ATLAS BRASIL 2013 DIMENSÃO DESINVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESINVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL Focando principalmente indicadores relacionados a Habitação, Educação, Saúde e muito particularmente

Leia mais

ENADE Exame Nacional de Desempenho de Estudantes. Instituições do Ensino Superior do Município de São Paulo

ENADE Exame Nacional de Desempenho de Estudantes. Instituições do Ensino Superior do Município de São Paulo PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP MÉTODOS QUANTITATIVOS DE PESQUISA EMPÍRICA Prof. Dr. ARNOLDO HOYOS ENADE 9 Exame Nacional de Desempenho de Estudantes Instituições do Ensino Superior

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados

Leia mais

ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS

ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos Professor:

Leia mais

UMA PESQUISA EXPLORATORIA DOS INDICADORES DO IRBEM-2011 DA REDE NOSSA SÃO PAULO

UMA PESQUISA EXPLORATORIA DOS INDICADORES DO IRBEM-2011 DA REDE NOSSA SÃO PAULO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais UMA PESQUISA EXPLORATORIA DOS INDICADORES DO IRBEM-2011 DA REDE NOSSA SÃO PAULO Aluno: Claudemir

Leia mais

PESQUISA NOSSA SÃO PAULO QUALIDADE DE VIDA URBANA EM. SÃO PAULO Um estudo de correlações entre trabalho e renda e violência.

PESQUISA NOSSA SÃO PAULO QUALIDADE DE VIDA URBANA EM. SÃO PAULO Um estudo de correlações entre trabalho e renda e violência. PESQUISA NOSSA SÃO PAULO QUALIDADE DE VIDA URBANA EM SÃO PAULO Um estudo de correlações entre trabalho e renda e violência urbana DANIEL RODRIGUES PIRES BEZERRA PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS

ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos

Leia mais

UMA ANÁLISE DE ÍNDICES DE DESENVOLVIMENTO BÁSICO DA REGIÃO DE ARARAS

UMA ANÁLISE DE ÍNDICES DE DESENVOLVIMENTO BÁSICO DA REGIÃO DE ARARAS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais UMA ANÁLISE DE ÍNDICES DE DESENVOLVIMENTO BÁSICO DA REGIÃO DE ARARAS Aluna: Erika Camila Buzo

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

UMA ANÁLISE COMPARATIVA DE DESESENVOLVIMENTO POR ESTADO NO BRASIL A PARTIR DE ALGUNS INDICADORES DO IBGE

UMA ANÁLISE COMPARATIVA DE DESESENVOLVIMENTO POR ESTADO NO BRASIL A PARTIR DE ALGUNS INDICADORES DO IBGE PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais UMA ANÁLISE COMPARATIVA DE DESESENVOLVIMENTO POR ESTADO NO BRASIL A PARTIR DE ALGUNS INDICADORES

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE E OUTRAS VARIÁVEIS

ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE E OUTRAS VARIÁVEIS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos

Leia mais

UM ESTUDO COMPARATIVO DO USO DO MINITAB, SPSS E XL-STAT EM REGRESSÕES UTILZIANDO DADOS SOBRE LIBERDADE ECONÔMICA DE 157 PAÍSES NO CENÁRIO MUNDIAL

UM ESTUDO COMPARATIVO DO USO DO MINITAB, SPSS E XL-STAT EM REGRESSÕES UTILZIANDO DADOS SOBRE LIBERDADE ECONÔMICA DE 157 PAÍSES NO CENÁRIO MUNDIAL UM ESTUDO COMPARATIVO DO USO DO MINITAB, SPSS E XL-STAT EM REGRESSÕES UTILZIANDO DADOS SOBRE LIBERDADE ECONÔMICA DE 157 PAÍSES NO CENÁRIO MUNDIAL LOURENÇO AUGUSTO C. GRANATO PONTIFÍCIA UNIVERSIDADE CATÓLICA

Leia mais

CLASSIFICAÇÃO DO BRASIL. Focando principalmente indicadores relacionados a habitação, educação, trabalho e muito particularmente SAÚDE

CLASSIFICAÇÃO DO BRASIL. Focando principalmente indicadores relacionados a habitação, educação, trabalho e muito particularmente SAÚDE PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Estudos Pós-Graduados em Administração CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados a habitação, educação, trabalho

Leia mais

MÉTODOS QUANTITATIVOS TRABALHO FINAL ANALISE DA POPULAÇÃO, EDUCAÇÃO E SUAS RELAÇÕES COM AS CONDIÇÕES DE NATALIDADE NOS DISTRITOS DE SÃO PAULO.

MÉTODOS QUANTITATIVOS TRABALHO FINAL ANALISE DA POPULAÇÃO, EDUCAÇÃO E SUAS RELAÇÕES COM AS CONDIÇÕES DE NATALIDADE NOS DISTRITOS DE SÃO PAULO. PUC - SP MÉTODOS QUANTITATIVOS TRABALHO FINAL ANALISE DA POPULAÇÃO, EDUCAÇÃO E SUAS RELAÇÕES COM AS CONDIÇÕES DE NATALIDADE NOS DISTRITOS DE SÃO PAULO. CESAR DO NASCIMENTO MESTRADO EM ADMINISTRAÇÃO DE

Leia mais

ÍNDICE DE COMPETITIVIDADE URBANA 2008 (ICUR): ESTUDO DAS MELHORES CIDADES PARA SE FAZER NEGÓCIOS NA AMÉRICA LATINA

ÍNDICE DE COMPETITIVIDADE URBANA 2008 (ICUR): ESTUDO DAS MELHORES CIDADES PARA SE FAZER NEGÓCIOS NA AMÉRICA LATINA ÍNDICE DE COMPETITIVIDADE URBANA 28 (ICUR): ESTUDO DAS MELHORES CIDADES PARA SE FAZER NEGÓCIOS NA AMÉRICA LATINA FABRICIO CÉSAR BASTOS e PAULA FERNANDA PRADO PEREIRA PONTIFÍCIA UNIVERSIDADE CATÓLICA DE

Leia mais

INDICADORES BÁSICOS NOSSA SÃO PAULO UM ESTUDO DE SUAS RELAÇÕES. Fabíola Dapuzzo Vinhas e Nathalie Perret

INDICADORES BÁSICOS NOSSA SÃO PAULO UM ESTUDO DE SUAS RELAÇÕES. Fabíola Dapuzzo Vinhas e Nathalie Perret INDICADORES BÁSICOS NOSSA SÃO PAULO UM ESTUDO DE SUAS RELAÇÕES Fabíola Dapuzzo Vinhas e Nathalie Perret PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

ANÁLISE ESTATÍSTICA DOS ÍNDICES DE DESENVOLVIMENTO DAS AMÉRICAS, BASEADA NO HDR Fátima Alexandre

ANÁLISE ESTATÍSTICA DOS ÍNDICES DE DESENVOLVIMENTO DAS AMÉRICAS, BASEADA NO HDR Fátima Alexandre ANÁLISE ESTATÍSTICA DOS ÍNDICES DE DESENVOLVIMENTO DAS AMÉRICAS, BASEADA NO HDR 2005 Fátima Alexandre PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa

Leia mais

TEMA 5. DESIGUALDADE E INCLUSÃO DE GENERO

TEMA 5. DESIGUALDADE E INCLUSÃO DE GENERO PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração METODOS TRABALHO FINAL PROJETO ORIBER TEMA 5. DESIGUALDADE E

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

PUC - SP VARIÁVEIS SÓCIO-ECONÔMICAS E TAXA DE SUICÍDIOS NO BRASIL

PUC - SP VARIÁVEIS SÓCIO-ECONÔMICAS E TAXA DE SUICÍDIOS NO BRASIL PUC - SP VARIÁVEIS SÓCIO-ECONÔMICAS E TAXA DE SUICÍDIOS NO BRASIL MICHEL WIAZOWSKI ROCHA RUTHELLE MARIA DE CARVALHO SOUSA MESTRANDO EM ADMINISTRAÇÃO MÉTODOS QUANTITATIVOS PROF. DR. ARNOLDO HOYOS SÃO PAULO

Leia mais

UM ESTUDO DO ICUR ÍNDICE DE COMPETITIVIDADE URBANA DE 2010 BASEADO EM ANALISE DE CONGLOMERADOS

UM ESTUDO DO ICUR ÍNDICE DE COMPETITIVIDADE URBANA DE 2010 BASEADO EM ANALISE DE CONGLOMERADOS Pontifícia Universidade Católica de São Paulo PUC/SP Programa Strictu Sensu Mestrado em Administração Disciplina: Método Quantitativos na Pesquisa Empírica Prof. Dr. Arnoldo Hoyos Guevara UM ESTUDO DO

Leia mais

ATLAS BRASIL 2013 DIMENSÃO RENDA E OUTRAS VARIÁVEIS

ATLAS BRASIL 2013 DIMENSÃO RENDA E OUTRAS VARIÁVEIS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO RENDA E OUTRAS VARIÁVEIS Disciplina: Métodos Quantitativos Professor:

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO. Programa de Pós-Graduação em Economia e Administração FEA PUC-SP BASTA 2017 V1 IDHM

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO. Programa de Pós-Graduação em Economia e Administração FEA PUC-SP BASTA 2017 V1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programa de Pós-Graduação em Economia e Administração FEA PUC-SP BASTA 2017 V1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL ATLAS BRASIL CLASSIFICAÇÃO:

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

A Penetração de Genéricos no Brasil e os indicadores Sociais do IBGE Um. estudo da relevância dos medicamentos genéricos na melhoria da saúde

A Penetração de Genéricos no Brasil e os indicadores Sociais do IBGE Um. estudo da relevância dos medicamentos genéricos na melhoria da saúde A Penetração de Genéricos no Brasil e os indicadores Sociais do IBGE Um estudo da relevância dos medicamentos genéricos na melhoria da saúde Brasileira Sergio De Souza Coelho PONTIFÍCIA UNIVERSIDADE CATÓLICA

Leia mais

REGRESSÃO LOGÍSTICA E INDICADORES DE GOVERNANÇA GLOBAL

REGRESSÃO LOGÍSTICA E INDICADORES DE GOVERNANÇA GLOBAL PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA Faculdade de Economia e Administração Programa de Estudos Pós Graduados em Administração REGRESSÃO LOGÍSTICA E INDICADORES DE GOVERNANÇA GLOBAL Disciplina:

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

Teste de hipóteses. Testes de Hipóteses. Valor de p ou P-valor. Lógica dos testes de hipótese. Valor de p 31/08/2016 VPS126

Teste de hipóteses. Testes de Hipóteses. Valor de p ou P-valor. Lógica dos testes de hipótese. Valor de p 31/08/2016 VPS126 3/8/26 Teste de hipóteses Testes de Hipóteses VPS26 Ferramenta estatística para auxiliar no acúmulo de evidências sobre uma questão Média de glicemia de um grupo de animais é diferente do esperado? Qual

Leia mais

Small Caps Ou Ações De Segunda Linha Análise De Retorno De Portfólios De Ações Dos Setores De Metalurgia, Alimentos E Papel E Celulose

Small Caps Ou Ações De Segunda Linha Análise De Retorno De Portfólios De Ações Dos Setores De Metalurgia, Alimentos E Papel E Celulose Small Caps Ou Ações De Segunda Linha Análise De Retorno De Portfólios De Ações Dos Setores De Metalurgia, Alimentos E Papel E Celulose José Augusto Da Silva Rezende PONTIFÍCIA UNIVERSIDADE CATÓLICA DE

Leia mais

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs

BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2. IDHEs PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO ANÁLISE EXPLORATÓRIA DE PARÂMETROS DE ÍNDICE DE DESENVOLVIMENTO HUMANO NAS 100 CIDADES BRASILEIRAS COM MAIOR POPULAÇÃO Rafael Fortes Gatto PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE

ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE Disciplina: Métodos Quantitativos Professor:

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados a habitação, trabalho, saúde e muito particularmente EDUCAÇÃO.

CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados a habitação, trabalho, saúde e muito particularmente EDUCAÇÃO. PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados

Leia mais

PONTÍFICA UNIVERSIDADE CATÓLICA DE SÃO PAULO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO/ PUC-SP

PONTÍFICA UNIVERSIDADE CATÓLICA DE SÃO PAULO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO/ PUC-SP PONTÍFICA UNIVERSIDADE CATÓLICA DE SÃO PAULO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO/ PUC-SP MÉTODOS QUANTITAIVOS TRABALHO FINAL º SEMESTRE PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA

Leia mais

METODOS ANÁLISE EXPLORATÓRIA DE DADOS

METODOS ANÁLISE EXPLORATÓRIA DE DADOS PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração METODOS Trabalho ANÁLISE EXPLORATÓRIA DE DADOS PROJETO ORIBER

Leia mais

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Técnicas Computacionais em Probabilidade e Estatística I. Aula I Técnicas Computacionais em Probabilidade e Estatística I Aula I Chang Chiann MAE 5704- IME/USP 1º Sem/2008 1 Análise de Um conjunto de dados objetivo: tratamento de um conjunto de dados. uma amostra de

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PESQUISA IRBEM INDICADORES DE REFERÊNCIA DE BEM-ESTAR NO MUNICÍPIO

Leia mais

UM ESTUDO COMPARATIVO DE INDICADORES ECONOMICOS DO BANCO MUNDIAL E O INDICADOR DE DESENVOLVIMENTO HUMANO - HDI

UM ESTUDO COMPARATIVO DE INDICADORES ECONOMICOS DO BANCO MUNDIAL E O INDICADOR DE DESENVOLVIMENTO HUMANO - HDI PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais UM ESTUDO COMPARATIVO DE INDICADORES ECONOMICOS DO BANCO MUNDIAL E O INDICADOR DE DESENVOLVIMENTO

Leia mais

NOSSA SÃO PAULO. Um Estudo Sobre Indicadores Sociais, Ambientais, Econômicos, Políticos e Culturais sobre a Cidade de São Paulo. CARLOS ADRIANO ROCHA

NOSSA SÃO PAULO. Um Estudo Sobre Indicadores Sociais, Ambientais, Econômicos, Políticos e Culturais sobre a Cidade de São Paulo. CARLOS ADRIANO ROCHA NOSSA SÃO PAULO Um Estudo Sobre Indicadores Sociais, Ambientais, Econômicos, Políticos e Culturais sobre a Cidade de São Paulo. CARLOS ADRIANO ROCHA PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA Faculdade

Leia mais

Regression and Clinical prediction models

Regression and Clinical prediction models Regression and Clinical prediction models Session 6 Introducing statistical modeling Part 2 (Correlation and Linear regression) Pedro E A A do Brasil pedro.brasil@ini.fiocruz.br 2018 Objetivos Continuar

Leia mais

ATLAS BRASIL 2013 DIMENSÃO GESTÃO FISCAL DOS MUNICÍPIOS

ATLAS BRASIL 2013 DIMENSÃO GESTÃO FISCAL DOS MUNICÍPIOS PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO GESTÃO FISCAL DOS MUNICÍPIOS Disciplina: Métodos Quantitativos

Leia mais

Trabalho Final PROJETO ORIBER. GPS Tema 13 DEMOCRACIA E REDES SOCIAIS

Trabalho Final PROJETO ORIBER. GPS Tema 13 DEMOCRACIA E REDES SOCIAIS PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração METODOS Trabalho Final PROJETO ORIBER GPS Tema 13 DEMOCRACIA

Leia mais

O poder da ANOVA e da igualdade de variância

O poder da ANOVA e da igualdade de variância O poder da ANOVA e da igualdade de variância Por Marcelo Rivas Fernandes A ANOVA e o Teste de Iguldade de Variância são tão imprescindíveis para a estatística inferencial, quanto a média e o desvio padrão

Leia mais

BA STA BOLETIM DE ANÁLISE ESTATÍSTICO CLASSIFICAÇÃO DO BRASIL. em base a Indicadores Municipais. ISDM/FGV, IFDM e IFGF/FIRJAN.

BA STA BOLETIM DE ANÁLISE ESTATÍSTICO CLASSIFICAÇÃO DO BRASIL. em base a Indicadores Municipais. ISDM/FGV, IFDM e IFGF/FIRJAN. BA STA BOLETIM DE ANÁLISE ESTATÍSTICO CLASSIFICAÇÃO DO BRASIL em base a Indicadores Municipais ISDM/FGV, IFDM e IFGF/FIRJAN BASTA 2013 v1 Classificação do Brasil focando principalmente indicadores relacionados

Leia mais

UM ESTUDO EXPLORATÓRIO DOS INDICADORES DO GLOBAL ENTREPRENEURSHIP MONITOR-GEM

UM ESTUDO EXPLORATÓRIO DOS INDICADORES DO GLOBAL ENTREPRENEURSHIP MONITOR-GEM 1 PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais UM ESTUDO EXPLORATÓRIO DOS INDICADORES DO GLOBAL ENTREPRENEURSHIP MONITOR-GEM Aluna: Cássia

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL focando

Leia mais

INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 EXAME: DATA 24 / 02 / NOME DO ALUNO:

INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 EXAME: DATA 24 / 02 / NOME DO ALUNO: INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 Estudos de Mercado EXAME: DATA 24 / 02 / 20010 NOME DO ALUNO: Nº INFORMÁTICO: TURMA: PÁG. 1_ PROFESSOR: ÉPOCA: Grupo I (10

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração METODOS QUANTITATIVOS TRABALHO FINAL Análise de indicadores

Leia mais

PROCESSOS ESTOCÁSTICOS

PROCESSOS ESTOCÁSTICOS PROCESSOS ESTOCÁSTICOS PNV 2452 TRATAMENTO E ANÁLISE DE DADOS 2015 MOTIVAÇÃO PARA A ANÁLISE DE DADOS Data Summary Number of Data Points = 30000 Min Data Value = 0.00262 Max Data Value = 982 Sample Mean

Leia mais

ANÁLISE DE CONGLOMERADOS E OS INDICADORES DE GOVERANÇA MUNDIAL

ANÁLISE DE CONGLOMERADOS E OS INDICADORES DE GOVERANÇA MUNDIAL PUC - SP ANÁLISE DE CONGLOMERADOS E OS INDICADORES DE GOVERANÇA MUNDIAL José Renato Lamberti Stella Milanez MESTRADO EM ADMINISTRAÇÃO DE EMPRESAS MÉTODOS QUANTITATIVOS PROF. DR. ARNOLDO HOYOS SÃO PAULO

Leia mais

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL

Leia mais

PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais UM ESTUDO DO POSSIVEL IMPACTO DOS INDICADORES DE GOVERNANÇA-HDR EM RELAÇAO AO INDICE DE DESENVOLVIMENTO

Leia mais

ATLAS BRASIL 2013 DIMENSÕES DEMOGRAFIA E HABITAÇÃO

ATLAS BRASIL 2013 DIMENSÕES DEMOGRAFIA E HABITAÇÃO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÕES DEMOGRAFIA E HABITAÇÃO Disciplina: Métodos Quantitativos Professor:

Leia mais

ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO EDUCAÇÃO

ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO EDUCAÇÃO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 ALGUMAS VARIÁVEIS DA DIMENSÃO EDUCAÇÃO Disciplina: Métodos Quantitativos

Leia mais

Módulo 16- Análise de Regressão

Módulo 16- Análise de Regressão Módulo 6 Análise de Regressão Módulo 6- Análise de Regressão Situação Problema Um grupo de investidores estrangeiros deseja aumentar suas atividades no Brasil. Considerando a conjuntura econômica de moeda

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração TRABALHO FINAL Environmental Performance Index (EPI) Índice

Leia mais

UM ESTUDO APROFUNDADO DOS INDICADORES QUE COMPÕEM A PESQUISA DO IRBEM DO ESTADO DE SÃO PAULO

UM ESTUDO APROFUNDADO DOS INDICADORES QUE COMPÕEM A PESQUISA DO IRBEM DO ESTADO DE SÃO PAULO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais UM ESTUDO APROFUNDADO DOS INDICADORES QUE COMPÕEM A PESQUISA DO IRBEM DO ESTADO DE SÃO PAULO

Leia mais

CLASSIFICAÇÃO DO BRASIL. Focando principalmente indicadores relacionados a. habitação, educação, trabalho e muito particularmente o

CLASSIFICAÇÃO DO BRASIL. Focando principalmente indicadores relacionados a. habitação, educação, trabalho e muito particularmente o PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração CLASSIFICAÇÃO DO BRASIL Focando principalmente indicadores relacionados

Leia mais

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO PROJETO DE EXTENSÃO Software R: Capacitação em análise estatística de dados utilizando um software livre. Fonte: https://www.r-project.org/ Módulo

Leia mais

MÉTODOS QUANTITATIVOS TRABALHO FINAL ANALISE DA POPULAÇÃO E NÍVEL DE HOMICÍDIOS NA CIDADE DE SÃO PAULO.

MÉTODOS QUANTITATIVOS TRABALHO FINAL ANALISE DA POPULAÇÃO E NÍVEL DE HOMICÍDIOS NA CIDADE DE SÃO PAULO. PUC - SP MÉTODOS QUANTITATIVOS TRABALHO FINAL ANALISE DA POPULAÇÃO E NÍVEL DE HOMICÍDIOS NA CIDADE DE SÃO PAULO. MÁRCIO CARDOSO SANTOS MESTRADO EM ADMINISTRAÇÃO DE EMPRESAS MÉTODOS QUANTITATIVOS PROF.

Leia mais

ÍNDICE DE DESENVOLVIMENTO HUMANO Uma análise comparativa sócio-econômico entre os cinco continentes PAULA AUGUSTA RODRIGUES COELHO

ÍNDICE DE DESENVOLVIMENTO HUMANO Uma análise comparativa sócio-econômico entre os cinco continentes PAULA AUGUSTA RODRIGUES COELHO ÍNDICE DE DESENVOLVIMENTO HUMANO Uma análise comparativa sócio-econômico entre os cinco continentes PAULA AUGUSTA RODRIGUES COELHO RODERICK CABRAL CASTELLO BRANCO PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO

Leia mais

Correlação e Regressão

Correlação e Regressão Correlação e Regressão Vamos começar com um exemplo: Temos abaixo uma amostra do tempo de serviço de 10 funcionários de uma companhia de seguros e o número de clientes que cada um possui. Será que existe

Leia mais

ATLAS BRASIL 2013 DIMENSÃO LIBERDADE ECONÔMICA

ATLAS BRASIL 2013 DIMENSÃO LIBERDADE ECONÔMICA PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO LIBERDADE ECONÔMICA Disciplina: Métodos Quantitativos Professor:

Leia mais

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência REGRESSÃO LOGÍSTICA É uma técnica recomendada para situações em que a variável dependente é de natureza dicotômica ou binária. Quanto às independentes, tanto podem ser categóricas ou não. A regressão logística

Leia mais

i j i i Y X X X i j i i i

i j i i Y X X X i j i i i Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida do grau de ligação entre duas variáveis Usos Regressão

Leia mais

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento? INTRODUÇÃO À ANÁLISE DE DADOS INSTITUTO SUPERIOR DE CIÊNCIAS SOCIAIS E POLÍTICAS UNIVERSIDADE TÉCNICA DE LISBOA Frequência - 29 de Janeiro de 8 Grupo I (4, v) No seguimento de um estudo efectuado pela

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO Mario de Andrade Lira Junior lira.pro.br\wordpress REGRESSÃO X CORRELAÇÃO Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida

Leia mais

ANÁLISE ESTATÍSTICA DOS PRINCIPAIS INDICADORES DO MUNICÍPIO DE SÃO PAULO 2004

ANÁLISE ESTATÍSTICA DOS PRINCIPAIS INDICADORES DO MUNICÍPIO DE SÃO PAULO 2004 ANÁLISE ESTATÍSTICA DOS PRINCIPAIS INDICADORES DO MUNICÍPIO DE SÃO PAULO 24 Fátima Alexandre PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos

Leia mais

PROJETO ORIBER. TEMA: Bem Estar e Qualidade de Vida ANÁLISE DISCRIMINANTE

PROJETO ORIBER. TEMA: Bem Estar e Qualidade de Vida ANÁLISE DISCRIMINANTE PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração PROJETO ORIBER TEMA: Bem Estar e Qualidade de Vida ANÁLISE DISCRIMINANTE

Leia mais

Planejamento e Pesquisa 1. Dois Grupos

Planejamento e Pesquisa 1. Dois Grupos Planejamento e Pesquisa 1 Dois Grupos Conceitos básicos Comparando dois grupos Testes t para duas amostras independentes Testes t para amostras pareadas Suposições e Diagnóstico Comparação de mais que

Leia mais

ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO

ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO Disciplina: Métodos Quantitativos Professor: Dr. Arnoldo

Leia mais

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo: 6 ESQUEMA DO CAPÍTULO Estatística Descritiva 6.1 IMPORTÂNCIA DO SUMÁRIO E APRESENTAÇÃO DE DADOS 6.2 DIAGRAMA DE RAMO E FOLHAS 6.3 DISTRIBUIÇÕES DE FREQUÊNCIA E HISTOGRAMAS 6.4 DIAGRAMA DE CAIXA 6.5 GRÁFICOS

Leia mais

CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Permite avaliar se existe relação entre o comportamento de duas ou mais variáveis e em que medida se dá tal interação. Gráfico de Dispersão A relação entre duas variáveis pode ser

Leia mais

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor MÉTODOS QUANTITATIVOS APLICADOS Prof. Danilo Monte-Mor Métodos Quantitativos Aulas 1 e 2 Análise Exploratória de Dados 2 Danilo Soares Monte Mor Currículum Vitae Prof. Dr. e especialista em Métodos Quantitativos

Leia mais

METODOS QUANTITATIVOS

METODOS QUANTITATIVOS PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração METODOS QUANTITATIVOS ANÁLISE ESTATÍSTICA PROJETO AENE - AVALIAÇÃO

Leia mais

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Análise da Regressão. Prof. Dr. Alberto Franke (48) Análise da Regressão Prof. Dr. Alberto Franke (48) 91471041 O que é Análise da Regressão? Análise da regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas

Leia mais

ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO

ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Faculdade de Economia, Administração, Contabilidade e Atuariais. ATLAS BRASIL 2013 DIMENSÃO DESENVOLVIMENTO HUMANO Disciplina: Métodos Quantitativos Professor:

Leia mais

Estatística Descritiva

Estatística Descritiva Estatística Descritiva ESQUEMA DO CAPÍTULO 6.1 IMPORTÂNCIA DO SUMÁRIO E APRESENTAÇÃO DE DADOS 6.2 DIAGRAMA DE RAMO E FOLHAS 6.3 DISTRIBUIÇÕES DE FREQUÊNCIA E HISTOGRAMAS 6.4 DIAGRAMA DE CAIXA 6.5 GRÁFICOS

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração METODOS

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração METODOS PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - Faculdade de Economia e Administração Programa de Estudos Pós-Graduados em Administração METODOS TRABALHO FINAL PROJETO ORIBER Tema 6. O FUTURO DA EDUCAÇÃO

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

Estatística Descritiva (II)

Estatística Descritiva (II) Estatística Descritiva (II) Arquivo PULSE do Minitab Experimento envolvendo alunos. Cada um tem altura, peso, sexo, hábito de fumar e nível de atividade física anotados. Todos jogam moedas: se CARA, é

Leia mais

Estatística descritiva

Estatística descritiva Estatística descritiva Para que serve a estatística? Qual o seu principal objectivo? obter conclusões sobre a população usando uma amostra? População Amostragem Amostra Uma ou mais variáveis (X) são observadas

Leia mais

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP Bioestatística UNESP Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP Perguntas iniciais para reflexão I - O que é Estatística? II - Com que tipo de informação (dados)

Leia mais

ANOVA - Etapas de Análise

ANOVA - Etapas de Análise ANOVA - Etapas de Análise Entender o Delineamento Estrutura de Tratamento Aleatorização das Unidades Amostrais Aleatorização das Unidades Experimentais aos Tratamentos Adotar um Modelo Estrutural e Distribucional

Leia mais

Inferência Estatística Estimação de Parâmetros

Inferência Estatística Estimação de Parâmetros Inferência Estatística Estimação de Parâmetros Pedro Paulo Balestrassi www.pedro.unifei.edu.br ppbalestrassi@gmail.com 35-36291161 / 88776958 (cel) 1 Inferência Estatística: uma amostra ajudando a entender

Leia mais

Estatística Aplicada II. } Regressão Linear

Estatística Aplicada II. } Regressão Linear Estatística Aplicada II } Regressão Linear 1 Aula de hoje } Tópicos } Regressão Linear } Referência } Barrow, M. Estatística para economia, contabilidade e administração. São Paulo: Ática, 007, Cap. 7

Leia mais

Testes de Hipóteses. : Existe efeito

Testes de Hipóteses. : Existe efeito Testes de Hipóteses Hipótese Estatística de teste Distribuição da estatística de teste Decisão H 0 : Não existe efeito vs. H 1 : Existe efeito Hipótese nula Hipótese alternativa Varia conforme a natureza

Leia mais