ANÁLISE ESPACIAL E ESTATÍSTICA DA METODOLOGIA DE CONSTRUÇÃO DO ÍNDICE DE EXCLUSÃO SOCIAL PARA O MUNICÍPIO DE SÃO JOSÉ DOS CAMPOS- SP (CENSO IBGE 1991)

Transcrição

1 MINISTÉRIO DA CIÊNCIA E TECNOLOGIA INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS ANÁLISE ESPACIAL E ESTATÍSTICA DA METODOLOGIA DE CONSTRUÇÃO DO ÍNDICE DE EXCLUSÃO SOCIAL PARA O MUNICÍPIO DE SÃO JOSÉ DOS CAMPOS- SP (CENSO IBGE 1991) Norton Roberto Caetano Patrícia C. Genovez Roberto Penido Duque Estrada INPE São José dos Campos 2000

2 SUMÁRIO 1 -INTRODUÇÃO OBJETIVOS METODOLOGIA E RESULTADOS REGRESSÃO LINEAR 3.2 SELEÇÃO DE VARIÁVEIS AUTONOMIA DE RENDA DESENVOLVIMENTO HUMANO QUALIDADE DE VIDA EQUIDADE 3.3 CÁLCULO DO NOVO ÍNDICE DE EXCLUSÃO SOCIAL A PARTIR DOS 4 NOVOS ÍNDICES OBTIDOS NO ÍTEM CÁLCULO DO NOVO ÍNDICE DE EXCLUSÃO SOCIAL A PARTIR DOS DADOS ORIGINAIS DO CENSO IBGE 1991 SELECIONADOS PELAS REGRESSÕES NO ÍTEM CÁLCULO DO NOVO ÍNDICE DE EXCLUSÃO SOCIAL A PARTIR DA REGRESSÃO LINEAR COM OS 4 ÍNDICES DO ÍTEM ANÁLISE ESPACIAL DE ÁREAS SOBRE O FENÔMENO DA EXCLUSÃO SOCIAL NO MUNICÍPIO DE SÃO JOSÉ DOS CAMPOS CONCLUSÕES REFERÊNCIAS BIBLIOGRÁFICAS

3 1 INTRODUÇÃO Os problemas relacionados à Exclusão Social, assim como qualquer fenômeno que ocorra em áreas urbanas é dotado de complexidade resultante da interação de fatores em múltiplas dimensões. A enorme quantidade de dados e de interações possíveis para os mesmos gera uma confusão semântica, onde tudo passa a ser nada, o presente torna-se instantaneamente passado, e a realidade urbana perde seus significados adquirindo vida própria se propagando em direção ao caos. Esta confusão semântica gerada pelo excesso de variáveis nos revela questões importantes como. O que explicar? Quais os fatores (variáveis) causais relevantes à interpretação de tais problemas?. Cabe ressaltar que em função da rápida e caótica metamorfose dos grandes centros urbanos, os resultados obtidos limitam-se ao fator temporal, referindo-se apenas ao momento de coleta dos dados analisados. Desta forma, os métodos Estatísticos e de Análise Espacial mostram-se extremamente promissores e esclarecedores, no sentido de discriminar, desvendar em meio ao todo, as variáveis (independentes), que possivelmente possam explicar melhor o fenômeno (variável dependente), buscando a minimização dos erros e a eliminação de variáveis que impliquem em informações redundantes, concomitantemente revelando o comportamento espacial da Exclusão Social. Pretende-se, a partir de dados provenientes do Mapa de Exclusão/Inclusão Social realizado para o Município de São José dos Campos, realizar uma metodologia de investigação a partir do método de Regressão Linear realizado para os quatro Índices Intermediários componentes do Índice de Exclusão Social Total inicialmente calculado pela metodologia de Sposati (1996), visando chegar a novas formas de calcular a Exclusão Social partindo-se de um conjunto de variáveis brutas reduzido, de tal forma que os resultados permaneçam semelhantes. A realização de novas técnicas que mantiveram o universo de Utopias proposto por Sposati (1996) em comparação com um método em que se excluiu as mesmas, torna-se uma preocupação fundamental para os objetivos propostos. Ou seja, até que ponto pode-se reduzir o espaço de variáveis sem prejudicar as dimensões de entendimento da cidade representadas, neste caso, pelos subíndices Autonomia de Renda, Desenvolvimento Humano, Qualidade de Vida e Equidade. 2

4 Os resultados finais obtidos neste trabalho mostram-se de extrema importância para o entendimento da Exclusão Social no Tempo e no Espaço, visto que a metodologia proposta por Sposati (1996), considera uma enorme quantidade de dados provenientes do Censo IBGE (1991) realizado somente a cada 10 anos. Isso se torna um empecilho para análises periódicas. Desta forma os novos métodos propostos neste trabalho são uma alternativa para que, a partir de um espaço amostral de variáveis reduzido, seja possível chegar a um resultado confiável que expresse numericamente e espacialmente o fenômeno da Exclusão Social no Município de São José dos Campos. 2 OBJETIVOS! Análise Estatística (regressão linear) - Obter o Índice de Exclusão Social com um Menor Número de Variáveis.! Análise Espacial - Comparar os Novos Índices Obtidos Com o Proposto por Sposati, (1996).! Verificar a Precisão dos Métodos Propostos! Tornar possíveis futuros estudos Temporais. 3

5 3 METODOLOGIA E RESULTADOS Nesta seção será apresentada a metodologia deste trabalho e, conjuntamente, os resultados obtidos pelo uso destas técnicas. Todo estudo foi dividido em dois grandes tópicos, a análise estatística e a análise espacial. O fluxograma da Figura 3.1 apresenta de forma esquemática o desenvolvimento do trabalho REGRESSÃO LINEAR A primeira parte deste estudo refere-se à análise estatística dos dados. Nesta seção serão apresentados e discutidos a metodologia e os resultados das regressões lineares, realizados para os quatro sub-índices que compõe o Índice de Exclusão Social proposto pela metodologia de Aldaísa Sposati (1996), objetivando, a partir investigação sobre os mesmos propor novas alternativas para a obtenção do Índice de Exclusão Social. A Regressão é uma ferramenta capaz de analisar relações entre variáveis, possibilitando, através de métodos específicos, a seleção e análise das mesmas objetivando a geração de modelos que expliquem, da maneira mais simples possível, fenômenos específicos (Chaterjee & Price, 1977). A relação entre as variáveis pode ser expressa através de uma função matemática que relaciona a variável dependente Y, a ser explicada, às variáveis independentes X (X 1... X p ), explicativas. Função de regressão de 1 a Ordem é apresentada abaixo: Y i = X i p-1 X i p-1 + i E (Y) = X i p-1 X i p-1 onde:! 0, 1... p-1 são os parâmetros! X i1,... X i p-1 são as varáveis independentes! i é o resíduo 3.2 SELEÇÃO DE VARIÁVEIS 4

6 O processo de geração e validação do modelo de regressão múltipla depende da Seleção das Variáveis Independentes (X) a serem incluídas no modelo. Para tal pode-se realizar análises a partir de diversos tipos de testes, este trabalho utilizou-se de 3 métodos, a análise da Matriz de Correlação, Componentes Principais e Regressões Lineares Simples e Múltiplas para selecionar as variáveis mais explicativas, ou seja, de maiores pesos para comporem o modelo destinado ao cálculo do Índice de Exclusão Social. A grande diversidade e complexidade dos dados sócio-geográficos são os principais motivos para a busca de uma simplificação que traga, além de uma redução do espaço amostral das variáveis independentes a eliminação de variáveis correlacionadas proporcionando uma análise mais apurada dos dados evitando possíveis informações redundantes. Os problemas relacionados à seleção de variáveis e à especificação funcional da função de regressão estão interligados. As questões a serem respondidas durante a formulação do modelo de regressão são:! Quais variáveis e em quais formas as mesmas devem ser incluídas no modelo?! A coerência do modelo foi mantida mesmo após a redução do universo de variáveis? Embora idealmente ambos os problemas devam ser resolvidos simultaneamente, por questão de simplicidade, eles são tratados seqüencialmente: Primeiramente são determinadas as variáveis a serem incluídas na função de regressão e após são investigadas as exatas formas nas quais as variáveis serão incluídas na função (Chaterjee & Price, 1977). O problema inerente à seleção de variáveis resume-se, então, na escolha da menor lista de variáveis independentes que possa ser considerada como a melhor seleção de variáveis independentes (Neter & Wasserman, 1974), neste caso, para chegarmos ao cálculo da Exclusão Social. A seguir serão apresentados os métodos de seleção de variáveis e de regressão para todos os Índices Intermediários que compõe o Índice de Exclusão Social. 5

7 CENSO IBGE 1991 METODOLOGIA PROPOSTA POR SPOSATI, 1996 AUTONOMIA DE RENDA DESENVOLVIMENTO HUMANO QUALIDADE DE VIDA REGRESSÃO LINEAR PARA CADA SUB-ÍNDICE NOVO AUTONOMIA DE RENDA A_LIN_PO LIN_POB NOVO DESENVOLVIMENTO HUMANO CHF_NALF ESC_PREC NOVO QUALIDADE DE VIDA PREC_A_A PREC_I_S PREC_T_L ARA NOVOS S NESTE SOMA LINEAR DOS NOVOS SUB-ÍNDICES PARA RECALCULO DA EXCLUSÃO REGRESSÃO LINEAR PARA EXCLUSÃO SOCIAL, DIRETO DOS DADOS BRUTOS DO IBGE IEX. NOVO EXCLUSÃO SOCIAL IEX. NOVO EXCLUSÃO SOCIAL (DIRETO) ANÁLISE ESPACIAL DOS NOVOS ÍNDICES DE EXCLUSÃO SOCIAL IMORAN BOXMAP LISAMAP MORANMAP MAPA DE BARRAS 6

8 3.2.1 AUTONOMIA DE RENDA! ESTATÍSTICA DESCRITIVA. Descriptive Statistics (trab1.sta) AUTONOMIA DE RENDA Confid. Confid. Valid N Mean % % Minimum Maximum Std.Dev. AUT_REND 350,000 54,470 52,458 56,481 0, ,000 19,130 Figura Espacialização da variável dependente Autonomia de Renda em conjunto com sua estatística descritiva. Figura : Curva comparativa entre o comportamento do índice de autonomia de renda e a correspondente curva gaussiana de distribuição normal. 7

9 ! MATRIZ DE CORRELAÇÃO A Matriz de Correlação foi aplicada sobre as 11 variáveis iniciais componentes do Índice Autonomia de Renda esquematizadas abaixo: FONTE INDICADORES ÍNDICES CAMPO Iexi Chefes de família abaixo da linha de Pobreza (sem Rendimento) Iexi Chefe de Família na Linha de Pobreza (com ganho até 2 SM Iex Precária Condição de Sobrevivência CENSO IBGE (1991) Iexi sem Rendimento Iexi até 0,5 SM Iexi de 0,5 até 1 SM Iexi de 1 a 2 SM Iexi de 2 a 3 SM Iexi de 3 a 5 SM Iexi de 5 à 10 SM Iexi de 10 a 15 SM Iexi de 15 a 20 SM Iexi mais de 20 SM Iex de Distribuição de Renda dos Chefes de Família Iex AUTONOMIA DE RENDA DOS CHEFES DE FAMÍLIA Analisando-se a Matriz de Correlação, verifica-se a baixa correlação da variável independente de 3 a 5 Salários Mínimos (SM) com a variável dependente Autonomia de Renda. A variável de 10 a 15 SM apresentou-se muito relacionada com as variáveis na Linha da Pobreza (LIN_POBR) e de 15 a 20 SM, as variáveis de 0,5 à 15 SM e de 1 à 2 SM mostraram-se muito relacionadas com LIN_POBR e a variável mais de 20 SM muito relacionada com de 15 à 20 SM. Portanto, em função da análise da matriz de correlação foram excluídas as variáveis D3_5SM, D10_15SM, D0,5_1SM, D1_2SM e M20_SM, destacadas na Tabela , por apresentarem baixa correlação com o Índice de Renda ou grande autocorrelação entre si. não sendo boas estimadoras da variável dependente. 8

10 ! MATRIZ DE CORRELAÇÃO. Figura : Matriz de gráficos de correlação 9

11 ! MATRIZ DE CORRELAÇÃO NUMÉRICA A_LN_POB LIN_POBR DE2_3SM DE3_5SM DE5_10SM D10_15SM D15_20SM M20_SM A_0_5_SM D0_5_1SM D1_2SM AUT_RE Correlations (trab1.sta) A_LN_POB 1,000 0,270 0,154 0,100-0,206-0,352-0,335-0,291 0,286 0,201 0,226-0,52 LIN_POBR 0,270 1,000 0,548 0,061-0,601-0,703-0,638-0,532 0,627 0,844 0,897-0,93 DE2_3SM 0,154 0,548 1,000 0,536-0,290-0,679-0,673-0,578 0,230 0,259 0,668-0,60 DE3_5SM 0,100 0,061 0,536 1,000 0,302-0,401-0,515-0,531-0,012-0,117 0,187-0,16 DE5_10SM -0,206-0,601-0,290 0,302 1,000 0,522 0,276 0,023-0,353-0,497-0,553 0,602 D10_15SM -0,352-0,703-0,679-0,401 0,522 1,000 0,891 0,665-0,416-0,493-0,708 0,814 D15_20SM -0,335-0,638-0,673-0,515 0,276 0,891 1,000 0,815-0,379-0,430-0,655 0,757 M20_SM -0,291-0,532-0,578-0,531 0,023 0,665 0,815 1,000-0,324-0,371-0,534 0,636 A_0_5_SM 0,286 0,627 0,230-0,012-0,353-0,416-0,379-0,324 1,000 0,524 0,381-0,69 D0_5_1SM 0,201 0,844 0,259-0,117-0,497-0,493-0,430-0,371 0,524 1,000 0,557-0,75 D1_2SM 0,226 0,897 0,668 0,187-0,553-0,708-0,655-0,534 0,381 0,557 1,000-0,82 AUT_REND -0,528-0,934-0,602-0,168 0,602 0,814 0,757 0,636-0,696-0,758-0,825 1,000 Excluídos pela Matriz de Correlação Excluídos pelas Componentes Principais Tabela : Matriz de Correlação 10

12 ! COMPONENTES PRINCIPAIS. O método de componentes principais (Tabela ) pode ser aplicado como mais uma forma de redução do número de variáveis e detecção de estruturas presentes nos relacionamentos entre as mesmas. No presente trabalho o referido método foi utilizado para a identificação de correlação entre as variáveis independentes, com o objetivo de eliminar uma ou mais variáveis. Para tal analisou-se a última componente na qual o autovalor aproxima-se de zero ( 6 = 0,199). Igualando-se a zero a combinação linear das variáveis independentes originais correspondentes a esta componente principal e eliminando-se as variáveis com coeficientes próximos de zero (< 0,1 em módulo), chegou-se à seguinte expressão: 0,199 0 = LIN_POBR*0,353 - A_0,5_SM*0,141 + A_LIN_PO*0,044 + DE5_10SM*0,151 + D15_20SM*0,173 D2_3SM*0,01 Sendo assim, das seis variáveis restantes, uma variável passou a ser combinação das outras cinco. Analisando as seis variáveis restantes na matriz de correlação, verificou-se que a variável D5_10SM era a mais indicada para ser retirada, devido a sua menor correlação com a variável dependente AUT_RENDA. 0,151*D5_10SM = A_0,5_SM*141 D15_20SM*0,173 LIN_POBR*0,353 Assim pode-se afirmar que D5_10SM é uma combinação linear das outras variáveis e pode ser excluída. 11

13 Tabela : Autovetores e Autovalores dos Componentes Principais. Factor Loadings (Unrotated) (trab1.sta) Extraction: Principal components (Marked loadings are > ) Factor Factor Factor Factor Factor Factor A_LIN_PO -0,464-0,406 0,747 0,232 0,075 0,044 LIN_POB -0,899-0,053-0,215-0,066-0,116 0,353 A_0_5_SM -0,681-0,422-0,103-0,554 0,146-0,141 DE2_3SM -0,708 0,599 0,028 0,090 0,361-0,010 DE5_10SM 0,639 0,325 0,447-0,514 0,008 0,151 D15_20SM 0,803-0,382-0,227 0,078 0,349 0,173 Eigenval 3,042 0,956 0,867 0,643 0,292 0,199 Prp.Totl 0,507 0,159 0,144 0,107 0,049 0,033! REGRESSÃO LINEAR Realizou-se todas as regressões possíveis a partir de todas as combinações possíveis entre as variáveis (duas a duas, três a três, dentre outras). Para este caso verificou-se que o maior R 2, de 0,9542, foi obtido para a combinação das variáveis A_LN_POB e LIN_POB. O acréscimo de qualquer das variáveis restantes resultou em um aumento não significativo do R 2, portanto não foram acrescentadas no modelo. O quadro abaixo apresenta os resultados da regressão. 12

14 Tabela : Resultados da regressão múltipla para as variáveis A_LIN_PO e LIN_POB. Regression Summary for Dependent Variable: AUT_REND R= R 2 = Adjusted R 2 = F(2,347)= p< Std.Error of estimate: St. Err. St. Err. BETA of BETA B of B t(347) p-level Intercpt 89,229 0, ,108 0,000 A_LIN_PO -0,298 0,012-1,314 0,053-24,962 0,000 LIN_POB -0,853 0,012-1,033 0,014-71,555 0,000 Tabela : ANOVA da regressão múltipla para as variáveis A_LIN_PO e LIN_POB. Analysis of Variance (trab1.sta) Sums of Mean Squares df Square F p-level Regress ,992 2, , ,809 0 Residual 5843, ,000 16,839 Total ,117 A seguir observa-se a equação de regressão para as variáveis selecionadas que melhor explicam o Índice de Autonomia de Renda. AUT_REN = 89,229 1,3142*A_LIN_PO 1,033*LIN_POBR 13

15 Figura : Superfície de regressão plana simples. As superfícies de regressão revelam tendências comportamentais entre as variáveis, ou seja, a existência ou não de interação entre as variáveis resulta em diferentes superfícies de respostas. O modelo genérico de regressão linear não se restringe a respostas de superfície lineares. O termo linear refere-se ao fato de que o parâmetro é linear, mas não necessariamente a superfície de resposta. (Nether & Wasserman, 1973). A superfície de regressão plana simples (Figura ), correspondente ao modelo final da função de regressão, indica a não existência de interação entre as variáveis independentes e uma relação inversamente proporcional entre as mesmas e a variável dependente.! ANÁLISE DOS RESÍDUOS Como o modelo de regressão contém em si algumas hipóteses sobre o erro, tais como distribuição normal, independência, média igual a zero e variância constante, torna-se necessário uma investigação aprimorada sobre os resíduos provenientes da função de regressão. Pode-se observar pelos gráficos abaixo que as características exigidas pelo modelo foram atendidas. Assim verifica-se que os erros obtidos têm média igual a zero (Figura ), distribuição normal (Figuras e ) e variância constante (Figura ), independência das variáveis independentes (Figuras e ). 14

16 Figura : Resíduos x Observados. Figura : Resíduos x Estimados (). Figura : Observados (Yi) x Estimados (). 15

17 Como pode ser observado na Figura , os resíduos possuem uma relação diretamente proporcional com os valores observados. No entanto, na Figura , após a regressão constata-se uma ausência de relação entre os valores estimados e os resíduos. Na Figura , constata-se que com o aumento dos valores observados, os estimados distanciam-se da reta de regressão, ou seja, evidencia-se o aumento dos resíduos com o aumento dos observados. Figura : Distribuição normal dos resíduos. Figura : Histograma de distribuição normal dos resíduos. 16

18 35 Raw residuals vs. A_LIN_PO A_LIN_PO = * Raw residuals Correlation: r = A_LIN_PO Raw residuals Regression 95% confid. Figura : Resíduos x A_LIN_PO 110 Raw residuals vs. LIN_POB LIN_POB = * Raw residuals Correlation: r = LIN_POB Raw residuals Figura : Resíduos x LIN_POBR Regression 95% confid. 17

19 ! ANÁLISE DE OUTLIERS 18

20 DES_HUMA 350,000 60,051 58,292 61,810 0, ,000 16, DESENVOLVIMENTO HUMANO! ESTATÍSTICA DESCRITIVA. Descriptive Statistics (trab1.sta) DESENVOLVIMENTO HUMANO Confid. Confid. Valid N Mean % % Minimum Maximum Std.Dev. Figura Espacialização da variável dependente Desenvolvimento Humano em conjunto com sua estatística descritiva. 100 Distribution of Observed Values Dependent variable: DES_HUMA No of obs Expected Normal Figura : Curva comparativa entre o comportamento do índice de autonomia de renda e a correspondente curva gaussiana de distribuição normal. 19

21 ! MATRIZ DE CORRELAÇÃO A Matriz de Correlação foi aplicada sobre as 9 variáveis iniciais componentes do Índice de Desenvolvimento Humano esquematizadas abaixo: FONTE INDICADORES ÍNDICES CAMPO Iexi Chefes de Família não Alfabetizados CENSO IBGE (1991) Iexi Escolaridade Precária (de 1 à 3 anos de estudo) Iexi de 4 a 7 anos de estudo Iexi de 8 a 10 anos de estudo Iexi de 11 a 14 anos de estudo Iexi mais de 15 anos de estudo Iexi Alfabetização Precoce (com 5 a 9 anos ) Iexi Alfabetização Tardia (de 10 a 14 anos) Iexi não Alfabetizados Iexi Escolaridade Precária Iexi População acima de 70 anos Iex de Desenvolvimento Educacional Iex Estímulo Educacional Iex Escolaridade Precária Iex Longevidade Iex DESENVOLVIMENTO HUMANO Analisando-se a Matriz de Correlação, verifica-se a baixa correlação das variáveis independentes de 8 a 10 anos de Estudo e População acima de 70 anos com a variável dependente Desenvolvimento Humano. As variáveis Alfabetização Precoce (com 5 a 9 anos) e Alfabetização Tardia (de 10 a 14 anos) apresentaram baixa correlação com o Desenvolvimento Humano e alta correlação entre si.. Portanto, em função da análise da matriz de correlação foram excluídas as variáveis de 8 a 10 anos de estudo (D8_10AES),População acima de 70 anos (POP_70), Alfabetização Precoce (A_PREC) e Alfabetização Tardia (A_TARDIA) destacadas na Tabela , por apresentarem baixa correlação com o índice de Desenvovilmento Humano ou grande autocorrelação entre si. não sendo boas estimadoras da variável dependente. 20

22 ! MATRIZ DE CORRELAÇÃO. Figura : Matriz de gráficos de correlação 21

23 ! MATRIZ DE CORRELAÇÃO NUMÉRICA Correlations (trab1.sta) CHF_NALF ESC_PREC D4_7AEST D8_10AES D11_14AEM15_AEST POP_70 A_PRECOCA_TARDIADES_HUMA CHF_NALF 1,000 0,787 0,447-0,232-0,643-0,532-0,071-0,195 0,228-0,877 ESC_PREC 0,787 1,000 0,654-0,060-0,711-0,679-0,054-0,097 0,322-0,929 D4_7AEST 0,447 0,654 1,000 0,396-0,575-0,774-0,083 0,046 0,273-0,594 D8_10AES -0,232-0,060 0,396 1,000 0,237-0,382-0,019 0,291 0,145 0,198 D11_14AE -0,643-0,711-0,575 0,237 1,000 0,526 0,106 0,316-0,024 0,751 M15_AEST -0,532-0,679-0,774-0,382 0,526 1,000 0,053 0,157-0,083 0,615 POP_70-0,071-0,054-0,083-0,019 0,106 0,053 1,000-0,147-0,140 0,064 A_PRECOC -0,195-0,097 0,046 0,291 0,316 0,157-0,147 1,000 0,605 0,254 A_TARDIA 0,228 0,322 0,273 0,145-0,024-0,083-0,140 0,605 1,000-0,350 DES_HUMA -0,877-0,929-0,594 0,198 0,751 0,615 0,064 0,254-0,350 1,000 Excluídos pela Matriz de Correlação Excluídos pela componentes Principais Tabela : Matriz de Correlação 22

24 ! COMPONENTES PRINCIPAIS. O método de componentes principais (Tabela ), aplicado ao Índice de Desenvolvimento Humano (DES_HUM) analisou a última componente na qual o autovalor aproxima-se de zero ( 9 = 0,138) objetivando a eliminação de variáveis. Igualando-se a zero a combinação linear das variáveis independentes originais correspondentes a esta componente principal e eliminando-se as variáveis com coeficientes próximos de zero (< 0,1 em módulo), chegou-se à seguinte expressão: 0,138 0 = ESC_PREC*0,236 + D4_7AEST*0,105 + D11_14AEST*0,106 + M15_AEST*0,22 Sendo assim, das nove variáveis restantes, uma variável passou a ser combinação das outras oito. Analisando as nove variáveis restantes na matriz de correlação, verificou-se que a variável D4_7AEST era a mais indicada para ser retirada, devido a sua menor correlação com a variável dependente DES_HUM. 0,105D4_7AEST = - 0,236ESC_PREC D11_14AEST*0,106 0,22*M15AEST Assim pode-se afirmar que D4_7AEST é uma combinação linear das outras variáveis e pode ser excluída. 23

25 Tabela : Autovetores e Autovalores dos Componentes Principais. CHF_NALF ESC_PREC -0,917-0,808-0,036-0,216 Factor 0,166 0,306Loadings 0,130 0,108 (Unrotated) 0,077 0,333(trab1.sta) -0,040-0,141-0,211 0,121-0,136 0,190-0,027 0,236 D4_7AEST -0,826 0,294-0,286 Extraction: -0,026 Principal -0,248 components 0,053 0,048-0,267 0,105 D8_10AES -0,080 0,674-0,670 (Marked loadings -0,088 are 0,122 > ) 0,058-0,223 0,110 0,052 D11_14AE Factor 0,807 Factor 0,341-0,123 Factor Factor 0,079 Factor 0,386-0,038 Factor Factor 0,176-0,136 Factor Factor 0,106 M15_AEST 0, , , , , , , , ,220 9 POP_70 0,122-0,221-0,335 0,905-0,065-0,018-0,018 0,002-0,021 A_PRECOC 0,146 0,840 0,320 0,121-0,169-0,356-0,008 0,021-0,026 A_TARDIA -0,278 0,692 0,508 0,249 0,066 0,334 0,022 0,008-0,084 Eingenval 3,640 1,950 1,309 0,943 0,399 0,276 0,185 0,160 0,138 Prp.Totl 0,404 0,217 0,145 0,105 0,044 0,031 0,021 0,018 0,015! REGRESSÃO LINEAR Realizou-se todas as regressões possíveis a partir de todas as combinações possíveis entre as variáveis (duas a duas, três a três, dentre outras). Para este caso verificou-se que o maior R 2, de 0,918, foi obtido para a combinação das variáveis CHF_NALF e ESC_PREC. O acréscimo de qualquer das variáveis restantes resultou em um aumento não significativo do R 2, portanto não foram acrescentadas no modelo. O quadro abaixo apresenta os resultados da regressão. 24

26 Tabela : Resultados da regressão múltipla para as variáveis CHF_NALF e ESC_PREC. Regression Summary for Dependent Variable: DES_HUMA R= R= Adjusted R= F(2,347)= p< Std.Error of estimate: St. Err. St. Err. BETA of BETA B of B t(347) p-level Intercpt 85,925 0, ,643 0,000 CHF_NALF -0,384 0,025-0,950 0,062-15,443 0,000 ESC_PREC -0,626 0,025-1,260 0,050-25,192 0,000 Tabela : ANOVA da regressão múltipla para as variáveis CHF_NALF e ESC_PREC. Analysis of Variance (trab1.sta) Sums of Mean Squares df Square F p-level Regress , , ,756 0 Residual 7979, ,996 Total 97700,2 A seguir observa-se a equação de regressão para as variáveis selecionadas que melhor explicam o Índice de Autonomia de Renda. DES_HUM = 85,925 0,95*CH_NALF 1,26*ESC_PREC 3D Surface Plot (TRAB1.STA 37v*350c) z = *x-0.145*y

27 Figura : Superfície de regressão plana simples. A superfície de regressão plana simples (Figura ), correspondente ao modelo final da função de regressão, indica a não existência de interação entre as variáveis independentes e uma relação inversamente proporcional entre as mesmas e a variável dependente.! ANÁLISE DOS RESÍDUOS Como o modelo de regressão contém em si algumas hipóteses sobre o erro, tais como distribuição normal, independência, média igual a zero e variância constante, torna-se necessário uma investigação aprimorada sobre os resíduos provenientes da função de regressão. Pode-se observar pelos gráficos abaixo que as características exigidas pelo modelo foram atendidas. Assim verifica-se que os erros obtidos têm média igual a zero (Figura ), distribuição normal (Figuras e ) e variância constante (Figura ), independência das variáveis independentes (Figuras e ). 26

28 Figura : Resíduos x Observados. Figura : Resíduos x Estimados (). 120 Predicted vs. Observed Values Dependent variable: DES_HUMA Observed Values Predicted Values Regression 95% confid. Figura : Observados (Yi) x Estimados (). Como pode ser observado na Figura , os resíduos possuem uma relação diretamente proporcional com os valores observados. No entanto, na Figura , após a regressão constata-se uma ausência de relação entre os valores estimados e os resíduos. Na Figura , constata-se que com o aumento dos valores observados, os estimados distanciam-se da reta de regressão, ou seja, evidencia-se o aumento dos resíduos com o aumento dos observados. 27

29 Figura : Distribuição normal dos resíduos. Figura : Histograma de distribuição normal dos resíduos. CHF_NALF Raw residuals vs. CHF_NALF CHF_NALF = * Raw residuals Correlation: r = Regression 95% confid.

30 Figura : Resíduos x CHF_NALF. ESC_PREC Raw residuals vs. ESC_PREC ESC_PREC = * Raw residuals Correlation: r = Raw residuals Figura : Resíduos x ESC_PREC. Regression 95% confid.! ANÁLISE DE OUTLIERS 29

31 QUALIDADE DE VIDA 30

32 QUAL_VID 350,000 82,529 80,861 84,197 0, ,000 15,865 Descriptive Statistics (trab1.sta) QUALIDADE DE VIDA Confid. Confid. Valid N Mean % % Minimum Maximum Std.Dev. Figura Espacialização da variável dependente Autonomia de Renda em conjunto com sua estatística descritiva. 200 Distribution of Observed Values Dependent variable: QUAL_VID No of obs Expected Normal Figura : Curva comparativa entre o comportamento do índice de autonomia de renda e a correspondente curva gaussiana de distribuição normal.! MATRIZ DE CORRELAÇÃO A Matriz de Correlação foi aplicada sobre as 10 variáveis iniciais componentes do Índice Autonomia de Renda esquematizadas abaixo, sendo que para a variável Condições de Privacidade considerou-se as três variáveis brutas que a constituem, a saber cômodos*, dormitórios* e banheiros* por pessoa por domicílio: 31

33 CENSO IBGE (1991) Iexi Precário Abastecimento de Água Iexi Precário Instalação anitária (Esgoto) Iexi Precário Tratamento do Lixo Iexi Propriedade Domiciliar Iexi Densidade Habitacional Iexi Condições de Privacidade* Iexi Conforto Sanitário Iexi Habitação Precária Iex Qualidade Ambiental Conforto Domiciliar Iex Qualidade Domiciliar Iex QUALIDA DE DE VIDA Analisando-se a Matriz de Correlação, verifica-se a baixa correlação das variáveis independentes Propriedade Domiciliar, Densidade Habitacional e Habitação Precária com a variável dependente Qualidade de Vida. As variáveis Dormitórios por Pessoa por Domicílio, Cômodos por Pessoa por Domicílio e Banheiros por Pessoa por Domicílio apresentaram alta correlação entre si e com a variável dependente Qualidade de Vida. Portanto, em função da análise da matriz de correlação foram excluídas as variáveis PROP_DOM, DENS_HAB, DORM_P_D, BANH_P_D E e HAB_PREC, destacadas na Tabela , por apresentarem baixa correlação com o Índice de Qualidade de Vida ou grande autocorrelação entre si. não sendo boas estimadoras da variável dependente. 32

34 ! MATRIZ DE CORRELAÇÃO. Correlations (TRAB1.STA 37v*350c) PREC_A_A PREC_I_S PREC_T_L DENS_HAB COM_P_DM DORM_P_D BAN_P_DO PROP_DOM HAB_PREC CONF_SAN QUAL_VID Figura : Matriz de gráficos de correlação 33

35 ! MATRIZ DE CORRELAÇÃO NUMÉRICA PREC_I_S PREC_A_A 0,519 1,000 1,000 0,519 0,588 0,645-0,181-0,107 Correlations -0,305-0,160 (trab1.sta) -0,205-0,144-0,253-0,086-0,072 0,104 0,045 0,016-0,860-0,501-0,833-0,789 PREC_T_L PREC_A_A 0,645 PREC_I_S 0,588 PREC_T_L 1,000 DENS_HAB -0,091 COM_P_DM -0,181 DORM_P_D -0,144 BAN_P_DO -0,167 PROP_DOM -0,190 HAB_PREC 0,054 CONF_SAN -0,552 QUAL_VID -0,828 DENS_HAB -0,107-0,181-0,091 1,000 0,122-0,191-0,015-0,557-0,040-0,228 0,074 COM_P_DM -0,160-0,305-0,181 0,122 1,000 0,687 0,861-0,029 0,120 0,344 0,373 DORM_P_D -0,144-0,205-0,144-0,191 0,687 1,000 0,611 0,181 0,115 0,347 0,332 BAN_P_DO -0,086-0,253-0,167-0,015 0,861 0,611 1,000 0,052 0,101 0,327 0,334 PROP_DOM -0,072 0,104-0,190-0,557-0,029 0,181 0,052 1,000-0,122 0,091 0,227 HAB_PREC 0,016 0,045 0,054-0,040 0,120 0,115 0,101-0,122 1,000 0,000-0,116 CONF_SAN -0,501-0,860-0,552-0,228 0,344 0,347 0,327 0,091 0,000 1,000 0,793 QUAL_VID -0,789-0,833-0,828 0,074 0,373 0,332 0,334 0,227-0,116 0,793 1,000 Excluídos pela Matriz de Correlação Excluídos pelas Componentes Principais Tabela : Matriz de Correlação 34

36 ! COMPONENTES PRINCIPAIS. O método de componentes principais (Tabela ), aplicado ao Índice de Qualidade de Vida (Q_VIDA) analisou a última componente na qual o autovalor aproxima-se de zero ( 5 = 0,138) objetivando a eliminação de variáveis. Igualando-se a zero a combinação linear das variáveis independentes originais correspondentes a esta componente principal e eliminando-se as variáveis com coeficientes próximos de zero (< 0,1 em módulo), chegou-se à seguinte expressão: 0,138 0 = 0,266*PREC_I_S + 0,259*CONF_SAN Sendo assim, das cinco variáveis restantes, uma variável passou a ser combinação das outras quatro. Analisando as cinco variáveis restantes na matriz de correlação, verificou-se que a variável CONF_SAN era a mais indicada para ser retirada, devido a sua menor correlação com a variável dependente Q_VIDA. CONF_SAN = - 0,266/0,259* PREC_I_S Assim pode-se afirmar que CONF_SAN é uma combinação linear das outras variáveis e pode ser excluída. Tabela : Autovetores e Autovalores dos Componentes Principais. Factor Loadings (Unrotated) (trab1.sta) Extraction: Principal components (Marked loadings are > ) Factor Factor Factor Factor Factor PREC_A_ A ,757 0,347-0,404-0,379 0,004 PREC_I_S -0,891-0,050 0,365-0,023 0,266 PREC_T_L -0,801 0,300-0,259 0,448-0,021 COM_P_DM 0,427 0,841 0,330-0,014-0,013 CONF_SAN 0,881 0,112-0,373 0,065 0,259 Expl.Var 2,968 0,934 0,611 0,349 0,138 Prp.Totl 0,594 0,187 0,122 0,070 0,028 35

37 ! REGRESSÃO LINEAR Realizou-se todas as regressões possíveis a partir de todas as combinações possíveis entre as variáveis (duas a duas, três a três, dentre outras). Para este caso verificou-se que o maior R 2, de 0,928, foi obtido para a combinação das variáveis PREC_A_A, PREC_I_S e PREC_T_L, retirada de uma variável reduz o R 2 para 0,86. O acréscimo de qualquer das variáveis restantes resultou em um aumento não significativo do R 2, portanto não foram acrescentadas no modelo. O quadro abaixo apresenta os resultados da regressão. Tabela : Resultados da regressão múltipla para as variáveis PREC_A_A, PREC_I_S e PREC_T_L. Regression Summary for Dependent Variable: QUAL_VID R= R= Adjusted R= F(3,346)= p< Std.Error of estimate: St. Err. St. Err. BETA of BETA B of B t(346) p-level Intercpt 89,279 0, ,149 0,000 PREC_A_A -0,327 0,019-0,218 0,013-16,836 0,000 PREC_I_S -0,460 0,018-0,194 0,008-25,065 0,000 PREC_T_L -0,346 0,021-0,265 0,016-16,849 0,000 36

38 Tabela : ANOVA da regressão múltipla para as variáveis variáveis CHF_NALF e ESC_PREC. Analysis of Variance (trab1.sta) Sums of Mean Squares df Square F p-level Regress ,617 3, , ,428 0,000 Residual 6352, ,000 18,360 Total 87838,078 A seguir observa-se a equação de regressão para as variáveis selecionadas que melhor explicam o Índice de Qualidade de Vida. Q_VIDA = 89,279 0,218*PREC_A_A 0,194*PREC_I_S 0,265*PREC_T_L! ANÁLISE DOS RESÍDUOS Como o modelo de regressão contém em si algumas hipóteses sobre o erro, tais como distribuição normal, independência, média igual a zero e variância constante, torna-se necessário uma investigação aprimorada sobre os resíduos provenientes da função de regressão. Pode-se observar pelos gráficos abaixo que as características exigidas pelo modelo foram atendidas. Assim verifica-se que os erros obtidos têm média igual a zero (Figura ), distribuição normal (Figuras e ) e variância constante (Figura ), independência das variáveis independentes (Figuras , e ). 37

39 15 Observed Values vs. Residuals Dependent variable: QUAL_VID Residuals Observed Values Regression 95% confid. Figura : Resíduos x Observados. 15 Predicted vs. Residual Scores Dependent variable: QUAL_VID Residuals Predicted Values Regression 95% confid. Figura : Resíduos x Estimados (). 120 Predicted vs. Observed Values Dependent variable: QUAL_VID 100 Observed Values Predicted Values Regression 95% confid. Figura : Observados (Yi) x Estimados (). 38

40 Como pode ser observado na Figura , os resíduos possuem uma relação diretamente proporcional com os valores observados. No entanto, na Figura , após a regressão constata-se uma ausência de relação entre os valores estimados e os resíduos. Na Figura , constata-se que com o aumento dos valores observados, os estimados distanciam-se da reta de regressão, ou seja, evidencia-se o aumento dos resíduos com o aumento dos observados. 3.5 Normal Probability Plot of Residuals 2.5 Expected Normal Value Residuals Figura : Distribuição normal dos resíduos. 200 Distribution of Raw residuals No of obs Expected Normal Figura : Histograma de distribuição normal dos resíduos. 39

41 120 Raw residuals vs. PREC_A_A PREC_A_A = * Raw residuals Correlation: r = PREC_A_A Raw residuals Regression 95% confid. Figura : Resíduos x PREC-A_A. 220 Raw residuals vs. PREC_I_S PREC_I_S = * Raw residuals Correlation: r = PREC_I_S Raw residuals Regression 95% confid. Figura : Resíduos x ESC_PREC. PREC_T_L Raw residuals vs. PREC_T_L PREC_T_L = * Raw residuals Correlation: r = Raw residuals Regression 95% confid. Figura : Resíduos x ESC_PREC. 40

43 EQUIDADE Descriptive Statistics (trab1.sta) EQUIDADE Confid. Confid. Valid N Mean % % Minimum Maximum Std.Dev. EQUIDADE 350,000 41,645 40,549 42,740 0, ,000 10,423 Figura Espacialização da variável dependente Equidade em conjunto com sua estatística descritiva. 180 Distribution of Observed Values Dependent variable: EQUIDADE No of obs Expected Normal Figura : Curva comparativa entre o comportamento do Índice de Equidade a correspondente curva gaussiana de distribuição normal. 42

44 ! MATRIZ DE CORRELAÇÃO A Matriz de Correlação foi aplicada sobre as 2 variáveis iniciais componentes do Índice de Equidade esquematizadas abaixo: CENSO IBGE (1991) Iexi Mulheres não Alfabetizadas Iexi Concentração de Mulheres Chefes de Família Iex EQUIDADE Analisando-se a Matriz de Correlação, verifica-se a baixa correlação da variável independente Mulheres não Alfabetizadas (M_NALF) com a variável dependente Equidade, portanto, em função desta análise a mesma foi excluída como em destaque na Tabela ! MATRIZ DE CORRELAÇÃO. Correlations (TRAB1.STA 37v*350c) M_NALF M_CHF EQUIDADE Figura : Matriz de gráficos de correlação 43

45 ! MATRIZ DE CORRELAÇÃO NUMÉRICA Correlations (trab1.sta) M_NALF M_CHF EQUIDADE M_NALF 1,000 0,205 0,100 M_CHF 0,205 1,000 0,904 EQUIDADE 0,100 0,904 1,000 Excluído pela Matriz de Correlação Tabela : Matriz de Correlação! REGRESSÃO LINEAR Para regressão realizada verificou-se que o maior R 2 foi de 0,825 obtido para a combinação das variáveis M_CHF e M_NALF. No entanto a regressão com apenas a variável M_CH apresentou pouca diferença em relação a anterior, tendo um R 2 de 0,817, o que resultou na exclusão da variável M_NALF. O quadro abaixo apresenta os resultados da regressão. 44

46 Tabela : Resultados da regressão múltipla para a variável M_CH Regression Summary for Dependent Variable: EQUIDADE R= R= Adjusted R= F(1,348)= p< Std.Error of estimate: St. Err. St. Err. BETA of BETA B of B t(348) p-level Intercpt 31,293 0,355 88,197 0,000 M_CHF 0,904 0,023 0,457 0,012 39,424 0,000 Tabela : ANOVA da regressão múltipla para as variável M_CH Analysis of Variance (trab1.sta) Sums of Mean Squares df Square F p-level Regress ,549 1, , ,286 0,000 Residual 6935, ,000 19,930 Total 37912,105 A seguir observa-se a equação de regressão para as variáveis selecionadas que melhor explicam o Índice de Equidade. EQUIDADE = 31, ,457*M_CHF 180 Scatterplot (TRAB1.STA 37v*350c) y = *x+eps 140 M_CHF EQUIDADE Figura : Reta de Regressão com os valores estimados da variável mulheres chefes de família em relação a equidade. 45

47 ! ANÁLISE DOS RESÍDUOS Como o modelo de regressão contém em si algumas hipóteses sobre o erro, tais como distribuição normal, independência, média igual a zero e variância constante, torna-se necessário uma investigação aprimorada sobre os resíduos provenientes da função de regressão. Pode-se observar pelos gráficos abaixo que as características exigidas pelo modelo foram atendidas. Assim verifica-se que os erros obtidos têm média igual a zero (Figura ), distribuição normal (Figuras e ) e variância constante (Figura ), independência da variável independente (Figura ). 20 Observed Values vs. Residuals Dependent variable: EQUIDADE 10 0 Residuals Observed Values Figura : Resíduos x Observados. Regression 95% confid. 20 Predicted vs. Residual Scores Dependent variable: EQUIDADE 10 0 Residuals Predicted Values Regression 95% confid. Figura : Resíduos x Estimados (). 46

48 120 Predicted vs. Observed Values Dependent variable: EQUIDADE 100 Observed Values Predicted Values Regression 95% confid. Figura : Observados (Yi) x Estimados (). Como pode ser observado na Figura , os resíduos possuem uma relação diretamente proporcional com os valores observados. No entanto, na Figura , após a regressão constata-se uma ausência de relação entre os valores estimados e os resíduos. Na Figura , constata-se que com o aumento dos valores observados, os estimados distanciam-se da reta de regressão, ou seja, evidencia-se o aumento dos resíduos com o aumento dos observados. 3.5 Normal Probability Plot of Residuals 2.5 Expected Normal Value Residuals Figura : Distribuição normal dos resíduos. 47

49 200 Distribution of Raw residuals No of obs Expected Normal Figura : Histograma de distribuição normal dos resíduos. 180 Raw residuals vs. M_CHF M_CHF = * Raw residuals Correlation: r = M_CHF Raw residuals Regression 95% confid. Figura : Resíduos x M_CHF. 48

51 3.3 CÁLCULO DO NOVO ÍNDICE DE EXCLUSÃO SOCIAL (N_EXCLUS) A partir das Regressões Lineares realizadas para os quatro Índices Intermediários componentes do Índice de Exclusão Social Total inicialmente calculado pela metodologia de Aldaísa Sposati (1996), chegamos a quatro equações de regressão que possibilitaram o cálculo de novos valores para os mesmos, a partir da substituição dos βs (variáveis independentes) pelos valores originais. As quatro equações obtidas pelas regressões apresentam-se relacionadas abaixo:! N_AUT_REN = 89,229 1,3142*A_LIN_PO 1,033*LIN_POBR! N_DES_HUM = 85,925 0,95*CH_NALF 1,26*ESC_PREC! N_Q_VIDA = 89,279 0,218*PREC_A_A 0,194*PREC_I_S 0,265*PREC_T_L! N_EQUIDADE = 31, ,457*M_CHF O novo Índice de Exclusão foi obtido através da soma linear dos novos valores dos índices intermediários (N_AUT_RE, N_DES_HU, N_Q_VIDA e N_EQUID) e posteriormente escalonado de 1 à 1 A seguir mostra-se uma análise comparativa a partir da espacialização do Índice de Exclusão Total original e do Novo Índice originado. 50

52 I E X T O T A L N O V O I E X 51

53 Nota-se a semelhança qualitativa (visual) entre os dois mapas, comprovada quantitativamente pela média calculada referente aos dois Índices, 0,24 para o original e 0,244 para o novo Índice. A região destacada acima sofreu grande interferência do Índice Equidade espacializado abaixo. A opção da manutenção das utopias, ou seja, das dimensões da Exclusão Social (Índices Intermediários) sem a atribuição de pesos aos Índices causou, embora mínimas, interferências nos resultados. Pelo mapa abaixo pode-se observar que a região de confusão entre os mapas é claramente caracterizada pelo Índice de Equidade. Isto ocorre porque a única variável restante após a regressão foi Mulheres Chefes de Família, condição que não se restringe apenas aos excluídos e que, portanto, deveria ter um peso menor no cálculo do Índice final. 52

54 3.4 CÁLCULO DO NOVO ÍNDICE DE EXCLUSÃO SOCIAL (N_EX_DIR) A PARTIR DOS DADOS ORIGINAIS DO CENSO 1991 SELECIONADOS PELAS REGRESSÕES NO ÍTEM 3.2. As regressões realizadas para os sub-índices N_AUT_REN, N_DES_HUMA, N_QUAL_VID e N_EQUIDADE (item 3.2), utilizaram-se das variáveis (dados brutos do censo IBGE 1991) LIN_POB e A_LIN_PO; CHF_NALF e ESC_PREC; PREC_A_A, PREC_I_S e PREC_T_L; e M_CHF, respectivamente. Com estas 8 variáveis selecionadas para as equações das regressões do item 3.2, foi realizada uma regressão linear, agora na tentativa de explicar-se a exclusão social. Este novo índice de Exclusão Social foi chamado de Direto, pois foi obtido através da regressão das variáveis brutas diretamente, sem estas estarem compondo os sub-índices. A seguir é apresentada a análise. 53

55 ! ESTATÍSTICA DESCRITIVA. Descriptive Statistics (trab1.sta) Confid. Confid. Valid N Mean % % Minimum Maximum Std.Dev. EXC_SOC , , , ,48988 Figura Espacialização da variável dependente Exclusão Social Direta em conjunto com sua estatística descritiva. No of obs Distribution of Observed Values Dependent variable: EXC_SOC Expected Normal Figura 3.4.2: Curva comparativa entre o comportamento do índice Exclusão Social Direto e a correspondente curva gaussiana de distribuição normal. 54

56 ! MATRIZ DE CORRELAÇÃO. Correlations (TRAB1.STA 37v*350c) A_LIN_PO LIN_POB CHF_NALF ESC_PREC M_CHF PREC_A_A PREC_I_S PREC_T_L EXC_SOC Figura 3.4.3: Matriz de gráficos de correlação 55

57 ! MATRIZ DE CORRELAÇÃO NUMÉRICA Correlations (trab1.sta) A Matriz de Correlação foi aplicada sobre as 9 variáveis selecionadas para os Índices Intermediários (item 3.2) esquematizadas abaixo: A_LIN_PO LIN_POB CHF_NALF ESC_PREC M_CHF PREC_A_A PREC_I_S PREC_T_L EXC_SO C A_LIN_PO 1,000 0,270 0,290 0,354-0,182-0,038 0,190 0,032-0,375 LIN_POB 0,270 1,000 0,821 0,850-0,289 0,311 0,449 0,443-0,853 CHF_NALF 0,290 0,821 1,000 0,787-0,365 0,449 0,580 0,613-0,876 ESC_PREC 0,354 0,850 0,787 1,000-0,407 0,338 0,493 0,426-0,882 M_CHF -0,182-0,289-0,365-0,407 1,000-0,224-0,285-0,217 0,560 PREC_A_A -0,038 0,311 0,449 0,338-0,224 1,000 0,519 0,645-0,532 PREC_I_S 0,190 0,449 0,580 0,493-0,285 0,519 1,000 0,588-0,673 PREC_T_L 0,032 0,443 0,613 0,426-0,217 0,645 0,588 1,000-0,614 EXC_SOC -0,375-0,853-0,876-0,882 0,560-0,532-0,673-0,614 1,000 Excluídos pela Matriz de Correlação Excluídos pela componentes Principais Tabela 3.4.1: Matriz de Correlação Pela análise da matriz de correlação pode-se excluir a variável A_LIN_PO, a qual apresenta baixa correlação com a exclusão social.! COMPONENTES PRINCIPAIS. O método de componentes principais (Tabela 3.4.2) pode ser aplicado como mais uma forma de redução do número de variáveis e detecção de estruturas presentes nos relacionamentos entre as mesmas. No presente trabalho o referido método foi utilizado para a identificação de correlação entre as variáveis independentes, com o objetivo de eliminar uma ou mais variáveis. Para tal analisou-se a última componente na qual o autovalor aproxima-se de zero ( 6 = 0,126). Igualando-se a zero a combinação linear das variáveis independentes originais correspondentes a esta componente principal e eliminando-se as variáveis com coeficientes próximos de zero (< 0,1 em módulo), chegou-se à seguinte expressão: 56

58 LIN_POB CHF_NALF ESC_PREC Sendo assim, das 8 variáveis restantes, uma variável passou a ser combinação das outras 7. Analisando as 7 variáveis restantes na matriz de correlação, verificou-se que LIN_POB era a mais indicada para ser retirada, devido a sua menor correlação com a variável dependente N_EX_DIR LIN_POB CHF_NALF ESC_PREC Pode-se afirmar que LIN_POB é uma combinação linear de CHF_NALF e de ESC_PREC e que portanto pode ser retirada do modelo. Tabela 3.4.2: Autovetores e Autovalores dos Componentes Principais. Factor Loadings (Unrotated) (trab1.sta) Extraction: Principal components (Marked loadings are > ) Factor Factor Factor Factor Factor Factor Factor LIN_POB 0,827-0,402-0,270-0,085 0,045 0,007-0,268 CHF_NALF 0,906-0,176-0,147-0,037-0,106 0,307 0,144 ESC_PREC 0,843-0,407-0,107-0,032 0,132-0,250 0,176 M_CHF -0,480 0,264-0,832 0,039 0,063-0,011 0,038 PREC_A_A 0,646 0,598 0,097-0,308 0,345 0,032-0,007 PREC_I_S 0,746 0,299 0,040 0,585 0,100-0,002-0,030 PREC_T_L 0,751 0,469-0,061-0,116-0,426-0,129-0,016 Expl.Var 3,984 1,095 0,814 0,461 0,345 0,175 0,126 Prp.Totl 0,569 0,156 0,116 0,066 0,049 0,025 0,018! REGRESSÃO LINEAR Realizando-se todas as combinações possíveis entre as variáveis, chegou-se a uma equação de regressão com três termos. O acréscimo de qualquer das variáveis restantes resultou em 57

59 um aumento não significativo do R 2, portanto não foram acrescentadas no modelo. O quadro abaixo apresenta os resultados da regressão. Tabela 3.4.3: Resultados da regressão múltipla para as variáveis M_CHF, ESC_PREC e CHF_NALF. Regression Summary for Dependent Variable: EXC_SOC R= R= Adjusted R= F(3,346)= p< Std.Error of estimate: St. Err. St. Err. BETA of BETA B of B t(346) p-level Intercpt 79,680 0, ,645 0,000 CHF_NALF -0,451 0,027-1,101 0,066-16,702 0,000 ESC_PREC -0,439 0,028-0,870 0,055-15,930 0,000 M_CHF 0,217 0,018 0,173 0,015 11,889 0,000 Tabela 3.4.4: ANOVA da regressão múltipla para as variáveis M_CHF, ESC_PREC e CHF_NALF. Analysis of Variance (trab1.sta) Sums of Mean Squares df Square F p-level Regress , , ,609 0 Residual 9075, ,23084 Total 94898,7 A seguir observa-se a equação de regressão para as variáveis selecionadas que melhor explicam o Índice de Autonomia de Renda. 58

60 N_IEXCL_DIR = CHF_NALF 0.87.ESC_PREC M_CH! ANÁLISE DOS RESÍDUOS Como o modelo de regressão contém em si algumas hipóteses sobre o erro, tais como distribuição normal, independência, média igual a zero e variância constante, torna-se necessário uma investigação aprimorada sobre os resíduos provenientes da função de regressão. Pode-se observar pelos gráficos abaixo que as características exigidas pelo modelo foram atendidas. Assim verifica-se que os erros obtidos têm média igual a zero (Figura ), distribuição normal (Figuras e 3.4.7) e variância constante (Figura 3.4.5), independência das variáveis independentes (Figuras 3.4.9,3.4.10, e ). 25 Predicted vs. Residual Scores Dependent variable: EXC_SOC 15 Residuals Predicted Values Regression 95% confid. Figura : Resíduos x Observados Observed Values vs. Residuals Dependent variable: EXC_SOC 59 als 5

61 Figura 3.4.6: Resíduos x Estimados (). 120 Predicted vs. Observed Values Dependent variable: EXC_SOC 100 Observed Values Predicted Values Regression 95% confid. Figura : Observados (Yi) x Estimados (). Como pode ser observado na Figura 3.4.7, os resíduos possuem uma relação diretamente proporcional com os valores observados. No entanto, na Figura 3.4.8, após a regressão constata-se uma ausência de relação entre os valores estimados e os resíduos. Na Figura 3.4.6, constata-se que com o aumento dos valores observados, os estimados distanciam-se da reta de regressão, ou seja, evidencia-se o aumento dos resíduos com o aumento dos observados. 3.5 Normal Probability Plot of Residuals rmal Value

62 Figura 3.4.8: Distribuição normal dos resíduos. 180 Distribution of Raw residuals No of obs Expected Normal Figura 3.4.9: Histograma de distribuição normal dos resíduos. 180 Raw residuals vs. M_CHF M_CHF = * Raw residuals Correlation: r = _CHF 100

63 Figura : Resíduos x M_CHF CHF_NALF Raw residuals vs. CHF_NALF CHF_NALF = * Raw residuals Correlation: r = Raw residuals Regression 95% confid. Figura : Resíduos x LIN_POBR ESC_PREC! ANÁLISE DE OUTLIERS Raw residuals vs. ESC_PREC ESC_PREC = * Raw residuals Correlation: r = Raw residuals Figura : Resíduos x LIN_POBR Regression 95% confid. 62

64 ! RESULTADOS COMPARATIVOS 63

65 I E X T O T A L N E X C D I R Podemos observar que embora a metodologia aplicada tenha excluído as dimensões utópicas do Ìndice proposto por Aldaísa a espacialização do Índice calculado diretamente das variáveis brutas selecionadas apresenta-se, visualmente, muito semelhante (qualitativamente), embora quantitativamente exista uma diferença entre a média resultante deste (0,126) em relação ao do Índice original (0,24). 64

66 3.5 CÁLCULO DO NOVO ÍNDICE DE EXCLUSÃO SOCIAL (N_EX_IND) A PARTIR DA REGRESÃO LINEAR COM OS 4 NOVOS ÍNDICES CALCULADOS NO ÍTEM 3.2. O Índice de Exclusão Social Indireto foi construído semelhantemente ao Novo Índice de Exclusão (item 3.3), diferenciando-se por uma continuação da análise de regressão a partir dos Novos Índices Intermediários visando diferencia-los em ordem de prioridade, importância, na constituição do Índice de Exclusão Social. Resumindo foram utilizados os novos sub-índices gerados, porém realizou-se uma regressão linear com estas variáveis, objetivando selecionar as variáveis de maior contribuição para a explicação da Exclusão Social. Este novo Índice de Exclusão Social foi chamado de Indireto. Para tanto foi utilizada a mesma metodologia da análise de regressão linear, a qual é apresentada a seguir.! ESTATÍSTICA DESCRITIVA. 65

67 Descriptive Statistics (trab1.sta) Confid. Confid. Valid N Mean % % Minimum Maximum Std.Dev. EXC_SOC 350,000 61,962 60,228 63,695 0, ,000 16,490 Figura Espacialização da variável dependente Exclusão Social Indireto em conjunto No of obs com sua estatística descritiva. Distribution of Observed Values Dependent variable: EXC_SOC Expected Normal Figura 3.4.2: Curva comparativa entre o comportamento do índice de Exclusão social Indireto e a correspondente curva gaussiana de distribuição normal.! MATRIZ DE CORRELAÇÃO. 66

68 A Matriz de Correlação foi aplicada sobre os 4 Novos Índices Intermediários componentes do Índice Exclusão Social citados abaixo:! Índice de Autonomia de Renda! Índice de Desenvolvimento Humano! Índice de Qualidade de Vida! Índice de Equidade Analisando-se a Matriz de Correlação, verifica-se a baixa correlação da variável independente N_EQUIDA com a variável dependente Exclusão Social Independente. Portanto, em função da análise da matriz de correlação a mesma foi excluída não sendo um bom estimador para variável dependente.! MATRIZ DE CORRELAÇÃO. Correlations (TRAB1.STA 41v*350c) N_AUT_RE N_DES_HU N_QU_VID N_EQUIDA EXC_SOC Figura 3.4.3: Matriz de gráficos de Correlação! MATRIZ DE CORRELAÇÃO NUMÉRICA 67

69 N_AUT_RE N_DES_HU N_QU_VID N_EQUIDA EXC_SOC N_AUT_RE 1,000 0,855 0,438 0,264 0,827 N_DES_HU 0,855 1,000 0,589 0,412 0,928 N_QU_VID 0,438 0,589 1,000 0,290 0,722 N_EQUIDA 0,264 0,412 0,290 1,000 0,560 EXC_SOC 0,827 0,928 0,722 0,560 1,000 Excluídos pela Matriz de Correlação Excluídos pela Componentes Principais Tabela 3.4.1: Matriz de Correlação! COMPONENTES PRINCIPAIS. A analise da última componente, a qual o autovalor aproxima-se de zero ( 6 = 0,125). Igualando-se a zero a combinação linear das variáveis independentes originais correspondentes a esta componente principal e eliminando-se as variáveis com coeficientes próximos de zero (< 0,1 em módulo), chegou-se à seguinte expressão: N_AUT_RE N_DES_HU Sendo assim, das 4 variáveis restantes, uma variável passou a ser combinação das outras três. Analisando as 4 variáveis restantes na matriz de correlação, verificou-se que a variável N_AUT_RE era a mais indicada para ser retirada, devido a sua menor correlação com a variável dependente Exclusão Social Indireta N_AUT_RE = N_DES_HU Assim pode-se afirmar que N_AUT_RE é função de N_DES_HU e pode ser excluída do modelo. Tabela 3.4.2: Autovetores e Autovalores dos Componentes Principais. 68

70 Factor Loadings (Unrotated) (trab1.sta) Extraction: Principal components (Marked loadings are > ) Factor Factor Factor N_AUT_RE -0,897 0,379-0,226 N_DES_HU -0,951 0,162 0,265 N_QU_VID -0,750-0,658-0,065 Expl.Var 2,272 0,603 0,125 Prp.Totl 0,757 0,201 0,042! REGRESSÃO LINEAR - Método do maior R 2. Realizando-se as combinações possíveis com as duas variáveis restantes, observa-se que com apenas a variável N_DES_HU no modelo, o R 2 já era de Com a inclusão da variável N_QU_VID no modelo, o R 2 aumenta para Ou seja, um acréscimo de apenas 0,0472 no R 2. O acréscimo de qualquer das variáveis restantes resultou em um aumento não significativo do R 2, tornando desnecessária acrescenta-las no modelo. O quadro abaixo apresenta os resultados da regressão.. O quadro abaixo apresenta os resultados da regressão.resulta em um pequeno acréscimo no R 2. Tabela 3.4.3: Resultados da regressão múltipla para a variável N_DES_HU 69

71 Regression Summary for Dependent Variable: EXC_SOC R= R= Adjusted R= F(1,348)= p< Std.Error of estimate: St. Err. St. Err. BETA of BETA B of B t(348) p-level N_DES_HU 0,928 0,020 0,954 0,021 46,385 0,000 Intercpt 4,666 1,278 3,650 0,000 Tabela 3.4.4: ANOVA da regressão múltipla para a variável N_DES_HU Analysis of Variance (trab1.sta) Sums of Mean Squares df Square F p-level Regress ,383 1, , ,543 0,000 Residual 13212, ,000 37,966 Total 94898,695 A seguir observa-se a equação de regressão para a variável selecionada que melhor explicou o Índice de Exclusão Social Indiretamente. N_EXCL_I = N_DES_HUM! ANÁLISE DOS RESÍDUOS Como o modelo de regressão contém em si algumas hipóteses sobre o erro, tais como distribuição normal, independência, média igual a zero e variância constante, torna-se necessário uma investigação aprimorada sobre os resíduos provenientes da função de regressão. Pode-se observar pelos gráficos abaixo que as características exigidas pelo modelo foram atendidas. Assim verifica-se que os erros obtidos têm média igual a zero (Figura 3.5.6), distribuição normal (Figuras e 3.5.8) e variância constante (Figura 3.5.6), independência das variáveis independentes (Figuras e ). 25 Observed Values vs. Residuals Dependent variable: EXC_SOC 15 Residuals

72 Figura 3.5.5: Resíduos x Observados. 25 Predicted vs. Residual Scores Dependent variable: EXC_SOC 15 5 Residuals Predicted Values Regression 95% confid. Figura 3.5.6: Resíduos x Estimados (). 120 Predicted vs. Observed Values Dependent variable: EXC_SOC 100 Observed Values Predicted Values Regression 95% confid. Figura 3.5.7: Observados (Yi) x Estimados (). 71

73 Como pode ser observado na Figura 3.5.8, os resíduos possuem uma relação diretamente proporcional com os valores observados. No entanto, na Figura 3.5.9, após a regressão constata-se uma ausência de relação entre os valores estimados e os resíduos. Na Figura 3.5.7, constata-se que com o aumento dos valores observados, os estimados distanciam-se da reta de regressão, ou seja, evidencia-se o aumento dos resíduos com o aumento dos observados. 3.5 Normal Probability Plot of Residuals 2.5 Expected Normal Value Residuals Figura 35.8: Distribuição normal dos resíduos. 140 Distribution of Raw residuals No of obs Expected Normal Figura 3.5.9: Histograma de distribuição normal dos resíduos. 72

74 100 Raw residuals vs. N_DES_HU N_DES_HU = * Raw residuals Correlation: r = N_DES_HU Raw residuals Regression 95% confid. Figura : Resíduos x N_DES_HU 100 Scatterplot (TRAB1.STA 41v*350c) y = *x+eps 80 N_DES_HU EXC_SOC Figura : Excl_Social x N_DES_HU 100 Scatterplot (TRAB1.STA 41v*350c) y = *x+eps 80 N_DES_HU N_AUT_RE Figura : N_AUT_RE x N_DES_HU 73

76 ! RESULTADOS COMPARATIVOS I E X T O T A L I E X E I N D I R Embora, quantitativamente, a média tenha sido um pouco maior (0,341) do que a do índice original (0,24), nota-se a semelhança qualitativa (visual) entre os dois mapas. A região destacada acima sofreu grande interferência do Índice de espacializado abaixo. A opção da manutenção das utopias, ou seja, das dimensões da Exclusão Social (Ìndices Intermediários) com a atribuição de pesos aos Índices causou, embora mínimas, 75

77 interferências nos resultados. Pelo mapa abaixo pode-se observar que a região de confusão entre os mapas é claramente caracterizada pelo Índice de Desenvolvimento Humano, que foi considerado, pela regressão, como a variável que melhor explica o fenômeno da Exclusão Social. 3.6 ANÁLISE ESPACIAL DE ÁREAS SOBRE O FENÔMENO DA EXCLUSÃO SOCIAL NO MUNICÍPIO DE SÃO JOSÉ DOS CAMPOS SP! ÍNDICE GLOBAL DE MORAN O Índice Global de Moran, para os três novos Índices e para o original, fornece o grau de autocorrelação espacial da variável estudada, ou seja, mede quanto o valor da mesma numa região é independente dos valores dos vizinhos. Este indicador detecta afastamentos de uma distribuição espacial aleatória. Verifica-se que os índices Globais de Moran obtidos foram 0,6835 (original), 0,6887(recalculado), 0,6990 (direto) e 0,6701 (indireto) indicando uma alta correlação espacial positiva para a região como um todo. Tal resultado não deve ser analisado de maneira conclusiva para a região, pois pelo fato do índice ser global, este pode mascarar regimes espaciais locais não detectados pelo mesmo. Em função disto, torna-se necessário a continuação da análise exploratória dos dados através dos indicadores locais de associação espacial (LISA), particularmente o Índice Local de Moran. ] 76

78 A L D A Í S A R E C A L C U L O D I R E T O I N D I R E T O! INDICE LOCAL DE MORAN O Índice Local de Moran computa o índice local de cada polígono, pela multiplicação do desvio em relação à média global dos resíduos, pela média dos desvios dos vizinhos. Este índice permite a identificação de agrupamentos de polígonos com valores de atributos semelhantes (clusters) que apresentam mesmo regime espacial, assim como polígonos anômalos (outliers) e áreas de transição. Um aspecto importante do Índice Local de Moran diz respeito ao nível de significância associado para cada valor calculado. 77

79 A L D A Í S A R E C A L C U L O D I R E T O I N D I R E T O! DIAGRAMA DE ESALHAMENTO DE MORAN O diagrama de espalhamento de Moran é uma maneira alternativa de visualizar o Índice Global de Moran, onde se pode verificar o relacionamento entre os valores observados dos desvios, de cada polígono, em relação à média global (Z) e os valores das médias locais (WZ). O Índice Global de Moran equivale ao coeficiente de regressão linear que indica a inclinação da reta de regressão de WZ em Z. Os quadrantes do diagrama são divididos em 78

80 HH (high, high), LL (low,low). HL (high, low) e LH (low, high), sendo que os dois primeiros indicam correlação espacial positiva (presença de regime espacial) e os dois últimos, correlação espacial negativa (presença de região de transição ou outlier). Verifica-se abaixo menor quantidade de pontos nos quadrantes LH e HL, comparando-se com a quantidade de pontos nos quadrantes HH e LL. Tal fato explica o alto valor obtido nos Índices Globais de Moran, tendo em vista que o produto Z x WZ dos pontos pertencentes aos quadrantes HH e LL contribuem positivamente no somatório do cálculo do referido índice. A L D A Í S A R E C A L C U L O D I R E T O I N D I R E T O! BOX MAP O Box Map classifica os polígonos, presentes no mapa, em 1 ou 2 (dependência espacial positiva (HH) ou negativa (LL)) ou em 3 ou 4 (áreas de transição ou presença de out liers (LH, HL)). Os referidos mapas são uma espacialização do Diagrama de Espalhamento de Moran. 79

81 80 Pelos mapas acima verifica-se a distribuição espacial da classificação dos polígonos em relação aos quadrantes do Diagrama de Espalhamento de Moran, cujos resultados apresentam continuidades, indicando a existência de grandes agrupamentos (clusters). A L D A Í S A D I R E T O R E C A L C U L O I N D I R E T O

82 ! LISA MAP O LISA Map avalia o nível de significância dos índices locais de Moran, obtidos para cada polígono. Tal avaliação da significância é feita comparando os valores de IMoran com uma série de valores obtidos por meio de permutação dos valores dos vizinhos sob a hipótese nula de inexistência de autocorrelação. Os valores de significância, são, então classificados em quatro grupos: não significante, significância de 5%, 1% e 0,1%. A L D A Í S A R E C A L C U L O D I R E T O I N D I R E T O Pelos mapas acima se verifica a distribuição espacial dos valores de significância, cujos resultados apresentam predominância da classificação "não significante" dos valores do Índice Local de Moran obtidos para cada polígono. Porém os mapas acima revelam regiões específicas com agrupamentos significativos (Santana, Campo dos Alemães, Jd. Esplanada, Putim e Jd. Diamante). 81

83 ! MORAN MAP Moram Map é um mapa síntese que combina o LISA MAP e o BOX MAP, destacando os polígonos com significância abaixo de 5% e seu respectivo quadrante. A L D A Í S A R E C A L C U L O D I R E T O I N D I R E T O Pelos mapas acima se verifica a distribuição espacial da classificação, para os polígonos considerados significantes (5%, 1% e 0,1%), em relação aos quadrantes do Diagrama de Espalhamento de Moran, sendo os demais "não significantes", cujos resultados mostram predominância da classificação como "não significante", em concordância com o resultado apresentado no LISA Map. Este comportamento evidencia a existência de agrupamentos significantes em locais específicos (regiões isoladas) para os novos Índices de Exclusão Social no município de São José dos Campos. 82

84 4 CONCLUSÕES As conclusões estão divididas segundo as análises estatísticas e espaciais realizadas para cada novo índice de exclusão social calculado. - Novo índice de exclusão social (n_exclu) Quantitativamente sua Média é semelhante ao do Índice de Exclusão Social original, porém localmente (Qualitativamente) percebe-se erros consideráveis. O Novo Índice diferenciouse levemente do original, em sua espacilização, em função da variável M_CHF, a única considerada no N_Equidade, gerando uma certa confusão nas análises. Pode-se notar esta interferência nas regiões do Jd. da Granja, Jd Uirá, entre outros. O número de mulheres chefes de família não é exclusivamente uma característica dos excluídos, mas uma realidade da nova ordem social que se instala atualmente. - Novo índice de exclusão social direto (n_ex_dir) Quantitativamente a Média apresentou-se um pouco abaixo do Índice original, porém localmente (Qualitativamente) apresentou bom resultado. - Novo índice de exclusão social indireto (n_e_ind) Quantitativamente a Média apresentou-se um pouco acima do Índice original, porém localmente (Qualitativamente) apresentou o melhor resultado. - Índice Global de Moran Os valores do índice mostraram-se muito próximos, indicando significativa correlação espacial. Mostra a manutenção dos agrupamentos para todos os novos índices gerados. O N_EX_IND apresentou maior autocorrelação espacial na região do Jd. Satélite que os outros, por considerar apenas o DES_HUM, o qual possui um agrupamento de incluídos neste local. - Diagrama de espalhamento de moran A forma elipsoidal do espalhamento indica que há tendência de autocorrelação para todos os Índices. - Box map A distribuição HH, LL, LH e HL apresentam comportamento semelhante. 83

85 - LISA Map As regiões significantes (Santana, Campo dos Alemães, Jd. Esplanada, Putim e Jd. Diamante) foram as mesmas para todos os índices gerados. A análise qualitativa da espacialização dos novos índices traz apenas uma percepção do comportamento de cada uma, porém a precisão dos mesmos é verificada nos gráficos de barras. Comparando-se os mapas de barras abaixo, referentes as diferenças dos três novos índices em relação ao índice original de exclusão social, pode-se constatar que o índice indireto apresenta menor diferenças em relação aos outros, sendo que o pior resultado (embora não significativo) foi obtido pelo novo exclusão (soma linear dos novos subíndices). Os mapas de barras abaixo apresentam uma comparação em detalhe entre os novos índices e o índice original (Sposati, 1996), para a área teste escolhida da região do Campo dos Alemães. Os resultados mostram que o índice indireto apresentou-se mais semelhante ao original. NOVO DIRETO INDIRETO 84

Exibir mais