ActivALEA. active e actualize a sua literacia

Documentos relacionados
Hoje vamos analisar duas variáveis quantitativas conjuntamente com o objetivo de verificar se existe alguma relação entre elas.

ActivALEA. active e actualize a sua literacia. TAREFA Forma da distribuição de algumas variáveis tendo em conta a. TÓPICO - Representações gráficas.

Aula 2 Regressão e Correlação Linear

UFRJ - CCMN - IM - Departamento de Métodos Estatísticos Estatística (MAD231) - Prova # 1 - Padrão de resposta

Seção 2.5 Duas Variáveis Quantitativas: Diagrama de Dispersão e Correlação

AULA 06 Correlação. Ernesto F. L. Amaral. 04 de outubro de 2013

Estatística Aplicada ao Serviço Social

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

ActivALEA. active e actualize a sua literacia

Introdução. São duas técnicas estreitamente relacionadas, que visa estimar uma relação que possa existir entre duas variáveis na população.

Cálculo Diferencial e Integral I

Escola Secundária de Jácome Ratton

Se tanto o numerador como o denominador tendem para valores finitos quando x a, digamos α e β, e β 0, então pela álgebra dos limites sabemos que.

Universidade de São Paulo Faculdade de Filosofia, Letras e Ciências Humanas Departamento de Ciência Política

ESTUDOS CORRELACIONAIS E ESTUDOS CAUSAL-COMPARATIVOS. Ana Henriques Carla Neves Idália Pesquita Mestrado em Educação Didáctica da Matemática

Coeficiente de determinação R 2 no modelo de regressão linear normal

Correlação e Regressão

Stela Adami Vayego DEST/UFPR

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

REGRESSÃO E CORRELAÇÃO

Resolução dos Exercícios Propostos no Livro

Módulo 1 Limites. 1. Introdução

Cálculo I (2015/1) IM UFRJ Lista 2: Limites e Continuidade Prof. Milton Lopes e Prof. Marco Cabral Versão Exercícios de Limite

FUNÇÃO QUADRÁTICA. Vamos fazer agora o estudo da função, tendo em conta a sua representação geométrica.

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Material Teórico - Inequações Produto e Quociente de Primeiro Grau. Inequações Quociente. Primeiro Ano do Ensino Médio

Estatística Descritiva

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Aula 03 Estatística, Correlação e Regressão

Análise de Regressão Linear Simples e

CÁLCULO I. Apresentar e aplicar a Regra de L'Hospital.

Redes de Computadores sem Fio

Teoria da Correlação. Luiz Carlos Terra

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

Teste Anova. Prof. David Prata Novembro de 2016

Universidade Federal de Santa Catarina Centro de Ciências Físicas e Matemáticas Departamento de Matemática. MTM Pré-cálculo

Capítulo Aplicações do produto interno

Métodos Quantitativos II

2 Processo de Agrupamentos

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Modelos de Regressão Linear Simples - parte III

Medidas de Dispersão ou variabilidade

Correlação e Regressão. Correlação entre variáveis

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

Estatística. Correlação e Regressão

13 Fórmula de Taylor

Aula 3 Propriedades de limites. Limites laterais.

Limites: Noção intuitiva e geométrica

Idade da mãe, em anos completos, no dia do parto. Numérico * A ausência de preenchimento identifica a não obtenção do valor no momento da coleta

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

aula DISTRIBUIÇÃO NORMAL - PARTE I META OBJETIVOS PRÉ-REQUISITOS Apresentar o conteúdo de distribuição normal

Capítulo Diferenciabilidade de uma função

Estatística Aplicada I. } Análise Bidimensional

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Universidade de São Paulo Faculdade de Filosofia, Letras e Ciências Humanas Departamento de Ciência Política

Modelos de Regressão Linear Simples parte I

Exemplo 1. Conjunto de dados de uma amostra de 12 meninas da escola: y i x i

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Modelos de Regressão Linear Simples - parte I

Geometria Analítica. Números Reais. Faremos, neste capítulo, uma rápida apresentação dos números reais e suas propriedades, mas no sentido

ActivALEA. active e actualize a sua literacia

Concentração de medicamento no sangue

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Medidas de Dispersão. Prof.: Joni Fusinato

LIMITE. Para uma melhor compreensão de limite, vamos considerar a função f dada por =

OUTRAS TÉCNICAS DE INTEGRAÇÃO

Fundamentos de Matemática II DERIVADAS PARCIAIS7. Licenciatura em Ciências USP/ Univesp. Gil da Costa Marques

Matemática Aplicada às Ciências Sociais. Prova Global de Avaliação PROVA NÚMERO 1

Métodos Empíricos de Pesquisa I. } Análise Bidimensional

Aula 14 - Correlação e Regressão Linear

HEP0138 BIOESTATÍSTICA

Capítulo 2. Funções. 2.1 Funções

METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA

Faculdades Integradas Campos Salles

3 3. Variáveis Aleatórias

Polinômios e Funções Racionais

2. Estatística Descritiva

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

ESCOLA SECUNDÁRIA MANUEL DA FONSECA DE SANTIAGO DO CACÉM

Módulo 1 FUNDAMENTOS DE ESTATÍSTICA

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

MATEMÁTICA A - 12o Ano Funções - 2 a Derivada (concavidades e pontos de inflexão) Propostas de resolução

Estatística Descritiva (III) Associação entre Variáveis

Investigação Aplicada I

Aula 05. Análise Bidimensional. Stela Adami Vayego - DEST/UFPR 1

MAE116 - Noções de Estatística Grupo B - 2 semestre de 2016 Gabarito da Lista de exercícios 3 1 Estatística Descritiva III - CASA

Secção 2. Equações diferenciais de primeira ordem

Análise de Variância com mais de duas variáveis independentes (mais de dois fatores) Na aula do dia 17 de outubro (aula #08) introduzimos

Estatísticas Descritivas. Estatística

Estudos Correlacionais e Estudos Causal Comparativos. Trabalho Elaborado por: Ana Henriques Carla Neves Idália Pesquita

Análise de regressão linear simples. Diagrama de dispersão

PLANIFICAÇÃO. 2007/2008 Matemática Aplicada às Ciências Sociais 1º ano. Blocos previstos

CORRELAÇÃO. Flávia F. Feitosa

(a) Use cinco intervalos e construa um histograma e o polígono de frequência. (b) Determine uma medida de posição central e uma medida de dispersão.

Notas de Aulas 4 - Funções Elementares - Parte I Prof Carlos A S Soares

Amostragem Aleatória e Descrição de Dados - parte I

Regressão linear simples

Preparatório CEA. Módulo 6 Fundamentos de Estatística

Transcrição:

ActivALEA active e actualize a sua literacia ASSOCIIAÇÃO ENTRE VARIIÁVEIIS QUANTIITATIIVAS: O COEFIICIIENTE DE CORRELAÇÃO A representação gráfica de um conjunto de dados bivariados é essencial, pois permite retirar informação sobre a forma, direcção e grau de associação entre as variáveis. Por: Maria Eugénia Graça Martins Departamento de Estatística e Investigação Operacional da FCUL megm@fc.ul.pt 1 Introdução Quando dispomos de amostras de dados bivariados que vamos passar a representar por ( i,y i ), i=1,, n, onde os i s e os y i s representam, respectivamente, observações das variáveis e y, quantitativas, que constituem o par (, y), a sua representação num diagrama de dispersão pode mostrar a eistência de uma certa associação linear entre os factores e y, que compõem os pares. Aliás, esta representação prévia dos dados bivariados, na forma de um diagrama de dispersão, é essencial, pois permite retirar informação sobre a forma, direcção e grau de associação entre as variáveis. Se se concluir que tem sentido falar numa associação entre as variáveis, traduzida pela nuvem de pontos com a forma de uma oval, mais ou menos alongada, então passase a uma fase posterior, que será a medição do grau de intensidade com que as variáveis se associam, ou a construção de um modelo que permita conhecer como se reflectem numa das variáveis, as modificações processadas na outra, que são os modelos de regressão. Vamos, no que se segue, falar unicamente na forma de medir a intensidade com que as variáveis se associam. 2 Coeficiente de correlação (amostral de Pearson) A medida que se utiliza com mais frequência para medir o grau desta associação linear, é o coeficiente de correlação, que se representa por r, e se calcula a partir da epressão: r = Sy S Syy onde n S y = ( i )(yi y) i= 1 Na epressão anterior e y, representam, respectivamente, as médias dos i s e dos yi s. 1

Na definição do coeficiente de correlação de pares de variáveis, está implícita a definição de uma medida que dá uma ideia da variabilidade conjunta eistente entre as variáveis e que é a covariância amostral: Covariância = 1 n 1 n ( i )(yi y) Esta medida tem o inconveniente de depender drasticamente das unidades com que se apresentam os elementos da amostra e daí o facto de normalmente não ser utilizada, passandose à definição do coeficiente de correlação (independente das unidades utilizadas), que não é mais i= 1 que a covariância das observações padronizadas * i = se verifica da epressão anteriormente considerada, vem: i var() * e y i = y i y var(y) que, como facilmente Correlação (,y) = covariância(,y) variância() variância(y) Propriedades do coeficiente de correlação: 1 O valor de r está no intervalo [1,1] 2 Quanto maior for o módulo de r, maior será a relação linear eistente entre os i. e os y i. 3 O facto de r ser positivo, significa que a relação entre os s e os y s é do mesmo sentido, isto é, a valores grandes de, correspondem, em média, valores grandes de y e viceversa. Quando r é negativo, a relação entre os s e os y s é de sentido contrário, o que significa que a valores grandes de, correspondem, em média, valores pequenos de y e viceversa. Interpretação geométrica: 1 Se aos maiores valores de estão associados, de um modo geral, os maiores valores de y, então r>0. Efectivamente, quando pensamos num valor grande de, será um valor acima da média. Por outro lado, um valor pequeno de é um valor abaio da média. Então se, de um modo geral, aos valores grandes de estão associados os valores grandes de y, e aos valores pequenos de estão associados os valores pequenos de y, os produtos ( i )(y i y ) são de um modo geral positivos, já que ambos os factores são positivos ou negativos. Como o denominador da epressão do coeficiente de correlação, não depende da forma como os s se associam com os y s, então o facto de no numerador somarmos grande número de parcelas positivas, faz com que o valor do coeficiente de correlação seja positivo e tanto maior quantas mais parcelas positivas houver. 2

3. y y 2 Se aos maiores valores de estão associados, de um modo geral, os menores valores de y, então r<0. Fazendo o raciocínio como no ponto anterior, verificamos que agora as parcelas são maioritariamente negativas, já que quando é grande (superior à média dos s), então y é, de um modo geral, pequeno (inferior à média dos y s). Assim, os produtos ( i )(y i y ) são, de um modo geral, negativos.. y y 3 Se não eiste qualquer tipo de associação linear entre os s e os y s, então r=0. Neste caso tanto podem surgir produtos negativos, como positivos, distribuindose de forma mais ou menos equitativa. Então o valor de r vem próimo de zero.

y y. O cálculo do coeficiente de correlação deve ser objecto de alguns cuidados, como se sugere no que se segue. 2.1 Nem sempre o que parece, é! Dado um conjunto de dados, o cálculo do coeficiente de correlação, como medida de associação entre duas variáveis, pode causarnos algumas surpresas, dandonos informação errada sobre essa associação. Efectivamente, nem sempre o que parece, é! Vejamos o eemplo que se segue. Eemplo (Rossman, 1996) Considere os seguintes diagramas de dispersão correspondentes aos resultados de 2 eames de 6 classes (AF). Eame2A Eame1A Eame2B Eame1B Eame2C Eame1C Eame2D Eame1D 4

Eame2E 100 Eame2F 100 Eame1E Eame1F A visualização dos gráficos anteriores levanos a supor que entre os dois eames se possa admitir o seguinte tipo de associação: Forte Moderada Fraca Positiva E A B Negativa C D F O cálculo do coeficiente de correlação, que se apresenta na tabela seguinte completa a informação da tabela anterior: Classe Correlação A 0.71 B 0.47 C 0.99 D 0.72 E 0.99 F 0.47 Considere agora a seguinte representação correspondente aos dados de uma classe G: Eame2G 105 95 85 75 65 55 45 35 40 100 Eame1G Como se verifica, eiste uma forte associação entre os valores do eame 1 e os valores do eame 2. Surpreendentemente ao calcular o coeficiente de correlação obtemos o valor 0! Mas será assim tão surpreendente? Não, se nos lembrarmos que o que o coeficiente de correlação mede é o grau de associação linear e não outro tipo de associação, como a associação quadrática, presente nos dados da representação anterior. Considere agora as duas representações correspondentes às notas obtidas pelas classes H e I: 5

Eame2H 100 40 30 20 10 100 Eame1H Eame2I 40 30 20 10 0 0 20 40 100 Eame1I O valor para o coeficiente de correlação é respectivamente 0.04 e 0. para as classes H e I, o que continua a ser surpreendente! Reparese que relativamente à classe H todos os pares menos 1 seguem um padrão linear, quase perfeito, tendose obtido para o coeficiente de correlação um valor próimo de zero, enquanto que para a classe I, em que os valores se apresentam mais ou menos dispersos, obtivémos um valor relativamente alto. No entanto, se retirarmos a cada um dos conjuntos de dados anteriores o outlier, que é o valor que se distingue dos restantes, em ambas as representações gráficas, já o valor do coeficiente de correlação passa para 0.9997 e 0.13, respectivamente para as classes H e I. O eemplo que acabámos de dar mostra que o coeficiente de correlação não é uma medida resistente, já que é muito influenciado pelos outliers. Este facto não é de estranhar, já que no cálculo do coeficiente de correlação entramos com a média, que se sabe ser uma medida não resistente, isto é, é muito influenciada quer por valores muito pequenos, quer muito grandes, relativamente aos restantes.. Finalmente consideremos o seguinte diagrama de dispersão correspondente à classe J: Eame2J 100 40 30 Eame1J 30 40 100 Da análise da representação anterior verificamos eistirem dois grupos distintos de alunos: uns muito bons e outros muito maus. Embora para cada um dos grupos se verifique uma ligeira tendência para uma associação positiva, o facto é que o valor do coeficiente de correlação é 0.95, bem superior ao valor que seria de esperar. Os eemplos que acabámos de ver, elucidamnos sobre as limitações do coeficiente de correlação como medida de associação entre duas variáveis. Antes de calcular e tentar interpretar o coeficiente de correlação entre duas variáveis, construa um diagrama de dispersão. Não esqueça que o coeficiente de correlação só mede a intensidade com que duas variáveis se associam linearmente, pelo que se a representação gráfica não mostrar evidência de associação linear, não tem sentido calculálo. No caso dos eemplos apresentados, o cálculo do coeficiente de correlação das observações de um par de variáveis (,y), sem uma visão prévia da forma como os pontos se apresentam graficamente, daria uma informação errada da forma e intensidade da associação linear entre as variáveis e y. Tem aqui todo o cabimento fazer referência às três regras básicas, que devemos ter presente, em qualquer análise inicial de dados (De Veau et al, 2004): 6

1. Faça uma representação gráfica. Uma representação gráfica dos dados pode revelar informação acerca de padrões e relações eistentes e escondidas nos dados, informação esta que não é visível a partir dos dados originais ou de tabelas. 2. Faça uma representação gráfica. Um gráfico bem escolhido realça aspectos importantes da distribuição dos dados. 3. Faça uma representação gráfica. A melhor forma de apresentar aos outros, o que pretende dizer sobre os seus dados, é através de uma representação grafica, bem escolhida. Não esqueça que Um gráfico, vale mais que mil palavras. Não esqueça também que nem sempre é verdade... Apresentamos ainda mais um eemplo que realça a importância que os gráficos têm, numa análise prévia de dados bivariados. Eemplo (Adaptado de http://www.itl.nist.gov/div898/handbook/eda/section1/eda16.htm) Este é um eemplo clássico (Anscombe) da importância que os gráficos representam no estudo de um conjunto de dados: Dados: y 10.00 8.04 8.00 6.95 13.00 7.58 9.00 8.81 11.00 8.33 14.00 9.96 6.00 7.24 4.00 4.26 12.00 10.84 7.00 4.82 5.00 5.68 Estatísticas descritivas: n = 11 = 9.0 y = 7.5 Correlação (,y) = 0.816 A informação anterior, embora válida, dános só uma informação limitada dos dados. Diagrama de dispersão: Ao contrário, o diagrama de dispersão dos dados, sugere o seguinte: 1. A nuvem de pontos sugere uma associação linear entre as variáveis 2. Não se justificam modelos mais complicados (por e. Quadráticos) para descrever os dados 3. Não eistem outliers. 7

Vejamos mais três conjuntos de dados: 2 y 2 3 y 3 4 y 4 10.00 9.14 10.00 7.46 8.00 6.58 8.00 8.14 8.00 6.77 8.00 5.76 13.00 8.74 13.00 12.74 8.00 7.71 9.00 8.77 9.00 7.11 8.00 8.84 11.00 9.26 11.00 7.81 8.00 8.47 14.00 8.10 14.00 8.84 8.00 7.04 6.00 6.13 6.00 6.08 8.00 5.25 4.00 3.10 4.00 5.39 8.00 12. 12.00 9.13 12.00 8.15 8.00 5.56 7.00 7.26 7.00 6.42 8.00 7.91 5.00 4.74 5.00 5.73 8.00 6.89 Calculando as estatísticas descritivas para os conjuntos de dados anteriores, temos: Conjunto de dados 2: n = 11 2 = 9.0 y 2 = 7.5 Correlação (,y) = 0.816 Conjunto de dados 3: n = 11 3 = 9.0 y 3 = 7.5 Correlação (,y) = 0.816 Conjunto de dados 4: n = 11 4 = 9.0 y 4 = 7.5 Correlação (,y) = 0.817 Então, tem algum sentido dizer que, sob o ponto de vista quantitativo, os quatro conjuntos de dados são equivalentes. De facto, os quatro conjuntos de dados estão longe de serem equivalentes e uma representação gráfica, que deve ser o primeiro passo de uma análise eploratória de dados, mostranos isso imediatamente: Das representações gráficas anteriores, concluímos imediatamente que: 8

1. O conjunto 1 apresenta uma associação claramente linear 2. O conjunto 2 apresenta uma associação quadrática 3. O conjunto 3 tem claramente um outlier 4. O conjunto 4 mostra um planeamento, eventualmente mal feito, em que um dos pontos aparece removido do conjunto dos outros. Os eemplos anteriores mostram que as estatísticas que utilizamos para reduzir a informação contida nos dados, são úteis, mas dão uma visão muito incompleta e limitada dos dados. Elas reduzem drasticamente a informação contida nos dados, através de alguns números. Ao fazerem esta redução dos dados, omitem aspectos importantes e cruciais, pelo que, na melhor situação podemos dizer que dão informação incompleta, mas na pior situação podemos dizer mesmo, que dão informação errada. 2.2 Não confundir correlação com relação causaefeito Um outro aspecto que não pode deiar de ser referido quando estamos perante uma correlação forte entre duas variáveis, é que isso não significa necessariamente uma relação de causaefeito. Vejamos o seguinte eemplo. Eemplo (Rossman, 1996) A seguinte tabela apresenta para um conjunto de 22 países, o tempo médio de vida (t.m.v) e o número de pessoas por aparelho de televisão (Pes/TV): País t.m.v. Pes/TV País t.m.v. Pes/TV Angola 44 200 Méico 72 6.6 Austrália 76.5 2 Marrocos 64.5 21 Cambodja 49.5 177 Paquistão 56.5 73 Canadá 76.5 1.7 Russia 69 3.2 China 8 África Sul 64 11 Egipto.5 15 Sri Lanka 71.5 28 França 78 2.6 Uganda 51 191 Haiti 53.5 234 ReinoUnido 76 3 Iraque 67 18 EUA 75.5 1.3 Japão 79 1.8 Vietnam 65 29 Madagáscar 52.5 92 Yemen 38 O valor do coeficiente de correlação entre as variáveis t.m.v e Pes/TV é igual a 0., o que significa uma forte correlação negativa entre o tempo médio de vida e o número de pessoas por aparelho de TV, ou seja, quanto maior for o número de pessoas por aparelho de TV, menor é o tempo médio de vida. Será que então se pode aumentar o tempo médio de vida da população de um país, aumentando o número de aparelhos de TV? Seria ridículo pensar desta maneira, pois este é um eemplo em que sobressai que não se pode admitir uma relação de causaefeito. Obviamente eistem outras variáveis não observadas variáveis perturbadoras relacionadas com o nível de vida na população, que provocam alterações nas duas variáveis que estamos a estudar e que eplicam a forte correlação verificada. O diagrama de dispersão das variáveis estudadas tem o seguinte aspecto: 2 200 Pes/TV 1 100 0 40 t.m.v. 9

Não confundir correlação com relação causaefeito. Um diagrama de pontos e uma correlação não provam a eistência de uma relação causaefeito. Podem eistir outras variáveis, que não são estudadas, mas influenciam as que estão a ser estudadas e que são conhecidas como lurking variables (temos dificuldade em arranjar uma tradução adequada, pelo que vamos utilizar o termo variáveis perturbadoras ). Bibliografia De Veau, R. and Velleman, P. (2004) Intro Stats, Pearson Education. Graça Martins, M.E. (2005) Introdução às Probabilidades e Estatística, Sociedade Portuguesa de Estatística Rossman, A. (1996) Workshop Statistics, Discovery with data, SpringerVerlag New York Algumas referências úteis do ALEA: Dados bivariados: http://alea.ine.pt/html/nocoes/html/cap611.html Coeficiente de Correlação: http://alea.ine.pt/html/nocoes/html/cap631.html Como realizar Diagramas de dispersão e calcular do coeficiente de correlação no Ecel: Dossier didáctico nº 4: http://alea.ine.pt/html/statofic/html/dossier/doc/dossier4.pdf 10