BIS0005-15 Bases Computacionais da Ciência Aula 03 Estatística, Correlação e Regressão http://bcc.compscinet.org Prof. Rodrigo de Alencar Hausen hausen@ufabc.edu.br 1
Medidas de tendência central: Média, mediana, moda. 2
Medidas de tendência central Média: valor esperado de uma variável (também chamada esperança ou expectância) Mediana: valor intermediário quando listado em ordem (se número de amostras é par, então média aritmética dos dois valores intermediários) Moda ou modo: valor que mais ocorre (pode ser mais de um) Exemplo 1: Abaixo temos as alturas das jogadoras de um time de futebol. Use o LibreOffice para calcular as três medidas acima: 1,60 1,52 1,66 1,68 1,69 1,66 1,64 1,48 1,61 1,66 1,62 3
Medidas de tendência central No LibreOffice em português: Média: MÉDIA(...) Mediana: MED(...) Moda: MODO(...) Obs.: se não há números repetidos, MODO retorna erro (#VALOR! ou #N/A!) se há mais de uma moda, MODO retorna apenas a menor delas 4
Medidas de variabilidade: Variância, desvio padrão. 5
Medidas de variabilidade Para valores que se distribuem em torno da média, duas medidas indicam o quão concentrados esses valores estão em relação à média (menores = valores mais próx. média) Variância (de população): VAR.P(...) O valor esperado entre o quadrado do desvio de cada valor e a média. Desvio padrão: DESVPAD(...) Raiz quadrada da variância. Vantagem: está na mesma unidade da variável sendo analisada. Ex: se X é medida em m (metros), a unidade de var.p(x) é m², mas desvpad(x) está em m, assim como X. 6
Medidas de variabilidade Outras medidas de variabilidade úteis: MÍNIMO(...) : menor valor de uma variável MÁXIMO(...) : maior valor Volte ao exemplo 1 e calcule variância, desvio padrão, mínimo e máximo da altura. 7
Visualizando a distribuição de valores: Histogramas. 8
Histograma Diagrama que mostra a distribuição de valores de uma variável Qtde. de vezes que um valor da faixa aparece Faixa de valores da variável dividida em classes. 9
Histograma Voltando ao exemplo 1, vamos construir o histograma 1. Em algum lugar da planilha, coloque numa coluna os nomes das classes e na coluna adjacente os seus limites superiores. Selecione a célula à direita do primeiro limite superior. 2. Inserir Função Matriciais FREQUÊNCIA Clique no botão Próximo >> 3. Clique na caixa de texto ao lado de Dados e selecione as alturas 4. Clique na caixa de texto ao lado de Classes, selecione os limites superiores das classes e clique OK 5. Selecione a coluna com os nomes das classes a a coluna com as frequências (use Ctrl) e insira um gráfico de colunas 10
Variáveis dependentes 11
Variáveis dependentes Até agora, analisamos indepententemente apenas 1 variável. É comum analisar mais de uma variável para tentar identificar uma relação de dependência entre elas: Variável Independente Horas de treinamento Número do sapato Cigarros por dia Faltas de um aluno Peso da pessoa Variável Depentente Número de acidentes Altura da pessoa Capacidade pulmonar Nota do aluno no curso QI A análise visual de tais dependências é feita por meio de gráficos de dispersão. 12
Gráfico de dispersão (scatter plot) 13
Gráfico de dispersão Índice de sucesso financeiro dependente: contínua Pontos de dados Linha de tendência: opcional Razão indicador/anular independente: contínua John M. Coates, Mark Gurnell, and Aldo Rustichini Second-to-fourth digit ratio predicts success among high-frequency financial traders PNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106 14
Gráfico de dispersão Exemplo 2: Análise da dependência entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina. Copie os dados do exemplo 2 para uma planilha Construa o gráfico de dispersão: 1. Selecione as colunas faltas e nota (com cabeçalhos) 2. Inserir Gráfico ou Inserir Objeto Gráfico 3. Escolha o tipo XY (Dispersão) 4. Em elementos do gráfico, coloque título, nomes dos eixos e desmarque exibir legenda 5. (opcional) Clique sobre o eixo Y e ajuste o seu intervalo Interprete o gráfico 15
Gráfico de dispersão 16
Correlação e regressão 17
Correlação e regressão As técnicas de correlação e regressão analisam dados amostrais, procurando determinar como duas (ou mais) variáveis estão relacionadas umas com as outras. Variável Independente Horas de treinamento Número do sapato Cigarros por dia Faltas de um aluno Peso da pessoa Variável Depentente Número de acidentes Altura da pessoa Capacidade pulmonar Nota do aluno no curso QI 18
Correlação e regressão A análise de correlação tem como resultado um número que expressa o grau de relacionamento entre duas variáveis. A análise de regressão expressa o resultado em uma equação matemática, descrevendo o relacionamento. Ambas análises geralmente são utilizadas em pesquisas exploratórias. 19
Correlação Variável dependente A análise gráfica do comportamento entre as variáveis mostra a existência de correlação negativa, pois à medida que X cresce, Y decresce Variável independente O gráfico mostra que a empresa, ao investir em treinamento, reduz o número de acidentes na fábrica 20
Correlação A análise gráfica do comportamento entre as variáveis mostra a existência de correlação positiva, pois à medida que X cresce, Y também cresce. O gráfico mostra que, com o aumento médio da renda da população, o consumo de bens duráveis aumenta. 21
Correlação 22
Correlação Não há correlação linear, o gráfico mostra que não existe evidência de alguma relação entre o peso de uma pessoa com seu Q.I. 23
Exemplos 24
Correlação: tipos Podemos ter dois tipos de correlação entre as variáveis: Correlação linear: a relação entre as duas variáveis é expressa adequadamente por uma reta. Correlação não-linear: apesar de existir uma relação clara entre as variáveis, esta não pode ser modelada por uma reta. 25
Determinando correlações Interpretando correlação entre duas variáveis. Subjetivamente: visualmente, pelo gráfico Objetivamente: usando uma medida de correlação Coeficiente de correlação 26
Coeficiente de correlação (de Pearson) 27
Coeficiente de correlação O intervalo de variação do coeficiente de correlação r ou coeficiente de correlação de Pearson está entre -1 e 1. Valor de r próximo de -1: as variáveis X e Y têm forte correlação linear negativa Valor de r próximo de zero: se não existir, ou se existir pouca correlação linear entre as variáveis X e Y Valor de r próximo de 1: as variáveis X e Y têm forte correlação linear positiva 28
Coeficiente de correlação cov ( X, Y ) r ( X, Y )= var ( X )var (Y ) Onde: var(x) : variância de X = valor esperado de [X média(x)]² cov(x,y) : covariância entre X e Y = valor esperado de [X média(x)] [Y média(y)] Note que r(x,x) é sempre 1 (uma variável é sempre diretamente correlacionada com ela mesma) 29
Coeficiente de correlação Continuação exemplo 2: Análise da correlação entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina. Use a função CORREL ou PEARSON para obter o coeficiente de correlação. 30
Coeficiente de correlação 31
Coeficiente de correlação 32
Coeficiente de correlação 33
Coeficiente de correlação 34
Coeficiente de correlação r = -0,975 (forte correlação linear negativa) 35
Coeficiente de correlação 36
Coeficiente de correlação 37
Interpretando o coeficiente r O significado dado a um valor de r depende de cada contexto em particular. Na falta de contexto ou melhores informações, podemos usar um guia simples: Valor absoluto de r 0 a 0,199... 0,20 a 0,399... 0,40 a 0,699... 0,70 a 0,899... 0,90 e acima Interpretação da correlação bem fraca fraca moderada forte muito forte Fonte: http://leg.ufpr.br/~silvia/ce003/node74.html 38
Coeficiente de correlação Atenção: O coeficiente de correlação de Pearson só funciona para variáveis cuja correlação é linear (ou próxima disso) Para outros tipos de correlação (quadrática, exponencial, logarítmica, etc.) é necessário transformar uma das variáveis. Correlação, por si só, não implica causa! http://tylervigen.com/page 39
Coeficiente de determinação 40
Coeficiente de determinação Coeficiente de determinação = r² (= quadrado do coeficiente r) r² está sempre no intervalo [0,1] Medida da proporção da variabilidade em uma variável em relação à outra. No exemplo anterior: r² = 0,975, logo r² = 0,95 Ou seja, 95% da variação nas notas é devida ao número de faltas. Na prática, raramente teremos uma determinação perfeita r²=1 pois existem inúmeros fatores que influenciam as relações entre variáveis na vida real. 41
Regressão 42
Regressão Encontrada uma correlação significante entre duas variáveis, geralmente é necessário prever de que forma uma alteração na variável independente se reflete em alteração na variável dependente. 1. De acordo com a correlação, escolha uma curva: reta, parábola, exponencial, etc. 2. Trace a curva que melhor aproxima os pontos dados 3. Determine a equação dessa curva O LibreOffice faz isso automaticamente. 43
Regressão no LibreOffice 1. Clique duas vezes sobre o gráfico para permitir edição 2. Clique sobre um dos pontos do gráfico de dispersão e escolha inserir linha de tendência... 3. Escolha o tipo e marque mostrar equação f(x) = 0,39 + 10,57 44
Mais exercícios para a aula Vamos fazer as atividades 2 e 3 do livro de bases. (pp. 100 a 106) 45
Para casa Estudar os capítulos 2 e 3 e fazer os exercícios desses capítulos. Ler o capítulo 4 para a próxima aula Para entregar no Tidia: Atividade 03 Faça os exercícios 3 e 4 do capítulo 3 (págs. 108 e 109 do livro de Bases Computacionais) e entregue um mini-relatório em PDF com duas seções, cada uma versando sobre a solução de um dos exercícios. Explique bem a sua solução! 46