Aula 03 Estatística, Correlação e Regressão

Documentos relacionados
Correlação e Regressão. Gráficos de Dispersão e Correlação. Correlação e Regressão. Bases Computacionais da Ciência(BC-0005) Correlação e Regressão

Centro de Matemática, Computação e Cognição

Idade da mãe, em anos completos, no dia do parto. Numérico * A ausência de preenchimento identifica a não obtenção do valor no momento da coleta

INE 7001 Estatística para Administradores I Turma Prática 1 15/08/2016 GRUPO:

Estatística Aplicada ao Serviço Social

Lucas Santana da Cunha de julho de 2018 Londrina

CORRELAÇÃO LINEAR. Referência Cap. 7 - Métodos Estatísticos para Geografia

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Módulo 4 Ajuste de Curvas

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

Regressão linear simples

CORRELAÇÃO LINEAR. Referência Cap. 7 - Métodos Estatísticos para Geografia

Estatística. Correlação e Regressão

Aula Teórica: Elaboração de gráficos com o Excel

MINICURSO. Uso da Calculadora Científica Casio Fx. Prof. Ms. Renato Francisco Merli

REGRESSÃO E CORRELAÇÃO

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Definição Há correlação entre duas variáveis quando os valores de uma variável estão relacionados, de alguma maneira, com os valores da outra variável

1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A

Excel INTERMEDIÁRIO. Prof. Cassiano Isler Turma 3

Figura 3.42 Resultados das medidas de tendência central.

VERIFICAÇÃO DOS RECURSOS NECESSÁRIOS. Capítulo 1 VARIÁVEIS E AMOSTRAS 1

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Modelos de Regressão Linear Simples parte I

UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ DEPARTAMENTO DE ENGENHARIA AMBIENTAL LISTA DE EXERCÍCIOS 5

Física Geral - Laboratório (2013/1) Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Aula 2 Regressão e Correlação Linear

Exemplo 1. Conjunto de dados de uma amostra de 12 meninas da escola: y i x i

Modelos de Regressão Linear Simples - parte I

Inferência Estatística: Conceitos Básicos II

Análise Multivariada Aplicada à Contabilidade

Tutorial para o desenvolvimento das Oficinas

Introdução ao modelo de Regressão Linear

ESTATÍSTICA DESCRITIVA E PREVISÃO INDICE

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

INE Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel Professor Marcelo Menezes Reis

Medidas-Resumo. Tipos de Variáveis

Teoria da Correlação. Luiz Carlos Terra

Exercícios de programação

Física Geral (2013/1) Aula 3: Estimativas e erros em medidas diretas (I)

Aula 14 - Correlação e Regressão Linear

Estudar a relação entre duas variáveis quantitativas.

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

Correlação e Regressão Linear. Prof.: Joni Fusinato

Análise de Regressão Linear Simples e

Noções sobre Regressão

Capítulo 5 Distribuições de probabilidade normal Pearson Prentice Hall. Todos os direitos reservados.

Universidade Federal de Alagoas Instituto de Ciências Sociais Curso de Ciências Sociais

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

AULA 06 Correlação. Ernesto F. L. Amaral. 04 de outubro de 2013

Correlação e Regressão

Estatística Descritiva

Estatística Aplicada ao Serviço Social AULA 06. Estatística Descritiva - Medidas de dispersão. Universidade Federal da Paraíba

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Estatística Descritiva

Apostila de estatística básica Minitab Organizador: Daniel Magalhães Lima. Autores:

Física Geral - Laboratório. Organização e descrição de dados

1.1. Funções estatísticas : Abaixo listamos as funções estatísticas mais utilizadas.

Engenharia da Qualidade I Aula 5

Seção 2.1. Distribuições de freqüência e seus gráficos

Laboratório Física Geral

Prof. Lorí Viali, Dr.

Objetivo: Determinar a eficiência de um transformador didático. 1. Procedimento Experimental e Materiais Utilizados

FUNÇÃO DE 2º GRAU. O grau de um polinômio é determinado pelo maior expoente dentre todos os termos. Assim uma equação de 2º grua tem sempre a forma:

Introdução. São duas técnicas estreitamente relacionadas, que visa estimar uma relação que possa existir entre duas variáveis na população.

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

Análise de Regressão. Luiz Carlos Terra

PLANIFICAÇÃO ANUAL MATEMÁTICA 10ºANO. Documento(s) Orientador(es): Programa de Matemática dos Cursos Profissionais TEMAS /DOMÍNI TEMPO AVALIAÇÃO

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

ANÁLISE DE REGRESSÃO

Análise de regressão linear simples. Diagrama de dispersão

LibreOffice Calc: aula 1

Algumas Possibilidades do Uso do GeoGebra nas Aulas de Matemática

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3

SCC0173 Mineração de Dados Biológicos

Física Geral - Laboratório. Aula 3: Estimativas e erros em medidas diretas (I)

Estatística e Probabilidade

RESOLUÇÃO CADM 10/11, DE 22 DE JUNHO DE 2011

Estimativas e Erros. Propagação de erros e Ajuste de funções

Estatística Descritiva

Análise de Regressão

Encontre o conjunto solução de cada uma das inequações a seguir: 6 x

Estatística. Capítulo 3 - Parte 1: Variáveis Aleatórias Discretas. Professor Fernando Porto

Estatística Descritiva e Exploratória

PLANO DE CONTEÚDO MÍNIMO (PCM) - UNIDADE UNIVERSITÁRIA DE COMPUTAÇÃO. Professora Rosana da Paz Ferreira CCB1052 (2018.2)

PLANO DE CONTEÚDO MÍNIMO (PCM) - UNIDADE UNIVERSITÁRIA DE COMPUTAÇÃO. Professora Rosana da Paz Ferreira CCB1052 (2018.2)

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

CORRELAÇÃO E REGRESSÃO

Física Geral - Laboratório. Organização e descrição de dados

Estatística Descritiva CURSO DE EPIDEMIOLOGIA VETERINÁRIA, ACT Prof. Luís Gustavo Corbellini EPILAB /FAVET - UFRGS 24/09/2014 1

Transcrição:

BIS0005-15 Bases Computacionais da Ciência Aula 03 Estatística, Correlação e Regressão http://bcc.compscinet.org Prof. Rodrigo de Alencar Hausen hausen@ufabc.edu.br 1

Medidas de tendência central: Média, mediana, moda. 2

Medidas de tendência central Média: valor esperado de uma variável (também chamada esperança ou expectância) Mediana: valor intermediário quando listado em ordem (se número de amostras é par, então média aritmética dos dois valores intermediários) Moda ou modo: valor que mais ocorre (pode ser mais de um) Exemplo 1: Abaixo temos as alturas das jogadoras de um time de futebol. Use o LibreOffice para calcular as três medidas acima: 1,60 1,52 1,66 1,68 1,69 1,66 1,64 1,48 1,61 1,66 1,62 3

Medidas de tendência central No LibreOffice em português: Média: MÉDIA(...) Mediana: MED(...) Moda: MODO(...) Obs.: se não há números repetidos, MODO retorna erro (#VALOR! ou #N/A!) se há mais de uma moda, MODO retorna apenas a menor delas 4

Medidas de variabilidade: Variância, desvio padrão. 5

Medidas de variabilidade Para valores que se distribuem em torno da média, duas medidas indicam o quão concentrados esses valores estão em relação à média (menores = valores mais próx. média) Variância (de população): VAR.P(...) O valor esperado entre o quadrado do desvio de cada valor e a média. Desvio padrão: DESVPAD(...) Raiz quadrada da variância. Vantagem: está na mesma unidade da variável sendo analisada. Ex: se X é medida em m (metros), a unidade de var.p(x) é m², mas desvpad(x) está em m, assim como X. 6

Medidas de variabilidade Outras medidas de variabilidade úteis: MÍNIMO(...) : menor valor de uma variável MÁXIMO(...) : maior valor Volte ao exemplo 1 e calcule variância, desvio padrão, mínimo e máximo da altura. 7

Visualizando a distribuição de valores: Histogramas. 8

Histograma Diagrama que mostra a distribuição de valores de uma variável Qtde. de vezes que um valor da faixa aparece Faixa de valores da variável dividida em classes. 9

Histograma Voltando ao exemplo 1, vamos construir o histograma 1. Em algum lugar da planilha, coloque numa coluna os nomes das classes e na coluna adjacente os seus limites superiores. Selecione a célula à direita do primeiro limite superior. 2. Inserir Função Matriciais FREQUÊNCIA Clique no botão Próximo >> 3. Clique na caixa de texto ao lado de Dados e selecione as alturas 4. Clique na caixa de texto ao lado de Classes, selecione os limites superiores das classes e clique OK 5. Selecione a coluna com os nomes das classes a a coluna com as frequências (use Ctrl) e insira um gráfico de colunas 10

Variáveis dependentes 11

Variáveis dependentes Até agora, analisamos indepententemente apenas 1 variável. É comum analisar mais de uma variável para tentar identificar uma relação de dependência entre elas: Variável Independente Horas de treinamento Número do sapato Cigarros por dia Faltas de um aluno Peso da pessoa Variável Depentente Número de acidentes Altura da pessoa Capacidade pulmonar Nota do aluno no curso QI A análise visual de tais dependências é feita por meio de gráficos de dispersão. 12

Gráfico de dispersão (scatter plot) 13

Gráfico de dispersão Índice de sucesso financeiro dependente: contínua Pontos de dados Linha de tendência: opcional Razão indicador/anular independente: contínua John M. Coates, Mark Gurnell, and Aldo Rustichini Second-to-fourth digit ratio predicts success among high-frequency financial traders PNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106 14

Gráfico de dispersão Exemplo 2: Análise da dependência entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina. Copie os dados do exemplo 2 para uma planilha Construa o gráfico de dispersão: 1. Selecione as colunas faltas e nota (com cabeçalhos) 2. Inserir Gráfico ou Inserir Objeto Gráfico 3. Escolha o tipo XY (Dispersão) 4. Em elementos do gráfico, coloque título, nomes dos eixos e desmarque exibir legenda 5. (opcional) Clique sobre o eixo Y e ajuste o seu intervalo Interprete o gráfico 15

Gráfico de dispersão 16

Correlação e regressão 17

Correlação e regressão As técnicas de correlação e regressão analisam dados amostrais, procurando determinar como duas (ou mais) variáveis estão relacionadas umas com as outras. Variável Independente Horas de treinamento Número do sapato Cigarros por dia Faltas de um aluno Peso da pessoa Variável Depentente Número de acidentes Altura da pessoa Capacidade pulmonar Nota do aluno no curso QI 18

Correlação e regressão A análise de correlação tem como resultado um número que expressa o grau de relacionamento entre duas variáveis. A análise de regressão expressa o resultado em uma equação matemática, descrevendo o relacionamento. Ambas análises geralmente são utilizadas em pesquisas exploratórias. 19

Correlação Variável dependente A análise gráfica do comportamento entre as variáveis mostra a existência de correlação negativa, pois à medida que X cresce, Y decresce Variável independente O gráfico mostra que a empresa, ao investir em treinamento, reduz o número de acidentes na fábrica 20

Correlação A análise gráfica do comportamento entre as variáveis mostra a existência de correlação positiva, pois à medida que X cresce, Y também cresce. O gráfico mostra que, com o aumento médio da renda da população, o consumo de bens duráveis aumenta. 21

Correlação 22

Correlação Não há correlação linear, o gráfico mostra que não existe evidência de alguma relação entre o peso de uma pessoa com seu Q.I. 23

Exemplos 24

Correlação: tipos Podemos ter dois tipos de correlação entre as variáveis: Correlação linear: a relação entre as duas variáveis é expressa adequadamente por uma reta. Correlação não-linear: apesar de existir uma relação clara entre as variáveis, esta não pode ser modelada por uma reta. 25

Determinando correlações Interpretando correlação entre duas variáveis. Subjetivamente: visualmente, pelo gráfico Objetivamente: usando uma medida de correlação Coeficiente de correlação 26

Coeficiente de correlação (de Pearson) 27

Coeficiente de correlação O intervalo de variação do coeficiente de correlação r ou coeficiente de correlação de Pearson está entre -1 e 1. Valor de r próximo de -1: as variáveis X e Y têm forte correlação linear negativa Valor de r próximo de zero: se não existir, ou se existir pouca correlação linear entre as variáveis X e Y Valor de r próximo de 1: as variáveis X e Y têm forte correlação linear positiva 28

Coeficiente de correlação cov ( X, Y ) r ( X, Y )= var ( X )var (Y ) Onde: var(x) : variância de X = valor esperado de [X média(x)]² cov(x,y) : covariância entre X e Y = valor esperado de [X média(x)] [Y média(y)] Note que r(x,x) é sempre 1 (uma variável é sempre diretamente correlacionada com ela mesma) 29

Coeficiente de correlação Continuação exemplo 2: Análise da correlação entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina. Use a função CORREL ou PEARSON para obter o coeficiente de correlação. 30

Coeficiente de correlação 31

Coeficiente de correlação 32

Coeficiente de correlação 33

Coeficiente de correlação 34

Coeficiente de correlação r = -0,975 (forte correlação linear negativa) 35

Coeficiente de correlação 36

Coeficiente de correlação 37

Interpretando o coeficiente r O significado dado a um valor de r depende de cada contexto em particular. Na falta de contexto ou melhores informações, podemos usar um guia simples: Valor absoluto de r 0 a 0,199... 0,20 a 0,399... 0,40 a 0,699... 0,70 a 0,899... 0,90 e acima Interpretação da correlação bem fraca fraca moderada forte muito forte Fonte: http://leg.ufpr.br/~silvia/ce003/node74.html 38

Coeficiente de correlação Atenção: O coeficiente de correlação de Pearson só funciona para variáveis cuja correlação é linear (ou próxima disso) Para outros tipos de correlação (quadrática, exponencial, logarítmica, etc.) é necessário transformar uma das variáveis. Correlação, por si só, não implica causa! http://tylervigen.com/page 39

Coeficiente de determinação 40

Coeficiente de determinação Coeficiente de determinação = r² (= quadrado do coeficiente r) r² está sempre no intervalo [0,1] Medida da proporção da variabilidade em uma variável em relação à outra. No exemplo anterior: r² = 0,975, logo r² = 0,95 Ou seja, 95% da variação nas notas é devida ao número de faltas. Na prática, raramente teremos uma determinação perfeita r²=1 pois existem inúmeros fatores que influenciam as relações entre variáveis na vida real. 41

Regressão 42

Regressão Encontrada uma correlação significante entre duas variáveis, geralmente é necessário prever de que forma uma alteração na variável independente se reflete em alteração na variável dependente. 1. De acordo com a correlação, escolha uma curva: reta, parábola, exponencial, etc. 2. Trace a curva que melhor aproxima os pontos dados 3. Determine a equação dessa curva O LibreOffice faz isso automaticamente. 43

Regressão no LibreOffice 1. Clique duas vezes sobre o gráfico para permitir edição 2. Clique sobre um dos pontos do gráfico de dispersão e escolha inserir linha de tendência... 3. Escolha o tipo e marque mostrar equação f(x) = 0,39 + 10,57 44

Mais exercícios para a aula Vamos fazer as atividades 2 e 3 do livro de bases. (pp. 100 a 106) 45

Para casa Estudar os capítulos 2 e 3 e fazer os exercícios desses capítulos. Ler o capítulo 4 para a próxima aula Para entregar no Tidia: Atividade 03 Faça os exercícios 3 e 4 do capítulo 3 (págs. 108 e 109 do livro de Bases Computacionais) e entregue um mini-relatório em PDF com duas seções, cada uma versando sobre a solução de um dos exercícios. Explique bem a sua solução! 46