Centro de Matemática, Computação e Cognição

Documentos relacionados
Correlação e Regressão. Gráficos de Dispersão e Correlação. Correlação e Regressão. Bases Computacionais da Ciência(BC-0005) Correlação e Regressão

Aula 03 Estatística, Correlação e Regressão

Estatística Descritiva

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Métodos Quantitativos

Estatística Descritiva (I)

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Unidade I ESTATÍSTICA APLICADA. Prof. Luiz Felix

Estatística Descritiva (I)

Distribuição de frequências:

Unidade I ESTATÍSTICA. Prof. Celso Ribeiro Campos

Estatística. Professor Jair Vieira Silva Júnior.

Estatística Descritiva (aula 2) Curso de Farmácia Prof. Hemílio Fernandes

Estatística Descritiva (I)

Medidas-Resumo. Tipos de Variáveis

6EMA Lucas Santana da Cunha 17 e 19 de abril de Universidade Estadual de Londrina

Estatística. O que é Estatística? Estatística pode ser: Estatística Descritiva. Ivonete Melo de Carvalho. Conteúdo

Estatística. Professor Jair Vieira Silva Júnior.

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

ESTATÍSTICA PROFESSOR: ALEXSANDRO DE SOUSA

Estatística Computacional Profª Karine Sato da Silva

Tutorial para o desenvolvimento das Oficinas

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

Regressão linear simples

Estatística Descritiva

Modelos de Regressão Linear Simples parte I

Conceito de Estatística

1 Estatística Descritiva

Seção 1.1 Uma visão geral da estatística

Modelos de Regressão Linear Simples - parte I

Introdução à Probabilidade e Estatística I

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

Adilson Cunha Rusteiko

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Estatística Descritiva (III) Associação entre Variáveis

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

REGRESSÃO E CORRELAÇÃO

CURSO DE SPSS AULA 1. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

Estatística Aplicada

Módulo 4 Ajuste de Curvas

Intervalos de Confiança

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Aula 05 INTRODUÇÃO. Prezado(a) Aluno(a),

6EMA Lucas Santana da Cunha 19 de abril de Universidade Estadual de Londrina

Unidade I ESTATÍSTICA DESCRITIVA. Profa. Isabel Espinosa

Aprendizado de Máquina (Machine Learning)

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Tratamento estatístico de observações

MAE116 Farmácia Estatística Descritiva (I)

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

BC-0005 Bases Computacionais da Ciência. Aula 05 Noções de Estatística Gráficos

Estatística I Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Introdução. Quem nunca ouviu a palavra estatística referindo-se a um número ou conjunto de números?

Noções de Estatística Airlane P. Alencar LANE

INTRODUÇÃO A ESTATISTICA PROF. RANILDO LOPES

Curso de Metodologia da Pesquisa em Ciências da Vida. Tópicos em bioestatística fundamentais para o pesquisador em Ciências da Vida

Estatística

A Estatística é aplicada como auxílio nas tomadas de decisão diante de incertezas para justificar cientificamente as decisões

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

Correlação e Regressão

Professora conteudista: Maria Ester Domingues de Oliveira. Revisor: Francisco Roberto Crisóstomo

MATERIAL COMPLEMENTAR: SPSS

Aula 4 Conceitos Básicos de Estatística

Estatítica Descritiva e Exploratória

Tópicos em Gestão da Informação II

Tratamento estatístico de observações

Aula 2: Resumo de Dados

Análise da Regressão. Prof. Dr. Alberto Franke (48)

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

Estatística Descritiva (III) Associação entre Variáveis

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Aula Teórica: Elaboração de gráficos com o Excel

Estatística Descritiva: organização dos dados. 1 - Distribuição de frequências

AULA DO CPOG. Estatística básica

Probabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16)

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Departamento de Estatística

Medidas Resumo. Medidas de Posição/ Medidas de Dispersão. A intenção desse trabalho é introduzir os conceitos de Medidas de posição e de dispersão.

Comprovação Estatística de Medidas Elétricas

Análise Multivariada Aplicada à Contabilidade

Métodos Quantitativos Aplicados Aulas 1 e 2. 1 Profa. Msc. Érica Siqueira

Métodos Matemáticos para Gestão da Informação

Probabilidade e Estatística Prof. Dr. Narciso Gonçalves da Silva

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

CORRELAÇÃO LINEAR. Referência Cap. 7 - Métodos Estatísticos para Geografia

12/06/14. Estatística Descritiva. Estatística Descritiva. Estatística Descritiva. Estatística Analítica (Inferência estatística/estatística indutiva)

Fernando de Pol Mayer

Transcrição:

1 Bases Computacionais da Ciência (BC- 0005) Noções de Estatística, Correlação e Regressão Maria das Graças Bruno Marietto graca.marietto@ufabc.edu.br Centro de Matemática, Computação e Cognição

2 Objetivos Introduzir, de maneira informal, algumas ferramentas básicas de análise estatística: Permitem visualizar e compreender características de dados experimentais e realizar formas simples de inferência Utilizar o software BrOffice Calc: Familiarizar o aluno com o uso da ferramenta para automatizar tarefas de análise estatística, que seria por demais tediosas ou mesmo impossíveis de se realizar manualmente A objetivo desta aula NÃO é esgotar o assunto da análise estatística de dados

3 Introdução Em diversos campos do conhecimento, são comuns as situações em que uma decisão deve ser tomada com base em informações parciais: Dados obtidos a partir de um número relativamente pequeno de exemplos são usados para prever o comportamento em cenários ainda não observados Uma montadora prepara um novo modelo de automóvel. Para determinar se o modelo é seguro, são realizados ensaios de impacto (crash tests) com protótipos, em que são medidos parâmetros de deformação, aceleração, força de impacto sobre passageiro, etc. Esse procedimento supõe que os protótipos iniciais são representativos do comportamento dos automóveis fabricados futuramente e, portanto, as conseqüências de um acidente podem ser corretamente avaliadas. O que se pode observar no exemplo acima é a incerteza resultante de trabalharmos com um subconjunto dos dados de interesse: O subconjunto é chamado de AMOSTRA O conjunto total é chamado de POPULAÇÃO

4 Introdução A Estatística é um ramo da Matemática que estuda como se pode usar uma mostra para tirar conclusões sobre um universo maior de objetos, levando em conta que sempre há variação e incerteza nas nossas medidas A Estatística está presente na base de toda a ciência experimental, pois ela fornece diretrizes para a coleta de dados, permite comparar diferentes hipóteses e avaliar a precisão dos resultados obtidos experimentalmente A estatística moderna: Apresenta amplas ferramentas computacionais Os softwares de baixo custo, ou mesmo gratuitos,

5 Conceitos Básicos

6 Conceitos Básicos Para entender como a Estatística influencia um estudo científico, vamos examinar os estágios do processo: O termo pesquisa científica refere-se a um processo de aprendizagem onde o cientista determina: Objetivo de uma investigação Coleta das informações relevantes Analisa os dados Tira as conclusões Decide sobre os próximos planos, com base nas conclusões

7 Processo de Pesquisa Didaticamente o processo de pesquisa é dividido nas seguintes etapas: Quando do desenvolvimento do projeto Delineamento: consiste em determinar a metodologia mais prático da adequada para se obter os dados requeridos disciplina de Bases Execução: trata da coleta sistemática dos dados para que se tenha controle do maior número de variáveis que influenciam o Computacionais, estas etapas problema em questão também serão Processamento e Análise: consiste em analisar os dados seguidas Planejamento: nesta etapa, levanta-se uma hipótese testável sobre o problema que se deseja estudar com base nas hipóteses iniciais Interpretação: os resultados são interpretados, dando origem às conclusões do estudo Publicação: são divulgados os resultados e conclusões

8 Variáveis Variáveis: Medição de certas características de interesse para cada um dos casos presentes na amostra As características medidas são conhecidas como variáveis Por exemplo: Estudo sobre habitantes de uma cidade, as variáveis podem ser: Altura, sexo, cor do cabelo, cor dos olhos, etc Divididas em dois tipos: Dependente: deve variar em resposta a alguma outra variável manipulada Independente: sofre uma intervenção, que está sendo manipulada

Em um estudo sobre incidência de depressão em adolescentes de diversos países, a medida do estado de depressão é a variável DEPENDENTE. Outras medidas como país de origem, idade, situação familiar são possíveis variáveis INDEPENDENTES para este caso.

10 Análise Estatística Após a coleta dos dados, quando as variáveis de interesse já foram medidas para todos os casos da amostra, inicia-se a etapa de análise estatística: Caracteriza pelo cálculo de parâmetros a partir das variáveis medidas, que nos permitem entender o comportamento dos dados e fazer previsões sobre casos futuros A análise estatística pode ser dividida em duas áreas: Estatística descritiva: é a área da estatística que preocupa-se com a apresentação, organização e resumo dos dados Estatística inferencial: é a área que estuda métodos para generalizar um resultado obtido de uma amostra de dados para um grande número de sujeitos (população)

11 Análise Estatística Estatística Descritiva: O número de acidentes (= freqüência) nas rodovias federais no estado de São Paulo antes e depois da Lei Seca Gráfico com a distribuição da idade dos ingressantes nos bacharelados interdisciplinares da UFABC Estatística Indutiva: Estimação da porcentagem da população que votará para um/a determinado/a candidato/a à presidência, junto com uma margem de erro ( intervalo de confiança ) Teste estatístico de tendência de queda nas populações de atum-rabilho entre 2000 e 2010 a partir de observações sistemáticas

12 Tipos de Dados A identificação da natureza dos dados é de extrema importância para uma escolha correta do método estatístico de análise Os dados são divididos em dois tipos: Categóricos (qualitativos) Numéricos (quantitativos)

13 Categóricos Nominal: Dados são rotulados por nomes ou números, com o propósito de agrupar os sujeitos que possuam características semelhantes em determinadas categorias Exemplo: Sexo, estado civil, grupo sanguíneo, cor dos olhos, etc Exemplo: Por gênero 1 Feminino 2 Masculino Exemplo : Etnia 1 para Africanos 2 para Americanos 3 para Hispânicos 4 para Orientais Exemplo: Classificação dos empregados 1 para Educador 2 para trabalhador na Construção Civil 3 para trabalhador na Indústria Mecânica

14 Categóricos Ordinal: É possível verificar se o valor é maior, igual ou menor quando comparado a outro caso No entanto, não podemos dizer o quanto um caso é maior ou menor que outro Exemplo: Nível sócio-econômico (baixa, média e alta), avaliação de um estudante (insuficiente, suficiente, excelente) Exemplo : Posição na organização 1 para Presidente 2 para Vice Presidente 3 para Gerente 4 para Supervisor de Departamento 5 para Empregados

15 Categóricos Intervalar: Os dados podem ser classificados em categorias ordenadas e a distância (ou diferença) entre elas é constante (igual) Exemplo: Avaliação do QI: O intervalo entre QI 100 e 110 é o mesmo que entre QI 120 e 130. Porém não se pode dizer que uma pessoa com QI 100 tem o dobro do QI de um indivíduo com QI 50

16 Categóricos Razão: É o nível intervalar com a propriedade adicional de que há um ponto inicial zero natural: Onde zero indica que nada da quantidade está presente Somente quando trabalhos com uma variável de razão que podemos afirmar: O corpo A é duas vezes mais pesado do que o B Exemplo: Comparação de peso corporal, variação de temperatura, notas de zero à 10

17 Numéricos Contínuo: As variáveis podem assumir qualquer valor dentro de um intervalo Exemplo: A altura de um indivíduo pode corresponder a qualquer número entre 1,65 m e 1,78 m; 1,65009 m ou 1,65699 m Discreto: Neste caso os dados podem assumir apenas determinados valores numéricos Exemplo: O número de crianças que apresentaram TOC (Transtorno Obsessivo Compulsivo) entre os cinco e os dez anos corresponde a um número N que pode assumir valores tais como 0, 1, 2, 3, 4... mas não pode ser 2,5 ou 4,876

18 Distribuição de Freqüências Após o levantamento de dados, torna-se necessário a descrição e a organização destes dados A partir dos dados brutos (da forma como são coletados) pode-se construir uma Distribuição de Freqüências A freqüência é definida como o número de indivíduos pertencentes a cada categoria

19 Distribuição de Freqüências Exemplo Exemplo 1: Em um estudo feito com 100 estudantes norte-americanos foi perguntado qual o curso que eles menos gostaram durante o colégio. A distribuição de freqüências desse estudo é mostrada na tabela a seguir: A partir deste exemplo poderíamos perguntar: o curso de Economia foi realmente menos apreciado pelos alunos, ou a diferença foi apenas casual? Para que os resultados fiquem mais claros podemos utilizar alguns métodos para padronizar tamanhos e possibilitar a comparação de distribuições

20 Distribuição de Freqüências Exemplo No método da proporção comparamos o número (freqüência f) de sujeitos de uma dada categoria com o total de sujeitos (N) que compõem a distribuição. P=42/100=0,42 P=25/100=0,25 P=8/100=0,08 P=13/100=0,13 P=12/100=0,12

21 Distribuição de Freqüências - Exemplo No método da porcentagem multiplicamos uma dada proporção por 10 P=42/100=0,42*100 (42%) P=25/100=0,25*100 (25%) P=8/100=0,08*100 (8%) P=13/100=0,13*100 (13%) P=12/100=0,12*100 (12%)

22 Distribuição de Freqüências Estudar: Método da razão Método de taxas Freqüência com Dados Agrupados

23 Medidas de Tendência Central É conveniente dispor de medidas que informem sobre a amostra de maneira mais resumida do que os dados brutos são capazes de fazer As medidas de tendência central cumprem este papel, dando o valor do ponto em torno do qual os dados se distribuem Por exemplo, são medidas de tendência central: Média Mediana Moda

24 Medidas de Tendência Central Média Aritmética Utilizada para dados numéricos, dados categóricos intervalares ou do tipo razão A média aritmética é definida como a soma de todos valores de uma variável em um conjunto, dividida pelo número de elementos do conjunto

25 Medidas de Tendência Central - Média Exemplo: Calcular a média da classe cujas notas são dadas pela tabela. Nesse caso, a somatória das notas é 60 e o número total de sujeitos é 11

26 Medidas de Tendência Central - Mediana Valor central do conjunto que divide a distribuição em duas partes iguais (mesmo número de valores abaixo e acima do valor) Os dados devem estar ordenados Depois de ordenados os valores, por ordem crescente ou decrescente, a mediana é: O valor que ocupa a posição central, se a quantidade desses valores for ímpar A média dos dois valores centrais, se a quantidade desses valores for par

27 Medidas de Tendência Central - Mediana Gasto de Energia Elétrica Quantidade ímpar de valores Meses JAN FEV MAR ABR MAI Custo(R $) 25 22 35 28 35 Média: 29 25+22+35+28+35=145 145/5=29 Moda: 35 Mediana: 28 22 25 28 35 35

28 Medidas de Tendência Central - Mediana Gasto de Energia Elétrica Meses JAN Quantidade par de valores FEV MAR ABR Custo(R $) 25 22 35 Média: 29,67 25+22+35+28+35+33=178 178/6=29,67 Moda: 35 Mediana: 30,5 22 25 28 33 35 28 + 33 = 61 61/2=30,5 35 28 MAI 35 33

29 Medidas de Tendência Central - Moda A moda é o valor mais freqüente de um conjunto de dados A moda pode não existir Ou pode não ser única Exemplos: 1,1,3,3,5,7,7,7,11,13 -> moda 7 3,5,8,11,13,18 -> não tem moda 3,5,5,5,6,6,7,7,7,11,12 -> tem duas modas: 5,7 (bimodal) Distribuição Bimodal Freqüência Freqüência Distribuição Unimodal 4 3 2 1 0 2 3 4 5 6 Nota 7 8 9 4 3 2 1 0 2 3 4 5 Nota 7 8 9

30 Medidas de Dispersão O processo de trabalhar com amostras introduz uma variabilidade dos resultados obtidos, pois cada amostra vai ter características ligeiramente diferentes Essa variabilidade afeta nosso grau de confiança nos resultados. Por isso, as medidas de variabilidade (ou dispersão) têm papel central na Estatística São elas que permitem avaliar a precisão das conclusões que obtemos a partir dos dados experimentais Dentre as medidas de dispersão tem-se: Variância Desvio-padrão

31 Medidas de Dispersão - Desvio

32 Medidas de Dispersão - Desvio Vamos utilizar como exemplo as notas de João Podemos calcular o desvio, que é a diferença de cada nota em relação à média

33 Medidas de Dispersão - Variância O quanto os dados dispersam-se em torno de um valor (média) Variância: Média dos quadrados dos desvios, onde desvio é a diferença entre cada dado e a média do conjunto. Função no BrOffice: VARP (x X ) VAR = N 1 2

34 Medidas de Dispersão - Variância (x X ) VAR = N 1 2

35 Medidas de Dispersão Desvio Padrão Desvio padrão é a raiz quadrada da variância Função no Excel ou BrOffice: DESVPAD 2 ( x X ) N 1 Pode-se interpretar que as notas, no geral, variaram entre (5,2 + 2,56) = 7,76 e (5,2-2,56) = 2,64

36 Gráficos Tem por finalidade representar os resultados obtidos Permite chegar a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores Não há uma única maneira de representar graficamente uma série estatística Escolha do gráfico mais apropriado ficará a critério do analista Alguns critérios: Simplicidade Clareza Veracidade

37 Apresentação Gráfica Estrutura de um Gráfico Ordenada (eixo-y) var dependente 4 Escala Título (opcional) 3 Série Série 1 2 Série 2 1 Origem Legenda (se aplicável) Abscissa (eixo-x) var independente

38 Gráfico de Colunas rea de Plantação dependente: contínua Ano independente: ordinal

39 Gráficos de Linhas 0,8 Variação em temperatura relativa a uma referência 0,6 (Cº) variação ( C) dependente: contínua 0,4 0,2 0 1880-0,2 1900 1920 1940 1960 1980 2000-0,4-0,6 ano Ano Compare: Gráfico de linhas destaca evolução Gráfico de colunas destaca níveis absolutos independente: ordinal Fonte: Goddard Institute for Space Studies - http://data.giss.nasa.gov/gistemp/

40 Gráfico de Dispersão Índice de sucesso financeiro dependente: contínua Pontos de dados Linha de tendência: opcional Razão indicador/anular independente: contínua John M. Coates, Mark Gurnell, and Aldo Rustichini Second-to-fourth digit ratio predicts success among high-frequency financial traders PNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106

41 Correlação e Regressão As técnicas de correlação e regressão analisam dados amostrais, procurando determinar como duas ou mais variáveis estão relacionadas umas com as outras A tabela a seguir mostra alguns exemplos de possíveis relações Qual é o tipo de relação que existe entre as variáveis desta tabela? Por exemplo, quando uma aumenta a outra diminui?

42 Correlação e Regressão A análise de correlação tem como resultado um número que expressa o grau de relacionamento entre duas variáveis A análise de regressão expressa o resultado numa equação matemática, descrevendo o relacionamento Este tipo de estudo é bastante utilizado quando o trabalho/pesquisa/relatório é caracterizado pela pesquisa exploratória Isto é, um analista/pesquisador busca determinar quais variáveis são relevantes, e o foco está no grau do relacionamento

43 Gráficos de Dispersão e Correlação Construir o gráfico de dispersão da variável dependente versus variável independente é, usualmente, o primeiro passo em uma análise de correlação A análise de correlação parte de uma hipótese, isto é, um enunciado formal das relações esperadas entre pelo menos uma variável independente e uma variável dependente Qual a hipótese deste gráfico?

44 Gráficos de Dispersão e Correlação No gráfico de dispersão abaixo o eixo X (variável independente) representa horas de treinamento numa linha de produção de automóveis, e o eixo Y (variável dependente) representa o número de acidentes na fábrica A análise gráfica do comportamento entre as variáveis mostra a existência de correlação negativa, pois à medida que X cresce Y decresce O gráfico mostra que a empresa, ao investir em treinamento, reduz o número de acidentes na fábrica

45 Gráficos de Dispersão e Correlação No gráfico abaixo o eixo X representa o aumento da renda média da população, e o eixo Y representa o consumo de bens duráveis em milhões/ano A análise mostra que há correlação positiva, pois à medida que X cresce Y também cresce O gráfico mostra que, com o aumento médio da renda da população, o consumo de bens duráveis aumenta

46 Gráficos de Dispersão e Correlação No gráfico abaixo o peso de uma pessoa é representado no eixo X, enquanto seu Q.I. (Quociente de Inteligência) está representado no eixo Y Não há correlação linear, o gráfico mostra que não existe evidência de alguma relação entre o peso de uma pessoa com seu Q.I.

47 Correlação Linear e Não Linear Podemos ter dois tipos de correlação entre as variáveis: Correlação linear, em que a relação entre as duas variáveis é expressa adequadamente por uma reta Correlação não-linear. Apesar de existir uma relação clara entre as variáveis, esta não pode ser modelada por uma reta

48 Coeficiente de Correlação Utilizar apenas o mapa/gráfico de dispersão para interpretar a existência de uma correlação pode ser uma tarefa bastante subjetiva Como medida mais objetiva, utiliza-se medir o grau e o tipo de uma correlação linear entre duas variáveis por meio do cálculo do coeficiente de correlação O intervalo de variação do coeficiente de correlação r vai de -1 a 1 Valor de r próximo de -1: as variáveis X e Y têm forte correlação linear negativa Valor de r próximo de zero: se não existir, ou se existir pouca correlação linear entre as variáveis X e Y Valor de r próximo de 1: as variáveis X e Y têm forte correlação linear positiva

49 Coeficiente de Correlação O Coeficiente de Correlação pode ser calculado pela fórmula:

50 Coeficiente de Correlação Como exemplo, vamos analisar o coeficiente de correlação entre o número de faltas dos alunos por semestre, em relação a suas respectivas notas finais em uma determinada disciplina

51 Causalidade e Correlação Correlação não necessariamente implica em causalidade Pesquisadores freqüentemente são tentados a inferir uma relação de causa e efeito entre X e Y, quando eles ajustam um modelo de regressão, ou realizam uma análise de correlação Uma associação significativa entre X e Y não necessariamente implica numa relação de causa e efeito Como exemplo, o gráfico de dispersão a seguir mostra a população de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas (pássaros) naquele ano (X)

52 Causalidade e Correlação Correlação não necessariamente implica em causalidade O exame do gráfico pode induzir à interpretação de que existe associação entre X e Y Freqüentemente, quando duas variáveis parecem estar fortemente associadas, pode ser porque X e Y estão, de fato, associadas com uma terceira variável, W Neste exemplo, X e Y aumentam com W, que é a variável tempo

53 RETA DE REGRESSÃO LINEAR Depois de constatar que existe uma correlação linear significante, é possível escrever uma equação que descreva a relação entre as variáveis X e Y Essa equação chama-se reta de regressão, ou reta do ajuste ótimo Pode-se escrever a equação de uma reta como y = mx + b, onde m é a inclinação da reta e b, o intercepto y. Assim, a reta de regressão é:

54 Parte Prática

55 Parte Prática - BrOffice Cálculos e gráficos em programas de planilhas Todos os procedimentos apresentados aqui podem ser realizados em qualquer programa de planilha. O pacote BrOffice pode ser baixado para uso livre em casa do endereço http://broffice.org/ Abre (botão início): programas BrOffice.org BrOffice.org Calc

56 Exercício 01

57

58

59

60

61

62

63

64

65 Gráfico de Correlação no BrOffice 1) Inserção das informações. Os valores das variáveis independente (X) e dependente (Y ). No exemplo a seguir são as Horas de Treinamento versus Número de Acidentes

66 2) Podemos usar diretamente o ícone Gráfico da barra de ferramentas, ou a opção Inserir Gráfico. Em seguida escolhemos o gráfico de dispersão

67 3) Definimos o intervalo de dados, selecionando todas as colunas de dados

68 4) Inserir a coluna X

69 5) Inserir a coluna Y

70 6) Escolher título do gráfico, subtítulo, nomes das variáveis X e Y

71 7) Após a inserção de todas as informações podemos clicar em Concluir e o gráfico será gerado

72 8) Clicando-se duas vezes sobre o gráfico é possível criar a reta de regressão e a equação da reta Após clicar duas vezes sobre o gráfico, vá ate o menu da parte superior Inserir e clique em Linha de Tendência. Aparecerá a janela denominada Linhas de tendência. Clique em Linear

73

74 9) O valor do coeficiente de correlação (r) pode ser calculado no BROffice Calc seguindo o mesmo procedimento para calcular outras funções Clique no ícone do assistente de funções ou use o menu Inserir/Função. Selecione o grupo de funções estatísticas e escolha a função CORREL

75 10) O próximo passo é selecionar as colunas de dados Neste exemplo, para o campo Dados 1 é selecionada a coluna Horas Treinamento", e para o campo Dados 2" é selecionada a coluna Acidentes"

76 Finalmente, o valor calculado é inserido na planilha, sendo igual a -0,98 Neste caso, o valor de r é negativo, pois há uma forte correlação negativa

77 Atividades para Casa RESOLUÇÃO DOS EXERCÍCIOS DO CAPÍTULO "NOÇÕES DE ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO (Atividade para ser entregue pelo Tidia) Resolver todos os exercícios complementares do Capítulo "Noções de Estatística, Correlação e Regressão", da página 112 do livro A entrega deve ser feita na forma de um arquivo no formato PDF ou DOC A data limite de entrega está no ambiente Tidia, na opção Atividades

78 Atividades para Casa USO DE ESTATÍSTICA NA PRÁTICA (Atividade para ser entregue pelo Tidia) Esta atividade tem por objetivo utilizar os conceitos de Estatística, Correlação e Regressão, com o uso do software BrOffice Calc, em uma situação prática. Para isto o aluno(a) deverá: 1) Fazer as atividades práticas (2 e 3) da página 82 do livro.a planilha de dados está no Repositório do Tidia 2) Estudar o material complementar sobre Correlação e Regressão (página 96) A entrega deve ser feita na forma de um arquivo no formato PDF ou DOC A data limite de entrega está no ambiente Tidia, na opção Atividades

79 Projeto Final

80 Projeto Final INFORMAÇÕES NO AMBIENTE TIDIA, NA OPÇÃO PÁGINA DA DISCIPLINA