Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior Departamento de Estatística-UFPR Email: pj@est.ufpr.br



Documentos relacionados
Aula 4 Estatística Conceitos básicos

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Revisão: Noções básicas de estatística aplicada a avaliações de imóveis

Exercícios Teóricos Resolvidos

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

4Distribuição de. freqüência

Capítulo 3 Modelos Estatísticos

MÉDIA ARITMÉTICA MÉDIA PONDERADA MODA MEDIANA

Capítulo 5: Aplicações da Derivada

Eventos independentes

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Os gráficos estão na vida

AULA 03 Resumos e Gráficos de Dados

MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS

CAP5: Amostragem e Distribuição Amostral

UM POUCO SOBRE GESTÃO DE RISCO

MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIAS

CAPÍTULO 1 Introduzindo SIG

Notas de Cálculo Numérico

Apresentação de Dados em Tabelas e Gráficos

Atividade à Distância Avaliativa - Probabilidade. 1 Probabilidade - Operações e Propriedades

Lista de Exercícios 1 - Estatística Descritiva

Estatística Descritiva I

MÓDULO 1. I - Estatística Básica

Estatística Básica. Introdução à Análise Exploratória de Dados. Renato Dourado Maia. Instituto de Ciências Agrárias

O Princípio da Complementaridade e o papel do observador na Mecânica Quântica

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

PROBABILIDADE. Aula 5

Gráficos estatísticos: histograma. Série Software ferramenta

Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados

Processos Estocásticos

Cotagem de dimensões básicas

Matemática Ficha de Trabalho/Apoio Tratamento de Dados

Exemplos de Testes de Hipóteses para Médias Populacionais

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ

RESUMO TEÓRICO. n(a) P(A) = n(u) 0 P(A) 1

Um jogo de preencher casas

Variáveis aleatórias contínuas e distribuiçao Normal. Henrique Dantas Neder

Unidade de Ensino Descentralizada de Colatina Coordenadoria de Informática Disciplina: Probabilidade e Estatística Prof. Leandro Melo de Sá

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

Aula 5 Distribuição amostral da média

Intervalo de Confiança e cálculo de tamanho de amostra. Henrique Dantas Neder

Fração como porcentagem. Sexto Ano do Ensino Fundamental. Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M.

LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES

Além do Modelo de Bohr

NOÇÕES BÁSICAS DE ESTATÍSTICA


Distribuição de probabilidades

Elaborado por Eduardo Rebouças Carvalho Hermano Alexandre Lima Rocha DISTRIBUIÇÃO NORMAL

Exercícios resolvidos sobre Função de probabilidade e densidade de probabilidade

Centro Universitário Franciscano Material elaborado por: Professora Leandra Anversa Fioreze e Professor Clandio Timm Marques.

3.4 O Princípio da Equipartição de Energia e a Capacidade Calorífica Molar

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll

SIMULADO DO TESTE DE RESOLUÇÃO DE PROBLEMAS

BIOESTATÍSTICA ESTATÍSTICA DESCRITIVA: Representação Gráfica

DETERMINAÇÃO DO TAMANHO DE UMA AMOSTRA

Estatística e Probabilidade. Aula 8 Cap 05. Distribuição normal de probabilidade

Grupo A - 1 o semestre de 2014 Gabarito Lista de exercícios 11 - Teste Qhi-quadrado C A S A

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

Sessão Saber profundo Contribuição dos xs (

Até quando uma população pode crescer?

Do neurônio biológico ao neurônio das redes neurais artificiais

As Sete Ferramentas Básicas do Controle da Qualidade

LISTA DE EXERCÍCIOS 3

Análise de Arredondamento em Ponto Flutuante

ANALISE COMBINATORIA Um pouco de probabilidade

Disponibilizo a íntegra das 8 questões elaboradas para o Simulado, no qual foram aproveitadas 4 questões, com as respectivas resoluções comentadas.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

O teste de McNemar. A tabela 2x2. Depois

CURSO ON-LINE PROFESSOR GUILHERME NEVES 1

ORGANIZAÇÃO E TRATAMENTO DE DADOS Nome: N.º Turma / /201

Faculdade Sagrada Família

INE5403 FUNDAMENTOS DE MATEMÁTICA DISCRETA

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini prof.andre.luis.belini@gmail.com /

QUALITATIVA VARIÁVEL QUANTITATIVA

INE 5111 Gabarito da Lista de Exercícios de Probabilidade INE 5111 LISTA DE EXERCÍCIOS DE PROBABILIDADE

A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO

FERRAMENTAS DA QUALIDADE

Resoluções comentadas de Raciocínio Lógico e Estatística SEFAZ - Analista em Finanças Públicas Prova realizada em 04/12/2011 pelo CEPERJ

Capítulo 5 Representações gráficas para variáveis quantitativas

UNIDADE 3 MEDIDAS DE POSIÇÃO E DISPERSÃO OBJETIVOS ESPECÍFICOS DE APRENDIZAGEM

Resolvendo problemas com logaritmos

Material Teórico - Aplicações das Técnicas Desenvolvidas. Exercícios e Tópicos Relacionados a Combinatória. Segundo Ano do Ensino Médio

DESENVOLVENDO COMPETÊNCIAS MATEMÁTICAS Marineusa Gazzetta *

Realizando cálculos para o aparelho divisor (I)

Energia Eólica. Atividade de Aprendizagem 3. Eixo(s) temático(s) Ciência e tecnologia / vida e ambiente

CAPÍTULO 5 - Exercícios

Capítulo 7 Medidas de dispersão

Cláudio Tadeu Cristino 1. Julho, 2014

Exercícios - Distribuição Normal (Gauss)

Início Rápido para o Templo

AULAS 04 E 05 Estatísticas Descritivas

Afinal o que são e como se calculam os quartis? Universidade do Algarve Departamento de Matemática

Data 23/01/2008. Guia do Professor. Introdução

TUTORIAL PARA PREPARAÇÃO E IMPORTAÇÃO DE DADOS PARA. Os dados de suas coletas devem ser organizados em uma planilha eletrônica, de modo

Curvas em coordenadas polares

ESTATÍSTICA. Prof. Ari Antonio, Me. Ciências Econômicas. Unemat Sinop 2012

Transcrição:

Estatística Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior Departamento de Estatística-UFPR Email: pj@est.ufpr.br Resumo Este curso apresenta uma introdução aos métodos estatísticos para modelagem de dados. Neste curso, o aluno pensará em problemas práticos de uma forma quantitativa e ganhará um entendimento dos princípios básicos em estatística. A obtenção de um conhecimento sólido das idéias básicas dará ao aluno confiança para abordar métodos estatísticos mais avançados que podem ser encontrados no futuro. 1

Livros Bussab, W. e Morettin, P. Estatística Básica. Editora Atlas. Speed, T. & Nolan, D. Stats Labs. Soares, J.F. Estatística Conteúdo 1. Introdução: Por que há a necessidade de Estatística? 2. Estatísticas Descritivas: sumário de dados, gráfico de barras, gráfico de setores, histograma, ramo-e-folhas, mediana, moda, desvio padrão, amplitude inter-quartis,... 3. Populaçoes e amostras: usando amostras para aprender sobre a população 4. Intervalos de confiança: estimando a média populacional a partir de uma amostra 5. Testes de hipóteses: idéia básica e testes para uma amostra 6. Comparação de dois grupos: As mensurações num grupo tendem a ser maiores em média do que em outro? 7. Correlação: verificando se os valores de duas quantidades tendem a ser relacionadas 8. Regressão: descrevendo como o comportamento de uma quantidade muda com o valor da outra 2

1 Introdução 1.1 O que é Estatística? Primeiro deve-se estabelecer o que se deseja dizer com estatística. Ela tem pelo menos três significados: 1. coleção de informações numéricas ou dados, 2. medidas resultantes de um conjunto de dados, como por exemplo médias, 3. métodos usados na coleta e interpretação de dados. Qual é o papel da estatística na ciência? Na ciência, são realizados estudos experimentais ou observacionais, levando à coleção de dados numéricos. O propósito da investigação é responder uma questão científica. O padrão de variação nos dados faz com que a resposta não seja óbvia. Em geral, a disciplina de estatística refere-se a métodos para coleta e descrição dos dados, e então a verificação da força da evidência nos dados pró ou contra as idéias científicas. A presença de uma variação não previsível nos dados faz disso uma tarefa pouco trivial. 1.2 Variação Amostral Alguns exemplos onde a variação está presente no dado podem ser encontrados em Landim (1997). 3

2 Estatística Descritiva 2.1 Tipos de dado A interpretação das listas de números a olho é muito difícil. Ao invés disso, nós deveríamos produzir um resumo verbal ou numérico e/ou usar métodos gráficos para descrever os pontos principais dos dados. O método mais apropriado dependerá da natureza dos dados, e aqui podemos distinguir dois tipos principais: 1. Dados qualitativos ou categóricos que podem ser: (a) nominais, por exemplo sexo: masculino, feminino classificação de fósseis (b) ordinais, i.e. categorias ordenadas, tais como salinidade: baixa, média, alta abundância: dominante, abundante, frequente, ocasional, raro 2. Dados quantitativos ou numéricos que podem ser: (a) discretos, i.e. contagens ou número inteiros, por exemplo número de ovos postos pela tartaruga marinha número de ataques de asma no ano passado (b) contínuos, i.e. medidas numa escala contínua, tais como volume, área, peso, massa velocidade de corrente As distinções são menos rígidas do que a descrição acima insinua. Por exemplo, em geral nós trataríamos idade como uma variável contínua, mas se a idade for registrada pelo ano mais próximo, podemos trata-la como discreta, e se separarmos a amostra em crianças, adultos jovens, idade média, velhos, por exemplo, então temos faixa etária como uma variável ordenada categórica. No entanto, em geral é recomendado manter os dados em sua forma original, categorizando os dados somente para propósitos de apresentação. 4

2.2 Dados qualitativos Para sumarizar dados qualitativos numericamente, utiliza-se contagens, proporções, percentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia são homens, poderíamos relatar a taxa como uma proporção (0.5) ou provavelmente ainda melhor como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000 pessoas são portadores de uma doença rara poderíamos expressar isto como uma proporção observada (0.0014) ou percentual (0.14%), mas melhor seria 1.4 casos por mil. 2.2.1 Tabulando dados Frequentemente o primeiro passo da descrição de dados é criar uma tabela de frequência. Por exemplo, as espécies de woodlice caindo numa armadilha foram: Species tally n i n i /N p i Percentage Oniscus 12 12/27 0.444 44.4% Porcellio 8 8/27 0.296 29.6% Philoscia 5 5/27 0.185 18.5% Armadilidium 2 2/27 0.074 7.4% N = 27 Σp i = 1 Num relatório, a segunda coluna não seria mostrada, e os dados seriam sumarizados num formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas categorias, então é conveniente colapssar algumas das categorias com somente uma ou duas observações em outra categoria chamada outros. Table showing the species of 27 woodlice that fell in a pit-fall trap: Species Frequency Percentage Oniscus 12 44.4% Porcellio 8 29.6% Philoscia 5 18.5% Armadilidium 2 7.4% Tabelas simples como esta são na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem somente duas ou três categorias. 5

2.2.2 Resumindo numericamente Considere o seguinte conjunto de dados que mostra os escores de abundância médios DAFOR de ocorrência de Nardus stricta em 100 áreas investigadas em Exmoor. Dominante 8 Abundante 33 Frequente 32 Ocasional 17 Raro 10 A moda de um conjunto de dados categóricos é a categoria que tem o maior percentual de dados. Ela deve ser usada cuidadosamente como uma medida resumo global porque é muito dependente da forma como os dados são categorizados. Para os dados de woodlice a moda é Oniscus. Para os dados acima, a categoria modal é Abundante, mas por muito pouco. A mediana, bem como a moda, podem ser calculadas para dados ordenados. Este é valor do meio, mais comumente usado para dados quantitativos. A mediana não faz sentido para os dados woodlice. Para os dados de abundância, a categoria mediana é Frequente, porque 50% dos dados estão em categorias superiores, e menos do que 50% estão em categorias inferiores. A mediana é mais robusta do que a moda pois é menos sensível à categorização adotada. 2.2.3 Gráficos de Barras Dados qualitativos, particularmente quando as categorias são ordenadas, são usualmente bem ilustrados num simples gráfico de barras onde a altura da barra é igual à frequência. Frequency 0 10 20 30 Rare Occasional Frequent Abundant Dominant 6

2.2.4 Gráfico de setores Gráfico de setores também podem ser úteis para apresentação de dados categóricos ordenados. Os setores do gráfico são desenhados de tal forma que eles tenham área proporcional à frequência. Então para os dados woodlice, os ângulos seriam 0.444 360 = 160 para Oniscus, etc. Oniscus Porcellio Armadilidium Philoscia 2.3 Dados quantitativos 2.3.1 Histograma De longe o método mais comum de apresentação de dados numéricos é o histograma, relacionado com o gráfico de barras para dados categóricos. As áreas dos retângulos resultantes devem ser proporcionais à frequência. Algumas vezes é conveniente agregar classes de frequência nos extremos da distribuição de forma que os intervalos têm larguras diferentes. Cuidado ao fazer isso - um intervalos que é duas vezes a largura de um outro deve tem altura igual à metada de sua frequência (para preservar a área contida dentro do intervalo) Da mesma forma um intervalo que é três vezes a largura dos outros deve ter um terço da altura de sua frequência observada. Exemplo. 150 peixes mortos foram encontrados vítimas de contaminção do rio e seus comprimentos foram medidos em milímetros. As medidas foram expressas na forma de tabela de frequência. Comprimento do peixe (mm) Frequência 100-109 7 110-119 16 120-129 19 130-139 31 140-149 41 150-159 23 160-169 10 170-179 3 7

Frequency 0 10 20 30 40 100 120 140 160 180 Fish lengths (mm) O histograma construído desses dados é mostrado abaixo. Gráfico de Ramos-e-Folhas Um método gráfico que merece ser mais amplamente utilizado quando a quantidade de dados não é muito grande é o gráfico de ramos-e-folhas como ilustrado a seguir. Exemplo. Um estudo geoquímico realizado utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr 10.6 14.1 13.7 15.2 15.4 12.5 12.9 14.3 13.0 12.6 12.0 14.0 10.0 18.2 11.5 9.4 16.5 13.7 14.7 16.6 11.4 18.4 17.4 11.1 15.8 17.0 13.6 16.6 11.8 15.8 13.5 Uma vez que a escala tenha sido determinada, a qual define os ramos à esquerda da linha veritcal, podemos facilmente escrever os dados no gráfico de ramos-e-folhas como no diagrama esquerdo; como um refinamento podemos então ordenar as folhas no diagrama à direita: 8

9 4 10 6 0 11 5 4 1 8 12 5 9 6 0 13 7 0 7 6 5 14 1 3 0 7 15 2 4 8 8 16 5 6 6 17 4 0 18 2 4 9 4 10 0 6 11 1 4 5 8 12 0 5 6 9 13 0 5 6 7 7 14 0 1 3 7 15 2 4 8 8 16 5 6 6 17 0 4 18 2 4 Acima os ramos são números inteiros e as folhas são valores depois do ponto decimal, mas isto não é essencial em geral; por exemplo, os ramos podem representar centenas e as folhas dezenas (com unidades arredondadas para o decimal mais próximo; as folhas devem ter um único dígito). Nota: é importante escrever as folhas em colunas igualmente espaçadas, caso contrário pode resultar uma figura distorcida. O gráfico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato a perda de qualquer informação. Compare-o com um histograma para os mesmos dados: Frequency 0 1 2 3 4 5 8 10 12 14 16 18 20 Concentracao de Cr (ppm) 9

2.3.2 Resumindo numericamente Para resumir numericamente dados quantitativos o objetivo é escolher medidas apropriadas de locação ( qual o tamanho dos números involvidos? ) e de dispersão ( quanta variação existe? ) para os tipos de dados. Existem três escolhas principais para a medida de locação, a chamada 3 Ms, as quais estão ligadas a certas medidas de dispersão como segue: M média (o valor médio ) mediana (o valor do meio ) moda (o valor mais comum ) Dispersão desvio padrão IQR proporção 2.3.3 Média, variância e desvio padrão Para resumir dados quantitativos aproximadamente simétricos, é usual calcular a média aritmética como uma medida de locação. Se x 1, x 2,..., x n são os valores dos dados, então podemos escrever a média como x = x 1 + x 2 +... + x n n = ni=1 x i, n onde n i=1 x i = x 1 + x 2 +... + x n e frequentemente é simplificada para x i ou até mesmo x que significa adicione todos os valores de x. A variância é definida como o desvio quadrático médio da média e é calculada de uma amostra de dados como s 2 = ni=1 (x i x) 2 n 1 = ni=1 (x 2 i ) nx2. (n 1) A segunda versão é mais fácil de ser calculada, embora muitas calculadoras têm funções prontas para o cálculo de variâncias, e é raro ter que realisar todos os passos manualmente. Comumente as calculadoras fornecerão a raiz quadrada da variância, o desvio padrão, i.e. s = variância = s 2 a qual é medida nas mesmas unidades dos dados originais. Uma informção útil é que para qualquer conjunto de dados, pelo menos 75% deles fica dentro de uma distância de 2 desvio padrão da média, i.e. entre x 2s e x + 2s. Exemplo. Sete homens foram pesados, e os resultados em kg foram: 57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6. 10

A média é 454.3/7 = 64.9 kg, a variância é (29635.05 454.3 2 /7)/6 = 25.16 kg 2 e o desvio padrão é 25.16 = 5.02 kg. 2.3.4 A mediana e a amplitude inter-quartis Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas medidas são particularmente úteis para dados não simétricos. A mediana (ou percentil 50) é definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados têm valores maiores do que a mediana, a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para resumir os dados juntamente com o mínimo e o máximo. Eles são obtidos ordenando os dados do menor para o maior, e então conta-se o número apropriado de observações: ou seja é n+1 4, n+1 2 e 3(n+1) 4 para o quartil inferior, mediana e quartil superior, respectivamente. Para um número par de observações, a mediana é a média dos valores do meio (e analogamente para os quartis inferior e superior). A medidade de dispersão é a amplitude inter-quartis, IQR = Q3 Q1, i.e. é a diferença entre o quartil superior e o inferior. Exemplo. O número de crianças em 19 famílias foi 0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10 A mediana é o (19+1) / 2 = 10 o valor, i.e. 3 crianças. O quartil inferior e superior são os valores 5 o e 15 o, i.e. 2 e 6 crianças, portanto amplitude inter-quartil é de 4 crianças. Note que 50% dos dados estão entre os quartis inferior e superior. 11

2.3.5 Box-and-Whisker Plots Box-and-Whisker plots ou simplesmente box-plots são simples representações diagramáticas dos cinco números sumários: (mínimo, quartil inferior, mediana, quartil superior, máximo). Um box-plot para os dados geoquímicos fica como mostrado a seguir. 10 12 14 16 18 2.3.6 A moda Nem todos os conjuntos de dados são suficientemente balanceados para o cálculo da média ou mediana. Algumas vezes, especialmente para dados de contagem, um único valor domina a amostra. A medida de locação apropriada é então a moda, a qual é o valor que ocorre com maior frequência. A proporção da amostra a qual toma este valor modal deveria ser utilizada no lugar de uma medida formal de dispersão. Algumas vezes, podemos distinguir claramente picos na frequência dos valores registrados. Neste caso (chamado bimodal) deveríamos apresentar ambas as localizações. Dados deste tipo são particularmente difíceis de resumir (e analisar). Exemplo. Dez pessoas registraram o número de copos de cerveja que eles tomaram num determinado sábado: 0, 0, 0, 0, 0, 1, 2, 3, 3, 6 A moda é 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos adicionar mais informação separando a amostra e dizendo que daqueles que tomaram cerveja a mediana foi de 3 copos. 12

2.4 Dados múltiplos Os resultados de um estudo tipicamente envolverão mais do que uma única amostra de dados como discutido até aqui. Representações gráficas são úteis para comparar grupos de dados ou para verificar se exitem relações entre eles. Existem muitas possibilidades, mas a mais adequada dependerá das peculiaridades de cada conjunto de dados. Além dos exemplos abaixo, podemos criar combinações de métodos já discutidos. Por exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzir box-plots de altura lado a lado para homens e mulheres, ou gráficos ramo-e-folhas lado a lado (com as alturas dos homens à esquerda do ramo, e as alturas das mulheres à direita), ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possam ser facilmente comparados). Para um número diferente de grupos, uma série de box-plots verticais funciona bem como um símples resumo dos dados. Para combinações de dados categóricos, uma série de gráficos de setores podem ser produzidos, i.e. dois gráficos de setores, um para homens e um para mulheres. 2.4.1 Gráficos de pontos Para avaliar se existe uma relação entre duas variáveis contínuas, podemos produzir um gráfico de pontos. É importante que o eixo x faça sentido. Em geral faz pouco sentido unir os pontos, exceto onde o eixo x representa tempo (veja abaixo). Símbolos diferentes podem ser usados para diferentes grupos para adicionar uma nova dimensão ao gráfico. O gráfico abaixo mostra alturas e pesos de estudantes do sexo masculino e feminino. Weight (kg) 40 50 60 70 80 90 F F F M F F M M M MF M F FF M M F M F F F F M M F F M M M M M M M 140 150 160 170 180 190 200 Height (cm) Para mais do que duas variáveis, pode-se produzir gráficos entre todos os pares possíveis para produzir uma matriz de gráficos de pontos. 13

2.4.2 Gráfico temporal Um caso especial de um gráfico de pontos é um gráfico temporal onde tempo está no eixo x. As medidas são feitas ao longo do tempo. Nestes casos é usual unir pontos sucessivos por retas, e é em geral uma boa prática deixar o eixo x mais longo do que o eixo y. Abaixo mostramos as temperaturas diárias médias em Philadelphia, USA nos dois primeiros meses de 1980. Average temperature -10-5 0 5 0 10 20 30 40 50 60 Day 14

2.4.3 Ladder plot O ladder plot não é um gráfico do tipo padrão mas pode ser útil para visualizar dados pareados. Considere o seguinte exemplo. Um ornitologista deseja saber se um determinado local é usado por pássaros migratórios de uma certa raça para engorda antes de migrar. Ele captura alguns pássaros em Agosto e pesa-os, então em Setembro ele tenta re-capturar os mesmos pássaros e faz novas medidas. Ele re-capturou 10 dos pássaros duas vezes, ambos em Agosto e Setembro. A tabela abaixo mostra as massas desses pássaros. Mass in August (g) Mass in September (g) 10.3 12.2 11.4 12.1 10.9 13.1 12.0 11.9 10.0 12.0 11.9 12.9 12.2 11.4 12.3 12.1 11.7 13.5 12.0 12.3 O ladder plot destes dados fica como segue: Mass (g) of bird 10 11 12 13 August September É muito mais fácil ver do gráfico do que da tabela que os pássaros tendem a engordar, e que aqueles que não engordaram tenderam a ser os maiores que provavelmente não necessitam de uma engorda extra. 15

2.5 Exercícios 1 1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas estatísticas descritivas, apontando características principais observadas. (a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de estatística no primeiro exame do semestre: 30 35 37 40 40 49 51 54 54 55 57 58 60 60 62 62 65 67 74 89 (b) O número de faltas de 20 trabalhadores num ano (ordenados por tamanho): 0 0 0 0 0 0 0 1 1 1 2 2 3 3 4 5 5 5 8 45 (c) O número de exemplares de um jornal mensal em particular lidos por 20 pessoas num ano: 0 1 11 0 0 0 2 12 0 0 12 1 0 0 0 0 12 0 11 0 2. Produza um gráfico ramos-e-folhas para apresentação dos dados de altura (em metros) de 20 mulheres sendo estudadas para uma certa condição médica. 1.52 1.60 1.57 1.52 1.60 1.75 1.73 1.63 1.55 1.63 1.65 1.55 1.65 1.60 1.68 2.50 1.52 1.65 1.60 1.65 3. Os dados a seguir fornecem a concentração de um determinado poluente (ppm) em 8 pontos de um afluente medidos antes e uma hora depois de um acidente ambiental: Before After 4.67 5.44 4.97 6.11 5.11 6.49 5.17 6.61 5.33 6.67 6.22 6.67 6.50 6.78 7.00 7.89 Faça um gráfico destes dados, e use o gráfico para ajudar a avaliar se o acidente provocou um aumento significativo nos níveis do poluente no afluente. 4. A tabela abaixo fornece o número de grânulos de arenito por cm 3 em 20 amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade (B). 16

A B 171 397 116 375 431 795 375 440 288 257 151 192 1283 902 752 503 554 1621 979 1252 295 1004 208 688 568 1378 426 771 958 435 675 377 2415 1104 410 700 1212 396 736 315 (a) Calcule as médias e desvios-padrão desses duas amostras. (b) Faça histogramas dos dois conjuntos de dados, e compare-os. (c) Qual é o mínimo, máximo, mediana, quartil inferior e quartil superior de cada grupo? (d) Usando sua resposta ao item (c), construa boxplots para os dois conjuntos de dados - um diretamento acime do outro, ou lado a lado para facilitar a comparação. (e) Para cada grupo, o dado é aproximadamente simétrico ou assimétrico? assimétrico, em que direção? (f) Você acha que existe uma diferença real entre os números de grânulos de arenito nas duas localidades, ou você acha que as diferenças observadas poderiam ter simplesmente ocorrido como uma consequência dos grupos consistirem de somente 20 amostras cada? (g) Descreva as principais características dos dados em uma ou duas sentenças. Se 5. O percentual de açúcar e sal em 9 cereais matinais mais populares foram medidos, com os seguintes resultados: Cereal açúcar sal 1 19 8 2 36 5 3 3 10 4 8 4 5 26 6 6 16 6 7 8 9 8 10 3 9 54 3 (a) Faça um gráfico desses dados para investigar a relação entre o conteúdo de açúcar e sal nos cereais matinais. (b) Comente brevemente qualquer padrão observado nos dados. 17

3 Populações e amostras 3.1 Inferência estatística Inferência estatística é o processo pelo qual estatísticos tiram conclusões acerca da população usando informação de uma amostra. Você pode estar familiar com o termo população num sentido biológico/geológico. Em estatística, o termo não se refere necessariamente a pessoas, plantas, animais, etc. Ele poderia também se referir, por exemplo, a fósseis, rochas e sedimentos num determinado local, etc. A população se refere a todos os casos ou situações as quais o pesquisador quer fazer inferências ou estimativas. Diferentes pesquisadores podem querer fazer inferências acerca da concentração de poluentes num determinado lençol freático; predizer a quantidade de petróleo num poço a ser perfurado e assim por diante. Note que o investigador não está interessado em todos os aspectos da população. O pesquisador pode não estar interessado em estudar a concentração de todos os tipos de poluentes, somente alguns poluentes mais importantes para seu estudo. Uma amostra é um subconjunto da população usado para obter informação acerca do todo. Mas exatamente por quê tomamos uma amostra? população toda? Por quê não usamos a custo alto para obter informação da população toda tempo muito longo para obter informação da população toda algumas vezes impossível, por exemplo, estudo de poluição atmosférica algumas vezes logicamente impossível, por exemplo, em ensaios destrutivos. 18

Características de uma população que diferem de um indivíduo para outro e as quais temos interesse em estudar são chamadas variáveis. Exemplos são comprimento, massa, idade, temperatura, número de ocorrências, etc. Cada unidade (membro) da população que é escolhido como parte de uma amostra fornece uma medida de uma ou mais variáveis, chamadas observações. 3.2 Princípios de estimação Utilizamos estimativas de uma amostra como nosso melhor chute para os verdadeiros valores populacionais. Exemplos são a média amostral, o desvio padrão amostral, a mediana amostral, os quais estimam a verdadeira média, desvio padrão e mediana da população (que são desconhecidos). Os verdadeiros (desconhecidos) valores populacionais são chamados parâmetros. Note que estatísticas são usualmente representadas por letras Romanas, (por exemplo, x para a média amostral, s para o desvio padrão amostral), enquanto que parâmetros são usualmente representados por letras Gregas (por exemplo, µ para a média populacional, σ para o desvio padrão populacional). É claro que à medida que a amostra aumenta, mais informação nós teremos acerca da população de interesse, e portanto mais precisa serão as estimativas dos parâmetros de interesse. 19

3.3 Obtendo uma amostra Obtemos uma amostra para fazer inferências de uma população. Nossas inferências são válidas somente se a amostra é representativa da população. Na prática não existe forma de garantir isto sem ter informação da população inteira para comparar com a amostra. E em tais circunstâncias não haveria necessidade de amostragem! Ao invés disso, podemos assegurar que não existem vícios sistemáticos em nossa amostra através de uma seleção aleatória dos membros da população. Uma amostra aleatória independente é uma amostra selecionada de tal forma que 1. todos os membros da população têm a mesma chance de serem selecionados; 2. cada combinação possível de um dado número de membros tem a mesma chance de ser selecionada. Em princípio, a melhor forma de obter uma amostra aleatória de tamanho n é ter uma lista de todos os membros da população, dar a todos um número digamos de 1 a N, e então escolher aleatoriamente n números de 1 a N para definir a amostra. É claro que na prática isto não é exequível, especialmente quando a população é infinita. Na maioria dos casos é difícil obter amostras aleatórias. Considere o seguinte diagrama que mostra a população de circulos. Pense neles como se fossem grânulos de tamanhos diferentes. O diâmetro médio destes circulos é mm. Suponha que selecionemos uma amostra de 5 destes círculos jogando um lápis sobre o papel repetidamente até que tenhamos atingido 5 circulos. Qual é o diâmetro médio de nossos 5 circulos? O valor está perto de mm? 20

No exemplo acima, o esquema amostral causou um vício. Um vício similar seria obtido por exemplo na amostragem de um particular tipo de animal pode ser que os animais que se consegue capturar e medir são aqueles que não podem correr tão rápido, ou ao usar uma armadinha, você pode amostrar somente os animais mais famintos, etc. Sempre que uma amostra é obtida, o processo de amostragem deve estar bem documentado de tal forma que quais inferências retiradas acerca da população pode avaliadas à luz da estratégia amostral. 21

4 Distribuições teóricas de frequências Como visto na Seção 2, as distribuições dos dados podem ter uma variedade de formas, incluindo formas simétricas e não simétricas. Introduziremos aqui alguns dos modelos matemáticos mais comumente usados para tais dados. 4.1 A distribuição Normal A distribuição Normal é a mais familiar das distribuições de probabilidade e também uma das mais importantes em estatística. Esta distribuição tem uma forma de sino. f(x) 0.0 0.1 0.2 0.3 0.4-4 -2 0 2 4 x A equação da curva Normal é especificada usando 2 parâmetros: a média populacional µ, e o desvio padrão populacional σ, ou equivalentemente a variância populacional σ 2. Denotamos N(µ, σ 2 ) à curva Normal com média µ e variância σ 2. A média refere-se ao centro da distribuição e o desvio padrão ao espalhamento de curva. A distribuição normal é simétrica em torno da média o que implica que e média, a mediana e a moda são todas coincidentes. Para referência, a equação da curva é f(x) = { 1 (2πσ 2 ) exp } (x µ)2 2σ 2. (1) Felizmente, você não tem que memorizar esta equação. O importante é que você entenda como a curva é afetada pelos valores numéricos de µ e σ. isto é mostrado no diagrama abaixo. A área sob a curva normal (na verdade abaixo de qualquer função de densidade de probabilidade) é 1. Então, para quaisquer dois valores específicos podemos determinar a 22

f(x) 0.0 0.2 0.4 0.6 0.8 N(0,1) N(3,1) N(6,.25) N(6,4) 0 5 10 x proporção de área sob a curva entre esses dois valores. Para a distribuição Normal, a proporção de valores caindo dentro de um, dois, ou três desvios padrão da média são: Range Proportion µ ± 1σ 68.3% µ ± 2σ 95.5% µ ± 3σ 99.7% Este resultado é usado da seguinte maneira. Suponha que os comprimentos de um particular tipo de peixe podem ser descritos por uma distribuição normal, com média 140mm e desvio padrão 15mm. Podemos calcular a proporção dos peixes que têm comprimentos entre 110 e 170mm, por exemplo, como a proporção da área sob a curva entre 110 e 170mm. Então em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre 110mm e 170mm. Na prática desejamos calcular probabilidades para diferentes valores de µ e σ. Para isso, a variável X cuja distribuição é N(µ, σ 2 ) é transformada numa forma padronizada Z com distribuição N(0, 1) (distribuição normal padrão) pois tal distribuição é tabelada. A quantidade Z é dada por Z = X µ (2) σ Exemplo: A concentração de um poluente em água liberada por uma fábrica tem distribuição N(8,1.5). Qual a chance, de que num dado dia, a concentração do poluente exceda o limite regulatório de 10 ppm? A solução do problema resume-se em determinar a proporção da distribuição que está acima de 10 ppm, ie P (X > 10). Usando a estatística z temos: P (X > 10) = P (Z > 10 8 ) = P (Z > 1.33) = 1 P (Z 1.33) = 0.09 (3) 1.5 23

Portanto, espera-se que a água liberada pela fábrica exceda os limites regulatórios cerca de 9% do tempo. Exercício: A concentração de cadmio em cinzas de um certo lixo radioativo tem distribuição N(1,0.72). Quais são as chances de que uma amostra aleatória das cinzas tenha uma concentração de cadmio entre 0.5 e 1.75 ppm? 24

4.2 A distribuição Binomial Suponha que n experimentos independentes, ou ensaios, são executados, onde n é um número fixo, e que cada experimento resulta num sucesso com proabilidade p e numa falha com probabilidade 1 p. O número total de sucessos, X, é uma variável aleatória com parâmetros n e p. Por exemplo, uma moeda é lançada 10 vezes e o número total de caras é contado (aqui cara é um sucesso). A probabilidade que X = k, denotada por P (k), pode ser encontrada como: P (X = k) = P (k) = n! k!(n k)! pk (1 p) n k. (4) A média de um variável aleatória Binomial é np e a variância é np(1 p). Considere o seguinte exemplo. Suponha que num pedigree humano envolvendo albinismo (o qual é recessivo), nós encontremos um casamento no qual sabe-se que ambos os parceiros são heterozigotos para o gene albino. De acordo com a teoria Mendeliana, a probabilidade de que um filho desse casal seja albino é um quarto. (Então a probabilidade de não ser albino é 3 4.) Agora considere o mesmo casal com 2 crianças. A chance de que ambas sejam albinas é ( 1 4 )2 = 1 16 = 0.0625. A desma forma, a chance de ambas serem normais é ( 3 4 )2 = 9 16 = 0.5625. Portanto, a probabilidade de que somente uma seja um albina deve ser 1 1 16 9 16 = 6 16 = 3 8 = 0.375. Alternativamente, poderiamos ter usado a formula acima com n = 2, p = 1 4, and k = 1. Se agora considerarmos a família com n = 5 crianças, as probabilidades de existam k = 0, 1, 2,..., 5 crianças albinas, onde a probabilidade de albinismo é p = 1 4, são dadas por P (k) = ( 5! 1 k ( ) 3 5 k (5) k!(5 k)! 4) 4 as quais ficam como segue. 0.0 0.1 0.2 0.3 0.4 0 1 2 3 4 5 25

4.3 A distribuição Poisson Uma outra distribuição comum é a distribuição Poisson, e é frequentemente usada para modelar dados de contagem, por exemplo, para descrever o número de nmetóides encontrados em amostras de solo, o número diário de novos casos de câncer de mama, ou o número de células contadas usando um hemocitrômetro. O histograma abaixo mostra o número de organismos encontrados em cada um de 400 quadrados pequenos. 0 20 40 60 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 A distribuição Poisson tem um parâmetro, λ, e a probabilidade de obter exatamente x indivíduos é dada por P (x) = λx e λ. (6) x! Quando λ = 4.68, por exemplo, a distribuição fica como segue. 0.0 0.05 0.10 0.15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 A variância de uma Poisson é igual a sua média, The variance of a Poisson distribution is equal to its mean, λ. 26

4.4 Exercícios 2 1. Considere uma distribuição normal com média 10 e desvio padrão 3. (a) Desenhe um esboço desta distribuição. (b) Qual é a proporção da área sob a curva entre 7 e 13? 2. Usinas nucleares que utilizam água para refrigeração de seus condensadores algumas vezes liberam água quente em rios, lagos ou oceanos. Sabe-se que a água quente acima de certa temperatura tem um efeito indesejado sobre plantas e animais que vivem nesses ambientes. Suponha que a alta temperatura liberada por uma certa usina nuclear tem uma distribuição Normal com média 5 C e um desvio padrão de 0.5 C. (a) Faça um esboço da distribuição. (b) Qual o percentual de dias nos quais o aumento da temperatura é maior do que 5.5 C? 3. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma média de 72.9 batidas por minuto (bpm) e um desvio padrão de 11.0 bpm foram obtidos. Um histograma dos dados mostra uma clara forma normal. Dê uma amplitude de referência de 95% para pulsos em repouso de pessoas sadias com base nesses dados. 4. Você leva se cachorro o veterinário e descobre através de um exame de ultrasonografia que ela está grávida com uma ninhada de 8 filhotes. (a) Qual é a probabilidade de que exatamente 3 dos filhotes sejam fêmeas? (b) Qual é a probabilidade de que existam um número igual de machos e fêmeas? (c) Qual é a probabilidade de que existam mais machos do fêmeas? 5. Um investigador está interessado no número de ovos depositados por uma espécie de pássaro. Na primavera, ele procura e acha 80 ninhos. O número médio de ovos por ninho foi 3.8 e o desvio padrão foi 1.9. Porque a variância é aproximadamente igual á média, ele acha que pode ser razoável descrever o número de ovos por ninho como tendo uma distribuição Poisson com média 3.8. (a) Faça o gráfico dessa distribuição como em suas notas de aula. (b) Se esta realmente representa a distribuição populacional, qual seria a proabilidade de encontrar um ninho com mais do que 5 ovos? (c) Qual seria a probabilidade de não encontrar nenhum ovo num ninho? 27

6. Acredita-se que existam números iguais de machos e fêmeas de uma certa espécie de peixe num grande lago. Um pescador pesca 43 peixes e encontra que 32 deles são machos. Isto provocaria dúvida na afirmação acima de que exite um balanço entre machos e fêmeas no lago? Justifique sua resposta utilizando os recursos estatísticos de que dispõe no momento. 28

5 Intervalos de Confiança 5.1 A idéia básica de intervalos de confiança Suponha que estejamos interessados num parâmetro populacional verdadeiro (mas desconhecido) θ. Podemos estimar o parâmetro θ usando informação de nossa amostra. Chamamos o único número que representa o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de θ. Contudo, sabemos que o valor estimado na maior parte das vezes não será exatamente igual ao valor verdadeiro. Então, também seria interessante encontrar um intervalo de confiança que forneça um intervalo de valores plausíveis para o parâmetro baseado nos dados amostrais. Um intervalo de confiança de 95% para um parâmetro populacional fornece um intervalo no qual estariamos 95% confiantes de cobertura do verdadeiro valor do parâmetro. Tecnicamente, 95% de todos os intervalos de confiança que construirmos conterão o verdadeiro valor do parâmetro (dado que todas as suposições envolvidas estejam corretas). Então se obtivermos um intervalo de confiança para o parâmetro θ para cada uma dentre 100 amostras aleatórias da população, somente 5, em média destes intervalos de confiança não conterão θ. Podemos obter intervalos de confiança de 95% para: médias, diferenças de médias, proporções, diferenças em proporções, etc. Podemos também criar intervalos de confiança de 90%, 99%, 99.9%, etc, mas os intervalos de confiança de 95% são os mais utilizados. 29

5.2 Teorema Central do Limite Uma razão para a distribuição Normal ser considerada tão importante é porque qualquer que seja a distribuição da variável de interesse para grande amostras, a distribuição das médias amostrais serão aproximadamente normalmente distribuídas, e tenderão a uma distribuição normal à medida que o tamanho de amostra crescer. Então podemos ter uma variável original com uma distribuição muito diferente da Normal (pode até mesmo ser discreta), mas se tomarmos várias amostras grandes desta distribuição, e então fizermos um histograma das médias amostrais, a forma se parecerá como uma curva Normal. A distribuição da média amostral X é aproximadamente Normal com média µ e desvio padrão σ/ n. Aqui µ e σ são a média e o desvio padrão populacionais das medidas individuais X, e n é o tamanho amostral. Denota-se X N(µ, σ 2 /n). A aproximação para a normal melhora à medida que o tamanho amostral cresce. Este resultado é conhecido como o Teorema Central do Limite e é notável porque permite-nos conduzir alguns procedimentos de inferência sem qualquer conhecimento da distribuição da população. 5.3 Exemplo simulado Podemos ilustrar o Teorema Central do Limite por um exemplo simulado. O diagrama na próxima página sumariza os resultados de um experimento no qual foi utilizado um computador para gerar 2000 observações de duas distribuições bem diferentes (linha superior). Nós então geramos uma amostra de tamanho 2 de cada distribuição e calculamos a média. Este procedimento foi repetido 1999 vezes e a segunda linha mostra os histogramas das médias resuktantes das amostras de tamanho dois. Isto foi repetido com média amostrais onde as amostras são de tamanhos 5 (terceira linha) e 10 (quarta linha). Note como a forma da distribuição muda à medida que se muda de uma linha para a próxima, e como as duas distribuições em cada linha tornam-se mais similares nas suas formas à medida que o tamanho das amostras aumenta. Ainda mais, cada distribuição parece mais e mais com uma distribuição Normal. Não é necessário uma amostra de tamanho muito grande para ver uma forma Normal. As média populacionais para as duas distribuições são 5 e 3 respectivamente. Note como, quanto maior o tamanho de amostra mais perto as médias amostrais tendem a estar da média populacional. 30

0 100 200 300 400 0 100 200 300 400 0 2 4 6 8 10 x 0 2 4 6 8 10 y 0 100 200 300 400 0 100 200 300 400 0 2 4 6 8 10 (x1+x2)/2 0 2 4 6 8 10 (y1+y2)/2 0 100 200 300 400 0 100 200 300 400 0 2 4 6 8 10 (x1+x2+..+x5)/5 0 2 4 6 8 10 (y1+y2+..+y5)/5 0 100 200 300 400 0 100 200 300 400 0 2 4 6 8 10 (x1+x2+..+x10)/10 0 2 4 6 8 10 (y1+y2+..y10)/10 31

5.4 Intervalos de confiança de 95% para uma média Na seção anterior vimos que para uma amostra suficientemente grande a distribuição das médias amostrais em torno da média populacional é Normal com desvio padrão σ/ n. Chamamos de σ/ n o erro padrão (SE) da média, uma vez que quanto menor seu valos. tanto mais próximas estarão as médias amostrais da média populacional µ (i.e. tanto menor será o erro). média populacional = µ desvio padrão populacional = σ S.E. da média = σ/ n Isto significa que 68.3% de todas as médias amostrais cairão dentro de ±1 SE da média populacional µ. Similarmente 95% de todas as médias amostrais cairão dentro de ±1.96 SE de µ. então intervalos da forma ( x 1.96 σ n, x + 1.96 σ n ) conterão a verdadeira média populacional µ 95% das vezes. Um problema com a construção de tais intervalos é que não sabemos o verdadeiro desvio padrão populacional σ. Para grandes tamanhos amostrais, contudo, o desvio padrão amostral s será uma boa estimativa de σ. Portanto, podemos substituir σ por s de modo que podemos calcular o erro padrão como SE = s/ n, e um intervalo de confiança de aproximadamente 95% para µ é: ( x 1.96 s, x + 1.96 s ). n n Este tipo de intervalo de confiança para a média pode ser usado para grandes amostras, independentemente da distribuição da variável original. 32

5.5 intervalos de confiança mais exatos Para amostras pequenas, onde s é uma estimativa menos confiável de σ, devemos construir nosso intervalo de confiança de uma forma ligeiramente diferente. Ao invés de usar o valor 1.96, usamos um valor ligeiramente maior para refletir nossa redução na confiança. Obtemos o valor requerido da tabela de distribuição t. Tomamos o valor correspondente à linha r = n 1 graus de liberdade. Note que quanto menor n, maiores os valores de t. Então um intervalo de confiança exato é ( x t (n 1,0.05) s, x + t n (n 1,0.05) s ). n Note ainda que à medida que n cresce, o valor de t torna-se próximo a 1.96. Repare que se a distribuição da variável original é muito distante de ser normalmente distribuída, e o tamanho amostral é muito pequeno, então as médias amostrais não terão uma distribuição aproximadamente normal e portanto este tipo de intervalo de confiança não será muito preciso e não deveria ser utilizado. 33

A distribuição t Valores de t para que P ( T > t) = p, onde T tem um distribuição T de Student com r graus de liberdade. p 0.20 0.10 0.05 0.01 0.001 1 3.078 6.314 12.706 63.657 636.619 2 1.886 2.920 4.303 9.925 31.599 3 1.638 2.353 3.182 5.841 12.924 4 1.533 2.132 2.776 4.604 8.610 5 1.476 2.015 2.571 4.032 6.869 6 1.440 1.943 2.447 3.707 5.959 7 1.415 1.895 2.365 3.499 5.408 8 1.397 1.860 2.306 3.355 5.041 9 1.383 1.833 2.262 3.250 4.781 10 1.372 1.812 2.228 3.169 4.587 11 1.363 1.796 2.201 3.106 4.437 12 1.356 1.782 2.179 3.055 4.318 13 1.350 1.771 2.160 3.012 4.221 14 1.345 1.761 2.145 2.977 4.140 15 1.341 1.753 2.131 2.947 4.073 16 1.337 1.746 2.120 2.921 4.015 r 17 1.333 1.740 2.110 2.898 3.965 18 1.330 1.734 2.101 2.878 3.922 19 1.328 1.729 2.093 2.861 3.883 20 1.325 1.725 2.086 2.845 3.850 21 1.323 1.721 2.080 2.831 3.819 22 1.321 1.717 2.074 2.819 3.792 23 1.319 1.714 2.069 2.807 3.768 24 1.318 1.711 2.064 2.797 3.745 25 1.316 1.708 2.060 2.787 3.725 26 1.315 1.706 2.056 2.779 3.707 27 1.314 1.703 2.052 2.771 3.690 28 1.313 1.701 2.048 2.763 3.674 29 1.311 1.699 2.045 2.756 3.659 30 1.310 1.697 2.042 2.750 3.646 40 1.303 1.684 2.021 2.704 3.551 50 1.299 1.676 2.009 2.678 3.496 60 1.296 1.671 2.000 2.660 3.460 70 1.294 1.667 1.994 2.648 3.435 80 1.292 1.664 1.990 2.639 3.416 90 1.291 1.662 1.987 2.632 3.402 100 1.290 1.660 1.984 2.626 3.390 1.282 1.645 1.960 2.576 3.291 34

5.6 Exemplos 5.6.1 Diâmetro de árvores castanheiras A seguir encontra-se uma amostra de 10 árvores castanheiras todas com 8 anos de idade numa certa floresta. O diâmetro (polegadas) das árvores foram medidos à uma altura de 3 pés: 19.4 21.4 22.3 22.1 20.1 23.8 24.6 19.9 21.5 19.1 Queremos encontrar um intervalo de confiança de 95% para o verdadeiro diâmetro médio de todas as árvores castanheiras dessa idade na floresta. Usando uma calculadora, encontramos que x = e que s =. O erro padrão é portanto: SE = s n =. Temos uma amostra de tamanho n = 10, então da tabela da distribuição t temos que t =. Então o intervalo de confiança de 95% para a média populacional é x ± t SE Portanto estamos 95% confiantes de que o diâmetro médio da população da qual a amostra foi retirada está entre e. Quais suposições foram feitas? Podemos checar essas suposições? 5.6.2 Comprimento de plantas Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foram plantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximadamente normal, e a média amostral e o desvio padrão amostral foram 74mm and 2.34mm, respectivamente. Construa um intervalo de confiança para o comprimento médio populacional de plantes dessa mesma espécie. 35

5.7 Exercícios 3 1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma média de 72.9 batidas por minuto (bpm) e um desvio padrão de 11.0 bpm foram obtidos. Construa um intervalo de confiança de 95% para a pulsação média em repouso de pessoas sadias com base nesses dados. 2. Tendo sido medido o eixo maior de 9 grãos de quartzo de um corpo arenoso em uma lâmina de arenito, obteve-se um comprimento amostral médio de 1,5mm e um desvio padrão de 0,3mm. Deseja-se construir um intervalo de confiança para o comprimento médio dos grãos de quartzo do corpo arenoso. 3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI médio foi 108.08, e o desvio padrão foi 14.38. Calcule um intervalo de confiança de 95% para o QI médio populacional dos meninos entre 6-7 anos de idade em Curitiba usando estes dados. Interprete o intervalo de confiança com palavras. Foi necessário assumir que os QIs têm distribuição normal neste caso? Por quê? 4. A seguinte tabela mostra os QIs de crianças por classe social dos pais. Classe social Média DP Número Limite inferior Limite superior I Profissional 112.27 13.16 30 107.36 117.18 II Gerencial 112.65 11.01 78 IIIa Não-Manual (clérico) 108.86 13.94 28 IIIb Manual (com prática) 104.38 14.41 152 IV Manual (com pouca prática) 96.97 10.13 37 V Manual (sem prática) 98.85 14.02 20 Complete as duas últimas colunas, as quais contem intervalos de confiança de 95% para o QI médio. Ilustre os IC graficamente. Comente os padrões gerais que você vê. 36

5.8 Intervalos de confiança para uma proporção Pesquisadores frequentemente expressam a frequência de ocorrência de um item numa amostra como uma proporção do total. Por exemplo, uma amostra de larvas de mosquito coletadas de um lago com água limpa parada contem 80 larvas das quais 60 são Aedes detritus. A proporção daquela espécie na amostra é 60/80 = 0.75 ou 75%. Considerando esta amostra uma amostra aleatória, esta proporção é uma estimativa da proporção total populacional. Outras amostras forneceriam estimativas ligeiramente diferentes daquela proporção. Seja n o tamanho da amostra e seja x o número observado do evento de interesse. Então estimamos a proporção populacional p com a proporção observada ˆp = x/n. Da mesma forma que um conjunto de médias amostrais são distribuídas nas proximidades da média populacional, as proporções amostrais ˆp são distribuídas ao redor da verdadeira proporção populacional p. Devido ao Teorema Central do Limite, para n grande e p não muito próximo de 0 ou 1, a distribuição de ˆp será aproximadamente normalmente distribuída com média p e um desvio padrão dado por p(1 p) p(1 p). n Chamamos SE= n de erro padrão da proporção amostral. Podemos usar isto na construção de um intervalo de confiança para a verdadeira proporção p. Um intervalo de confiança de aproximadamente 95% para p é portanto (ˆp 1.96 SE, ˆp + 1.96 SE) onde SE = ˆp(1 ˆp). n Note que não sabemos o verdadeiro valor de p, e portanto usamos ˆp na fórmula acima para estimar SE. Uma regra geral é que este intervalo de confiança é válido quando quando temos ambos nˆp e n(1 ˆp) maiores do que digamos 10. Em alguns livros o divisor n 1 é utlizado. Não se preocupe quanto a isso; o intervalo resultante não será notavelmente diferente. 5.8.1 Exemplo Calcule um intervalo de confiança de 95% para a proporção de larvas de mosquito no lago da espécie Aedes detritus. Interprete os resultados. 37

5.9 Comparação de intervalos de confiança Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e fêmeas. Algumas vezes pode-se construir um intervalo de confiança de 95% para a média para cada um dos grupos, e então contrói-se um gráfico com esses intervalos contra um eixo comum para verificar se existe uma interseção (i.e. existem alguns valores em comum). Se os intervalos não se sobrepõem, então temos (pelo menos) 95% de confiança de que as verdadeiras médias não são iguais. Embora estes gráficos sejam úteis para visualização, utilizaremos um aboradgem mais formal (veja Seção 7) para construir um intervalo de confiança para a diferença entre duas médias ou a diferença entre duas proporções. 5.9.1 Exemplo Considere os dados de um estudo investigando a existência de um balanço entre a proporção de peixes machos e fêmeas de uma certa espécie em dois lagos distintos. A proporção observada de machos capturados no primeiro lago foi 74.4% dentre 43 capturados e no segundo foi 60% dentre 50. Podemos agora construir intervalos de confiança para as percentagens correspondente nas populações dos dois lagos. 5.10 Exercícios 4 1. Um amigo sugere que você lance uma moeda para ajudar você a tomar uma decisão muito importante, o resultado também o afetará. Seu amigo sugere que você escolha cara para tomar a decisão A, e coroa para tomar a decisão B a qual é a preferida por ele. O único problema é que seu amigo insiste que você use uma moeda da sorte dele. Você fica um pouco suspeito e decide fazer um experimento enquanto seu amigo não está olhando. Você lança a moeda 40 vezes e cara aparece somente 13 vezes. Construa um intervalo de 95% de confiança para a verdadeira proporção de caras p para ajudá-lo a decidir se você acredita ou não que a moeda é balanceada. O que você conclui? 2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariam no candidato X. Com uma confiança de 90%, o que você pode dizer acerca da proporção real de votos aquele candidato terá? 3. Dentre 100 peixes capturados num certo lago, 18 não estavam apropriados para consumo devido aos níveis de poluição do ambiente. Construa um intervalo de confiança de 99% para a correspondente verdadeira proporção. 38

6 Testes de Hipóteses 6.1 Introdução e notação Em geral, intervalos de confiança são a forma mais informativa de apresentar os achados pricipais de um estudo. Contudo, algumas vezes existe um particular interesse em decidir sobre a verdade ou não de uma hipótese específica (se dois grupos têm a mesma média ou não, ou se o parâmetro populacional tem um valor em particular ou não). Teste de hipóteses fornece-nos a estrutura para que façamos isto. Veremos que intervalos de confiança e testes de hipóteses estão intimamente relacionados. 6.1.1 Os pássaros migratórios engordam antes de migrar? Considere os dados coletados pelo ornitologista na página 15. Achamos apropriado apresentar os dados na forma de um ladder plot. Agora é natural perguntar se em média estes pássaros engordam entre Agosto e Setembro. Somente 10 pássaros foram capturados e seu peso médio nas duas ocasiões foram 11.47 e 12.35 então o peso médio aumentou para esta amostra em particular. (Note que o mesmo conjunto de pássaros foram medidos ambas as vezes.) Podemos generalizar para o resto dos pássaros que não foram capturados? Será que esta diferença poderia ser devida simplesmente ao acaso? Queremos testar a hipótese nula (H 0 ) de que, em média, não existe mudança no peso dos pássaros. Assumiremos que os 10 pássaros foram uma amostra aleatória de todos os pássaros migradores daquela espécie e usaremos primeiramente o que aprendemos sobre intervalos de confiança para responder nossas perguntas. Primeiro vamos calcular as mudanças de peso (Setembro-Agosto): 1.9 0.7 2.2 0.1 2.0 1.0 0.8 0.2 1.8 0.3 Seja µ a mudança média de peso na população. Então nossa hipótese nula H 0 e a hipótese alternativa H 1 podem ser escritas como segue: H 0 : µ = 0, H 1 : µ 0. Um procedimento útil é calcular um intervalo de confiança para a média populacional µ como descrito na Seção 5.5, e ver ser o intervalo inclui 0 como um valor plausível. Agora n = 10, x = 0.88 e s = 1.065 para as diferenças, então SE = s/ n = 1.065/ 10 = 0.337, e um valor-t de 2.262 é obtido da coluna P = 0.05 e linha r = n 1 = 9. Um intervalo de confiança de 95% para µ é portanto (0.88 2.262 0.337, 0.88 + 2.262 0.337) = (0.12, 1.64). O intervalo não contem o valor 0, fornecendo evidências contra a hipótese nula. 39