Estatística Computacional Profª Karine Sato da Silva

Documentos relacionados
AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

ESTATÍSTICA Medidas de Síntese

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE


Elementos de Estatística

Distribuição de frequências:

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Prof. Dr. Engenharia Ambiental, UNESP

n = 25) e o elemento (pois = 19) e terá o valor 8. Verifique que antes e depois do 19 o elemento, teremos 18 elementos.

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Medidas de Dispersão ou variabilidade

Estatística Descritiva (I)

Medidas Estatísticas NILO FERNANDES VARELA

Fernando de Pol Mayer

25/08/2016. Estatística. Estatística. Medidas Estatísticas Medidas de Posição. Mariele Bernardes. Mariele Bernardes

Estatística Descritiva

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Conceito de Estatística

QUESTÕES DE CONCURSOS PÚBLICOS ESTATÍSTICA DESCRITIVA

Métodos Estatísticos Básicos

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

Métodos Experimentais em Ciências Mecânicas

CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos

Coeficiente de Assimetria

ESTATÍSTICA E. Prof Paulo Renato A. Firmino. Aulas

MEDIDAS DE TENDÊNCIA CENTRAL

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

Introdução à Estatística Estatística Descritiva 22

Revisão de estatística descritiva

Estatística Descritiva

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

Adilson Cunha Rusteiko

Determinação de medidas de posição a partir de dados agrupados

Estatística Descritiva

ESTATÍSTICA DESCRITIVA

Autores: Fernando Sebastião e Helena Silva

Estatística descritiva básica: Medidas de tendência central

Estatística

INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão. Prof. Dr. Guanis de Barros Vilela Junior

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

Estatística e Probabilidade

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: medidas resumo Nome: GABARITO

A Estatística é aplicada como auxílio nas tomadas de decisão diante de incertezas para justificar cientificamente as decisões

IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

ESTATÍSTICA DESCRITIVA E PREVISÃO INDICE

Bioestatística. Aula 3. MEDIDAS SEPARATRIZES Quartis, Decis e percentis. Profa. Alessandra Bussador

Aula 2 Planejamento e Análise de Experimentos

BIOESTATÍSTICA. Unidade III - Medidas de Tendência Central e de Dispersão

Sumário. Estatistica.indb 11 16/08/ :47:41

Medidas de Tendência Central e Medidas de Dispersão

Dados de identificação do Acadêmico: Nome: Login: CA: Cidade: UF Assinatura: CARTÃO RESPOSTA

ESTATÍSTICA DESCRITIVA

Medidas de Dispersão para uma Amostra. Conteúdo: AMPLITUDE VARIÂNCIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO

22/02/2014. AEA Leitura e tratamento de dados estatísticos apoiado pela tecnologia da informação. Medidas Estatísticas. Medidas Estatísticas

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana Análise de Assimetria Separatrizes

Aula 3 MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE.

PLANO DE ENSINO. Disciplina: Estatística e Probabilidade Carga Horária: 40h Período: 1º. Ementa

Medidas de Dispersão. Prof.: Joni Fusinato

Descrevendo Distribuições com Números TADI

Medidas de Dispersão. Introdução Amplitude Variância Desvio Padrão Coeficiente de Variação

Prof. Francisco Crisóstomo

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

ESTATÍSTICA. x(s) W Domínio. Contradomínio

INTRODUÇÃO A ESTATISTICA PROF. RANILDO LOPES

Capítulo 1. Análise Exploratória de Dados

Amostragem Aleatória e Descrição de Dados - parte I

Aula 4 Medidas de dispersão


ANOVA - parte I Conceitos Básicos

Planificação Anual. Matemática Dinâmica 7º ano Luísa Faria; Luís Guerreiro Porto Editora. 1 Números inteiros. 10 Sequências e Regularidades

Bioestatística Medidas de tendência central, posição e dispersão PARTE II Roberta de Vargas Zanini 11/05/2017

Probabilidade e Estatística. Prof. Dr. Jhames Sampaio

DISCIPLINA: EPIDEMIOLOGIA E BIOESTATÍSTICA LICENCIATURA: ENFERMAGEM; FISIOTERAPIA

Nilza Nunes da Silva/Regina Bernal 1

Inferência Estatística: Conceitos Básicos I

Módulo IV Medidas de Variabilidade ESTATÍSTICA

Comprovação Estatística de Medidas Elétricas

Plano de Ensino Docente. TURMA: 2º semestre

CAD. 8 SETOR A AULAS 45-48

Medidas de Tendência Central

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

Módulo III Medidas de Tendência Central ESTATÍSTICA

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

Prof. Lorí Viali, Dr.

Estatística Descritiva (I)

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

DISCIPLINA: ESTATÍSTICA I (CÓD. ENEC60015) PERÍODO: 3º PERÍODO

Grupo A - 1 semestre de 2012 Lista de exercícios 2 - Estatística Descritiva II C A S A (gabarito)

ESTATÍSTICA DESCRITIVA APLICADA NA SAÚDE. Hospital Universitário Prof. Edgard Santos UFBA Unidade de Planejamento Julho de 2016

Medidas de Dispersão 1

Transcrição:

Estatística Computacional Profª Karine Sato da Silva karine.sato.silva@gmail.com

Introdução Quando analisamos uma variável qualitativa, basicamente, construímos sua distribuição de frequências. Ao explorarmos variáveis quantitativas temos condições de empregar algumas medidas descritivas, que sintetizam as características da distribuição.

Características de uma distribuição Posição central Informa onde se localiza o centro da distribuição Dispersão Se refere à variabilidade dos dados Assimetria Representa a concentração dos valores em um dos extremos da distribuição Curtose É o grau de achatamento da distribuição

Exemplo 1 O rendimento de um processo químico é influenciado pelo tempo e pela temperatura de reação. Um experimento é realizado para diferentes níveis do tempo de reação (20, 25 e 30 minutos) e da temperatura de reação (60, 70 e 80 C). Como os ensaios são também afetados por fatores não controláveis, as observações agregam um erro experimental. Devido à presença do erro experimental, foram realizados seis ensaios em cada combinação de níveis do tempo e da temperatura. Os resultados do experimento (rendimentos em %) são apresentados a seguir:

Temperatura ( C) Tempo (minutos) 20 25 30 60 29,7 28,7 30,2 31,3 31,2 31,7 31,0 30,6 32,8 31,9 31,2 31,2 32,9 32,7 34,8 34,9 33,8 34,9 70 36,6 35,7 35,3 35,1 30,2 37,2 35,7 40,4 41,7 36,9 34,5 40,0 34,8 36,8 37,4 38,9 38,7 42,5 80 40,2 33,6 33,4 35,2 38,1 33,0 37,0 34,4 29,8 33,9 43,2 35,5 36,0 31,3 36,6 32,5 39,2 35,9

Olhando os dados brutos, é difícil avaliar qual é a influência do tempo e da temperatura de reação sobre o rendimento. Medida descritiva: média Temperatura ( C) Tempo (minutos) 20 25 30 60 30,5 31,4 34,0 70 35,0 38,2 38,2 80 35,6 35,6 35,3

Rendimento (%) 45 40 35 30 60 C 70 C 80 C 25 20 25 30 Tempo (minutos)

Pela tabela e pelo gráfico é possível observar que, se usarmos a temperatura no nível intermediário (70 C) e o tempo de reação na faixa de 25 a 30 minutos, então obteremos, em média, melhor rendimento.

Medidas clássicas Média O conceito de média aritmética é bastante familiar. Seja (X1, X2,..., Xn) uma amostra n observações de certa variável aleatória X. A média aritmética dessas observações é definida por:

Exemplo 2 Considere as notas finais, relativas aos alunos de três turmas, representadas na tabela a seguir. Turma Notas dos alunos Média da turma A 4 5 5 6 6 7 7 8 6,0 B 1 2 3 6 6 9 10 10 6,0 C 0 6 7 7 7 7,5 7,5 6,0

Diagrama de pontos O diagrama de pontos do Exemplo 2 é apresentado na imagem abaixo:

Observações Os três conjuntos de valores, apesar de estarem distribuídos sob diferentes formas, apontam para uma mesma média aritmética. A média resume o conjunto de dados, tem termos de posição central, mas não fornece qualquer informação sobre outros aspectos da distribuição. Por exemplo, uma comparação das notas da turma A em relação a turma B, ou ainda o caso da turma C (ponto discrepante).

Medidas de dispersão Para melhorar o resumo dos dados, podemos apresentar, ao lado da média aritmética, uma medida dedispersão desses dados. Uma forma simples de medir a dispersão é através da amplitude, isto é, a diferença dentre o maior e o menor valor. Matematicamente:

Qual o problema de usar apenas a amplitude como medida de dispersão?

Amplitude Como é calculada utilizando apenas os dois valores extremos, esta medida pode levar a conclusões errôneas quando existir valores discrepantes. As medidas mais apropriadas são a variância e o desvio padrão. São medidas complementares à informação contida na média aritmética. Avaliam a dispersão do conjunto de valores em análise.

Variância e Desvio Padrão Para calcularmos a variância e o desvio padrão deve-se considerar os desvios de cada valor em relação a média. Descrição Notação Média da turma Valores (notas dos alunos) 4 5 5 6 6 7 7 8 Média 6,0 Desvios em relação a média -2-1 -1 0 0 1 1 2 Desvios quadráticos 4 1 1 0 1 1 4

Desvios Trabalha-se com os desvios quadráticos para evitar o problema dos desvios negativos. Variância: média aritmética dos desvios quadráticos. Exemplo 2 Turma A

Como a variância de um conjunto de dados é calculada em função dos desvios quadráticos, sua unidade de medida equivale à unidade de medida dos dados ao quadrado. Nesse contexto, é mais comum trabalhar com a raiz quadrada positiva da variância. Essa medida é conhecida como desvio padrão, o qual é expresso na mesma unidade de medida dos dados em análise.

Desvio Padrão O desvio padrão de um conjunto de valores pode ser calculado por: No Exemplo 2 Turma A, s = 1,31 Ao comparar os desvios padrões de vários conjuntos de dados, pode-se avaliar quais se distribuem de forma mais (ou menos) dispersa. Sempre é não negativo. Quanto maior o desvio padrão, mais disperso é o conjunto de dados.

Exemplo 2 anterior Turma Notas dos alunos Média da turma A 4 5 5 6 6 7 7 8 6,0 B 1 2 3 6 6 9 10 10 6,0 C 0 6 7 7 7 7,5 7,5 6,0 Turma Número de alunos Média Desvio Padrão A 8 6,0 1,31 B 8 6,0 3,51 C 7 6,0 2,69

Coeficiente de Variação Embora o desvio padrão seja a medida de dispersão mais usada, ela mede a dispersão em termos absolutos. O coeficiente de variação mede a variação em termos relativos. Conjunto Conjunto de valores Média Desvio Padrão Coeficiente de Variação 1 1 2 3 2 1 0,5 2 101 102 103 102 1 0,01 3 100 200 300 200 100 0,5

Os conjuntos (1) e (2) têm o mesmo desvio padrão, pois os intervalos entre os valores são iguais. Por outro lado, os intervalos entre os valores do conjunto (3) é 100 vezes maior que os dos outros. Portanto, o desvio padrão é 100 vezes maior. Já os níveis de variabilidade nos conjuntos (1) e (3) são proporcionalmente iguais; logo, eles têm o mesmo coeficiente de variação Ao dividirmos o desvio padrão pela média, a unidade de medida é cancelada. Coeficiente de variação é adimensional (não tem unidade de medida). Útil para comparar a variabilidade de observações com diferentes unidades de medidas.

Medidas baseadas na ordenação dos dados A média e o desvio padrão são as medidas mais usadas para avaliar a posição central e a dispersão de um conjunto de valores. Contudo, essas medidas são fortemente influenciadas por valores discrepantes. Por exemplo, as notas da Turma C (Exemplo 2). O valor discrepante zero puxa a média para baixo Algumas medidas são menos afetadas por valores discrepantes.

Mediana Avalia o centro de um conjunto de valores, sob o critério de ser o valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores de outro lado. Por exemplo, o conjunto de valores {2, 3, 4, 5, 8} tem como mediana o valor 4, pois a quantidade de valores menores a 4 é igual a 2, e há a mesma quantidade de valores maiores do que 4.

De forma mais precisa, podemos definir a mediana como o valor que ocupa a posição (n+1)/2, considerando os dados ordenados crescente ou decrescentemente. Exemplos: Conjunto de notas da Turma C: {0; 6; 7; 7; 7; 7,5; 7,5} Posição (n+1)/2 = 4 md = 7 {5, 3, 2, 8, 4} {2, 3, 4, 5, 8} Posição (n+1)/2 = 3 md = 4 {3, 5, 6, 7, 10, 11} Posição (n+1)/2 = 3,5 md =(6+7)/2 = 6,5

Comparação entre média e mediana

Continuação... Em distribuição simétrica, a média e a mediana são iguais. Em distribuições assimétricas, a média tende a deslocar-se para o lado da cauda mais longa.

Em geral, dado um conjunto de valores, a média é a medida de posição central mais adequada, quando se supõe que esses valores têm uma distribuição razoavelmente simétrica, enquanto a mediana surge como uma alternativa para representar a posição central emdistribuições muito assimétricas.

Na maioria dos casos práticos, o pesquisador tem interesse em conhecer outros aspectos relativos ao conjunto de valores, além de um valor central. Algumas informações relevantes podem ser obtidas através do conjunto de medidas: mediana, extremos e quartis, como veremos a seguir.

Extremos Chamamos de extremo inferior ao menor valor do conjunto de valores, isto é, mínimo (x1, x2,..., xn) e de extremo superior ao maior valor, isto é, máximo (x1, x2,..., xn). Por exemplo, dado o conjunto de valores {5, 3, 6, 11, 7}, temos mín. = 3 e máx. = 11.

Quartis Chamamos de primeiro quartil ou quartil inferior (qi) o valor que delimita os 25% menos valores; de terceiro quartil ou quartil superior (qs) o valor que separa os 25% maiores valores. O segundo quartil, ou quartil do meio, é a própria mediana, que separa os 50% menores dos 50% maiores valores. Dividem a distribuição em quatro partes iguais.

Quartis = 4 partes iguais

Quartis (continuação...) Com o dados ordenados crescentemente, temos: Posição de qi Posição de md Posição de qs

Exemplo 3 Observações: 15,18, 5, 7, 9, 11, 3, 5, 6, 8, 12. Ordenando: 3, 5, 5, 6, 7, 8, 9, 11, 12, 15, 18 n= 11 Posição de qi (n+1)/4 = 3 > qi = 5 Posição de md (n+1)/2 = 6 > md = 8 Posição de qs 3(n+1)/4 = 9 > qs = 12

Quando os resultados das operações (do slide anterior) são fracionários, fazemos uma interpolação linear com os valores de posições vizinhas ao resultado da fração. Ou seja, faz a média entre os dois valores que estão nas posições imediatamente anterior e imediatamente superior à posição calculada.

Com a mediana, quartis e extremos, podemos ter informações sobre a posição central, dispersão e assimetria da distribuição de frequências, como na figura abaixo.

Em distribuições simétricas, a distância entre o quartil inferior e a mediana é igual à distância entre a mediana e o quartil superior, enquanto nas distribuições assimétricas essas distâncias são diferentes.

Outra medida: Moda A medida denominada moda é o valor mais frequente do conjunto de dados. Observações: O fato de a média apresentar um valor maior que a mediana e a moda sugere uma distribuição assimétrica, com cauda mais longa para o lado direito.