Análise Descritiva de Dados

Documentos relacionados
Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

25/08/2016. Estatística. Estatística. Medidas Estatísticas Medidas de Posição. Mariele Bernardes. Mariele Bernardes

Análise Descritiva de Dados

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Estatística Computacional Profª Karine Sato da Silva

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Módulo III Medidas de Tendência Central ESTATÍSTICA

Estatística e Probabilidade

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Estatística para Cursos de Engenharia e Informática

Elementos de Estatística

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Unidade I ESTATÍSTICA APLICADA. Prof. Luiz Felix

Cap. 6 Medidas descritivas

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Distribuição de frequências:

MEDIDAS DE POSIÇÃO. Lucas Santana da Cunha Universidade Estadual de Londrina. 26 de abril de 2017

AULA DO CPOG. Estatística básica

BIOESTATÍSTICA. Unidade III - Medidas de Tendência Central e de Dispersão

Estatística Descritiva

Conceito de Estatística

Bioestatística Medidas de tendência central, posição e dispersão PARTE II Roberta de Vargas Zanini 11/05/2017

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Medidas Estatísticas NILO FERNANDES VARELA

Profa. Janaina Fracaro Engenharia Mecânica 2015

Medidas de Dispersão ou variabilidade

Departamento de Estatística

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana Análise de Assimetria Separatrizes

MEDIDAS DE DISPERSÃO. Os dados a seguir referem-se ao índice pluviométrico de três cidades no Estado de São Paulo, em 3 diferentes ocasiões

ESTATÍSTICA Medidas de Síntese

Medidas de Dispersão. Introdução Amplitude Variância Desvio Padrão Coeficiente de Variação

Fernando de Pol Mayer

UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS

Medidas de Tendência Central

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

Unidade III Medidas Descritivas

Estatística Descritiva

22/02/2014. AEA Leitura e tratamento de dados estatísticos apoiado pela tecnologia da informação. Medidas Estatísticas. Medidas Estatísticas

Medidas de Tendência Central e Medidas de Dispersão

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Estatística Descritiva (I)

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Inferência Estatística. Medidas de Tendência Central Medidas de Variação Medidas de Posição

Medidas de Dispersão. Prof.: Joni Fusinato

Medidas de Posição ou Tendência Central

Estatística Descritiva (I)

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Amostragem Aleatória e Descrição de Dados - parte I

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

A Estatística é aplicada como auxílio nas tomadas de decisão diante de incertezas para justificar cientificamente as decisões

2) Dados os valores a seguir, , determinar a moda dos mesmos.

Medidas Resumo. Medidas de Posição/ Medidas de Dispersão. A intenção desse trabalho é introduzir os conceitos de Medidas de posição e de dispersão.

Bioestatística Aula 2

Nilza Nunes da Silva/Regina Bernal 1

MAE116 Farmácia Estatística Descritiva (I)

Medidas resumo numéricas

Introdução à Estatística Estatística Descritiva 22

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

Física Geral - Laboratório (2015/2) Organização e descrição de dados

Para caracterizar um conjunto de dados é importante não só a média, mas também a dispersão dos valores em torno da média

MEDIDAS DE TENDÊNCIA CENTRAL

Estatística Aplicada ao Serviço Social AULA 06. Estatística Descritiva - Medidas de dispersão. Universidade Federal da Paraíba

Métodos Estatísticos Básicos

Estatística Aplicada Professor: André Luiz Araújo Cunha. Moda. Media


Adilson Cunha Rusteiko

Prof. Dr. Engenharia Ambiental, UNESP

Medidas de Dispersão 1

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

Métodos Quantitativos Aplicados a Gestão

Bioestatística. Aula 3. MEDIDAS SEPARATRIZES Quartis, Decis e percentis. Profa. Alessandra Bussador

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

Módulo IV Medidas de Variabilidade ESTATÍSTICA


Estatística Descritiva

Professora Ana Hermínia Andrade. Período

Unidade II ESTATÍSTICA. Prof. Celso Guidugli

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Estatística

PARTE 2- MEDIDAS DE TENDÊNCIA CENTRAL VERSÃO: JANEIRO DE 2017

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

ORGANIZAÇÃO E DESCRIÇÃO DE DADOS

Bioestatística Básica

Coeficiente de Assimetria

Parte I Estatística descritiva

QUESTÕES DE CONCURSOS PÚBLICOS ESTATÍSTICA DESCRITIVA

Aula 02 mtm B MATEMÁTICA BÁSICA

Dados de identificação do Acadêmico: Nome: Login: CA: Cidade: UF Assinatura: CARTÃO RESPOSTA

Capítulo 1. Análise Exploratória de Dados

5.1 Introdução: As distribuições de freqüências não diferem apenas quanto ao valor médio e a variabilidade, mas também quanto a sua forma.

Estatística Descritiva (I)

Capítulo 1 Estatística Descritiva. Prof. Fabrício Maciel Gomes

Curso: Engenharia de Prod. Mecânica Engenharia Elétrica Estatística e Probabilidade Prof. Eng. Vicente Budzinski Notas de Aula

Transcrição:

Análise Descritiva de Dados Resumindo os dados de variáveis quantitativas Síntese Numérica

Descrição e Apresentação de Dados Dados 37 39 34 34 30 35 38 32 32 30 46 36 40 31 39 33 33 35 29 27 39 Ferramentas Análise Descritiva e Exploratória Tabelas Gráficos organizar resumir Medidas de Síntese Númerica identificar o elemento típico quantificar a variabilidade

Como resumir os dados de uma variável quantitativa? Síntese Númerica Medidas de Tendência Central Medidas de Variabilidade Identificam o elemento típico do conjunto de dados. Quantificam a dispersão (variabilidade) dos dados em torno do elemento típico.

Medidas de Tendência Central Se todas as seis pessoas tivessem o mesmo peso, qual deveria ser este valor para não exceder a carga máxima permitida? O peso médio deve ser de 70 Kg. Média Aritmética

Medidas de Tendência Central Qual é o valor de peso que separa a metade mais leve da metade mais pesada no elevador? 60 98 40 40 55 60 70 75 98 O peso mediano é 65 Kg 55 75 70 Mediana

Medidas de Tendência Central Qual é peso mais frequente dentre os ocupantes do elevador? 55 98 40 A moda de peso é 55 Kg Moda 60 75 55

Média Aritmética Simples Alguma Notação n x i xi X número de indivíduos no conjunto de dados valor da i-ésima observação do conjunto de dados, i = 1, 2, 3,..., n soma de todas as observações da amostra (a letra grega Σ é o símbolo que indica soma). é o símbolo usado para representar a média aritmética simples. X = Soma de todas as observações da amostra tamanho da amostra = x i n

Média Aritmética Simples No conjunto de dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ), temos n = 6, x 1 = 3 x 2 = 4.5 x 3 = 5.5 x 4 = 2.5 x 5 = 1.3 x 6 = 6 x i = 3 + 4.5 + 5.5 + 2.5 + 1.3 + 6 = 22.8 e 22.8 X = = 6 3.8 Identifica qual seria contribuição típica de cada elemento do conjunto de dados se todos contribuíssem igualmente.

Mediana n é ímpar Existe um só valor do meio Dados ( 2 ; 3.3 ; 2.5 ; 5.6 ; 5 ; 4.3 ; 3.2 ). Ordenando os valores (2 ; 2.5 ; 3.2 ; 3.3 ; 4.3 ; 5 ; 5.6). O valor do meio é o 3.3. A mediana é o valor 3.3. n é par Existem dois valores do meio Dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ). Ordenando os valores (1.3 ; 2.5 ; 3 ; 4.5 ; 5.5 ; 6) Os valores do meio são 3 e 4.5. A mediana é (3 + 4.5)/2 = 3.75. Valor que divide o conjunto de dados ordenados em duas partes com o mesmo número de observações.

1,8 Moda 1,3 0,8 1 2 3 4 5 Conjunto de dados unimodal 1,8 Valor mais frequente do conjunto de dados 1,3 0,8 1 2 3 4 5 6 7 8 9 Conjunto de dados bimodal 1,6 1,5 1,4 1,3 1,2 1,1 1 1 2 3 4 5 6 7 8 9 Conjunto de dados amodal

Média versus Mediana A Média Aritmética é muito influenciada pela presença de valores extremos no conjunto de dados A Mediana é mais robusta à presença destes valores discrepantes Exemplo: conjunto de dados (2, 2.25, 3.5, 3.75, 4, 9). A média é 4.08 e a mediana é 3.63. Sem o valor 9, a média é 3.10 e a mediana é 3.5.

Média versus Mediana Representação gráfica do salário dos funcionários de uma empresa (em salários-mínimos) [Reis e Reis, 2001] Situação I: dados completos: Média = 24.6 SM Mediana = 4 SM Situação II: sem os quatro valores mais altos: Média = 9.8 SM Mediana = 3 SM

Moda versus Mediana e Média Exemplo: Considere uma pesquisa de opinião na qual foi perguntado a 26 pessoas de baixa renda: Incluindo crianças e adultos, que tamanho de família você acha ideal? Tamanho ideal da família Freqüência da resposta 1 1 2 2 3 6 4 2 5 1 6 2 7 3 8 6 9 2 10 1 Média = Mediana = 6 pessoas Modas = 3 e 8 pessoas 10 [Reis e Reis, 2001]

Forma da distribuição de freqüências e as posições relativas das medidas de tendência central. Simétrica moda = mediana = média Assimétrica com concentração à esquerda moda < mediana < média Assimétrica com concentração à direita moda > mediana > média

Resumindo: Medidas de Tendência Central Média Aritmética Mediana Identifica qual seria contribuição típica de cada elemento do conjunto de dados se todos contribuíssem igualmente. Valor que divide o conjunto de dados em duas partes com o mesmo número de observações. Moda Valor mais frequente do conjunto de dados

Medidas de Variabilidade Identificar o elemento típico de um conjunto de dados não é suficiente para caracterizá-lo. Dois conjuntos de dados podem ter o mesmo elemento típico, mas serem diferentes um do outro. É necessário quantificar a dispersão em torno do elemento típico, ou seja, quantificar a variabilidade de um conjunto de dados.

O experimento das balanças: duas balanças pesam repetidamente uma esfera de 1000 gramas Balança A Balança B 900 950 1000 1050 1100 Peso (em gramas) [Reis e Reis, 2001]

Como quantificar as diferenças entre as medições das duas balanças? Alternativa: diferença entre o valor máximo e o mínimo das medições. Balança A: 1040g 945g = 95g Balança B: 1095g 895g = 200g. AT = Máximo Mínimo Amplitude Total

A Amplitude Total é uma medida simples de variabilidade, porém é muito grosseira AT 1 = 100 2 = 98 AT 2 = 100 2 = 98 Só considera os extremos do conjunto de dados

Precisamos de uma medida de dispersão que considere todos os elementos do conjunto de dados ( x x) i n i= 1 ( x x) i n Medida de distância mais simples entre dois valores Distância típica de cada elemento até o valor médio Idéia: usar a distância de cada elemento até o elemento típico do conjunto de dados

n Problema: ( x x) é sempre zero i= 1 i Coluna 1 Coluna 2 Coluna 3 X i Soma 1 1.5 2 3.5 4 4 4.5 6 6.5 7 40 Média 40/10 = 4

n Problema: ( x x) é sempre zero Solução: eliminar o sinal dos desvios negativos Como: elevando todos os desvios ao quadrado i= 1 Soma i Coluna 1 Coluna 2 Coluna 3 X i 1 1.5 2 3.5 4 4 4.5 6 6.5 7 40 ( x x) -3-2.5-2 -0.5 0.5 2.5 Média 40/10 = 4 0/10 = 0 i 0 0 2 3 0

Nova medida de dispersão n i= 1 ( x x) i n 1 variância 2 Soma Coluna 1 Coluna 2 Coluna 3 2 X i 1 1.5 2 3.5 4 4 4.5 6 6.5 7 40 ( x x) -2.5-0.5 Média 40/10 = 4 0/10 = 0 39/9 = 0.43 i -3-2 0 0 0.5 2 2.5 3 0 ( x x) i 9 6.25 4 0.25 0 0 0.25 4 6.25 9 39

2 Problema: ( x x) ( n 1) é uma média de i= 1 desvios ao quadrado n i Unidade de medida foi alterada cm cm 2 pessoas pessoas 2 (!!) toneladas toneladas 2 (!!) Solução: voltar às unidades originais usando a operação inversa raiz quadrada n i= 1 ( x x) i n 1 2 Desvio-Padrão

O Desvio-Padrão representa o desvio típico dos elementos do conjunto de dados até seu centro (a média) No exemplo anterior: (1.0, 1.5, 2.0, 3.5, 4.0, 4.0, 4.5, 6.0, 6.5, 7.0) Média = 4.0 39 Desvio-Padrão: s = = 4.3 = 2.1 10 1 O Desvio-Padrão (s) será usado como padrão de desvio Exemplo: o valor 5.0 está longe ou perto do valor típico do conjunto de dados? 5.0 4.0 = 1.0 = 0.48 2.1 2.1 O valor 5.0 está 0.48 desvios-padrão acima da média

Para que serve o Desvio-Padrão? O Desvio-padrão serve para quantificar a variabilidade de um conjunto de dados; a distância entre um elemento e o valor típico de seu grupo.

1/2 Voltandoaoexemplodas balanças 10 medições da balança A 999.6 983.0 1018.4 990.0 1004.4 1009.9 991.8 1001.9 999.9 1003.0 10 medições da balança B 985.0 961.0 989.8 1012.2 984.2 1029.3 1010.3 1020.0 979.9 1030.0 A B 960 970 980 990 1000 1010 1020 1030 Peso (em gramas)

2/2 Voltandoaoexemplodas balanças (999.6 + 983.0 +... + 999.9 + 1003.0) X A = = 1000.19 gramas 10 (985.0 + 961.0 +... + 979.9 + 1030.0) XB = = 1000.17 gramas 10 ( 2 ) 2 (999.6-1000.19) +... + (1003.0-1000.19) ) s A = = 10.14 gramas 9 ( 2 ) 2 (985.0-1000.17) +... + (1030.0-1000.17) ) s B = = 9 23.37 gramas

Questão: correr 431m a mais do que a média do grupo é bom ou muito bom? s =327 metros Média do grupo = 1558 m Meu desempenho = 1989 m 1989 m 1558 m = 431m s =550 metros 431 1.32 327 = Muito bom! 431 550 = 0.78 Bom

Regra do Desvio-Padrão para Dados com Distribuição Simétrica [Reis e Reis, 2001]

Um desvio-padrão igual a 10 é grande ou pequeno? s=10 significa muita dispersão se X=100 s=10 significa pouca dispersão se X=1000 10 0.1 (10%) 100 = 10 1000 = 0.01 (1%) Para termos idéia da magnitude do valor do desvio-padrão, é necessário verificar o quanto ele ocupa da escala de medida, representada pela média.

Coeficiente de Variação (CV) CV = S X O Coeficiente de Variação não tem unidade de medida Podemos usar o CV para comparar a variabilidade (dispersão) de grupos diferentes e até de variáveis diferentes

Comparando a homogeneidade de grupos e variáveis diferentes Duhn, 2001

Para compreender melhor Caderno de Exercícios Exercícios da Seção 2 Exercícios 2.7, 2.9 (letras a e b), 2.11, 2.12 (letras a.1 e b), 2.13 (letra a.1), 2.14 (letra a) www.minha.ufmg.br

Como fazer usando o R? Cálculo das Medidas-Resumo formigas <- read.table("formigas.txt",header=t) Media.especies <- mean(formigas$riqueza) Mediana.especies <- median(formigas$riqueza) DesvioPadrao.especies <- sd(formigas$riqueza) CV.Especies <- DesvioPadrao.especies / Media.especies

Como fazer usando o R? Cálculo das Medidas-Resumo formigas.floresta <- formigas$riqueza[formigas$habitat=="floresta"] formigas.pantano <- formigas$riqueza[formigas$habitat=="pantano"] Media.Floresta <- mean(formigas.floresta) Mediana.Floresta <- median(formigas.floresta) DesvioPadrao.Floresta <- sd(formigas.floresta) CV.Floresta <- DesvioPadrao.Floresta / Media.Floresta

Como fazer usando o R? Cálculo das Medidas-Resumo Media.Pantano <- mean(formigas.pantano) Mediana.Pantano <- median(formigas.pantano) DesvioPadrao.Pantano <- sd(formigas.pantano) CV.Pantano <- DesvioPadrao.Pantano / Media.Pantano Media.Pantano ; Media.Floresta Mediana.Pantano ; Mediana.Floresta DesvioPadrao.Pantano ; DesvioPadrao.Floresta CV.Pantano ; CV.Floresta

Fim da quarta aula Análise Descritiva de Dados: Resumindo os Dados de Variáveis Quantitativas Próxima Aula Análise Descritiva de Dados: Medidas de Posição

Referências Bibliográficas DUHN, P. (2001) Datasets for Statistical Analysis. Disponível em: http://www.sci.usq.edu.au/staff/dunn/datasets/applications/popular/cho colates.html REIS, E.A.; REIS, I.A. (2001) Análise Descritiva de Dados- Tabelas e Gráficos, Relatório Técnico do Departamento de Estatística da UFMG. Disponível em: http://www.est.ufmg.br