Análise Exploratória Unidimensional

Documentos relacionados
Estatística Descritiva (II)

Estatística Descritiva (II)

Estatística Descritiva (II)

Estatística Descritiva (III) Associação entre Variáveis

Estatística Descritiva (II)

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

Estatística Descritiva (III) Associação entre Variáveis

MAE116 Noções de Estatística

Estatística Descritiva (aula 2) Curso de Farmácia Prof. Hemílio Fernandes

Grupo A - I semestre de 2014 Lista de exercícios 2 - Introdução à Estatística Descritiva C A S A (gabarito)

Associação entre Variáveis Qualitativas. Análises de Correlação e Regressão

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Estatística Descritiva (I)

Tutorial para o desenvolvimento das Oficinas

Grupo A - 1 semestre de 2012 Lista de exercícios 2 - Estatística Descritiva II C A S A (gabarito)

Bioestatística Aula 2

Capítulo 1. Análise Exploratória de Dados

MAE0219 Introdução à Probabilidade e Estatística I

BIOESTATÍSTICA AULA 2. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

1 Estatística Descritiva

Estatística Descritiva (I)

Estatística Descritiva

Estatística Descritiva

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

SS714 - Bioestatística

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Estatística Descritiva (I)

MAE0219 Introdução à Probabilidade e Estatística I

Estatística Descritiva II

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

MAE0219 Introdução à Probabilidade e Estatística I

Enrico Antonio Colosimo Depto. Estatística UFMG

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Fernando de Pol Mayer

ESTATÍSTICA Medidas de Síntese

Estatística Descritiva (I)

Elementos de Estatística

Estatística Aplicada

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Aula 2: Resumo de Dados

ESTATÍSTICA: UMA RÁPIDA ABORDAGEM Prof. David B.

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Conceito de Estatística

(a) Classifique cada uma das variáveis.

Introdução à Probabilidade e Estatística I

Medidas-Resumo. Tipos de Variáveis

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

ESTATÍSTICA COMPUTACIONAL AULA 1 RESUMO DE DADOS

CONCEITOS BASICOS, ORGANIZAÇÃO E APRESENTAÇÃO DOS RESULTADOS, DISTRIBUIÇÃO DE FREQUÊNCIA

MAE116 Farmácia Estatística Descritiva (I)

Medidas de Posição. Tendência Central. É um valor que representa uma entrada típica, ou central, de um conjunto de dados. média. mediana.

MAE Introdução à Probabilidade e Estatística I 1 o semestre de 2014 Gabarito da lista de exercícios 1 - Estatística descritiva I - CASA

Estatística Descritiva

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Noções de Estatística Airlane P. Alencar LANE

Unidade III Medidas Descritivas

TADI Tratamento e Análise de Dados/Informações Prof. Camilo Rodrigues Neto

Universidade Federal de São Paulo. Pró-Reitoria de Graduação. Pró-Reitora: Profa Dra. Maria Angélica Pedra Minhoto

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

ESTATÍSTICA DESCRITIVA

Número de erros de impressão durante 50 dias

Prof. Dr. Engenharia Ambiental, UNESP

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3

INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão. Prof. Dr. Guanis de Barros Vilela Junior

Aula 2: Tipos de variáveis

Estatística Aplicada

MAE Introdução à Probabilidade e Estatística I 2 o semestre de 2017 Gabarito da Lista de Exercícios 2 - Estatística Descritiva II - CASA

ESTATÍSTICA DESCRITIVA

Elementos de Estatística

Princípios de Bioestatística Estatística Descritiva/Exploratória

LISTA DE EXERCÍCIOS 1 INE PROF. MARCELO MENEZES REIS ANÁLISE EXPLORATÓRIA DE DADOS GABARITO

Métodos Quantitativos

METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA

Transcrição:

Análise Exploratória Unidimensional Análise de Dados e Simulação Márcia D Elia Branco http://www.ime.usp.br/~mbranco

APOIO COMPUTACIONAL Software: R Vantagem: software livre Download: http://www.r-project.org/ - Escolher opção Download R - Seguir os passos de instalação Biblioteca Rcmdr Vantagem: ambiente baseado em menus Deve ser instalada após instalação do R Instruções de instalação no material de apoio 2

Instalar o pacote Rcmdr 3

Carregar o pacote para utilizá lo 4

Exemplo 1. Título do projeto: Progressão Continuada e Seriação: um estudo comparativo. Estudo realizado pela Faculdade de Educação da Universidade de São Paulo Ano de realização: 2012 Finalidade: Doutorado Análise Estatística: Centro de Estatística Aplicada (CEA12P11) IME USP 5

Exemplo 1. Objetivo: Comparar os regimes seriado e continuado das escolas públicas e compreender o efeito do regime escolar no desempenho dos alunos. Dados: Prova Brasil de 2007 e 2009. Amostra: 1.128 alunos de 6 escolas 2 escolas municipais (regime seriado) 4 escolas estaduais (regime continuado) 6

Exemplo 1. Algumas variáveis: Proficiência em Português/Matemática (valores de 0 a 500) Sexo do aluno (feminino/masculino) Escolaridade do pai/mãe (nunca estudou, completou até a 5ª série, ensino fundamental completo, ensino médio completo, ensino superior completo) Número de livros em casa (valores no conjunto dos naturais) Frequência que faz os deveres de casa (nunca ou quase nunca, o professor não passa dever de casa, de vez em quando, sempre ou quase sempre) Professor corrige o dever de casa (nunca ou quase nunca, de vez em quando, sempre ou quase sempre) Escola (municipal, estadual) 7

Importar o conjunto de dados: Visualizar os dados: 8

Variáveis qualitativas Sexo Escolaridade do pai Nominal Ordinal Variáveis quantitativas Número de livros em casa Proficiência em Matemática Discreta Contínuas 9

Variáveis quantitativas Medidas de posição Média (x) Mediana (md) Quartis (Q1, Q3) Máximo (máx) Mínimo (min) Medidas de dispersão Variância (s 2 ) Desvio padrão (s) Intervalo interquartil (Q3 Q1) Coeficiente de variação (CV) 10

Estatísticas Resumo mean sd IQR 0% 25% 50% 75% PROF_MAT 212.4431 51.85155 73.60565 0 176.1596 210.0091 249.7653 100% n 355.2183 1228 mean sd IQR 0% 25% 50% 75% PROF_PORT 190.5915 47.01356 63.72711 0 157.1702 189.4499 220.8973 100% n 338.6800 1228 11

12

Boxplot da prof. em matemática segundo a escola Boxplot da prof. em português segundo a escola Alguns Comentários: Há observações discrepantes para a escola estadual; Distribuição dos valores um pouco diferente para as duas escolas. 13

Os dados também podem ser resumidos construindo se uma tabela de distribuição de frequências. Distribuição de frequências de uma variável é uma lista dos valores individuais ou dos intervalos de valores que a variável pode assumir, com as respectivas frequências de ocorrência. 14

1) Criar uma nova variável Construir intervalos de classe 15

Construir intervalos de classe 2) Obter a distribuição de frequências da nova variável Distribuição de frequências para a variável Proficiência em Matemática Classes (0,59] (59,118] (118,178] (178,237] (237,296] (296,356] f 2 26 296 512 324 68 fr (%) 0.16 2.12 24.10 41.69 26.38 5.54 16

Variáveis quantitativas Gráficos Strip Chart ou Dotplot Boxplot Histograma 17

STRIP CHART ou DOT PLOT Exemplo: Dados de performance e design de 10 modelos de carros (1973 74) retirados do arquivo mtcars (disponível no R) Variáveis: Número de carburadores Câmbio: manual ou automático 18

Boxplot Representa os dados através de um retângulo construído com os quartis e fornece informações sobre os valores extremos. 19

Máximo Construção LS=Q3+1,5(Q3 Q1) Q3 Mediana 50% 75% Q1 Mínimo Máximo é o maior valor menor que LS; Mínimo é o menor valor maior que LI. 25% LI=Q1 1,5(Q3 Q1) 20

Gráficos: Boxplot 21

Boxplot da prof. em matemática segundo a correção do dever pelo professor Boxplot da prof. em português segundo a correção do dever pelo professor Professor corrige o dever de matemática/português 0: Nunca ou quase nunca 1: De vez em quando 2: Sempre ou quase sempre 22

Exemplo 2. Título do projeto: Caracterização Postural de Crianças de 7 e 8 anos das Escolas Municipais da Cidade de Amparo/SP Estudo realizado pelo Departamento de Fisioterapia, Fonoaudiologia e Terapia Ocupacional da Faculdade de Medicina da USP Ano de realização: 2006 Finalidade: mestrado Análise Estatística: Centro de Estatística Aplicada (CEA06P24), IME USP 23

Exemplo 2. Variações de postura na criança, associadas aos estágios de crescimento, surgem em resposta aos problemas de equilíbrio devido às mudanças nas proporções do corpo. Objetivo: caracterizar a postura de crianças da cidade de Amparo/SP, entre sete e oito anos de ambos os sexos Amostra: 230 crianças com 7 e 8 anos. Medidas de postura das crianças foram obtidas. 24

Exemplo 2. Algumas variáveis: Sexo (feminino, masculino); Peso (em kg); Altura(emmetros); Índice de Massa Corpórea IMC (em kg/m 2 ); Atividade Física (em hs/semana); Tipo de Mochila Utilizada (com fixação escapular, com fixação lateral, de carrinho, outros); Dominância (destro, canhoto); Regiãodaescola; 25

Exemplo 2. Algumas variáveis relativas a postura Postura do ombro no plano frontal (cm): foi avaliado o desnível entre os ombros, conforme figura, e anotou se a diferença Direito Esquerdo; Avaliação da Lordose Lombar (graus): foi avaliado o aumento da lordose lombar (hiperlordose) e a diminuição desta (retificação), pela mensuração do ângulo formado entre os pontos de maior convexidade da coluna torácica e da região glúteaeopontodemaiorconcavidadeda coluna lombar, em ambos lados (Direito e Esquerdo). 26

Boxplot do desnível dos ombros Boxplot do desnível dos ombros segundo o sexo Alguns Comentários: há uma observação discrepante para meninas; não há observações discrepantes para meninos; medidas de posição tendem a ser próximas para os dois sexos. 27

Boxplots do desnível dos ombros segundo Dominância Frequências: Direita 212 Esquerda 17 Ambidestra 1 Alguns Comentários: Note que só há uma criança ambidestra; Há observações discrepantes para dominância esquerda e direita; Distribuição dos valores bem diferente para as duas dominâncias. 28

Histograma Agrupar os dados em intervalos de classes (distribuição de frequências) Bases iguais Construir um retângulo para cada classe, com base igual ao tamanho da classe e altura proporcional à frequência da classe (f). Bases diferentes Construir um retângulo para cada classe, com base igual ao tamanho da classe e área do retângulo igual a frequência relativa da classe (fr). A altura será dada por h = fr/base (densidade de frequência). 29

Histograma da altura Distribuição de frequências para altura Classe de altura f fr (%) 1,10 1,15 1,15 1,20 1,20 1,25 1,25 1,30 1,30 1,35 1,35 1,40 1,40 1,45 Total 7 33 58 77 36 18 1 230 3,04 14,35 25,22 33,48 15,65 7,83 0,43 100 30

Exemplo: Classes desiguais Distribuição das idades (em meses) de uma amostra de 500 crianças vacinadas 0,10 0,08 0,06 0,04 0,02 h Classes (meses) f fr h 0 3 140 0,28 0,093 3 12 100 0,20 0,022 12 24 80 0,16 0,013 24 60 180 0,36 0,010 Total 500 1,00 f 0 3 12 24 60 0 3 12 24 60 31

Forma da Distribuição 32

Variáveis Qualitativas Os dados podem ser resumidos construindo se uma tabela de distribuição de frequências, que quantifica a frequência das distintas categorias. Variáveis qualitativas do exemplo 2 Dominância Sexo Tipo de mochila 33

Variáveis qualitativas Medidas descritivas para variáveis qualitativas Sexo Freq. (%) Dominância Freq. (%) M 130 56,52 Direita 212 92,17 F 100 43,48 Esquerda 17 7,39 N= 230 Ambidestra 1 0,43 N= 230 Tipo Mochila Freq. (%) Escapular 123 53,48 Lateral 23 10,00 Carrinho 80 34,78 Outros 4 1,74 N= 230 34

Variáveis qualitativas Gráficos Gráfico de setores Gráfico de barras 35

Gráfico de setores Um círculo é dividido em tantos setores quantas forem as categorias da variável. A área de cada setor é proporcional à frequência da categoria 36

Gráfico de setores para a variável Tipo de mochila Gráfico de setores para a variável Região da escola 37

Gráfico de barras Sobre um eixo, são representados retângulos, um para cada categoria da variável. A altura do retângulo é proporcional à frequência da categoria 38

Gráfico de barras para a variável Tipo de mochila Gráfico de barras para a variável Região da escola 39