Análise Exploratória Unidimensional Análise de Dados e Simulação Márcia D Elia Branco http://www.ime.usp.br/~mbranco
APOIO COMPUTACIONAL Software: R Vantagem: software livre Download: http://www.r-project.org/ - Escolher opção Download R - Seguir os passos de instalação Biblioteca Rcmdr Vantagem: ambiente baseado em menus Deve ser instalada após instalação do R Instruções de instalação no material de apoio 2
Instalar o pacote Rcmdr 3
Carregar o pacote para utilizá lo 4
Exemplo 1. Título do projeto: Progressão Continuada e Seriação: um estudo comparativo. Estudo realizado pela Faculdade de Educação da Universidade de São Paulo Ano de realização: 2012 Finalidade: Doutorado Análise Estatística: Centro de Estatística Aplicada (CEA12P11) IME USP 5
Exemplo 1. Objetivo: Comparar os regimes seriado e continuado das escolas públicas e compreender o efeito do regime escolar no desempenho dos alunos. Dados: Prova Brasil de 2007 e 2009. Amostra: 1.128 alunos de 6 escolas 2 escolas municipais (regime seriado) 4 escolas estaduais (regime continuado) 6
Exemplo 1. Algumas variáveis: Proficiência em Português/Matemática (valores de 0 a 500) Sexo do aluno (feminino/masculino) Escolaridade do pai/mãe (nunca estudou, completou até a 5ª série, ensino fundamental completo, ensino médio completo, ensino superior completo) Número de livros em casa (valores no conjunto dos naturais) Frequência que faz os deveres de casa (nunca ou quase nunca, o professor não passa dever de casa, de vez em quando, sempre ou quase sempre) Professor corrige o dever de casa (nunca ou quase nunca, de vez em quando, sempre ou quase sempre) Escola (municipal, estadual) 7
Importar o conjunto de dados: Visualizar os dados: 8
Variáveis qualitativas Sexo Escolaridade do pai Nominal Ordinal Variáveis quantitativas Número de livros em casa Proficiência em Matemática Discreta Contínuas 9
Variáveis quantitativas Medidas de posição Média (x) Mediana (md) Quartis (Q1, Q3) Máximo (máx) Mínimo (min) Medidas de dispersão Variância (s 2 ) Desvio padrão (s) Intervalo interquartil (Q3 Q1) Coeficiente de variação (CV) 10
Estatísticas Resumo mean sd IQR 0% 25% 50% 75% PROF_MAT 212.4431 51.85155 73.60565 0 176.1596 210.0091 249.7653 100% n 355.2183 1228 mean sd IQR 0% 25% 50% 75% PROF_PORT 190.5915 47.01356 63.72711 0 157.1702 189.4499 220.8973 100% n 338.6800 1228 11
12
Boxplot da prof. em matemática segundo a escola Boxplot da prof. em português segundo a escola Alguns Comentários: Há observações discrepantes para a escola estadual; Distribuição dos valores um pouco diferente para as duas escolas. 13
Os dados também podem ser resumidos construindo se uma tabela de distribuição de frequências. Distribuição de frequências de uma variável é uma lista dos valores individuais ou dos intervalos de valores que a variável pode assumir, com as respectivas frequências de ocorrência. 14
1) Criar uma nova variável Construir intervalos de classe 15
Construir intervalos de classe 2) Obter a distribuição de frequências da nova variável Distribuição de frequências para a variável Proficiência em Matemática Classes (0,59] (59,118] (118,178] (178,237] (237,296] (296,356] f 2 26 296 512 324 68 fr (%) 0.16 2.12 24.10 41.69 26.38 5.54 16
Variáveis quantitativas Gráficos Strip Chart ou Dotplot Boxplot Histograma 17
STRIP CHART ou DOT PLOT Exemplo: Dados de performance e design de 10 modelos de carros (1973 74) retirados do arquivo mtcars (disponível no R) Variáveis: Número de carburadores Câmbio: manual ou automático 18
Boxplot Representa os dados através de um retângulo construído com os quartis e fornece informações sobre os valores extremos. 19
Máximo Construção LS=Q3+1,5(Q3 Q1) Q3 Mediana 50% 75% Q1 Mínimo Máximo é o maior valor menor que LS; Mínimo é o menor valor maior que LI. 25% LI=Q1 1,5(Q3 Q1) 20
Gráficos: Boxplot 21
Boxplot da prof. em matemática segundo a correção do dever pelo professor Boxplot da prof. em português segundo a correção do dever pelo professor Professor corrige o dever de matemática/português 0: Nunca ou quase nunca 1: De vez em quando 2: Sempre ou quase sempre 22
Exemplo 2. Título do projeto: Caracterização Postural de Crianças de 7 e 8 anos das Escolas Municipais da Cidade de Amparo/SP Estudo realizado pelo Departamento de Fisioterapia, Fonoaudiologia e Terapia Ocupacional da Faculdade de Medicina da USP Ano de realização: 2006 Finalidade: mestrado Análise Estatística: Centro de Estatística Aplicada (CEA06P24), IME USP 23
Exemplo 2. Variações de postura na criança, associadas aos estágios de crescimento, surgem em resposta aos problemas de equilíbrio devido às mudanças nas proporções do corpo. Objetivo: caracterizar a postura de crianças da cidade de Amparo/SP, entre sete e oito anos de ambos os sexos Amostra: 230 crianças com 7 e 8 anos. Medidas de postura das crianças foram obtidas. 24
Exemplo 2. Algumas variáveis: Sexo (feminino, masculino); Peso (em kg); Altura(emmetros); Índice de Massa Corpórea IMC (em kg/m 2 ); Atividade Física (em hs/semana); Tipo de Mochila Utilizada (com fixação escapular, com fixação lateral, de carrinho, outros); Dominância (destro, canhoto); Regiãodaescola; 25
Exemplo 2. Algumas variáveis relativas a postura Postura do ombro no plano frontal (cm): foi avaliado o desnível entre os ombros, conforme figura, e anotou se a diferença Direito Esquerdo; Avaliação da Lordose Lombar (graus): foi avaliado o aumento da lordose lombar (hiperlordose) e a diminuição desta (retificação), pela mensuração do ângulo formado entre os pontos de maior convexidade da coluna torácica e da região glúteaeopontodemaiorconcavidadeda coluna lombar, em ambos lados (Direito e Esquerdo). 26
Boxplot do desnível dos ombros Boxplot do desnível dos ombros segundo o sexo Alguns Comentários: há uma observação discrepante para meninas; não há observações discrepantes para meninos; medidas de posição tendem a ser próximas para os dois sexos. 27
Boxplots do desnível dos ombros segundo Dominância Frequências: Direita 212 Esquerda 17 Ambidestra 1 Alguns Comentários: Note que só há uma criança ambidestra; Há observações discrepantes para dominância esquerda e direita; Distribuição dos valores bem diferente para as duas dominâncias. 28
Histograma Agrupar os dados em intervalos de classes (distribuição de frequências) Bases iguais Construir um retângulo para cada classe, com base igual ao tamanho da classe e altura proporcional à frequência da classe (f). Bases diferentes Construir um retângulo para cada classe, com base igual ao tamanho da classe e área do retângulo igual a frequência relativa da classe (fr). A altura será dada por h = fr/base (densidade de frequência). 29
Histograma da altura Distribuição de frequências para altura Classe de altura f fr (%) 1,10 1,15 1,15 1,20 1,20 1,25 1,25 1,30 1,30 1,35 1,35 1,40 1,40 1,45 Total 7 33 58 77 36 18 1 230 3,04 14,35 25,22 33,48 15,65 7,83 0,43 100 30
Exemplo: Classes desiguais Distribuição das idades (em meses) de uma amostra de 500 crianças vacinadas 0,10 0,08 0,06 0,04 0,02 h Classes (meses) f fr h 0 3 140 0,28 0,093 3 12 100 0,20 0,022 12 24 80 0,16 0,013 24 60 180 0,36 0,010 Total 500 1,00 f 0 3 12 24 60 0 3 12 24 60 31
Forma da Distribuição 32
Variáveis Qualitativas Os dados podem ser resumidos construindo se uma tabela de distribuição de frequências, que quantifica a frequência das distintas categorias. Variáveis qualitativas do exemplo 2 Dominância Sexo Tipo de mochila 33
Variáveis qualitativas Medidas descritivas para variáveis qualitativas Sexo Freq. (%) Dominância Freq. (%) M 130 56,52 Direita 212 92,17 F 100 43,48 Esquerda 17 7,39 N= 230 Ambidestra 1 0,43 N= 230 Tipo Mochila Freq. (%) Escapular 123 53,48 Lateral 23 10,00 Carrinho 80 34,78 Outros 4 1,74 N= 230 34
Variáveis qualitativas Gráficos Gráfico de setores Gráfico de barras 35
Gráfico de setores Um círculo é dividido em tantos setores quantas forem as categorias da variável. A área de cada setor é proporcional à frequência da categoria 36
Gráfico de setores para a variável Tipo de mochila Gráfico de setores para a variável Região da escola 37
Gráfico de barras Sobre um eixo, são representados retângulos, um para cada categoria da variável. A altura do retângulo é proporcional à frequência da categoria 38
Gráfico de barras para a variável Tipo de mochila Gráfico de barras para a variável Região da escola 39