Laboratório de Ciências - Aula 3 Departamento de Estatística 7 de Janeiro de 2014
Introdução Suponha que dispomos de um conjunto de dados, por exemplo, número de gols (ou número de impedimentos, chutes a gol, passes errados, faltas cometidas) por equipe, por partida, para todos os jogos de um campeonato de futebol entre 2004 e 2013 Pretendemos responder algumas questões, tais como:
Introdução Quão incomum é um jogador que não chuta bolas ao gol ou não comete faltas em um jogo de futebol? Com que frequência uma equipe consegue fazer mais do que 1, 2 ou 3 gols?
Dados Um (ou mais) conjunto de valores, numéricos ou não Os dados resultam da observação de uma variável ou mais variáveis simultaneamente
Variável Variável é uma característica qualquer de uma pessoa, elemento, fenômeno ou evento pode assumir O valor de uma variável pode mudar Exemplos: Número de acertos por jogo Cor dos olhos Altura Número de irmãos
Descrever e Explorar os Dados O que fazemos com as observações que coletamos? Resumo dos Dados com Estatística Descritiva
Algumas Técnicas Estatísticas Uma das formas de organizar e resumir a informação contida em dados observados é através da tabela de frequências (distribuição de frequências) e gráficos Técnicas que ajudam na visualização das características dos dados
Algumas Técnicas Estatísticas As técnicas estatísticas diferem em função do tipo de variável que está sendo analisada Variáveis Qualitativas Quantitativas Sexo Idade Etnia Peso Estado Civil Distância Gravidade de Doença Salário
Tipos de Variáveis Qualitativa Quantitativa Nominal Ordinal Discreta Contínua Sexo Tipo de instrumento Escolaridade Condição ambiental Número de filhos Número de medições Altura Tensão elétrica
Dados Qualitativos Como organizar os dados qualitativos? Tabela de frequências Gráfico de barras ou de pizza
Grau de Instrução dos Funcionários da Empresa Funcionário Instrução Funcionário Instrução 1 Fundamental 11 Médio 2 Médio 12 Médio 3 Médio 13 Superior 4 Superior 14 Superior 5 Médio 15 Fundamental 6 Médio 16 Médio 7 Fundamental 17 Superior 8 Fundamental 18 Superior 9 Médio 19 Superior 10 Médio 20 Médio
Comentários Variável de interesse: grau de instrução Classificação da variável: variável qualitativa ordinal Possíveis valores: fundamental, médio ou superior Número pequeno de valores distintos
Frequências f i : frequência absoluta da categoria i (número de observações que pertencem à categoria i) f ri = f i : frequência relativa da categoria i n f ri % = f ri 100%: porcentagem da categoria i
Tabela de Distribuição de Frequências Instrução Frequência Frequência Porcentagem Absoluta (f i ) Relativa (f ri ) (f ri %) Fundamental 4 0,20 20 Médio 10 0,50 50 Superior 6 0,30 30 Total 20 1,00 100
Tabela de Distribuição de Frequências Instrução Frequência Frequência Porcentagem Absoluta (f i ) Relativa (f ri ) (f ri %) Fundamental 4 0,20 20 Médio 10 0,50 50 Superior 6 0,30 30 Total 20 1,00 100 Não temos perda de informação a respeito dos dados originais
Grau de Instrução dos Funcionários da Empresa
Grau de Instrução dos Funcionários da Empresa
Grau de Instrução dos Funcionários da Empresa
Importante Na comparação da distribuição de frequências de uma variável entre dois ou mais grupos de tamanhos (número de observações) diferentes, devemos usar as porcentagens (frequências relativas) na construção do gráfico de barras Deve-se, também usar a mesma escala em todos os gráficos de barra
Outro Exemplo - Variável Qualitativa Nominal Distribuição de frequências do sexo dos recém-nascidos em um hospital Sexo Frequência Frequência Porcentagem Absoluta (f i ) Relativa (f ri ) (f ri %) M 207 0,4539 45,39 F 249 0,5461 54,61 Total 456 1,0000 100,00
Sexo dos Recém-Nascidos em um Hospital
Sexo dos Recém-Nascidos em um Hospital
Resumo Gráfico de barras: útil para a comparação entre categorias Gráfico de pizza: útil na representação de uma parcela com relação ao todo
Dados Quantitativos Como organizar dados quantitativos?
Dados Quantitativos Como organizar dados quantitativos? Tabela de frequências Histograma
Número de Filhos dos Funcionários da Empresa Funcionário N o de Filhos Funcionário N o de Filhos 1 2 11 1 2 2 12 4 3 1 13 2 4 0 14 3 5 1 15 0 6 3 16 5 7 2 17 2 8 2 18 3 9 2 19 4 10 3 20 3
Número de Filhos dos Funcionários da Empresa Variável de interesse: número de filhos Classificação da variável: variável quantitativa discreta Possíveis valores: 0, 1, 2, 3, 4 e 5 Número pequeno de valores distintos
Distribuição de Frequências da Variável Número de Filhos Número de Frequência Frequência Porcentagem Filhos Absoluta (f i ) Relativa (f ri ) (f ri %) 0 2 0,10 10 1 3 0,15 15 2 7 0,35 35 3 5 0,25 25 4 2 0,10 10 5 1 0,05 5 Total 20 1,00 100
Observações Não temos perda de informação dos dados originais Percebemos que as famílias mais frequentes são as de 2 e 3 filhos, com 35% e 25% dos resultados, respectivamente. Ainda 10% das famílias não tem filhos ou tem 4 filhos e, além disso, são mais comuns que as famílias com 5 filhos
Distribuição de Frequências da Variável Número de Filhos
Resultados de Testes de QI Sujeito Pontuação Sujeito Pontuação 1 102 11 117 2 93 12 93 3 93 13 89 4 107 14 92 5 90 15 76 6 78 16 82 7 109 8 85 98 103 9 100 99 110 10 86 100 100
Comentários Variável de interesse: Pontuação de QI Classificação da variável: variável quantitativa contínua Possíveis valores: 102; 93; 107; Muitos valores distintos
Comentários Solução: agrupar os valores em classes (intervalos) para montar a distribuição de frequências Quantas classes consideramos? Depende do tamanho do conjunto de dados n
Distribuição de Frequências para Variáveis Contínuas Encontre o menor e o maior valor das observações: Valor mínimo: 67 Valor máximo: 138 Amplitude (R): Valor máximo - Valor mínimo = 138-67 = 71
Determinação de Classes para Variáveis Contínuas Determinar o número de classes k k = n = 10 (no máximo 10 classes) Determinar o tamanho das classes h h = R k = 71 = 7,1 10 10
Determinação de Classes para Variáveis Contínuas Primeira classe: [60; 70) Segunda classe: [70; 80) Terceira classe: [80; 90) E assim por diante
Determinação de Classes para Variáveis Contínuas Classes [60; 70) [70; 80) [80; 90) [90; 100) [100; 110) [110; 120) [120; 130) [130; 140) Notação [a; b) a: limite inferior da classe b: limite superior da classe Intervalo fechado em a e aberto em b
Determinação de Classes para Variáveis Contínuas Frequências absolutas de cada classe Frequências relativas de cada classe Porcentagem de cada classe Classes [60; 70) [70; 80) [80; 90) [90; 100) [100; 110) [110; 120) [120; 130) [130; 140)
Distribuição de Frequências da Variável Pontuação de QI Classes Frequência Frequência Porcentagem Absoluta (f i ) Relativa (f ri ) (f ri %) [60; 70) 1 0,01 1 [70; 80) 5 0,05 5 [80; 90) 23 0,23 23 [90; 100) 30 0,30 30 [100; 110) 20 0,20 20 [110; 120) 11 0,11 11 [120; 130) 7 0,07 7 [130; 140) 3 0,03 3 Nesta organização, temos perda de informação dos dados originais
Distribuição de Frequências da Variável Pontuação de QI
Comentários Para o caso de termos dados discretos com muitos valores distintos é usual fazer o agrupamento dos dados em classes Por exemplo, quando lidamos com número de casos de uma doença, número de acidentes etc.
Aspectos Gerais da Distribuição de Frequências Ao estudarmos a distribuição de frequências de uma variável quantitativa, devemos verificar basicamente três características: 1. Posição central 2. Variabilidade 3. Forma
Aspectos Gerais da Distribuição de Frequências O histograma permite a visualização destas características da distribuição de frequências, como veremos a seguir Além disso, elas podem ser quantificadas através de medidas resumo como, por exemplo, a variância
Posição Central A posição central da distribuição de frequências de uma variável é caracterizada pelo valor (ou faixa de valores) típico da variável O valor ou classe de maior frequência é chamado moda No histograma, esta classe corresponde àquela com a barra mais alta
Posição Central
Distribuição de Frequências Unimodal: apenas uma moda Bimodal: duas modas Multimodal: várias modas Amodal: todos os valores são igualmente frequentes
Variabilidade
Forma A distribuição de uma variável pode ter várias formas, mas existem duas que são básicas: Simétrica Assimétrica
Distribuição Simétrica Quando uma distribuição é simétrica em torno de um valor (o mais freqüente), significa que as observações estão igualmente distribuídas em torno desse valor (i.e., metade acima e metade abaixo).
Exemplos - Forma