Capítulo 2 Análise Descritiva e Exploratória de Dados



Documentos relacionados
CAPÍTULO 5 - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

CAPÍTULO 8 - Noções de técnicas de amostragem

O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE li

O erro da pesquisa é de 3% - o que significa isto? A Matemática das pesquisas eleitorais

Jackknife, Bootstrap e outros métodos de reamostragem

somente um valor da variável y para cada valor de variável x.

1.4- Técnicas de Amostragem

ActivALEA. ative e atualize a sua literacia

Carteiras de Mínimo VAR ( Value at Risk ) no Brasil

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ...

Séries de Potências AULA LIVRO

Profa. Regina Maria Sigolo Bernardinelli. Estatística. Gestão Financeira / Gestão de Recursos Humanos / Logística / Marketing

5. A nota final será a soma dos pontos (negativos e positivos) de todas as questões

CAP. I ERROS EM CÁLCULO NUMÉRICO

Faculdade de Engenharia Investigação Operacional. Prof. Doutor Engº Jorge Nhambiu

Introdução ao Estudo de Sistemas Lineares

CURTOSE. Teremos, portanto, no tocante às situações de Curtose de um conjunto, as seguintes possibilidades:

AMOSTRAGEM. metodologia de estudar as populações por meio de amostras. Amostragem ou Censo?

ESTATÍSTICA DESCRITIVA

Instituto de Engenharia de Produção & Gestão

Estatística stica para Metrologia

Capitulo 6 Resolução de Exercícios

INTRODUÇÃO A TEORIA DE CONJUNTOS

Guia do Professor. Matemática e Saúde. Experimentos

Sistema Computacional para Medidas de Posição - FATEST

Problema de Fluxo de Custo Mínimo

VII Equações Diferenciais Ordinárias de Primeira Ordem

SUMÁRIO 1. AMOSTRAGEM Conceitos básicos 4

Módulo 4 Matemática Financeira

Unesp Universidade Estadual Paulista FACULDADE DE ENGENHARIA

MATEMÁTICA FINANCEIRA

5- CÁLCULO APROXIMADO DE INTEGRAIS 5.1- INTEGRAÇÃO NUMÉRICA

Os juros compostos são conhecidos, popularmente, como juros sobre juros.

Lista 2 - Introdução à Probabilidade e Estatística

Lista 9 - Introdução à Probabilidade e Estatística

UNIVERSIDADE DA MADEIRA

PUCRS FAMAT DEPTº DE ESTATÍSTICA Estimação e Teste de Hipótese- Prof. Sérgio Kato

Sumário. 2 Índice Remissivo 19

Probabilidades. José Viegas

MEDIDAS DESCRITIVAS DE POSIÇÃO, TENDÊNCIA CENTRAL E VARIABILIDADE

A seguir, uma demonstração do livro. Para adquirir a versão completa em papel, acesse:

Fundamentos de Bancos de Dados 3 a Prova

Lista de Exercícios #4. in Noções de Probabilidade e Estatística (Marcos N. Magalhães et al, 4ª. edição), Capítulo 4, seção 4.4, páginas

DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E PROPORÇÃO ESTATISTICA AVANÇADA

Testes de Hipóteses para a Diferença Entre Duas Médias Populacionais

Questão 11. Questão 13. Questão 12. Questão 14. alternativa B. alternativa E. alternativa A

Exercícios de Matemática Polinômios

O oscilador harmônico

Prof. Eugênio Carlos Stieler

Probabilidade e Estatística. Probabilidade e Estatística

EQUAÇÕES DIFERENCIAIS LINEARES DE ORDEM N

PROBABILIDADES E ESTATÍSTICA

Aplicação de geomarketing em uma cidade de médio porte

CURSO ONLINE REGULAR ESTATÍSTICA BÁSICA PROF. SÉRGIO CARVALHO

Stela Adami Vayego DEST/UFPR

SÉRIE: Estatística Básica Texto v: CORRELAÇÃO E REGRESSÃO SUMÁRIO 1. CORRELAÇÃO...2

2.1 Dê exemplo de uma seqüência fa n g ; não constante, para ilustrar cada situação abaixo: (a) limitada e estritamente crescente;

Faculdade Campo Limpo Paulista Mestrado em Ciência da Computação Complexidade de Algoritmos Avaliação 2

1.5 Aritmética de Ponto Flutuante

Fundamentos de Bancos de Dados 3 a Prova

Anexo VI Técnicas Básicas de Simulação do livro Apoio à Decisão em Manutenção na Gestão de Activos Físicos

Análise de Projectos ESAPL / IPVC. Critérios de Valorização e Selecção de Investimentos. Métodos Estáticos

Equações Diferenciais Lineares de Ordem n

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE

UNIVERSIDADE ESTADUAL DE CAMPINAS FACULDADE DE ENGENHARIA MECÂNICA IM 317 METODOLOGIA PARA PLANEJAMENTO EXPERIMENTAL E ANÁLISE DE RESULTADOS

O poço de potencial infinito

Tabela Price - verdades que incomodam Por Edson Rovina

O TESTE DOS POSTOS ORDENADOS DE GALTON: UMA ABORDAGEM GEOMÉTRICA


J. A. M. Felippe de Souza 9 Diagramas de Bode

A TORRE DE HANÓI Carlos Yuzo Shine - Colégio Etapa

Otimização e complexidade de algoritmos: problematizando o cálculo do mínimo múltiplo comum

Cálculo das Probabilidades e Estatística I. Departamento de Estatistica

1. GENERALIDADES 2. CHEIA DE PROJETO

Notas de Aula do Curso PGE950: Probabilidade

JUROS COMPOSTOS. Questão 01 A aplicação de R$ 5.000, 00 à taxa de juros compostos de 20% a.m irá gerar após 4 meses, um montante de: letra b

MINISTÉRIO DAS CIDADES, ORDENAMENTO DO TERRITÓRIO E AMBIENTE Instituto do Ambiente PROCEDIMENTOS ESPECÍFICOS DE MEDIÇÃO DE RUÍDO AMBIENTE

Stela Adami Vayego DEST/UFPR

O uso de questionários em trabalhos científicos

PRÁTICAS DE LABORATÓRIO

Unidade V - Desempenho de Sistemas de Controle com Retroação

Pesquisa Operacional

AULAS 04 E 05 Estatísticas Descritivas

Exercício 1. Quantos bytes (8 bits) existem de modo que ele contenha exatamente quatro 1 s? Exercício 2. Verifique que

A soma dos perímetros dos triângulos dessa sequência infinita é a) 9 b) 12 c) 15 d) 18 e) 21

Curso MIX. Matemática Financeira. Juros compostos com testes resolvidos. 1.1 Conceito. 1.2 Período de Capitalização

Disciplina: Probabilidade e Estatística (MA70H) Profª Silvana Heidemann Rocha Estudante: Código: APRESENTAÇÃO DE DADOS PARA VARIÁVEL QUANTITATIVA

APONTAMENTOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA

APOSTILA MATEMÁTICA FINANCEIRA PARA AVALIAÇÃO DE PROJETOS

M = 4320 CERTO. O montante será

CPV seu Pé Direito no INSPER

Análise descritiva de Dados. a) Média: (ou média aritmética) é representada por x e é dada soma das observações, divida pelo número de observações.

UM MODELO DE PLANEJAMENTO DA PRODUÇÃO CONSIDERANDO FAMÍLIAS DE ITENS E MÚLTIPLOS RECURSOS UTILIZANDO UMA ADAPTAÇÃO DO MODELO DE TRANSPORTE

Aula 2 - POT - Teoria dos Números - Fabio E. Brochero Martinez Carlos Gustavo T. de A. Moreira Nicolau C. Saldanha Eduardo Tengan

AULA: Inferência Estatística

ANDRÉ REIS MATEMÁTICA. 1ª Edição NOV 2013

Resposta: L π 4 L π 8

Transcrição:

UNIVERSIDADE FEDERAL DE SÃO CARLOS C E N T R O D E C I Ê N C I A S E X A T A S E D E T E C N O L O G I A D E P A R T A M E N T O D E E S T A T Í S T I C A INTRODUÇÃO AO PLANEJAMENTO E ANÁLISE ESTATÍSTICA DE EXPERIMENTOS - C CAPÍTULO 2 A N Á L I S E D E S C R I T I V A E E X P L O R A T Ó R I A D E D A D O S E L A B O R A D O P O R: P R O F. P E D R O F E R R E I R A F I L H O 1 º S E M E S T R E D E 2009

2. A N Á L I S E D E S C R I T I V A E E X P L O R A T Ó R I A D E D A D O S: Um estudo, ou ivestigação de uma determiada hipótese, deve do poto de vista estatístico, cotemplar as etapas de plaejameto, coleta, orgaização, aálise descritiva e exploratória dos dados, iferêcia estatística e a tomada de decisões (coclusões). O papel da estatística pode ser cosiderado como a de uma mieração de dados. Os dados devem ser cuidadosamete coletados (observados), devidamete cohecidos e utilizados para aalisar e iterpretar a sua variabilidade de forma a possibilitar uma correta resposta à hipótese em estudo. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 12

2.1. C O N C E I T O S B Á S I C O S E M E S T A T Í S T I C A: INFORMAÇÃO NUMÉRICA: Um cojuto de dados estatísticos cosiste de uma ou mais medidas, escores ou valores observados (coletados) de certo úmero de idivíduos, objetos, esaios, experimetos, etc. ASPECTO BÁSICO DA INFORMAÇÃO: A aálise estatística de um cojuto de dados só faz setido quado existir variabilidade os valores observados, ou seja, os valores devem apresetar difereças as diferetes uidades de observação utilizadas. A ão existêcia de variabilidade etre os valores observados tora desecessária a utilização de qualquer método estatístico. POPULAÇÃO: Cojuto de idivíduos ou objetos os quais o pesquisador tem iteresse, que apresetam relevâcia para a ivestigação de hipótese em estudo. Podemos aida dizer que a população é formada por todos os valores possíveis de serem observados uma dada situação. No caso de estudos experimetais, o alvo é sempre uma dada população. A resposta para a hipótese de iteresse é dada por uma coclusão a respeito da população em estudo. Nesse setido é fudametal, m qualquer situação, defiir claramete qual a população que se tem iteresse. Muitas vezes, por icrível que pareça, isso ão está suficietemete claro para os resposáveis pelo estudo (experimeto). Coseqüetemete, corre-se o risco de esteder coclusões a situações mais amplas do que aquelas realmete possíveis a partir do estudo realizado. Uma população pode ser classificada em duas diferetes situações: População Fiita: Todos os elemetos da população são cohecidos e possíveis de serem idetificados; População Ifiita: Não é possível uma eumeração de todos os elemetos da população; Uma população pode ser ivestigada a partir da observação de seus elemetos através de duas diferetes formas: Ceso ou Amostra. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 13

CENSO: Deomiamos de ceso aquelas situações ode a ivestigação é realizada a partir da observação de todos os elemetos de uma população. Esse tipo de observação somete é possível em populações fiitas. AMOSTRA: Na grade maioria das vezes (quase sempre!) ão é possível observar todos os elemetos de uma população, porém é possível observar-se uma parte desta população. O cojuto de elemetos efetivamete observado é deomiado amostra. Podemos etão dizer que uma amostra é todo e qualquer subcojuto ecessariamete fiito da população. Para que a amostra seja uma represetação realista, ão tedeciosa, da população, é ecessário que seus elemetos sejam escolhidos de forma rigorosamete aleatória. Esta codição é fudametal a prática, porque as iferêcias estatísticas sempre supõem que as amostras são represetativas da população. Por isso ao realizar um experimeto, devemos sempre tomar o cuidado para coletar os dados de modo que a hipótese de aleatoriedade, seja se ão, rigorosamete, pelo meos aproximadamete obedecida. Amostra Aleatória: Amostra de N valores ou idivíduos (uidades experimetais) obtidos de tal forma que todos os possíveis elemetos da população teham a mesma chace de participar a amostra. OBTENÇÃO DE UMA AMOSTRA EM PESQUISAS CIENTÍFICAS: Nas pesquisas cietíficas as amostras, em geral são obtidas de duas diferetes formas: Estudos observacioais e experimetos plaejados. Nos estudos observacioais os dados são obtidos à medida que se toram dispoíveis. Por exemplo, supoha que um pesquisador esteja avaliado o desempeho de um processo de fabricação de compoetes plásticos através da ijeção em molde. Pode-se observar o processo, selecioar compoetes à medida que são fabricados e medir importates características de iteresse, tais como a espessura da parede, o ecolhimeto ou a resistêcia da peça. O pesquisador pode Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 14

medir também e registrar as variáveis de processo potecialmete importates, tais como a temperatura do molde, o coteúdo de umidade da matéria-prima e o tempo do ciclo. Freqüetemete, em um estudo observador, o pesquisador está iteressado em usar os dados para costruir um modelo do sistema ou processo. Esses modelos são freqüetemete chamados de modelos empíricos. Uma outra maeira e que os dados observados são obtidos através da aálise de dados históricos do sistema ou processo. Por exemplo, a fabricação de semicodutores, e razoavelmete comum mater registros extesos de cada batelada ou lote de pastilhas que foi produzido. Esses registros icluiriam dados de teste de características físicas e elétricas das pastilhas, assim como as codições de processameto sob as quais cada batelada de pastilhas foi produzida. Se aparecerem questões relativas a uma mudaça em uma importate característica elétrica, a história do processo pode ser estudada em um esforço para determiar o poto o tempo ode a mudaça ocorreu e para gahar algum discerimeto em relação as variáveis do processo que devem ser resposáveis pela mudaça. Freqüetemete, esses estudos evolvem um cojuto muito grade de dados e requerem um firme domíio dos pricípios estatísticos, se o pesquisador quiser alcaçar o sucesso. Nos experimetos plaejados, o egeheiro (ou pesquisador) faz variações propositais as variáveis cotroláveis de algus sistemas ou processos, observa os dados de saída do sistema resultate e, etão, faz uma iferêcia ou decisão sobre as variáveis que são resposáveis pelas mudaças observadas o desempeho de saída. O plaejameto de experimetos tem um papel muito importate o projeto e desevolvimeto de egeharia e a melhoria dos processos de fabricação. Geralmete, quado produtos e processos são plaejados e desevolvidos com experimetos plaejados, eles têm melhor desempeho, mais alta cofiabilidade e meores custos globais. Experimetos plaejados também desempeham um papel crucial a redução do tempo de codução de um projeto de egeharia e do desevolvimeto de atividades. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 15

INFERÊNCIA ESTATÍSTICA: Embora seja observada apeas uma amostra, o objetivo de qualquer estudo é estabelecer coclusões com respeito à população de iteresse. A metodologia utilizada para se fazer a passagem dos resultados obtidos a amostra para coclusões populacioais é chamada iferêcia estatística. A iferêcia estatística pode ser defiida em duas etapas: Estimação: Obter iformação sobre uma característica populacioal; Teste de Hipóteses: Utilização da iformação amostral para respoder as hipóteses de iteresse o estudo. ANÁLISE ESTATÍSTICA: O processo de orgaização, processameto, sumarização e retirada de coclusões sobre um determiado cojuto de dados (amostra) é chamado de aálise estatística. As hipóteses (questões de iteresse) daqueles que realizam o estudo idicam o tipo de dado que precisa der obtido e coseqüetemete a iferêcia a ser realizada. O quadro abaixo resume uma aálise estatística de dados. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 16

Figura 2.1. Aálise Estatística. 2.2. O R G A N I Z A Ç Ã O, S U M A R I Z A Ç Ã O E R E P R E S E N T A Ç Ã O D E D A D O S: A orgaização, sumarização e apresetação dos dados observados são esseciais para um bom julgameto estatístico, dado que permitem que sejam idetificadas características importates da amostra e aida mais, idicar modelos que podem ser mais adequados para verificação da hipótese em estudo. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 17

Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 18

2.2.1. T I P O S D E V A R I Á V E I S: Capítulo 2 Aálise Descritiva e Exploratória de Dados As iformações obtidas em uma amostra são deomiadas, usualmete, de variáveis em estudo. Em cada estudo pode-se observar uma ou mais variáveis em fução das ecessidades e objetivos a serem ivestigados. Assim, por exemplo, pode-se observar uma úica medida um dado experimeto, como é possível observar uma série de características de iteresse a aplicação de um questioário. As variáveis observadas em uma amostra podem ser classificadas em dois tipos: Variáveis Categóricas (Qualitativas) ou Variáveis Cotíuas (Quatitativas). Variáveis Categóricas: Deomiamos variáveis categóricas aquelas medidas (características) observadas a amostra que apeas idetificam a uidade de observação. Em outras palavras, uma variável categórica idetifica um atributo, classe, qualidade,..., da uidade de observação. Exemplo: Sexo, Grau de escolaridade, tipo de solo, forecedor, etc. As variáveis qualitativas podem aida ser classificadas como qualitativas omiais e qualitativas ordiais. As omiais apeas idetificam um atributo à uidade experimetal sem qualquer outra propriedade (sexo, por exemplo), equato que as ordiais idetificam um atributo que estabelece uma estrutura de ordem as uidades de observação (grau de escolaridade, por exemplo). Variáveis Quatitativas: Deomiamos de variáveis quatitativas aquelas medidas (características) observadas a amostra que estabelecem uma iformação resultate de uma cotagem ou de uma mesuração feita a uidade experimetal. As variáveis quatitativas podem também ser classificadas em dois grupos: Quatitativas discretas ou quatitativas cotíuas. As quatitativas discretas podem assumir um cojuto fiito ou eumerável de valores (úmero de acidetes em uma determiada região da cidade, por exemplo), por outro lado, as quatitativas cotíuas podem assumir valores um itervalo de úmeros reais. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 19

Observação: Uma variável quatitativa pode ser categorizada, porém a recíproca ão é possível. É importate, porém cosiderar a PERDA DE INFORMAÇÃO que ocorre esses casos. Figura 2.2. Classificação das Variáveis. Para cada tipo de variável existem técicas apropriadas para orgaizar e resumir a iformação, embora em muitos casos se verifique as técicas usadas em um caso podem ser adaptadas para outros. 2.2.2. A P R E S E N T A Ç Ã O D O S D A D O S: A apresetação de iformações cotidas um cojuto de dados pode ser feita de várias formas. Para cada tipo de variável existe formas mais adequadas e corretas de apresetá-las. O objetivo de uma apresetação dos dados é orgaizar os valores observados de forma a obter o máximo de iformação. Os procedimetos usuais de apresetação de dados são tabelas e gráficos. Cosideremos o seguite experimeto: Uma idústria química formula um experimeto para verificar se um ovo método de fabricação de um produto químico é superior a um método tradicioal de fabricação. Um experimeto foi realizado Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 20

obtedo-se dados de produção idustrial dos métodos A (Tradicioal) e B (Novo Método), cujos resultados estão apresetados a Tabela 2.1: TABELA 2.1. Dados de Produção Idustrial. Lote Método Produção Lote Método Produção 1 A 89.7 11 B 84.7 2 A 81.4 12 B 86.1 3 A 84.5 13 B 83.2 4 A 84.8 15 B 91.9 5 A 87.3 15 B 86.3 6 A 79.7 16 B 79.3 7 A 85.1 17 B 82.6 8 A 81.7 18 B 89.1 9 A 83.7 19 B 83.7 10 A 84.5 20 B 88.5 O problema apreseta duas variáveis: Método de Produção e Produção Observada. A variável método de produção é categórica omial e a variável produção é quatitativa cotíua. A apresetação usual dos dados observados é feita através de uma tabela deomiada distribuição de freqüêcias. Nesta forma são apresetados os valores observados, a freqüêcia com que cada valor foi observado, o percetual que este úmero de freqüêcia represeta em relação ao total de observação, bem como os respectivos valores acumulados. Para tabela acima as distribuições de freqüêcias são dadas por: TABELA 2.2. Distribuição de Freqüêcia da Variável Método de Produção Idustrial. Método Método Freqüêcia Absoluta Freqüêcia Percetual Freqüêcia Acumulada Percetual Acumulada A 10 50.00 10 50.00 B 10 50.00 20 100.00 Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 21

TABELA 2.3. Distribuição de Freqüêcia da Variável Produção Idustrial Produção Produção Freqüêcia Absoluta Freqüêcia Percetual Freqüêcia Acumulada Percetual Acumulada 79.3 1 5.00 1 5.00 79.7 1 5.00 2 10.00 81.4 1 5.00 3 15.00 81.7 1 5.00 4 20.00 82.6 1 5.00 5 25.00 83.2 1 5.00 6 30.00 83.7 2 10.00 8 40.00 84.5 2 10.00 10 50.00 84.7 1 5.00 11 55.00 84.8 1 5.00 12 60.00 85.1 1 5.00 13 65.00 86.1 1 5.00 14 70.00 86.3 1 5.00 15 75.00 87.3 1 5.00 16 80.00 88.5 1 5.00 17 85.00 89.1 1 5.00 18 90.00 89.7 1 5.00 19 95.00 91.9 1 5.00 20 100.00 Notação: f i = freqüêcia do i-ésimo valor p i = freqüêcia percetual do i-ésimo valor p i = f i / = tamaho da amostra (úmero de uidades observadas) Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 22

F i = freqüêcia acumulada até o i-ésimo valor, ou seja, úmero de observações até o i-ésimo valor F i = f a i a= 1 P i = freqüêcia percetual acumulada até o i-ésimo valor, ou seja, percetual de observações até o i-ésimo valor P i = p a i a= 1 Observação: Nos casos de variáveis qualitativas omiais a freqüêcia acumulada e percetual acumulada ão tem setido de iterpretação. Problema: No caso das variáveis quatitativas, como o exemplo acima, podemos ter que a variável assume um grade úmero de valores todos (ou a grade maioria) com baixas freqüêcias, logo a distribuição de freqüêcias se tora grade sem uma maior cotribuição para a iterpretação dos dados. Nessas situações, recomeda-se a categorização da variável através do estabelecimeto de itervalos de acordo com os objetivos do estudo. No exemplo: TABELA 2.4. Distribuição de Freqüêcia da Variável Produção Idustrial Categorizada. Produção Categorizada Produção Categorizada Freqüêcia Absoluta Freqüêcia Percetual Freqüêcia Acumulada Percetual Acumulada Meor que 80 2 10.00 2 10.00 [80,85) 10 50.00 12 60.00 [85,90) 7 35.00 19 95.00 90 ou mais 1 5.00 20 100.00 Sugestão Usual: Os itervalos gerados pela categorização devem ter o mesmo comprimeto e/ou aproximadamete mesmas freqüêcias. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 23

Uma seguda forma de apresetação dos dados é através de uma represetação gráfica dos mesmos. Usualmete represeta-se graficamete a distribuição de freqüêcias. O tipo de gráfico a ser utilizado está associado ao tipo de variável em estudo. Variáveis qualitativas podem ser represetadas por: Gráfico em Barras Gráfico de Setores (Gráfico de Pizza ) Gráfico em Retâgulo Variáveis quatitativas podem ser represetadas por: Diagrama de Potos Histogramas Polígoo de Freqüêcias Ramos e Folhas Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 24

R E P R E S E N T A Ç Ã O G R Á F I C A D A D O S C A T E G Ó R I C O S Capítulo 2 Aálise Descritiva e Exploratória de Dados Sexo Sexo Sexo 100 80 60 40 20 0 58.06 Masculio 41.94 Femiio Femiio 42% Masculi o 58% 58.06 41.94 0% 20% 40% 60% 80% 100% Sexo Masculio Femiio Masculio Femiio Nehum Algum Bom 9.68 58.06 32.26 0 20 40 60 80 100 Computador Nehum 10% Algum 58% Bom Algum Nehum Bom 32% Domiio de Computador 100% 80% 60% 40% 20% 0% 9.68 58.06 32.26 Bom Algu Nehum Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 25

Ramo e Folhas 5 5 22222 10 5 55689 14 6 0014 (8) 6 55555789 9 7 124 6 7 57 4 8 01 2 8 5 1 9 0 No of obs 15 14 13 12 11 10 9 8 7 6 16.1% 5 4 3 2 1 0 6.5% 3.2% 3.2%3.2% 6.5% 3.2% 3.2% 16.1% Peso dos Aluos PESO R E P R E S E N T A Ç Ã O G R Á F I C A D A D O S Q U A NTITATIVOS 3.2%3.2%3.2% 3.2%3.2% 3.2%3.2% 3.2% 3.2%3.2% 3.2% 3.2% <= 53 (53;54] (54;55] (55;56] (56;57] (57;58] (58;59] (59;60] (60;61] (61;62] (62;63] (63;64] (64;65] (65;66] (66;67] (67;68] (68;69] (69;70] (70;71] (71;72] (72;73] (73;74] (74;75] (75;76] (76;77] (77;78] (78;79] (79;80] (80;81] (81;82] (82;83] (83;84] (84;85] (85;86] (86;87] (87;88] (88;89] > 89 No of obs 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 29.0% 32.3% Peso dos Aluos 12.9% 12.9% PESON Capítulo 2 Aálise Descritiva e Exploratória de Dados Diagrama de Potos.. : : : :... :.. :............ -----+---------+---------+---------+---------+---------+- Peso 56.0 63.0 70.0 77.0 84.0 91.0 6.5% 6.5% 0 0 1 2 3 4 5 6 7 No of obs 33 30 27 24 21 18 15 12 9 6 3 29.0% 61.3% Peso dos Aluos 74.2% 0 0 1 2 3 4 5 6 7 PESON 87.1% 93.5% 100.0% Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 26

2.2.3. S U M A R I Z A Ç Ã O D O S D A D O S: Capítulo 2 Aálise Descritiva e Exploratória de Dados A distribuição de freqüêcias além de apresetar os dados observados, também pode ser cosiderada uma sumarização de dados. Porém, a maioria dos casos, é desejado obter valores que possam represetar cada uma das variáveis em estudo. Esses valores devem ser medidas que, sob algum poto de vista sejam represetativos dos dados observados. As medidas usualmete utilizadas se referem a locação e dispersão dos dados. 2. 2. 3. 1. M E D I D A S D E L O C A Ç Ã O O U T E N D Ê N C I A C E N T R A L : Medidas relacioadas à posição dos dados, ou aida a valores em toro dos quais os valores observados tedem a se agrupar. As pricipais medidas de posição são: Moda Mediaa Quartis, Decis, Percetis. Média MODA: Defiição: Valor (Classe, itervalo..) que ocorre com maior freqüêcia. Vatagem: Pode ser obtida para qualquer tipo de variável, porém, é mais apropriada para dados qualitativos omiais. Observações: 1) Podemos ecotrar variáveis em um cojuto de dados com mais de uma moda (bimodal, tri-modal.); 2) Podemos ter variáveis em um cojuto de dados ode a moda ão existe. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 27

MEDIANA: Defiição: Valor que ocupa a posição cetral um cojuto de dados ordeados, ou seja, valor para o qual 50% dos valores observados são iferiores e 50% dos valores observados são superiores a ele. Codição: Para obteção da mediaa a variável em estudo deve ser pelo meos qualitativa ordial. Cálculo da Mediaa: 1) Dados devem ser ordeados 2) Se o úmero de observações é: 2.1) Ímpar: Mediaa é o valor que está o cetro da série, ou seja o valor que ocupa a posição (+1)/2. 2.2) Par: Mediaa é qualquer valor etre aqueles dois valores que estão o cetro da série, ou seja, qualquer valor etre aqueles que ocupam as posições /2 e (/2)+1. Valor usual: Média dos valores que ocupam a posição (/2) e (/2)+1. QUARTIS, DECIS, PERCENTIS: Defiição: A mediaa divide o cojuto de dados em duas partes. Quartis decis e percetis seguem o mesmo pricípio, porém dividem os dados observados em 4, 10 e 100 partes respectivamete. Desta forma temos que: percetil (50) = mediaa ou segudo quartil (Md) percetil (25) = primeiro quartil (Q 1 ) percetil (75) = terceiro quartil (Q 3 ) percetil (10) = primeiro decil Observação: Mediaa, Quartis, Decis, Percetiis também são chamados de separatrizes. MÉDIA ARITIMÉTICA: Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 28

Defiição: A média aritmética simples de um cojuto de dados observados é o quociete da divisão por da soma dos valores destas observações. Seja x 1, x 2, x 3,...x os valores de uma variável observada a amostra. A médiax (lê-se x barra ) é dada por: x = x1 + x2 + x3 +... + x = i= 1 x i Ode x i é o símbolo que idica a observação de ordem i = 1,2,... Codição: Possível de obteção apeas para dados quatitativos. Propriedades: A média aritmética possui propriedades iteressates que podem ser úteis em determiadas situações: 1) Se x 1 =x 2 =x 3 =...=x = a etão x == a = a i=1 a média de uma costate é a própria costate ; 2) Se a todo valor observado é adicioado uma costate a, etão: yi xi + a i= 1 i= 1 yi = xi + a y== = = x+ a se adicioamos uma mesma costate a toda observação, a média também fica adicioada deste valor. 3) Se a todo valor observado é multiplicado por uma costate a, etão: Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 29

y y ax i i i= 1 i= 1 i = axi y== = = ax se multiplicamos toda observação por uma mesma costate, a média também fica multiplicada deste valor. 4) A soma dos desvios em toro da média é zero: i= 1 ( x i x) = 0 Observação: Outros tipos de médias são cohecidos tais como: média poderada, média harmôica, média geométrica, média aparada. Cada uma destas médias tem sua utilizada e aplicações específicas e podem ser ecotradas a grade maioria de textos de Estatística Básica. 2. 2. 3. 2. C O M P A R A N D O M E D I D A S D E L O C A Ç Ã O O U T E N D Ê N C I A C E N T R A L : Uma comparação da média, mediaa e moda, as situações ode é possível calcular todos estes valores, podem os revelar uma iformação sobre o comportameto dos dados, deomiada assimetria. Defiição: Uma variável é dita ter comportameto (ou distribuição) assimétrica quado os seus valores estão mais cocetrados em um dos seus extremos (valores altos ou baixos). As possíveis situações de assimetria e simetria são derivadas do comportameto dos valores da média, mediaa e moda e podem ser represetadas da seguite forma: Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 30

Figura 2.3. Assimetria de Uma Variável 2. 2. 3. 3. M E D I D A S D E D I S P E R S Ã O : Na aálise de uma variável de iteresse em qualquer estudo, quase uca é suficiete para descrever de modo satisfatório, observar apeas uma úica medida de posição. Podemos facilmete ecotrar variáveis que apresetam o mesmo valor para uma medida de locação (média, por exemplo), porém com dados apresetado comportametos completamete diferetes. Esses diferetes comportametos são coseqüêcia de dados com diferetes graus de dispersão. Objetivo: Verificar o quato os valores observados estão dispersos, ou aida o quato variam os dados. Apresetamos a seguir algumas medidas de dispersão. AMPLITUDE: Defiição: Difereça etre o maior e o meor valor observado a amostra. Notação: Seja X () = maior valor observado para a variável a amostra; Seja X (1) = meor valor observado para a variável a amostra; Amplitude = A = X () X (1) Observações: 1) Medida sujeita a ifluecia da preseça de valores extremos. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 31

2) O aumeto do úmero de observações a amostra ão produz qualquer mudaça o valor dado pela amplitude. DIFERENÇA DE QUARTIS: Defiição: Valor dado pela difereça etre os valores que delfiem os 50% dos valores cetrais observados. Notação: Seja Q (1) = 1º quartil dos dados observados (25% das observações a amostra); Seja Q (3) = 3º quartil dos dados observados (75% das observações a amostra); Logo Q (3) Q 1) cotém 50% das observações e, cosequetemete Difereça de Quartis = DQ = Q (3) Q (1) VARIÂNCIA DESVIO PADRÃO: Defiição: A VARIÂNCIA é uma medida de variabilidade dos dados em toro da média, ou seja, ela quatifica a variabilidade ou o espalhameto ao redor da média. É atural procurar uma medida de dispersão que depeda dos desvios de cada observação em relação à média (x i x ), e é razoável cosiderar a soma de todos estes desvios. Quato maior forem os desvios, maior será a variabilidade presete os dados. Etretato, pela defiição de média, (x i x ) = 0 para qualquer cojuto de dados. Uma alterativa, para se obter uma medida de dispersão, é elevar os desvios de cada observação em relação à média ao quadrado, isto é, Assim, d i = (x i - x ) 2 (x i x ) 2 É a soma dos quadrados dos desvios em relação à média. Desta forma somamos somete valores positivos. Tora-se ecessário cosiderar o º de observações, Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 32

pois quato maior o º de observações maior será o valor deste somatório. Assim, a variâcia amostral é defiida por: S 2 ( x i x) i= 1 = 1 Por que (-1)? Quado dividimos por -1 temos que S 2 é um estimador ão viciado, importate propriedade da iferêcia estatística: Se a amostra é grade, os valores obtidos dividido por ou -1 são praticamete iguais. 2 Propriedades da Variâcia 1) A variâcia de uma costate é zero, isto é, x i = a, para todo i= 1, 2,.., etão S 2 = 0 2) Se multiplicarmos cada valor da variável por uma costate a, a variâcia será a variâcia da variável origial multiplicada por a 2. y = a X, etão Var(y) = Var (a x)= a 2 Var(x). 3) Se somarmos ou subtrairmos de cada valor da variável uma costate a, a variâcia ão se altera. Seja y = X + a, etão Var(y) = Var (x + a)= Var(x). 4) Se dividirmos cada valor da variável por uma costate a, a variâcia será a variâcia da variável origial dividida por a 2. Seja 1 1 1 y= x etão Var(y) = Var ( x )= a a a Var(x). 2 Note que a uidade de medida de S 2 é a uidade de medida das observações elevada ao quadrado. Etão, para obter uma medida de variabilidade com a mesma uidade de medida das observações extraí-se a raiz quadrada. Esta medida é deomiada DESVIO PADRÃO e defiida por: Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 33

S ( x i x ) i= 1 = 1 2 Observações: 1) S mede a dispersão em toro da média e só deve ser calculado quado a média é tomada como medida de locação. 2) S 0. Logo, quato maior a dispersão em toro da média, maior o valor do desvio padrão, ou maior valor de S. Além das medidas de dispersão aqui apresetadas, algumas outras são ecotradas a literatura, como por exemplo, as medidas de simetria e de achatameto (também ditas de curtose). Para as aplicações que serão feitas ao logo desse curso, as medidas aqui apresetadas são suficietes, outras medidas podem ser ecotradas em livros de Estatística Básica. 2. 2. 3. 4. M E D I D A S D E D I S P E R S Ã O R E L A T I V A : Em muitos casos, em particular em situações que desejamos comparar a dispersão de variáveis com diferetes uidades de medida, é coveiete expressar a dispersão em termos relativos, ou seja, expressar a variabilidade dos dados tirado a ifluêcia da ordem de gradeza da variável. COEFICIENTE DE VARIAÇÃO: Defiição: O desvio padrão descreve o desvio padrão relativo à média. É expresso em termos de valores percetuais. Notação: O coeficiete de variação, que é defiido por: CV = S x *100 Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 34

O coeficiete de variação (CV) é adimesioal, isto é, um úmero puro e usualmete expresso em porcetagem. Sua utilidade é forecer uma medida para a homogeeidade do cojuto de dados. Quato meor o CV mais homogêeo é o cojuto de dados. Pelo fato do CV ser adimesioal, é possível comparar a variabilidade de dois cojutos de dados muitos distitos. O CV é muito útil a comparação de duas variáveis ou dois grupos que a pricípio ão são comparáveis (por exemplo, com ordes de gradeza das variáveis muito diferetes). Um valor de CV maior que 50% idica um alto grau de dispersão e coseqüetemete uma baixa represetatividade da média. Um valor de CV meor ou igual a 25% geralmete idicará que o cojuto de dados é razoavelmete homogêeo. Etretato, esse padrão varia de acordo com a aplicação. Uma possível classificação é a seguite: CV: Baixo - (iferior a 0,10); Médio - (de 0,10 a 0,25); Alto - (0,25 a 0,35); Muito Alto - ( 0,35). 2. 2. 3. 5. U M A R E P R E S E N T A Ç Ã O G R Á F I C A C O N J U N T A D E M E D I D A S D E L O C A Ç Ã O E D E D I S P E R S Ã O : Como apresetado ateriormete, uma aálise de dados deve, miimamete cosiderar cojutamete uma medida de locação e uma medida de dispersão. Nesse setido é importate também estabelecer uma represetação gráfica cojuta de medidas de locação e dispersão através da qual seja possível verificar o comportameto da variável em ambos os aspectos. ESQUEMA DE CINCO NÚMEROS: Proposta: Idetificar 5 valores detre o cojuto de observados que possa dar codições de se ter uma idéia geral do comportameto geral das observações. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 35

Codição: Possível para variáveis quatitativas; Valores Propostos (Tukey): Capítulo 2 Aálise Descritiva e Exploratória de Dados Mediaa Valor Maximo (X () ) e Valor Míimo (X (1) ) 1º e 3º Quartis Observação: Algus outros autores e softwares propõem o uso de média e desvio padrão o lugar de mediaa e quartis. Tukey justifica o uso de mediaa e quartis dado eu as mesmas são medidas de locação e dispersão que ão são iflueciadas pela preseça de valores extremos o cojuto de dados e que, portato permitem uma mais fácil idetificação de preseça dos mesmos detre os valores observados. DESENHO ESQUEMATICO BOX PLOT: Proposta: Represetação gráfica do esquema de 5 úmeros. O Box-plot é obtido seguido-se os passos: 1. Numa reta são marcados o 1º quartil (Q 1 ), a mediaa (Q 2 ) e o 3º quartil (Q 3 ). 2. Acima dessa reta costrói-se um retâgulo com limites iguais às posições do 1º e 3º quartis, cortado por um segmeto de reta a posição relativa à mediaa. 3. A partir dos limites do retâgulo, traçam-se lihas até: a. Ecotrar um extremo (valor máximo ou míimo) ou b. Um valor correspodete a 1,5 DQ, se o extremo correspodete estiver a mais de 1,5 DQ do quartil respectivo. Os potos que estão a mais de 1,5 DQ do quartil correspodete até 3DQ são chamados potos exteros (* ) e os que estão a mais de 3DQ, potos soltos (o). Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 36

Box-Plot liha auxiliar _Q3+1,5d ** _Q3+1,5d ** altura _Q3 _Q3 _Q3 _Q3 d _md _md _md _Q1 _Q1 _Q1 _Q1 Q1 = 1º quartil _Q1-1,5d _Q1-1,5d md = mediaa Q3 = 3º quartil d = difereça iterquartil Figura 2.4. Costruído o Box - Plot * * Máximo Costrução LS=Q3+1,5(Q3-Q1) Q3 Mediaa 50% 75% Q1 Míimo Máximo é o maior valor meor que LS; Míimo é o meor valor maior que LI. 25% LI=Q1-1,5(Q3-Q1) Figura 2.5. Forma Fial do Box - Blot O Box Plot é um procedimeto que permite iidetificar em um cojuto de dados: Simetria Dispersão Valores Discrepates Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 37

IMPORTANTE: O Box Plot, além das aplicações apresetadas, é um procedimeto extremamete importate a comparação de diferetes grupos (tratametos) que são observados e, por exemplo, detre os quais, deseja-se idetificar aquele com melhor desempeho. Exemplo: Comparado o total de potos obtidos pelos aluos igressos o processo seletivo 2005 os diferetes cursos da UFSCar. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 38

2.3. R E F E R Ê N C I A S B I B L I O G R Á F I C A S: Capítulo 2 Aálise Descritiva e Exploratória de Dados Barros Neto, B., Scarmiio, I. S., Brus, R. E. (2001) Como Fazer Experimetos: Pesquisa e desevolvimeto a ciêcia e a idústria. Editora da Uicamp, Campias, SP. Motgomery, D. C., Ruger, G. C. (2003) Estatística APlicada e Probabilidade para Egeheiros, LTC Editora, 2a Edição, Rio Jaeiro, RJ. Triola, M. F. (2005) Itrodução a Estatística, LTC Editora, 9ª Edição, Rio Jaeiro. Aderso, T.W., Sclove, S. L. (1974) Itroductory Statistical Aalysis, Houghto Mifli, Bosto. Vieira, S. (1999) Pricípios de Estatística, Pioeira, São Paulo, SP. Itrodução ao Plaejameto e Aálise Estatística de Experimetos C 1 o Semestre de 2009 39