Sobre o Boxplot no GeoGebra



Documentos relacionados
Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados

ANÁLISE EXPLORATÓRIA DE DADOS

Medidas de Tendência Central

I COLIFORMES E ph MÉDIAS ARITMÉTICAS, MÉDIAS GEOMÉTRICAS E MEDIANAS

Estatística. Slide 0. Ana M. Abreu /07

Medidas de Localização

AULA 11 Experimentos Multinomiais e Tabelas de Contingência

Medida de Tendência Central

Medidas de dispersão e assimetria

Relatório das Provas da 2ª. Fase - Vestibular 2016

Estatística - exestatmedposic.doc 25/02/09

Apresentação de Dados

Conteúdo. 1 Introdução. Histograma do 1o Sorteio da Nota Fiscal Paraná 152/15. 1º Sorteio Eletrônico da Nota Fiscal Paraná

DISCIPLINA DE ESTATÍSTICA

Plano de Ensino PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA - CCE0292

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

Capítulo 4 Inferência Estatística

DISTRIBUIÇÃO DE FREQUÊNCIA DE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS DISCRETAS (TABELAS E GRÁFICOS)

Coeficiente de Assimetria e Curtose. Rinaldo Artes. Padronização., tem as seguintes propriedades: Momentos

Aula 1 Assimetria e Curtose

Conteúdo. 1 Introdução. Histograma do Quinto Sorteio da Nota Fiscal Paraná 065/16. Quinto Sorteio Eletrônico da Nota Fiscal Paraná

Stela Adami Vayego DEST/UFPR

ESTATÍSTICA DESCRITIVA:

Os dados quantitativos também podem ser de natureza discreta ou contínua.

Aula 1 Estatística e Probabilidade

x = xi n x = xifi fi 1. MÉDIA Exercício: Quando a distribuição é simétrica, a média e a mediana coincidem.

AULA 12 Inferência a Partir de Duas Amostras

A vida sem reflexão não merece ser vivida Sócrates Disciplina: ESTATÍSTICA e PROBABILIDADE

Estatística e Probabilidade

ARQUITETURA E URBANISMO

AULA 04 Estimativas e Tamanhos Amostrais

ESTATÍSTICA PARTE 1 OBJETIVO DA DISCIPLINA

O SOFTWARE R EM AULAS DE MATEMÁTICA

Pernambuco. Tabela 1: Indicadores selecionados: mediana, 1º e 3º quartis nos municípios do estado de Pernambuco (1991, 2000 e 2010)

AULAS 08 E 09 Distribuição de Probabilidade Normal

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira

AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA

Aula 00. Raciocínio Lógico Quantitativo para IBGE. Raciocínio Lógico Quantitativo Professor: Guilherme Neves

Desvio Padrão ou Erro Padrão

Acre. Tabela 1: Indicadores selecionados: mediana, 1 o e 3 o quartis nos municípios do estado do Acre (1991, 2000 e 2010)

Universidade Federal do Amazonas Instituto de Ciências Exatas Departamento de Estatística

Distribuições Conjuntas (Tabelas de Contingência)

Métodos Quantitativos Aplicados

1. Estatística Descritiva

índice Introdução Estatística Descritiva Capítulo 1 Capítulo 2 O que é a Estatística Escalas de medida Escalas Nominais Escalas Ordinais

Recursos Computacionais no Ensino de Matemática (MA36)

Estatística. Conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos ou de massa.

PARTE I - EVOLUÇÃO DO PENSAMENTO. Curso Análise de Dados e Políticas Públicas. Ementa. Metodologia. Plano de Aula

Introdução à Volumetria. Profa. Lilian Lúcia Rocha e Silva

Características das Figuras Geométricas Espaciais

MEDIDAS DE DISPERSÃO. o grau de variabilidade, ou dispersão, dos valores em torno da média.

Modelos de Probabilidade e Inferência Estatística

5. Medidas de Posição

Análise de Regressão. Notas de Aula

Matemática Aplicada às Ciências Sociais

FATEC GT/FATEC SJC. Prof. MSc. Herivelto Tiago Marcondes dos Santos [ESTATÍSTICA I]

UFV Catálogo de Graduação MATEMÁTICA Bacharelado. COORDENADORA Rosane Soares Moreira Viana

Professores colaboradores: Claudemir, David Cardoso Siqueira, Edilson Araujo do Nascimento, Emerson, Glaucia, Luciene Maria da Silva Oliveira

Experimento. Guia do professor. Séries temporais. Governo Federal. Ministério da Educação. Secretaria de Educação a Distância

cuja distribuição é t de Student com n 1 graus de liberdade.

AULA 07 Procedimentos de Pesquisa em Ciências Sociais

n Xi = X1 + X2 + X Xn i = 1 n Xi, deve ser lida soma dos valores xi, para i variando de 1 até n. i = 1

Maranhão. Tabela 1: Indicadores selecionados: mediana, 1º e 3º quartis nos municípios do estado do Maranhão (1991, 2000 e 2010)

Matemática. A probabilidade pedida é p =

PLANO DE ENSINO CONTEÚDO PROGRAMÁTICO. Unidade 1: MEDIDAS E GRANDEZAS Introdução Padrões usados para avaliar grandezas físicas

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE I

PROJETO MEDIDAS ESTATÍSTICAS RESUMO. Palavras Chaves: Medidas Estatísticas. Planilhas Eletrônicas. Matemática.

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

Programa de Ciências Experimentais

PLANO DE AULA I. Escrito por Eliani Pereira de Souza Nascimento. Supervisionado por Rosana Silva Bonfim

A Região Integrada de Desenvolvimento do Distrito Federal (RIDE-DF) no Censo 2010

no Estado do Rio de Janeiro

MEDIDAS DE TENDÊNCIA CENTRAL II

Exemplo Turbinas de Avião

DEFINIÇÕES, CONCEITOS E SÍMBOLOS Introdução à estatística Para uso exclusivo em sala de aula

Aula 1 Variáveis aleatórias contínuas

RESOLUÇÃO CONJUNTA SEPLAG/ CGE Nº , DE 15 DE DEZEMBRO DE 2015

Avaliação e Desempenho Aula 1 - Simulação

Lição 5 Medidas Descritivas Medidas de Dispersão

Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira INEP Ministério da Educação MEC. Cálculo do Conceito ENADE

UNIVERSIDADE EDUARDO MONDLANE FACULDADE DE ENGENHARIAS DEPARTAMENTO DE CADEIRAS GERAIS

MAE116 - Noções de Estatística

ANÁLISE DA EVOLUÇÃO DO CUSTO DA CESTA BÁSICA DE IJUÍ, RS 1

UM JOGO DE DOMINÓ PARA A LÓGICA PROPOSICIONAL

Escola Básica e Secundária de Velas Planificação Anual

Os Processos de Construção e Implementação de Políticas Públicas para Crianças e Adolescentes em Situação de Rua 1

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

Correlação e Regressão linear simples

Plano da Apresentação. Correlação e Regressão linear simples. Correlação linear. Associação entre hábitos leitura e escolaridade.

Administração Central Unidade de Ensino Médio e Técnico - Cetec. Ensino Técnico. Qualificação: Assistente Administrativo

Aula 01 Introdução Custo de um algoritmo, Funções de complexidad e Recursão

ROTEIRO PARA ELABORAÇÃO DO PROJETO DE PESQUISA

Apresentação da disciplina

Consumo Consciente de Água, a Estatística e o AVALE-EB

Tecnologias no Ensino de Matemática

Faculdades Integradas de Ariquemes (FIAR) Pós-Graduação Lato Sensu

Relatório de Curso ENADE 2012 EXAME NACIONAL DE DESEMEPNHO DOS ESTUDANTES CIÊNCIAS CONTÁBEIS UNIVERSIDADE ESTADUAL DO CENTRO OESTE GUARAPUAVA

Transcrição:

Sobre o Boxplot no GeoGebra Boxplot in GeoGebra PÉRICLES CÉSAR DE ARAUJO 1 CELINA APARECIDA ALMEIDA PEREIRA ABAR 2 Resumo O objetivo deste trabalho é apresentar o resultado do uso da ferramenta para construção do gráfico boxplot no ambiente dinâmico do GeoGebra. O boxplot é um gráfico de um conjunto de dados que consiste de uma linha que se estende do valor mínimo ao valor máximo, em uma caixa com linhas verticais, traçadas no primeiro quartil (Q1), na mediana e no terceiro quartil (Q3). Os quartis, isto é, primeiro quartil, a mediana e o terceiro quartil são três valores que dividem os dados ordenados em quatro grupos com aproximadamente 25% dos valores em cada grupo. Na Estatística Descritiva ou na análise exploratória e comparação de dados, o boxplot é um gráfico configurado para poder identificar os outlies (valores discrepantes), valores que são bastante incomuns, no sentido de estarem muito afastados da maioria dos dados. As modificações do boxplot ocorrem nos valores mínimos e máximos que são substituídos pelos valores abaixo do primeiro quartil por uma quantidade que pode ser maior do que o mínimo [Q1-1,5(Q3-Q1)] e uma quantidade que pode ser menor que máximo [Q3+1,5(Q3-Q1)], respectivamente. Por exemplo, a identificação dos valores outlies é importante no cálculo da média aritmética que tem como característica a influência dos valores extremos. Até o momento a ferramenta para construção do gráfico boxplot no ambiente dinâmico do GeoGebra não evidencia os outlies dos dados podendo comprometer, em princípio, o uso do GeoGebra na Estatística Descritiva e na análise exploratória e comparação de dados. Portanto, consideramos importante que nas versões futuras do GeoGebra seja incluída na opção dessa ferramenta uma modificação que permita identificar os outlies. Palavras chave: Boxplot, GeoGebra, Estatística Descritiva, Análise exploratória de dados. Introdução O objetivo deste trabalho é apresentar o resultado do uso da ferramenta para construção do gráfico boxplot no ambiente dinâmico do GeoGebra. O GeoGebra é um software de matemática dinâmica gratuito e multiplataforma para todos os níveis de ensino, que combina geometria, álgebra, tabelas, gráficos, estatística e cálculo numa única 1 Docente da Universidade Estadual de Feira de Santana e doutorando em Educação Matemática da Pontifícia Universidade Católica de São Paulo - e-mail: pericles@uefs.br 2 Docente do Programa de Estudos Pós-Graduados em Educação Matemática da Pontifícia Universidade Católica de São Paulo - e-mail: abarcaap@gmail.com 1ª. Conferência Latino Americana de GeoGebra. ISSN 2237-9657, pp.13-21, 2012

aplicação. Tem recebido vários prêmios na Europa e EUA. Observamos que a Estatística, presente no GeoGebra, é mais uma ferramenta para ensino de Matemática. Dessa forma, verificamos que a ferramenta do GeoGebra para construção do gráfico boxplot, um gráfico estatístico de analise exploratória de dados, é apresentado em um formato que pode induzir o estudante a um erro, isto é, o gráfico Boxplot obtido no GeoGebra não destaca os valores discrepantes (outlier). Para identificar o erro de construção do Boxplot no GeoGebra, vamos comparar com Boxplot obtido por meio do R, um programa estatístico no qual são destacados os valores discrepantes (outlier). O R é uma linguagem e ambiente para computação estatística e gráfica. É um projeto GNU - GENERAL PUBLIC LICENSE 3 - que é similar à linguagem e ambiente S- PLUS, que foi desenvolvido no Bell Laboratories (anteriormente AT & T, agora Lucent Technologies) por John Chambers e colegas. O R pode ser considerado como uma implementação diferente de S-PLUS. S-PLUS é um pacote de software comercial de análise estatística e gráfica produzido pela empresa TIBCO 4. Há algumas diferenças importantes, mas muitos códigos escritos para S-PLUS, funcionam inalterados em R. O Boxplot O Boxplot é um gráfico de um conjunto de dados que consiste de uma linha que se estende do valor mínimo ao valor máximo, em uma caixa com linhas verticais, traçadas no primeiro quartil (Q1), na mediana e no terceiro quartil (Q3). Os quartis, isto é, primeiro quartil, a mediana e o terceiro quartil são três valores que dividem os dados ordenados em quatro grupos com aproximadamente 25% dos valores em cada grupo. Na Estatística Descritiva ou na análise exploratória e comparação de dados, o boxplot é um gráfico configurado para poder identificar os outlies (valores discrepantes), valores que são bastante incomuns, no sentido de estarem muito afastados da maioria dos dados. Como apresentado por Silva (2011): 3 http://www.gnu.org/ 4 http://www.tibco.com/ 14 1ª. Conferência Latino Americana de GeoGebra. ISSN 2237-9657, pp.13-21, 2012

FIGURA 1: Exemplo do uso do BoxPlot FONTE: Silva (2011) As modificações do boxplot ocorrem nos valores mínimos e máximos que são substituídos pelos valores abaixo do primeiro quartil por uma quantidade que pode ser maior do que o mínimo [Q1-1,5(Q3-Q1)] e uma quantidade que pode ser menor que máximo [Q3+1,5(Q3-Q1)], respectivamente. Exemplo explorado Para comparar o Boxplot obtido no GeoGebra com o Boxplot obtido com R, vamos explorar o seguinte exemplo: Coletaram-se os pesos, em kg, de 40 alunos 20 rapazes e 20 moças obtendo-se os dados abaixo. Trace um boxplot para cada sexo. (OLIVEIRA, 2010, p.142) Primeiro vamos construir o Boxplot no GeoGebra: BoxPlot[0, 1 {40,49,55,70,40,50,57,75,43,50,60,83,45,52,65,92,47,55,67,105}] para obter o Box Plot 1 e tecle Enter 1ª. Conferência Latino Americana de GeoGebra. ISSN 2237-9657, pp.13-21, 2012 15

BoxPlot[4, 1 {32,40,47,57,33,40,48,58,35,42,50,60,36,43,52,63,38,45,53,65}] para obter o Box Plot 2 e tecle Enter FIGURA 2: Exemplo do uso do BoxPlot no GeoGebra Agora vamos construir o Boxplot no R: Rapazes=c(40,49,55,70,40,50,57,75,43,50,60,83,45,52,65,92,47,55,67,105) summary(rapazes) Min. 1st Qu. Median Mean 3rd Qu. Max. 40.00 48.50 55.00 60.00 67.75 105.00 sort(rapazes) [1] 40 40 43 45 47 49 50 50 52 55 55 57 60 65 67 70 75 83 92 [20] 105 O valores Min., 1stQu., Median, Mean, 3rdQu., Max. são respectivamente: valor mínimo, primeiro quartil, mediana, média, terceiro quartil e valor máximo. Moças=c(32,40,47,57,33,40,48,58,35,42,50,60,36,43,52,63,38,45,53,65) summary(moças) Min. 1st Qu. Median Mean 3rd Qu. Max. 32.00 39.50 46.00 46.85 54.00 65.00 sort(moças) [1] 32 33 35 36 38 40 40 42 43 45 47 48 50 52 53 57 58 60 63 65 16 1ª. Conferência Latino Americana de GeoGebra. ISSN 2237-9657, pp.13-21, 2012

FIGURA 3: Exemplo do uso do BoxPlot no R. Portanto, como o R é um programa estatístico e gráfico, o Boxplot dos dados Rapazes apresenta um valor discrepante (outlies) e não existe nos dados das Moças. No GeoGebra as duas séries de dados não apresentam valores discrepantes, dessa maneira, poderia levar o aprendiz ao erro, porque os gráficos Boxplot construídos para os dados das Moças nos dois programas, não apresentam valores discrepantes, são semelhantes. Valores discrepantes (outlies) Valores discrepantes (outlies) são valores que se localizam muito afastados de quase todos os demais valores. A identificação dos valores discrepantes (outlies) é importante no calculo da média aritmética, que tem como característica a influência dos valores extremos. Os valores discrepantes (outlies) podem ter efeito sobre o desvio padrão, sobre a escala do histograma e da forma da distribuição de freqüência dos dados (TRIOLA, 2008). O efeito dos valores discrepantes (outlies) pode ser observado na sequência de gráficos gerados do programa R: 1ª. Conferência Latino Americana de GeoGebra. ISSN 2237-9657, pp.13-21, 2012 17

FIGURA 3: Outro exemplo do uso do BoxPlot no R. Vamos analisar os gráficos acima no sentido horário. O primeiro é do tipo boxplot onde identificamos um valor discrepante, já comentado, o segundo gráfico é um violplot, gráfico em forma de violino no qual observamos o formato da distribuição de freqüência e os outros dois são histogramas. O violplot e o histograma dos dados dos Rapazes apresentam uma cauda mais longa porque a distância entre seus extremos é maior do que os dados das Moças e também por conta de um peso de 105 kg um valor discrepante. Assim, podemos verificar o efeito de um valor discrepante na dispersão, isto é, os pesos dos Rapazes têm uma distribuição com uma alta dispersão. Observamos que a distribuição dos dados dos Rapazes é assimétrica positiva com a mediana menor que a média: summary(rapazes) Min. 1st Qu. Median Mean 3rd Qu. Max. 40.00 48.50 55.00 60.00 67.75 105.00 18 1ª. Conferência Latino Americana de GeoGebra. ISSN 2237-9657, pp.13-21, 2012

Enquanto que os pesos das Moças têm uma distribuição aproximadamente simétrica, a mediana é igual a média ou aproximadamente: summary(moças) Min. 1st Qu. Median Mean 3rd Qu. Max. 32.00 39.50 46.00 46.85 54.00 65.00 Os resultados das análises acima apresentadas podem ser resumidos por meio do gráfico qqnorm do R. O gráfico compara os quartis e percentis de uma distribuição teórica Normal com os quartis e percentis dos dados observados. Para o gráfico qqnorm do R, podemos definir essa função por meio de uma adaptação de Triola (2008, p.238) : Um gráfico dos quantis normais (ou gráfico de probabilidades normal) é um gráfico de pontos (x,y) onde cada valor y vem do conjunto de dados amostrais e cada valor x é o escore de z correspondente ao valor esperado do quantil da distribuição normal padrão. Então, para os conjuntos dos dados representados pelos pesos em Kg de Rapazes e Moças temos os seguintes gráficos dos quantis: FIGURA 4: Gráficos dos quantis (Triola, 2008, p. 238) 1ª. Conferência Latino Americana de GeoGebra. ISSN 2237-9657, pp.13-21, 2012 19

Para fazer a interpretação do gráfico dos quantis normais do R, temos que verificar se os pontos estão razoavelmente próximo de uma reta, uma identidade, não ter um padrão sistemático que não seja de uma reta e se não houver valores discrepantes (outlies), como afirma Triola (2008). Alisando os gráficos dos quantis normais dos dados do exemplo em estudo e apresentados pelo programa R, verificamos que os dados dos pesos das Moças por apresentarem uma simetria, regularidade e não há valores discrepantes (outlies), estão próximos de uma distribuição Normal, enquanto os dados dos pesos dos Rapazes por apresentarem assimetria e valores discrepantes não estão próximos duma distribuição. Essas informações são relevantes no âmbito da Inferência Estatística Clássica e principalmente nos testes de hipótese paramétricos onde a normalidade dos dados é um requisito. Origem dos valores discrepantes (outlies) Valores discrepantes (outlies) podem ter origem em observações, leituras incorretas, ou podem ser valores reais fruto de um país desigual como o Brasil onde há uma grande concentração de recurso e população em algumas capitais, como é apresentado no gráfico abaixo por LANDIM (2011): FIGURA 5: Gráfico exemplo de valores discrepantes (Landim, 2011) Considerações finais 20 1ª. Conferência Latino Americana de GeoGebra. ISSN 2237-9657, pp.13-21, 2012

Exploramos exemplos por meio de um programa estatístico para mostrar a importância dos valores discrepantes (outlies). O programa R é mais utilizado no âmbito da pesquisa quantitativa e o GeoGebra é um programa para o ensino de geometria, álgebra e noções de estatística. No entanto é conveniente observar alguns erros do tipo que observamos na ferramenta para construção do gráfico boxplot no GeoGebra, para não comprometer a formação dos estudantes que estão tendo o primeiro contato com uma ferramenta tão importante. Com ficou evidenciado nesse trabalho, a ferramenta para construção do gráfico boxplot no ambiente dinâmico do GeoGebra não evidencia os outlies dos dados comprometendo, desta forma, o uso do GeoGebra na Estatística Descritiva e na análise exploratória e comparação de dados. Portanto, consideramos importante que nas versões futuras do GeoGebra sejam incluídas, na opção da ferramenta para construção do gráfico boxplot, alguma modificação que permita identificar os outlies. Referências LANDIM, Flávia M. P. F. Análise Exploratória de Dados 2006 Disponível em www.dme.ufrj.br/marina/mad114r6.ppt - acesso em 11/11/2011. OLIVEIRA, João U.C. Estatística- Uma nova abordagem. Rio de Janeiro, Editora Ciência Moderna LTDA, 2010. R DEVELOPMENT CORE TEAMT. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051- 07-0, URL http://www.r-project.org/. 2011. SILVA, Marcos F, Aplicação de Métodos Quantitativos em Auditoria: Uso do R em Análise de Dados aplicada à Auditoria. Disponível em http://sites.google.com/site/marcosfs2006/ acesso em 11/11/2011. TRIOLA, Mario F. Introdução à Estatística, 10ª ed.-rio de Janeiro, LTC, 2008. 1ª. Conferência Latino Americana de GeoGebra. ISSN 2237-9657, pp.13-21, 2012 21