CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 8 DE AGOSTO DE 2017 TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 02 Humberto José Bortolossi http://www.professores.uff.br/hjbortol/ Universidade Federal Fluminense 1
LISTA DE EXERCÍCIOS 2 O currículo escolar em tratamento de informação, análise de dados e estatística: o que ensinar e por que ensinar? O que recomendam os PCN, a BNCC e os especialistas das áreas. Tratamento de informação, análise de dados e estatística nos livros didáticos. 2
LETRAMENTO ESTATÍSTICO (Batanero, Burrill & Reading, 2011) Ridgway, Nicholson e McCusker concluíram que letramento estatístico é mais do que aplicar estatística mecanicamente; é a habilidade de ler e interpretar dados criticamente e usar estatística como evidência em argumentos do dia a dia e em contextos profissionais. (Batanero, Burrill & Reading, 2011) O foco destes cursos [de formação de professores] deve estar nas ideias estatísticas fundamentais, enquanto que, ao mesmo tempo, os professores devem experimentar o ciclo completo da investigação estatística: problema, planejamento, dados, análise e conclusão (em inglês, PPDAC: problem, planning, data, analysis, conclusion). Referência: Batanero, C., Burrill, G., & Reading, C. (2011). Teaching Statistics in School Mathematics. Challenges for Teaching and Teacher Education. A Joint ICMI/IASE Study. ICMI Study volume 14. New York: Springer. 3
LETRAMENTO ESTATÍSTICO (COBB, 1992) ORIENTAÇÕES PARA UM CURSO INTRODUTÓRIO DE ESTATÍSTICA Enfatizar o pensamento estatístico 1. A necessidade de dados: reconhecer a necessidade de fundamentar decisões pessoais em evidências (dados) e os perigos inerentes em se tomar decisões usando hipóteses que não são garantidas pela evidência. 2. A importância na aquisição de dados: reconhecer que é difícil e toma-se muito tempo formular questões e conseguir dados de boa qualidade que realmente contribuam para o estudo do problema. 3. A onipresença da variabilidade: reconhecer que variabilidade é ubíqua. Ela é a essência da estatística com uma disciplina e, para ser melhor percebida, ela deve ser experimentada. 4. A quantificação da variabilidade: reconhecer que variabilidade pode ser medida e explicada considerando-se: (a) aleatoriedade e distribuições, (b) padrões e desvios (interpolação e resíduos), (c) modelos matemáticos para padrões, (d) diálogo modelo-dados (diagnóstico). 4
LETRAMENTO ESTATÍSTICO (COBB, 1992) ORIENTAÇÕES PARA UM CURSO INTRODUTÓRIO DE ESTATÍSTICA Mais dados e conceitos, menos teoria e menos receitas Um curso de estatística quase sempre pode ser melhorado colocando-se mais ênfase em dados e em conceitos, em detrimento de menos teoria e menos receitas. Cálculos e gráficos devem ser automatizados ao máximo (com a ajuda da tecnologia). Promover o aprendizado ativo Como regra, professores de estatística devem usar menos aulas expositivas e usar mais alternativas tais como projetos, exercícios no laboratório, resolução de problemas em grupos e discussão de atividades. Cobb, G. (1992). Teaching Statistics. Em: Steen, L. (Editor). Heeding The Call for Change. MAA Notes, n. 22, Washington: Mathematical Association of American, p. 3-34. 5
LETRAMENTO ESTATÍSTICO GAISE 1. Enfatizar o letramento estatístico e desenvolver o pensamento estatístico. 2. Usar dados reais. 3. Evidenciar o entendimento conceitual no lugar de um mero conhecimento de procedimentos. 4. Promover o aprendizado ativo em sala de aula. 5. Usar tecnologia para desenvolver o entendimento conceitual e analisar dados. 6. Usar avaliações que melhorem e monitorem o aprendizado do estudante. 6
DUAS REFERÊNCIAS PRINCIPAIS 7
FASES DO PROCESSO ESTATÍSTICO (TANNENBAUM) 8
FASES DO PROCESSO ESTATÍSTICO (WILD & PFANNKUCH) 9
EXEMPLOS DE DAC E PPDAC Hans Rosling: As Boas Notícias da Década? http://www.ted.com/talks/lang/pt-br/hans_rosling_the_good_news_of_the_decade.html HansRosling_2010X-480p.mp4 Hans Rosling: Religiões e Bebês http://www.ted.com/talks/lang/pt-br/hans_rosling_religions_and_babies.html HansRosling_2012S-480p.mp4 10
CAPÍTULO 13: COLETANDO DADOS ESTATÍSTICOS 11
OBJETIVOS DO CAPÍTULO 13 Definir a terminologia básica do processo de coleta de dados. Identificar se uma dada pesquisa pode estar enviesada. Aprender os vários métodos de amostragem e discutir suas vantagens e desvantagens. Estimar o tamanho de uma população usando o método de captura-recaptura. Identificar componentes de um estudo clínico bem construído. Investigar se os livros didáticos abordam os tópicos de coleta de dados e os métodos de amostragem. Mas, antes, um aviso... 12
O SIGNIFICADO DAS PALAVRAS A linguagem científica pode ser diferente da linguagem do cotidiano. Uma mesma palavra pode ser usada em diferentes épocas por diferentes pessoas com os mais variados significados (muitas vezes, incompatíveis entre si). Uma mesma palavra pode ter, em um mesmo texto, significados diferentes dependendo do contexto. 13
O QUE É ESTATÍSTICA? Dicionário Houaiss: s.f. (1815) ramo da matemática que trata da coleta, da análise, da interpretação e da apresentação de massas de dados numéricos. Dicionário Aurélio: s.f. 1. Parte da matemática em que se investigam os processos de obtenção, organização e análise de dados sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões e fazer ilações ou predições com base nesses dados. 2. Qualquer parâmetro de uma amostra, como, p. ex., a sua média, o seu desviopadrão, a sua variância. 3. Conjunto de elementos numéricos respeitantes a um fato social. 4. Representação e explicação sistemática, por observações quantitativas de massa, dos acontecimentos e das leis da vida social que deles se podem deduzir. 5. Método que objetiva o estudo dos fenômenos de massa, i. e., os que dependem de uma multiplicidade de causas, e tem por fim representar, sob forma analítica ou gráfica, as tendências características limites desses fenômenos. 14
O QUE É ESTATÍSTICA? ENCE/IBGE: O que modernamente se conhece como Ciências Estatísticas, ou simplesmente Estatística, é um conjunto de técnicas e métodos de pesquisa e análise de dados que entre outros tópicos envolve o planejamento do experimento a ser realizado, a coleta qualificada dos dados, a inferência, o processamento, a análise e a disseminação das informações. ASA (The American Statistical Association): Estatística é a ciência da coleta, análise e apresentação de dados. Estatísticos contribuem para a investigação científica aplicando seu conhecimento na elaboração de pesquisas e experimentos; a coleta, processamento, e a análise de dados; e a interpretação dos resultados. ABE (Associação Brasileira de Estatística): Estatística é uma ciência baseada na Teoria da Probabilidade, cujo o objetivo principal é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir dos dados. 15
O QUE É ESTATÍSTICA? Wikipedia (em Português): Estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequência da ocorrência de eventos, tanto em estudos observacionais quanto em experimento modelar a aleatoriedade e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso. Wikipedia (em Inglês): Estatística é o estudo da coleta, organização, análise, interpretação e apresentação de dados. Trata-se de todos os aspectos deste (estudo), incluindo o planejamento da coleta de dados em termos de projeto de pesquisas e experimentos. 16
O QUE É ESTATÍSTICA? Nossa referência principal (Tannenbaum, 2009): Em seu nível mais básico, a Estatística é a junção de duas habilidades fundamentais que aprendemos na escola separadamente: manipular e comunicar números. Quando usamos números como uma ferramenta para transmitir informações, estamos fazendo algo estatístico. Se você preferir uma descrição mais formal, aqui está: Estatística é a ciência de se lidar com dados. E o que são dados? Dados são qualquer tipo de informação que pode ser codificada numericamente. Atrás de toda afirmação estatística, existe uma estória e, como qualquer estória, ela tem um início, um meio e um fim. Tipicamente, o início de uma estória estatística consiste no processo de coleta de dados. (Compare com o ciclo PPDAC: investigação estatística: problema, planejamento, dados, análise e conclusão.) 17
SEÇÃO 13.1: A POPULAÇÃO 18
POPULAÇÃO Toda afirmação estatística se refere, direta ou indiretamente, a algum grupo de indivíduos ou objetos. Na terminologia estatística, esta coleção de indivíduos ou objetos é denominada população. O primeiro passo para entender uma afirmação estatística é identificar qual é a população a qual ela se refere. No mundo real nem sempre é fácil identificar a população: detalhes da estória são omitidos ou, alternativamente, duas (ou mais populações) podem estar envolvidas. 19
EXEMPLO 13.1: O RETORNO DA ÁGUIA AMERICANA Duas populações: a população total de águias (incluindo filhotes, adolescentes, etc.) nos 48 estados contíguos dos EUA e a população de casais reprodutores de águias. A primeira é a população de interesse, a segunda é a população de conveniência (mais fácil de se identificar, rastrear e contar). [From the brink: da beira do abismo.] 20
O VALOR-N Dada uma população específica, uma questão relevante óbvia é Quantos indivíduos ou objetos existem nessa população?. Este número é denominado o valor-n (em Inglês, N-value) da população (tradição: usar N para denotar tamanhos de populações). Importante: ao longo do tempo, uma população e seu valor-n podem mudar! Vamos ver um exemplo! 21
EXEMPLO 13.2: O RETORNO DA ÁGUIA AMERICANA Fonte: Serviço de Pesca e Vida Selvagem dos Estados Unidos. Nenhuma contagem foi realizada em 1964-1973, 1975-1980, 1983 e 1985. 22
EXEMPLO 13.3: N ESTÁ NOS OLHOS DE QUEM VÊ Não é possível determinar um valor-n sem antes identificar qual é a população! Pedro tem um cofrinho cheio de moedas de 25 centavos. Ele quer saber se o cofrinho tem dinheiro suficiente para comprar uma bola de futebol nova. Seu pai lhe disse para contar quantas moedas o cofre tem, pois ele emprestará a diferença. Após uma contagem cuidadosa, Pedro totalizou 116 moedas. O que é o valor-n aqui? A resposta depende em como vamos definir a população. Estamos contando moedas ou dinheiro? Para o pai, o número total de moedas é que interessa. Logo, para o pai, N = 116 (moedas). Para Pedro, o que interessa é quanto dinheiro o cofrinho tem. Logo, para Pedro, N = 29 (reais). 23
CENSO O processo de coletar dados passando por cada membro da população é denominado um censo (em Inglês, census). A ideia por de trás de um censo é simples, mas na prática um censo exige um alto grau de cooperação da população. Para populações maiores e mais dinâmicas (vida animal selvagem, humanos, etc.), contagens precisas são inerentemente difíceis, se não impossíveis e, em todos esses casos, o melhor que se pode esperar conseguir é uma boa estimativa para o valor-n. 24
EXEMPLO 13.4: O CENSO AMERICANO DE 2000 O Censo Americano de 2000 empregou cerca de 850.000 pessoas e custou certa de 6,5 bilhões de dólares. Ainda assim, estima-se que ele deixou de contar entre 3 e 4 milhões de pessoas. O artigo do New York Times aponta para as implicações políticas desse fato. 25
ESTUDO DE CASO 1: O CENSO AMERICANO O Artigo 1 da Seção 2 da Constituição dos Estados Unidos (1787) manda que um censo nacional seja conduzido a cada 10 anos. O objetivo original do censo era contar cabeças com dois propósitos: impostos e representação política. No texto original, para fim de impostos, índios não deveriam ser taxados e um escravo contaria como 3/5 de uma pessoa livre. 26
ESTUDO DE CASO 1: O CENSO AMERICANO O texto original da Constituição foi modificado e expandido pela Décima Quarta Emenda: Além de contar cabeças, o U.S. Census Bureau agora coleta informações adicionais sobre a população: sexo, idade, raça, etnia, estado civil, habitação, renda e dados empregatícios. Os dados do censo têm agora muitos propósitos importantes além daqueles originais de taxação e representação: a alocação de bilhões de dólares do governo federal para estados, condados, cidades e municipalidades, a reconfiguração de distritos legislativos em cada estado e o planejamento da produção e serviços pelo comércio e pela indústria. Para os propósitos do censo, a população dos Estados Unidos é definida como consistindo de todas as pessoas fisicamente presentes e residindo permanentemente nos Estados Unidos. Cidadãos, estrangeiros legais residentes e mesmo estrangeiros ilegais devem ser incluídos. 27
ESTUDO DE CASO 1: O CENSO AMERICANO O primeiro censo americano ocorreu em 1790 e, nessa época, a população era menor e relativamente homogênea, as pessoas tendiam a ficar em um único lugar e, na grande maioria, elas se sentiam confortáveis em suas relações com o governo. Sob essas condições, era fácil para os recenseadores contar cabeças. As condições de hoje são completamente diferentes. As pessoas estão em constante movimento. Muitos desconfiam do governo. Nos grandes centros urbanos, muitas pessoas estão desabrigadas e não querem ser contadas. E, depois, há a apatia de muitas pessoas que pensam em um formulário do censo como um outro pedaço de lixo postal. O moderno censo dos EUA é atormentado pelo que é conhecido como subestimação diferencial (em Inglês, differential undercount): minorias étnicas, trabalhadores migrantes e as populações urbanas pobres têm significativamente taxas maiores de subestimação se comparadas com as taxas de subestimação da população como um todo, e as taxas de subestimação variam significativamente dentro desses grupos. 28
ESTUDO DE CASO 1: O CENSO AMERICANO Usando técnicas estatísticas modernas, é possível fazer ajustes nos números brutos do censo que corrigem a imprecisão provocada pela subestimação diferencial. Mas, em 1999, a Suprema Corte decidiu no Departamento de Comércio et al. versus Câmera dos Deputados et al. que apenas os números brutos e não os estatisticamente ajustados poderiam ser usados para fins de distribuição de assentos no Congresso entre os estados. 29
SEÇÃO 13.2: AMOSTRAGEM 30
AMOSTRAGEM A alternativa prática para um censo é coletar dados somente de alguns membros da população e usar esses dados para obter conclusões e fazer inferências sobre a população inteira. Estatísticos denominam esse procedimento de survey (ou de poll quando a coleta de dados é feita através de questões). No Brasil, surveys e polls são denominados genericamente de pesquisas. O subgrupo escolhido que irá fornecer os dados é denominado amostra (sample em Inglês) e o ato de se selecionar uma amostra é denominado amostragem (sampling em Inglês). 31
AMOSTRAGEM Idealmente, cada membro da população deveria ter a oportunidade de ser escolhido como parte da amostra, mas isso só é possível se tivermos um mecanismo para identificar cada membro da população. Em muitas situações, isso é impossível. Suponha que queiramos realizar uma pesquisa de opinião pública antes de uma eleição. A população da pesquisa é composta por todos os eleitores que votarão na próxima eleição, mas como podemos identificar quem vai e quem não vai votar antes da realização da eleição? Sabemos quem são os eleitores, mas entre eles, há ainda muitos não votantes. 32
AMOSTRAGEM O primeiro passo importante em uma pesquisa é distinguir a população para a qual a pesquisa se aplica (população-alvo) (target population em Inglês) e o subconjunto efetivo da população da qual a amostra será tomada, denominado de base de amostragem (sampling frame em Inglês). O cenário ideal ocorre quando a base de amostragem é igual a população-alvo, o que significa que todos os membros da população-alvo é um candidato para a amostra. Quando isso é impossível (ou não é prático), uma base de amostragem adequada deve ser escolhida. Pesquisas eleitorais são famosas por serem usadas para prever o resultado de eleições políticas. Entre as muitas questões que fazem as pesquisas pré-eleitorais particularmente delicadas está o problema de identificar os membros da populaçãoalvo, a saber, as pessoas que acabarão votando. A abordagem convencional é usar eleitores registrados como base de amostragem, mas o uso desses eleitores pode levar a alguns dados ruins. Nosso próximo exemplo ilustra esse ponto. 33
EXEMPLO 13.5: BASES DE AMOSTRAGEM PODEM FAZER A DIFERENÇA Uma pesquisa eleitoral CNN/USA Today/Gallup realizada logo antes do dia 2 de novembro de 2004, a data eleição nacional no Estados Unidos, fez a seguinte pergunta: Se a eleição para o Congresso fosse realizada hoje, em qual candidato você votaria em seu distrito: no candidato do Partido Democrata ou no candidato do Partido Republicano?. Quando a pergunta foi feita a 1866 dos eleitores registrados em todo o país, os resultados da pesquisa foram: 49% para o candidato do Partido Democrata, 47% para o candidato do Partido Republicano, 4% de indecisos. Quando exatamente a mesma pergunta foi feita a 1573 eleitores prováveis (nos EUA, o voto não é obrigatório) em todo o país, os resultados da pesquisa foram 50% para o candidato do Partido Republicano, 47% para o candidato do Partido Democrata, 3% de indecisos. A única diferença significativa entre as duas pesquisas foi a escolha da base de amostragem: na primeira, a base de amostragem utilizada foram todos eleitores registrados e, na segunda, foram todos eleitores prováveis. 34
EXEMPLO 13.5: BASES DE AMOSTRAGEM PODEM FAZER A DIFERENÇA Embora nenhuma das bases de amostragem represente fielmente a população-alvo dos eleitores reais, o uso dos eleitores prováveis em vez dos eleitores registrados para a base de amostragem fornece, em geral, dados mais confiáveis. (A segunda pesquisa chegou muito perto dos resultados médios das corridas de 2004 ao Congresso dos Estados Unidos.). Então, por que nem todas as pesquisas pré-eleitorais usam eleitores prováveis ao invés de eleitores registrados como base de amostragem? A resposta é econômica. Eleitores registrados são relativamente mais fáceis de se identificar: os cartórios eleitorais podem facilmente produzir uma lista precisa do eleitores registrados. Contudo, nem todo eleitor registrado irá votar e é muito mais difícil de se identificar aqueles que provavelmente irão votar. Normalmente, é preciso considerar fatores demográficos (idade, etnia, etc.), bem como o comportamento eleitoral passado para se descobrir quem está e quem não está propenso a votar. Fazer isso demanda muito mais esforço, tempo e dinheiro. 35
AMOSTRAGEM Filosofia básica da amostragem: uma amostra representativa permite que informações que queiramos conhecer da população inteira possam ser obtidas a partir do estudo dessa amostra. Para obter dados confiáveis, devemos (a) encontrar uma amostra que é representativa e (b) determinar o tamanho da amostra. Em algumas situações, amostras muito pequenas podem ser usadas para se obter informações confiáveis de uma população, não importando o quão grande a população seja. Este é o caso em que a população é altamente homogênea. Por exemplo, o sangue de uma pessoa é essencialmente o mesmo em qualquer lugar do corpo, o que explica porque uma pequena amostra do sangue obtida de um braço fornece dados confiáveis sobre os níveis de açúcar e de colesterol do sangue do paciente. Quanto mais heterogênea a população, mais difícil fica encontrar uma amostra representativa. As dificuldades podem ser bem ilustradas olhando-se a história das pesquisas de opinião pública. 36