Capítulo 1 Introdução 1.1 O que é Estatística? Não há uma definição única para Estatística assim listaremos algumas possibilidades. Kendall e Stuart, no seu manual clássico A Teoria Avançada de Estatística sugere: A Estatística é o ramo do método científico que lida com dados obtidos via contagem ou mensuração de propriedades de populações de fenômenos naturais. Já Keeping em seu Introdução à Inferência Estatística sugere: A Estatística lida com variáveis que flutuam de maneira mais ou menos imprevisível... Característica que denominamos aleatoriedade. Hoel em Introdução à Estatística Matemática afirma: Os métodos estatísticos são, essencialmente, métodos para lidar com dados que foram obtidos por operações repetitivas. As três definições acima são consideradas Clássicas ou Frequentistas. No entanto, há alternativas, por exemplo, Chernoff e Moses em seu Teoria Elementar da Decisão ressaltam o caráter de teoria de decisão da Estatística: Há anos atrás um estatistico poderia dizer que a Estatística lida com o processamento de dados... hoje em dia um estatístico, com mais probabilidade, diria que a Estatística lida com a tomada de decisão frente a incertezas. Já Savage em Os Fundamentos da Estatística adota um ponto de vista conhecido como Bayesiano afirmando: Por Inferência Estatística eu entendo a forma como entendemos as coisas... e como ocorre que nós adquirimos opiniões praticamente idênticas com base nas mesmas evidências. 1.2 Partes da Estística 1.2.1 Estatística Descritiva Os dados brutos podem ocorrer em grandes quantidades. A Estatística Descritiva preocupa-se em extrair informação útil desses dados para isso utiliza- 5
6 CAPÍTULO 1. INTRODUÇÃO se de técnicas para organização (tabelas e bancos de dados), representação gráfica (gráficos e técnicas de visualização de dados multidimensionais) e resumo (médias, medianas, modas, dispersões). Historicamente, foi justamente a Estatística Descritiva que surgiu primeiro. Esta parte da Estatística, já tendo sido objeto da disciplina Tratamento e Análise de Dados e Informações, não será objeto deste curso. 1.2.2 Inferência Estatística Quando a informação se baseia em uma amostra dos casos possíveis é necessário generalizar a partir do particular número de casos estudados o universo de casos possíveis. Este processo de generalização é conhecido como Inferência Estatística. Por exemplo, dois exemplos claros onde a inferência estatística é necessária são a generalização de resultados de pesquisas eleitorais e a utilização de amostras para verificação da qualidade de materiais industriais. É possível prever o resultado de uma eleição envolvendo milhões de eleitores colhendo amostras de alguns poucos milhares. Da mesma forma, a qualidade de matérias primas ou de produtos manufaturados pode ser verificada monitorando apenas uma pequena fração. A pergunta central é: como é possível projetar resultados da população inteira com base em resultados obtidos em pequenas amostras? Essa projeção depende da introdução de Modelos Probabilísticos, que serão um dos objetos centrais na primeira parte deste curso. Técnicas avançadas de inferência estatística aparecerão no meio e no final deste curso. 1.2.3 Decisão Estatística De posse de um Modelo Probabilístico e de um conjunto de dados é necessário tomar decisões quanto a validade do modelo dada a evidência presente nos dados. Para isso a Estatística fornece uma série de técnicas na forma de Testes de Hipóteses que permitem tomar decisões de forma controlada.os Testes de Hipóteses formam a segunda parte deste curso. 1.3 Um pouco de História O primeiro a utilizar a palavra Statistik foi o alemão Gottfried Achenwall (1719-1772), significando, aritmética do estado. Em sua origem a Estatística estava mais relacionada às tarefas de coleta, tabulação e apresentação de dados numéricos, o que atualmente reconhecemos como Estatística Descritiva. No Egito antigo coletavam-se dados populacionais e contabilizavam-se riquezas pelo menos desde 3050 a.c.. Há documentos chineses contendo estatísticas já em 2030 a.c.. Dois censos israelitas são registrados no livro dos Números do Antigo Testamento e census fiscais já ocorriam na Grécia pelo menos em 594 a.c.. Sabe-se que um censo populacional ocorreu em Atenas em 309 a.c. e que os romanos realizavam levantamentos extensivos de todos os tipos em todas as partes de suas províncias.
1.3. UM POUCO DE HISTÓRIA 7 Durante a idade média há poucos relatos de levantamentos estatísticos. Há apenas levantamentos detalhados de terras da Igreja encomendados por Carlos Magno em 762 e registros de terra franceses em anos subsequentes. O renascimento dos levantamentos estatísticos ocorreu no século 16 com compilações de dados organizadas por Sebastian Münster na Alemanha, e Francesco Sansovino (1502) e Giovanni Votero (1589) na Itália. Na Inglaterra iniciou-se no ano de 1532 o registro de mortes e nascimentos em Londres. A era moderna da Estatística teve início com a publicação, em 1662, de Observações Políticas e Naturais sobre as Taxas de Mortalidade em Londres pelo inglês John Graunt (1620-1674). Graunt inaugurou nova fase, não se contentando em fazer apenas uma contagem de casos, mas devotando particular atenção às regularidades presentes nos fenômenos sociais. Passava assim da Estatística Descritiva para os primórdios da Inferência Estatística. A teoria de probabilidades conecta a Estatística à Matemática, fornecendo os fundamentos para a Inferência Estatística. Assim, os pioneiros da teoria estatística foram todos matemáticos. Pierre Simon, o Marquês de Laplace (1749-1827), um dos grandes nomes da teoria de probabilidades, escreveu que uma questão formulada pelo jogador Chevalier de Méré teria levado à invenção do cálculo de probabilidades ao alimentar uma polêmica entre os matemáticos Blaise Pascal (1623-1662) e Pierre de Fermat (1601-1665). Foi Carl Friedrich Gauss (1777-1855) que primeiro aplicou a teoria de probabilidades à investigação dos erros de observação, utilizando técnicas baseadas no trabalho de Laplace. Gauss estava interessado em dados provenientes de observações astronômicas, tais como medidas repetidas da distância entre a Terra e o Sol. Gauss raciocinou que estas medidas seriam determinadas em parte pela verdadeira distância, mas também seriam afetadas por erros de observação em cada medida individual causados por uma multiplicidade de fatores. Ao estudar as características destes erros, Gauss estava investigando basicamente os mesmos princípios que determinam, por exemplo, como a porcentagem de eleitores favorencendo um certo candidato em uma amostra difere da porcentagem real da população inteira. O paralelo é imediato: a porcentagem na amostra é determinada primordialmente pela porcentagem real na população, mas também varia segundo fatores particulares à amostra. Assim pode-se dizer que há um erro de medida ao estimarmos a porcentagem da população com base em uma amostra. O belga Adolph Quetelet (1796-1874) foi quem primeiro aplicou as idéias da inferência estatística à sociologia e política introduzindo o conceito de homem médio. O inglês Francis Galton (1822-1911), primo de Charles Darwin, iniciou a grande onda que levou à Estatística como conhecemos hoje. Após a leitura de A Origem das Espécies de Darwin, Galton direcionou suas pesquisas à genética, publicando em 1889 Herança Natural. Outro inglês, Karl Pearson (1857-1936) escreveria algum tempo depois, sobre o trabalho de Galton: Eu interpretei que... Galton... quiz dizer que há uma categoria mais ampla do que a conexão causal, que é a correlação,... e que este novo conceito de correlação fez da psicologia, da antropologia, da medicina e da sociologia passíveis de tratamento matemático. Foi Galton quem primeiro me libertou do precon-
8 CAPÍTULO 1. INTRODUÇÃO ceito de que boa matemática poderia apenas ser aplicada a conexões de causa e efeito em fenômenos naturais. Ali, pela primeira vez havia a possibilidade... de adquirir conhecimento tão válido quanto acredita-se que o conhecimento físico seja no campo das formas vivas e acima de tudo na área da conduta humana. Influenciado por Galton, Pearson fez um grande número de contribuições à Inferência Estatística desenvolvendo o conceito de correlação, métodos de regressão e introduzindo o teste de Qui-quadrado. Em 1906, William Gosset (1876-1937), assistiu a um dos cursos de Pearson. Gosset trabalhava para a a cervejaria Guinness e, orientado por Pearson, foi o pioneiro da aplicação da Estatística ao controle de qualidade ao publicar, sob o pseudônimo Student, um trabalho no qual descrevia, pela primeira vez, a distribuição t de Student. Ronald A. Fisher (1890-1962) graduou-se em Astronomia em Cambridge em 1912. Em 1913, Fisher enviou uma carta a Gosset em resposta a um artigo na revista Biometrika, a carta continha uma justificativa teórica para a distribuição t de Student. Em 1919 Fisher foi contratado pela Estação de Experimentos Agrícolas de Rothamstead, lá ele permaneceu por 14 anos e fez suas maiores contribuições criando técnicas de estimação, planejamento experimental e análise de variância. Em 1931 Fisher viajou para os EUA e passou um verão dando cursos em Iowa. Na audiência estava o Professor George W. Snedecor (1882-1974) que foi responsável por popularizar o trabalho de Fisher nos EUA, além de contribuir para a teoria da análise de variância com as distribuições F de Snedecor. O livro A Gramática da Ciência, publicado por Karl Pearson em 1892, teve grande influência sobre outro professor de Cambridge, Harold Jeffreys. Jeffreys retomou uma linha de trabalhos sobre lógica indutiva de James Bernoulli (1713), Thomas Bayes (1793) e Laplace (1812) e desenvolveu o novo conceito de probabilidades subjetivas. Ao publicar artigos na Philosophical Magazine em 1919 e 1921 (e o livro Theory of Pobability de 1939), Jeffreys deu início à Inferência Bayesiana e a uma polêmica com Fisher em torno dos fundamentos da Estatística que continua até os dias de hoje. Em 1925 chegou a Londres, vindo da fronteira da Romênia com a Rússia, Jerzy Neyman (1894-1981) com o objetivo de estudar com Karl Pearson. Logo em sua chegada Neyman conheceu Gosset(Student) que o apresentou a Fisher. Com o tempo Neyman tornou-se amigo pessoal do filho (e assistente) de Karl Pearson, Egon Pearson (1895-1980), dessa amizade surgiu a, hoje clássica, teoria dos testes de hipóteses. Quase toda Estatística que estudaremos neste curso foi formulada até no máximo 1930, dessa maneira, paramos nossa história por aqui. 1.4 Aplicações 1.4.1 Administração O conceito moderno de Sistemas de Informação vislumbra a integração de dados provenientes das mais variadas áreas de uma empresa e também a possibilidade de utilizar estes dados brutos na tomada de decisões sob incerteza. O modelo
1.5. PLANO DE CURSO 9 básico contempla, portanto, o uso extensivo de ferramentas estatísticas. A área que estuda este tipo de aplicação é conhecida como Inteligência de Negócios (Business Intelligence). 1.4.2 Inteligência Artificial Hoje em dia há dois paradigmas em Inteligência Artificial: os sistemas especialistas e os sistemas adaptativos. Nos sistemas especialistas constroem-se árvores de decisão contemplando o máximo de possibilidades possível e uma função que determina qual é a decisão ótima em uma dada circusntância. Um exemplo popular de sistema especialista são os jogadores artificiais de xadrez como o Deep Blue da IBM que, recentemente, tem conseguido vencer grandes mestres. Já os sistemas adaptativos utilizam a Estatística Bayesiana para aprender através de exemplos. Nesta categoria estão as Redes Neurais Artificiais e as Redes Bayesianas utilizadas, por exemplo, no programa de auxílio disponível no sistema Windows. 1.5 Plano de Curso O presente curso seguirá o seguinte programa:
10 CAPÍTULO 1. INTRODUÇÃO Data Conteúdo 08/mar Apresentação do curso, Introdução à Teoria de Probabilidades 10/mar Probabilidade Física e Probabilidade Subjetiva 15/mar Variáveis Aleatórias Discretas 17/mar Distribuição Binomial e Multinomial 22/mar Poisson e Hipergeométrica 24/mar Variáveis Aleatórias Contínuas 29/mar Distribuição Normal (Gauss) e Aproximação à Binomial 31/mar Uniforme, Exponencial e Beta 05/abr Gama, Chi-Quadrado, t-student e F-Snedecor 07/abr Variáveis Aleatórias Multidimensionais 19/abr Momentos e Momentos Centrais 26/abr PROVA 1 (PESO 1) 28/abr Noções de Simulação 03/mai Geração de Números Aleatórios 05/mai Importance Sampling e Rejection Sampling 10/mai Distribuições Amostrais (Média e Proporção) 12/mai Estimação Clássica 17/mai Intervalos de Confiança 19/mai Prioris e Intervalos de Probabilidade 24/mai Utilidade e Introdução à Teoria da Decisão 26/mai Testes de Hipótese 31/mai Tomada de Decisão sobre Médias 02/jun Teste Clássico para Média 07/jun Testes para Proporções 09/jun Testes para Variância 14/jun Inferência para duas populações 23/jun Regressão Linear 28/jun Regressão Não Linear 30/jun PROVA FINAL (PESO 2) 05/jul PROVA SUBSTITUTIVA 1.6 Referências Para uma discussão aprofundada das definições e partes da Estatística: Barnett V., Comparative Statistical Inference, john Wiley & Sons, 1973. Sobre a história da Estatística: Eves, H.W., A very brief history os statistics, College Mathematics Journal, Sep. 2002. Peters, W.S., Counting for Something: Statistical Principles and Personalities, Springer-Verlag, 1987. David, F.N., Games, Gods and Gambling, Charles Griffin & Co., 1962.
1.6. REFERÊNCIAS 11 Stingler, S.M., Statistics on the Table, Harvard University Press, 1999. The University of York, Life and Work of Statisticians, http://www.york.ac.uk/depts/maths/histstat/lifework.htm, versão de 15/10/2005. Sobre as aplicações citadas veja: Barbieri, C., BI- Business Inteligence: Modelagem e Tecnologia, Axcel Books, 2001. Russel, S., Norvig P., Inteligência Artificial, Ed. Campus, 2003.
12 CAPÍTULO 1. INTRODUÇÃO