Introdução à estatística univariada através da linguagem R 1. Profesores Professora Doutora Maite Mascaró (mmm@ciencias.unam.mx) (Universidad Nacional Autónoma de México) Doutora Marta Rufino (marta.m.rufino@gmail.com) (CIIMAR) 2. Data, horário e local 25 de Fevereiro a 1 de Março de 2013 (9h-12h, 13h-17h) Auditório CIIMAR (, Porto) 3. Inscrição 200 (membros CIIMAR), 225 (outros). Enviar email para Pedro Morais (pmorais@ualg.pt) para efectuar a inscrição. Instrucções para o pagamento serão enviadas posteriormente por email. Inscrições limitadas a 15 pessoas (número mínimo- 10). Cancelamento da inscrição- devolução de 90% do valor da inscrição (apenas até 15 de Fevereiro 2013). Transferência da inscrição- gratuito (até 25 Fevereiro 2013). Participantes têm de trazer um computador portátil para utilizarem durante o curso. 4. Programa I. O problema da variabilidade 1. Enquadramentos teóricos dos métodos estatísticos 2. Populações e amostras. A aleatoriedade e a independência 3. Variáveis e escalas de medição 4. Distribuições e polígonos de frequência. Frequência acumulada 5. Parâmetros de tendência central e dispersão e seus estimadores 6. O problema da variabilidade na prática: o tamanho da dispersão 1 6
7. Prática I: O ambiente do programa R. Abrir dados em R, importar. Gráficos básicos Estatísticas relevantes para a AED. b. Conteúdo teórico: Neste capítulo iremos rever os conceitos relacionados com a necessidade de aplicação de métodos estatísticos em ciência, partindo do método lógicodedutivo para o desenvolvimento e teste de hipóteses. Estes aspetos salientam a necessidade de utilização de estatística como instrumento de compreensão dos dados para além da sua variabilidade natural (i.e. ver a imagem por detrás do números). Serão revistos métodos exploratórios utilizados para extrair informação de grandes matrizes de dados. Iremos ainda estudar as formas de notação estatística, assim como o significado e interpretação das medidas de tendência central (média, mediana e moda), dispersão (desvio padrão e variância) e deteção e efeitos dos valores extremos ( outliers ). c. Conteúdo prático: Os alunos irão familiarizar-se com o programa R e respetiva linguagem de programação. Aprender a importar dados (de txt e excel). Introdução às bibliotecas de funções ( packages/libraries ). Introdução aos tipos de dados em R ( data-frames, matrizes e vetores). Operações aritméticas simples. II. Análise exploratória de dados (EDA) 1. Objetivos da EDA 2. Caminho estratégico para o processamento de dados numerosos 3. Expressão e análise gráfica de variáveis 4. Expressão e análise de gráfica de relações funcionais 5. Interação entre variáveis 6. Centralizar e padronizar 7. Transformações. Tipos e objetivos 8. Prática 2: EDA com métodos gráficos em R 2 6
b. Conteúdo teórico Objetivos e importância da análise exploratória de dados (EDA) num estudo científico. A EDA como etapa fundamental para determinar o tipo de abordagem na análise. Apresentação dos principais métodos de representação gráfica e sua relevância na interpretação dos dados. Representação de dados uni-variados, bi-variados e interação entre variáveis. Tipos e objetivos das transformações mais frequentes e complicações resultantes deste tipo de operação. c. Conteúdo prático Introdução aos gráficos em R. Representação de diferentes conjuntos de dados, em DEA. Bibliotecas de funções ( packages/libraries ) para a representação gráfica ( base, lattice e ggplot ). Gráficos condicionais. III. Teoria da probabilidade e inferência estatística 1. Probabilidades. Conceitos, axiomas e operações simples 2. Probabilidade condicional. Teorema de Bayes 3. Distribuição de probabilidade e funções 4. Os componentes de um teste. Erro Tipo I e II 5. Variáveis aleatórias. Distribuições de probabilidade: Poisson, normal (DNE), log-normal, exponencial 6. Teorema do limite central 7. Construção e interpretação do intervalo de confiança 8. Prática 3: Funções de probabilidade e testes de hipóteses b. Conteúdos teóricos Nesta unidade começamos por rever a teoria da probabilidade, sobre a qual assenta a estatística, em particular a amostragem, os axiomas de Kolmogorov, teoremas derivados e o teorema de Bayes. Iremos construir uma curva de probabilidades (binomial) a partir de uma experiencia simples e realizar um teste de hipóteses. Reviremos ainda algumas leis da teoria da probabilidade, 3 6
nomeadamente o teorema do limite central e respetivas consequências na inferência. c. Conteúdos práticos: Os alunos irão criar distintas representações gráficas das funções de probabilidade e compreender como estas se interpretam. Através de testes estatísticos, pretende-se exemplificar a inferência estatística, toma de decisões e respetivas consequências nos resultados. IV. Modelos lineares (LM) 1. Correlação. Pearson e Spearman 2. Regressão. A função de regressão, como um indicador de causalidade. 3. O modelo probabilístico de regressão linear. 4. O significado dos parâmetros. 5. A estimação e interpretação de sigma. 6. Requisitos e violação dos pressupostos da regressão. 7. Validação gráfica e analítica do modelo 8. Prática 4: regressão linear b. Conteúdos teórico Nesta unidade iremos rever a correlação linear (paramétrica e não paramétrica), a regressão linear e o modelo probabilístico associado (modelo linear). Em particular, falaremos dos pressupostos do teste e respetivas consequências quando se ignoram. Vamos introduzir métodos gráficos e numéricos para validação dos pressupostos dos modelos. c. Conteúdos práticos: Iremos realizar regressões lineares, interpretar e averiguar os respetivos pressupostos. 4 6
V. Extensões da regressão linear 1. Regressão Linear Múltipla. O coeficiente β. ANOVA. 2. Interações: significado e interpretação 3. Selecionar o modelo ideal: critérios e procedimentos. 4. Breve introdução aos GLM, GLMM e GAM 8. Prática 5: Revisão geral dos métodos complexos. b. Conteúdo teórico Introdução a técnicas de análise uni-variada mais complexas, identificando as alternativas mais importantes através de um diagrama de fluxo. Em particular, iremos demonstrar a regressão linear múltipla, ANOVA, modelos lineares baseados em distribuições não Gaussianas, modelos mistos e modelos não lineares (GAM). c. Conteúdo prático Iremos realizar regressões múltiplas, procedimentos para selecionar as variáveis a incluir no modelo. Iremos realizar um ajuste por GLS que permita reconhecer o uso efetivo das estruturas de correlação e de variância. 5. Dinâmica do curso Os conjuntos de dados utilizados no curso serão da área da biologia (dados reais), assim como dados simulados que permitem um maior entendimento de alguns processos. São ainda incentivados a trazerem os seus próprios dados, sempre que for pertinente. O conteúdo temático engloba aspetos básicos de análise de dados uni e multivariados, utilizando variáveis contínuas e categóricas, mas também iremos rever métodos estatísticos mais avançadas, tais como modelos mistos ou estatística Bayesiana. O curso centra-se, deste modo na linguagem por detrás dos métodos, sendo esta transmitida de um modo modular, seguindo as teorias do construcionismo. 5 6
6. Bibliografia recomendada Dalgaard P. 2008. Introductory Statistics with R. 2nd edition. Springer. 363 pp Montgomery CD, Peck EA, Vinning G. 2006. Introduction to linear regression analysis. Fourth Edition. Wiley Series in Probability abd Statistics. John Wiley & Sons. New Jersey. 612 p. Underwood AJ. 1997. Experiments in ecology. Cambridge University Press. U.K. 504 p. Venables WN, Smith DM. 2009. An Introduction to R. The R Development Core Team. 102 p. Zar J 1999. Biostatistical analysis. Prentice Hall, 421 p. Zuur AF, Ieno EN, SmithGM. 2007. Analysing Ecological Data Series: Statistics for Biology and Health. Springer Verlag, New York New York. 698 p Zuur AF, Ieno EN, Walker NJ, Saveliev AA, Smith GM. 2009. Mixed Effects Models and Extensions in Ecology with R. Springer, New York. 574 p. 6 6