Estatística Aplicada II Profa. Flávia Landim E-mail: flavia@im.ufrj.br Aulas: quintas de 13h-18h20 Início: 22 de agosto de 2013 Avaliações: P1 10/10, P2 28/11. apresentação de trabalhos: 5 e 12/12 (grupos de 3 alunos que deverão ser definidos até o dia da P1).
Estatística Aplicada II Ementa no SIGA: Conceito de regressão associado à correlação entre variáveis. Conceito de ajustamento. Métodos de ajustamento e aplicação à determinação das equações de regressão. Teoria elementar de probabilidades: princípios fundamentais. Distribuição binomial e distribuição normal: propriedades e aplicações à psicologia. Noções de inferência estatística: estimação de parâmetros. Página com as informações da disciplina: www.im.ufrj.br/flavia/estat2_psicologia.html
Estatística Aplicada II Referências (livro-texto ainda a definir) Estatística Básica: a arte de trabalhar com dados. João Ismael, Sônia, Santiago e Gastão. Editora Campus. Estatística sem Matemática para Psicologia. Dancey e Reidy. Artmed.
Estatística: o que é? O primeiro uso da palavra ESTATÍSTICA parece datar do final do século XVI, referindo-se a uma ciência civil, política, estatística e militar em um trabalho do historiador Girolomo Ghilini. (Berquó, 1981) As expressões statistics, statist e statistical são derivadas do latim status com duplo significado: estado político; e situação das coisas.
O Estado da Estatística Os primeiros usos da estatística envolviam compilação de dados e gráficos que descreviam vários aspectos de um estado ou país. Em 1662, John Gaunt publicou informação estatística acerca de nascimentos e mortes. O trabalho de Gaunt foi seguido por estudos sobre taxas de mortalidade e de doenças, tamanhos de populações, renda e taxas de desemprego. Os governos e as empresas se apoiam fortemente em dados estatísticos: taxas de desemprego, taxas de inflação, índices do consumidor, taxas de nascimento e morte são cuidadosamente compiladas de modo regular, e os dados resultantes são usados pelos gestores para tomar decisões que afetam futuras contratações, investimentos, níveis de produção e expansão para novos mercados. Triola, 2005 Uma Introdução à Estatística.
Breve História da Estatística Nos séculos XVII e XVIII, a estatística voltou-se mais para cálculos de probabilidades. No século XIX, Laplace e Gauss começaram a aplicar a distribuição normal na explicação de fenômenos reais. Nesta época iniciou-se a aplicação da estatística na pesquisa em Ciências Sociais. No século XX difundiram-se os métodos multivariados para analisar conjuntamente várias variáveis.
Estatística: o que é? Para Sir Ronald A. Fisher (1890-1962): Estatística é o estudo das populações, das variações e dos métodos de redução de dados.
Estatística: o que é? ``Eu gosto de pensar na Estatística como a ciência de aprendizagem a partir dos dados... Jon Kettenring Presidente da American Statistical Association, 1997
Estatística: o que é? Uma boa definição é: Estatística é um conjunto de técnicas e métodos que nos auxiliam no processo de tomada de decisão na presença de incerteza.
Estatística: o que é? Toda atividade humana é baseada em previsões e tomadas de decisão sob incerteza: - quando entramos para a universidade; - quando arrumamos um emprego; - quando um paciente é submetido a um tratamento; - quando investimos uma quantia no mercado de ações; etc.
Estatística: o que é? Calyampudi R. Rao (1920- ), um estatístico importante, cujo trabalho teórico contribuiu para os fundamentos da Estatística Moderna apresentou a seguinte equação: Essa parte da equação representa um papel fundamental do estatístico conhecimento incerto + conhecimento da quantidade de incerteza nele = conhecimento útil
Alguns Exemplos de situações em que se usa Estatística Mensuração das mudanças no meio-ambiente para avaliar os efeitos do aquecimento global. Mensuração da poluição do ar para avaliar os efeitos na saúde da população. Análise de experimentos sobre o uso de fertilizantes para maximizar a produção de um grão. Mensuração da eficácia de diferentes medicamentos para encontrar o melhor, e identificar efeitos colaterais. Cálculo de quão provável duas pessoas têm o mesmo perfil de DNA. Estudo sobre hábitos migratórios de certo animal; Estimação do tamanho populacional de certas espécies; Comparação de hábitos comportamentais em diferentes grupos;
Conceitos Básicos População: conjunto de elementos com pelo menos uma característica em comum. A população define o universo que vai ser estudado. Amostra: é um subconjunto não-vazio da população.
Conceitos Básicos Parâmetro é uma característica numérica da população. Estatística - é uma característica numérica da amostra.
Inferência Estatística Em linhas gerais podemos dizer que a Inferência Estatística está voltada para fazer afirmações sobre toda a população, quando se conhece apenas uma amostra da população. Desejamos fazer afirmações sobre parâmetros, usando estatísticas. É claro que estaremos sujeitos a variações inerentes ao processo de amostragem e será muito importante saber quantificar a incerteza associada à inferência realizada.
Probabilidade A ferramenta matemática usada para quantificar incertezas é a teoria das probabilidades. Noções básicas de probabilidade serão objeto de estudo nesta disciplina.
Etapas na análise estatística de dados Amostragem coleta de dados Estatística descritiva - Análise exploratória de dados organização dos dados Cálculo de Probabilidades Inferência Estatística
Estatística Básica Vamos tratar agora da etapa do processo de análise, chamada Análise Descritiva ou Análise Exploratória de Dados. Os dados precisam ser organizados em tabelas, gráficos ou mapas, e também usando-se medidas úteis que descrevem de alguma forma o conjunto de dados. Em geral, é a partir desta análise que será proposto um modelo que descreva pelo menos razoavelmente a geração dos dados em estudo. Não serão tratados aqui os tópicos sobre coleta e organização dos dados.
Escalas de medição e tipos de variáveis As escalas de medição são: nominal, ordinal, de contagem, intervalar e de razão. As técnicas estatísticas diferenciam-se em relação ao tipo de variável. As variáveis são classificadas em dois grandes grupos: categóricas ou qualitativas (escalas nominal e ordinal) e numéricas ou quantitativas (escalas de contagem, intervalar ou de razão).
Escalas intervalar e de razão A escala intervalar aproxima-se da concepção comum de medida, já que possui uma unidade de medida constante. Entretanto, a origem desta escala é arbitrária. Os exemplos mais comuns de escala de intervalo são as escalas de temperatura Celsius e Fahrenheit. Cada uma delas atribui um zero arbitrário. A escala de razão é a mais elaborada das escalas de medida, no sentido de permitir todas as operações aritméticas. Essa escala possui um ponto zero único, além de unidade de medida constante. É a escala de medida mais comum nas ciências físicas, tais como as escalas para a medida de comprimento, peso, etc.
Síntese numérica medidas-resumo para variáveis quantitativas As medidas a serem trabalhadas são de duas naturezas distintas, a saber, 1) medidas de posição média aritmética, mediana, moda, percentis (quartis, quintis), buscam caracterizar valores que sejam representativos na distribuição de frequência dos valores observados, e 2) medidas de dispersão amplitude amostral. distância interquartílica, desvio médio, variância, desvio-padrão, coeficiente de variação, buscam caracterizar a variação na distribuição dos valores.
Medidas de Posição 1) Moda realização mais frequente do conjunto de valores observados. Em alguns casos, pode haver mais de uma moda, ou seja, uma distribuição pode ser bimodal, trimodal, multimodal. É possível também que não exista moda, se todos os valores ocorrerem com a mesma frequência.
Medidas de Posição 2) Mediana é a realização que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente. Nota: se o número de observações é ímpar indica-se como mediana o valor que ocupa a posição (n+1)/2. Caso contrário, o usual é indicar como mediana a semi soma dos valores que ocupam as duas posições centrais, a saber, n/2 e n/2+1. A posição de uma observação para efeito de obter a mediana é considerada somente depois de colocar os dados em ordem crescente.
Medidas de Posição 3) Média aritmética soma das observações dividida pelo número de observações. Formalizando, se x 1, x 2,..., x n são n valores observados num conjunto de dados, a média aritmética é dada por x n 1 x1 x2... n xi n i 1 x n
Medidas de posição 4) Percentis: são 99 medidas que dividem a distribuição de frequências em 100 partes de frequência 1% tal que o p-ésimo percentil, p=1,2,...,99, corresponde a um valor para o qual p% dos valores observados são menores ou iguais a ele. Notação: (P1, P2,..., P10,..., P99)
Percentis Especiais Quartis: são três medidas, Q1, Q2 e Q3, que dividem a distribuição em quatro partes de frequências iguais a 25%. Q1 primeiro quartil 25% dos valores são menores ou iguais a Q1 Q2 segundo quartil 50% dos valores são menores ou iguais a Q2 (Observe que Q2 coincide com a mediana) Q3 terceiro quartil 75% dos valores são menores ou iguais a Q3
Percentis especiais Quintis são quatro medidas que dividem a distribuição em 5 partes de frequências iguais a 20%. (P20,P40,P60,P80) Decis são 9 medidas que dividem a distribuição em 10 partes de frequências iguais a 10%.(P10,P20,..., P90)
Medidas de dispersão 1) Amplitude amostral é a diferença entre o maior valor e menor valor observados. 2) Distância interquartílica é a diferença entre o terceiro e primeiro quartis.
Medidas de Dispersão Sejam x 1, x 2,..., x n os n valores observados num conjunto de dados, e a média. Define-se como desvios da média as diferenças: x x i x, i=1,2,...,n. Em qualquer conjunto de dados a soma dos desvios da média será sempre nula, pois os desvios positivos compensam-se com os desvios negativos.
Variância amostral A variância amostral é uma média dos quadrados dos desvios da média definida por: s 2 1 n 1 n x i x i 1 2 Podemos dizer que a variância caracteriza o espalhamento dos valores no conjunto de dados em torno da média.
Desvio-padrão amostral O desvio-padrão amostral (s) é a raiz quadrada positiva da variância amostral. O desvio-padrão tem a mesma unidade de medida das observações e poderá ser comparado à média, por exemplo.
Como comparar desvios padrão? Como as escalas dos valores podem ser diferentes não há como dizer se um conjunto é mais disperso em relação a sua média apenas olhando o valor do seu desvio-padrão. Um desvio padrão igual a 1 u pode ser grande ou pequeno dependendo da magnitude dos valores observados. Se dois conjuntos têm desvios-padrões iguais, como classificar o mais disperso em relação à média?
Coeficiente de variação amostral É a razão entre desvio-padrão e média. Em geral é apresentado em termos percentuais sendo multiplicado por 100. É útil na avaliação da magnitude da variância do conjunto de dados. CV 100 s x
Tipos de gráficos Setores, barras, linha, histograma, ramo-folhas, box plot (diagrama de caixa), etc. Os gráficos de setores e barras são adequados para variáveis categóricas (qualitativas). Nesses gráficos, a única escala a ser considerada é a escala de frequência dos diferentes tipos de resposta observados para a variável categórica.
Gráfico de setores Em geral, recomenda-se não usar este tipo de gráfico, quando o número de respostas diferentes é maior do que quatro ou mesmo quando as diferenças de frequências para as diferentes respostas são pequenas, pois é difícil detectar pequenas diferenças nos ângulos centrais correspondentes aos setores.
Gráfico de setores Observe que há apenas 4 respostas diferentes, mas não dá para perceber diferenças entre centro, norte e sul.
Gráfico de barras Agora é possível perceber as diferenças entre as frequências observadas. As frequências podem ser absolutas ou relativas.
Gráfico de barras As barras que representam as frequências de cada resposta podem ser dispostas de forma horizontal ou vertical.
Gráfico de linha Adequado para representar observações feitas ao longo do tempo. A série deve apresentar no mínimo 5 observações.
Exemplo: dados sobre meningite Nº de casos no município do Rio 0 20 40 60 1976 1978 1980 1982 1984 1986 1988 1990 1992
Histograma É usado para representar a distribuição de frequências de uma variável quantitativa contínua cujos valores observados foram agrupados em intervalos de classe. O gráfico é composto por retângulos adjacentes cuja área é igual a frequência da classe correspondente.
Ramo-e-folhas É um gráfico alternativo ao histograma. A vantagem do ramo-e-folhas em relação ao histograma é que não há perda de informação. No histograma as observações individuais estão agrupadas em classes.
Medidas de posição: média e mediana A média é a soma dos valores observados sobre o número de observações (média aritmética). No histograma ela representa o ponto de equilíbrio (é o centro de massa).
Média versus mediana MÉDIA MEDIANA é mais fácil de ser manipulada algebricamente; representa o centro de massa dos dados. É muito afetada por valores extremos. é mais difícil de ser manipulada algebricamente; é o valor que ocupa a posição central quando os dados estão ordenados; (divide o histograma correspondente em duas partes de áreas iguais). não é afetada por valores extremos.
Distribuições unimodais Em distribuições unimodais tem-se sempre a mediana entre a média e a moda: ou média<=mediana<=moda (assimetria negativa) ou moda<=mediana<=média (assimetria positiva) Em distribuições unimodais perfeitamente simétricas tem-se média=moda=mediana.
Assimetria positiva - distribuição unimodal média>mediana>moda A distribuição apresenta maior concentração nos menores valores.
Assimetria negativa - distribuição unimodal média<mediana<moda A distribuição apresenta maior concentração nos valores mais altos.
Distribuição unimodal simétrica média=mediana=moda
Medidas de assimetria e curtose Quando uma distribuição unimodal é simétrica tem-se Média = Mediana = Moda. Numa distribuição unimodal, se Média < Mediana < Moda dizemos que ela é assimétrica à esquerda ou negativamente assimétrica; se Média > Mediana > Moda, dizemos que ela é assimétrica à direita ou positivamente assimétrica. Coeficiente de assimetria de Pearson: As = 3 ( Média - Mediana ) / Desvio Padrão
MEDIDAS DE CURTOSE Grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva correspondente a uma distribuição teórica de probabilidade). Quando a distribuição apresenta uma curva de freqüência mais fechada que a normal (ou mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica. Quando a distribuição apresenta uma curva de freqüência mais aberta que a normal (ou mais achatada em sua parte superior), ela recebe o nome de platicúrtica. A curva normal, que é a nossa base referencial, recebe o nome de mesocúrtica.
Coeficiente de curtose C1 = (Q3 - Q1) / 2(P90 - P10) Este coeficiente é conhecido como percentílico de curtose. Relativamente a curva normal, temos: C1 = 0,263 curva mesocúrtica C1 < 0,263 curva leptocúrtica C1 > 0,263 curva platicúrtica
Exemplo: Distribuição Bimodal Você acha que a média é uma boa medida de posição nesse caso? E a mediana? Por que?
Box Plot (desenho esquemático) IQR=Q3-Q1
Bioestat O BioEstat é programa gratuito para estudantes de graduação e pós-graduação, pesquisadores e professores, com 210 aplicativos estatísticos de fácil uso pelos iniciantes, voltados sobretudo para as áreas das ciências biológicas e médicas. Este programa contém o Manual (em formato de arquivo "pdf") que orienta o usuário com indicações simples e precisas para cada teste, exemplos práticos, gráficos de uso mais frequente, glossário vinculado à biometria e fórmulas estatísticas referentes aos aplicativos do BioEstat.
Bioestat A licença de uso deste programa também é gratuita, sendo permitida a instalação em vários computadores. Para outras informações, envie um e-mail para mamiraua@mamiraua.org.br. http://www.mamiraua.org.br/pt-br/downloads/programas/bioestat-versao-53/ No que segue veremos alguns exemplos de uso do bioestat para calcular medidas-resumo e construir gráficos.
Exemplo 1 Em um grupo de 80 alunos foi feita uma pesquisa sobre hábitos de leitura. Uma das questões referia-se que tipo de leitura eles mais gostavam: revistas, jornais, livros de ficção, livros não-ficção, outros. Após digitar as respostas verificou-se que 18 preferiam revistas, 25, jornais, 15 preferiam ficção, 13, não ficção e 9, outros.
Exemplo 1 18 25 15 13 9 No Bioestat entramos com esses números que são as frequências absolutas de preferências e depois solicitamos a janela de gráficos escolhendo a opção setores. Depois é só configurar uma legenda, título, etc.
Exemplo 2: As idades dos 80 alunos também foram observadas e seus valores foram 18,18,18,18,18,18,18,18,18,18,19,19,19,19,19,19, 19,19,19,19,19,19,19,19,19,20,20,20,20,20,20,20, 20,20,20,20,20,20,20,20,20,20,20,20,20,21,21,21, 21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21, 21,21,21,21,22,22,22,22,22,23,25,25,26,26,27,35.
Atividades sugeridas Resolva os exercícios da lista #01 usando o Bioestat.
Bibliografia: Berquó, E. e outros (1981). Bioestatística. Bisquerra, Sarriera, Martínez (2004). Introdução à Estatística. Bussab e Morettin. (2002). Estatística Básica. Dancey e Reidy. (2012). Estatística sem Matemática para Psicologia. Medronho, e outros. (2005). Epidemiologia. Montgomery, D. e Runger, G. (2003). Estatística Aplicada e Probabilidade para Engenheiros. Triola, M. (2005). Uma Introdução à Estatística.