Revisão (Alguns Conceitos Básicos de Estatística) Prof. a Dr. a Simone Daniela Sartorio de Medeiros DTAiSeR-Ar 1
O que é estatística? Estatística é a ciência que se ocupa de coletar, organizar, analisar e interpretar dados a fim de tomar decisões. Elemento significa cada uma das unidades observadas no estudo que vai gerar cada dado. Dependendo da área, também conhecida como: parcela; unidade experimental; ou unidade amostral. Após a determinação dos elementos ou unidades experimentais... 2
O que fazer com os elementos? Pode-se: medi-los, observá-los, contá-los. Surgindo um conjunto de respostas (dados) que receberá a denominação de variável. Variável Características de interesse observadas que assumem valores diferentes em diferentes indivíduos, locais, situações ou objetos, ou seja, apresentam variabilidade ou variação. Notação: Variável de interesse: Y (letra maiúscula); Valores por ela assumidos: y (letra minúscula). Quando os valores assumidos por uma variável são o produto de fatores causais e estes não podem ser preditos com exatidão, esta é chamada de variável aleatória. 3
Tipos de variáveis Variável qualitativa Apresentam como possíveis realizações uma qualidade ou atributo do indivíduo pesquisado. Exemplos: Nominal Exemplos: Sexo; Naturalidade; Profissão; Diagnóstico. Ordinal Escala da gravidade de uma doença; Escolaridade; Qualidade das refeições de um restaurante. Discreta (Contagem) 4 quantitativa Apresentam como possíveis realizações números resultantes de uma contagem ou mensuração. Exemplos: n.º de leitos, quantidade de funcionários de uma empresa. n.º de brotos de pés de laranja. Exemplos: Peso, Altura, Temperatura, Contínua (Mensurações) Pressão Idade IMC
Os conjuntos de trabalho da estatística A Estatística trabalha com dados, os quais podem ser obtidos por meio: População Conjunto de elementos que tem pelo menos uma característica (variável) em comum. ou Amostra Subconjunto de elementos de uma população. OBS: Esta característica deve delimitar corretamente quais são os elementos da população (que podem ser animados ou inanimados). OBS: Seus elementos devem ser representativos da população. Na grande maioria das situações, não é possível realizar o censo de uma população, porque ou a população é muito grande ou é de tamanho infinito. Para contornar este problema, o pesquisador pode retirar uma amostra da população e a partir desta amostra caracterizar a população de onde a amostra foi retirada sem nenhum viés. 5
Mundo Real (população) Amostra Amostragem ^ Parâmetro Inferência Estimativa Parâmetro: Característica numérica que se calcularia a partir da população e que descreve uma característica de interesse. Valor fixo e desconhecido Estimativa: Característica numérica que é calculada a partir da amostra (valor), por meio de um estimador (fórmula). Valor variável (depende da amostra obtida) e conhecido (para a amostra obtida) 6
Para alcançar este objetivo deve-se usar fórmulas estatísticas, conhecidas como estimadores, que apresentem características estatísticas desejáveis, tais como não-tendenciosidade, variância mínima, fornecer estimativas que se aproximem do valor paramétrico à medida que o tamanho da amostra aumenta, e etc.. Exemplos de estimadores: média aritmética amostral, m ^ (ou x, ou µ), ^ que é usada para estimar a média populacional m (ou µ); e variância amostral, s 2 ^2 (ou σ, ou populacional 2. Vˆ ( X ), que é usada para estimar a variância correlação amostral, r, que é usada para estimar a correlação populacional. ) 7
Observe que algumas vezes a simbologia usada para representar os parâmetros e seus respectivos estimadores é muito parecida. A diferença entre o parâmetro e o seu estimador é o chapéu que existe no símbolo usado para representar o estimador. Isto parece ser uma diferença mínima, mas do ponto de vista estatístico, a diferença conceitual entre parâmetro e estimador é enorme. O parâmetro é sempre um valor constante, pois para a obtenção do mesmo são usados todos os elementos da população. Por outro lado, o estimador representa uma variável aleatória, pois os seus valores mudam de amostra para amostra. Isto acontece porque os elementos que pertencem a uma amostra geralmente não são os mesmos em outras amostras. Estes diferentes valores que um estimador assume são também conhecidos como estimativas. Consequentemente, é possível estabelecer uma distribuição de probabilidades para os valores de um estimador. Para o parâmetro, isto não é possível, pois se assume que ele tem um valor constante. 8
Teste de hipóteses Os testes de hipóteses fazem parte de um conjunto de procedimentos inferenciais usados em estatística. O uso de tais procedimentos permite ao pesquisador fazer inferências a respeito de uma população a partir de uma ou mais amostras representativas da população da qual as amostras foram retiradas. 9
No dia a dia usamos de inferência para tomarmos certas decisões. Exemplo (o princípio básico do teste de hipóteses) Quando vamos a feira para comprar abacaxi e um feirante nos oferece um pedaço de abacaxi. Qual o nosso procedimento? Se aquele pedaço de abacaxi for doce...concluímos que... Por outro lado, se o pedaço for azedo, inferimos que... É lógico que podemos tomar decisões erradas devido à amostragem. Por exemplo, corremos o risco de levar abacaxi azedo para casa, mesmo que a nossa prova tenha sido doce. Isto pode acontecer por um dos dois motivos... Porém, em ciência é necessário que todos os procedimentos sejam padronizados e bem especificados. Assim, é fornecer os conceitos teóricos fundamentais para um correto uso dos testes de hipóteses. 10
Conceitos fundamentais em testes de hipóteses 1. Parâmetro É possível caracterizar uma população por meio de duas medidas principais: As medidas de posição As medidas de dispersão 11
Medidas de posição São também conhecidas como medidas de tendência central, pois elas indicam em que posição, a distribuição dos valores de uma população tendem a se concentrar. Exemplos: a média aritmética (m = µ = E(X)), a mediana (Md); e a moda (Mo). 12
a) Média aritmética Dentre as medidas de posição é considerada a mais importante. É a melhor representação para dados simétricos. Se os dados são de uma população, a média é representada por: m ou Se os dados são de uma amostra, a média é representada por: ou x mˆ OBS: Pode-se também ter interesse na obtenção da média associada a alguma outra variável. Por exemplo, média por curso. a.1) Média Aritmética simples: Definição: Se x 1,..., x n são os valores (distintos ou não) da variável X, a média aritmética de X é dada por: n mˆ i 1 n x i 13
Exemplo 1) Seja X a variável número de ovos por folha e os seguintes valores observados: 0, 2, 3, 1, 0, 1, 2, 2, 3, 1, 2, 3, 2, 1 Interpretação: A média é o ponto de equilíbrio, ou centro, da configuração ^ m = 0 + 2 + 3 +... + 3 + 2 + 1 = 23 = 1,64 ovos por folha 14 14 Pesos 0 1 2 3 Trave CUIDADO: A média aritmética nem sempre está no centro. 1,64 Ponto de equilíbrio ou Centro de gravidade 14
Exemplo 2) Suponha que uma empresa possui cinco funcionários e que cada um receba em R$: 400,00 545,00 610,00 475,00 5500,00. Média salarial: m ^ = R$ 1506,00 Conclusão: A média não nem sempre é uma medida adequada para a representação de um conjunto de dados. Principalmente quando temos a presença de algum outlier. 15
Medidas de dispersão Indicam quanto os valores de uma população estão dispersos em torno de sua média. Exemplos: a variância amostral (s 2 ); e o desvio-padrão amostral (s). 16
a) Variância amostral (s 2 ) ou estimativa da variância populacional (σ 2 ) É a média dos quadrados dos desvios em relação a média aritmética amostral N tamanho populacional n tamanho amostral OBS: esse é o melhor estimador para a variância populacional (dividir por n-1) s 2 n i1 ( x i mˆ ) n 1 2 n i1 x 2 i n i1 n 1 x n i 2 Fórmula alternativa (mais usada) b) Desvio padrão amostral (s ou n-1 ) É a raiz quadrada da variância amostral (s 2 ) s 2 s Vantagem : A interpretação é mais fácil, pois possui a mesma unidade dos dados originais. Já na variância, a unidade é elevada ao quadrado. 17
Tarefa 1 Sejam Y a variável peso (em tonelada) e 4 tipos de colheitadeira. Retirou-se uma amostra de tamanho 4 de cada colheitadeira, os dados se encontram na tabela abaixo. Calcule as medidas de posição (média, mediana e moda) e variação (variância e desvio padrão) das observações relativas a cada colheitadeira: A, B, C e D. Interprete as medidas e baseada nelas, comente sobre o desempenho de cada colheitadeira. Colheitadeira Amostra A B C D 1 5 4 10 0 2 4 6 5 3 3 5 6 0 7 4 6 4 5 10 18
Algumas distribuições probabilísticas contínuas importantes a) Distribuição Normal (ou Gaussiana); b) Distribuição Qui-Quadrado; c) Distribuição t-student; d) Distribuição F de Snedecor. 19
a) Distribuição Gaussiana (ou normal) Modelo fundamental em probabilidade e inferência estatística. Representa grande parte das variáveis aleatórias contínuas. Alguns motivos para seu uso: Muitos testes e modelos estatísticos têm como pressuposição a normalidade dos dados, isto é, que os dados seguem uma distribuição Normal; Muitas variáveis biométricas tendem a ter distribuição Normal; A distribuição das médias amostrais de uma variável aleatória qualquer tendem a ter distribuição Normal, mesmo que a variável em si não tenha distribuição Normal. 20
Modelo Normal Dizemos que a v.a. Y tem distribuição Normal com parâmetros m e 2, se sua função densidade é dada por: f ( y) 1 2 2 e ( ym) 2 2 2, para y Notação: Y ~ N(m, 2 ) E(Y) = m V(Y) = 2 Propriedades: 1) f(y) tem forma de sino: unimodal e simétrica em relação à m; f(y) 2) Não possui Limite inferior ou superior: f(y) 0 quando y ; 3) O valor máximo de f(y) se dá quando y = m. m 21 y
Propriedades da Distribuição Normal m 1 < m 2 < m 3 4) Dois parâmetros: média (m) e desvio padrão () _ A média () controla a localização do centro da distribuição, é o ponto de simetria. m 1 < m 2 < m 3 _ O desvio padrão () controla a dispersão da curva ao redor da média. 1 < 2 < 3 1 < 2 < 3 m 1 m 2 m 3 1 2 3 5) Unidade padrões: o desvio padrão define unidades padrões na distribuição a partir da média, isto é, a dispersão dos dados é controlada pelas unidades de desvio padrão. m-3 m-2 m- 68% 95% 99,7% m m+3 m+2 m+ 22
Como calcular a probabilidade, por exemplo, de um intervalo (a, b) qualquer de uma v.a.c. Y que segue uma distribuição normal? Para calcular probabilidades precisamos resolver a integral: P b ( ym) 1 a Y b 2 ( ) e 2 2 a 2 2 dy Muita CALMA nessa hora!!! Esta integral só pode ser resolvida de modo aproximado. Então essas probabilidades podem ser calculadas através do uso de tabelas ou pelo computador. SÓ QUE para cada valor de m e 2 diferentes, obtemos uma distribuição (função) diferente, ou seja, teremos INFINITAS TABELAS!!!! 23
Calcular probabilidades no modelo Normal Para calcular probabilidades precisamos resolver a integral: P b ( ym) 1 a Y b 2 ( ) e 2 2 a 2 2 dy Para se utilizar apenas uma tabela, utiliza-se uma transformação da variável Y que conduz sempre ao cálculo de probabilidades com uma variável normal com parâmetros (0,1), isto é, média igual a 0 e variância igual a 1. Z X m Essa variável Z transformada terá distribuição N(0,1) e será denominada de distribuição Normal Padrão. Notação: Z ~ N(0, 1) 24
Para determinar a probabilidade Y [a. b], procedemos da seguinte forma: E então olhamos na tabela e obtemos as probabilidades da distribuição Normal m b Z m a P m b m Y m a P m b m Y m a P b Y a P ) ( ) ( Tabela da Normal Padrão Como a distribuição Normal é simétrica, apresenta-se na tabela apenas os valore de P(0 Z z). A probabilidade de estar acima (ou abaixo de zero) é 0,5. 25
Tabela da distribuição normal padrão (Z). 26
Tarefa 2 Exercício 1 Sabendo-se que Z ~ N(0,1), calcule: a) P(0 < Z < 2,14) = b) P(0 < Z < 1,5) = c) P( 3,01 < Z < 0) = d) P( 2,17 < Z < 1,5) = e) P(Z > 0) = f) P(Z > 1) = g) P(Z < 1) = h) P(Z > 1) = i) P(Z < 1) = Exercício 2 Seja X v.a.c. peso com média 59,6 kg e variância 16 kg 2. Calcule a probabilidade: a) P(X 70) = b) P(50 X < 65) = c) P(X > 68) = 27
b) Distribuição Qui-quadrado Definição: Seja a v.a. X tal que, fazendo-se no modelo gama = /2 e = 2, com > 0 inteiro, tem-se a distribuição qui-quadrado, com graus de liberdade e densidade dada por: Ou então, podemos obter a qui-quadrado pela seguinte relação: Sejam {Z 1, Z 2,..., Z v } uma amostra aleatória de v elementos retirados de uma distribuição normal padronizada, isto é, N(0, 1). Então, a v.a. 2 X Z... ( v) v 2 2 2 2 1 Z2 Z v Z i ~ i1 Notação: X ~ 2 () 28
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 Grau de liberdade é, em estatística,, podem ser qualquer número real maior que zero. Geralmente considera-se = n 1 Ilustração: x=0.9 x=3 x=5 x=10 x=20 x=30 x=50 Sem escolha! 0 10 20 30 40 50 60 70 80 29
0.0 0.1 0.2 0.3 0.4 c) Distribuição t-student É uma distribuição de probabilidade para dados contínuos, sua curva é simétrica, semelhante à curva normal padrão (N(0,1)), porém com caudas mais largas, ou seja, uma simulação da t de Student pode gerar valores mais extremos que uma simulação da normal. Difere da curva normal padrão pois tem apenas um parâmetro chamado de grau de liberdade que alteram a forma da curva. x=0.05 x=0.25 x=0.50 x=1 x=10 x=infinito Normal padrão Quanto menor o grau de liberdade, maior é a área nas caudas da distribuição (probabilidade). Quanto maior os graus de liberdade, mas a distribuição t-student se aproxima da normal padrão. -8-6 -4-2 0 2 4 6 8 30
Definição: Uma v.a. X tem distribuição t-student se a função densidade de probabilidade é dada por: Sendo < x < + são os graus de liberdade da distribuição e = n 1 (.) represente a função gama Ou então, podemos obter a distribuição t-student pela seguinte relação: Sejam Z ~ N(0, 1) e Q ~ 2 () v.a. s independentes. Então, a variável: Z X ~ t( ) Q Essa distribuição é utilizada para dados contínuos, simétricos, que a amostra é pequena, ou seja, n < 30. Notação: X ~ t () 31
d) Distribuição F A distribuição F de Fisher-Snedecor, mais conhecida como distribuição F de Fisher (em honra a Ronald Fisher) ou distribuição F de Snedecor (em honra a Georde W. Snedecor) mede a razão entre duas qui-quadrados independentes Sejam U e V duas v. a. independentes, cada uma com distribuição qui-quadrado, com 1 e 2 graus de liberdade, respectivamente. Então, a v.a. U / 1 W ~ V / 2 F (, ) 1 2 Georde W. Snedecor Notação: W ~ F (1, 2) 32 Ronald Fisher
Ou então, pela definição teórica: Definição: Uma v.a. W tem distribuição F de Snedecor, com 1 e 2 graus de liberdade, se possui a densidade dada por: CALMA!!! Para obter as probabilidades também utiliza-se uma Tabela. 33
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 Função densidade F W ~ F(8, x) W ~ F(x, 8) Distribuições F(8,x) Distribuições F(x,8) x=0.05 x=0.25 x=0.50 x=1 x=10 x=infinito x=0.8 x=2 x=3 x=10 x=20 x=infinito 0 1 2 3 4 5 6 0 1 2 3 4 5 6 34
Intervalo de Confiança Nível de confiança: = 1 ; Nível de significância: (o quanto se permite errar); Ambos assumem valores entre 0 e 1. Para uma amostra de tamanho n, quanto maior o exigido para o IC, maior será a amplitude deste. 35
1) Intervalo de confiança para a média População Normal a) Se a variância populacional 2 é conhecida. Para qualquer n : IC( m;100 mˆ z %) / 2 n b) Se a variância populacional 2 é desconhecida. Amostra pequena (n 30): mˆ t IC( m;100 %) ( n 1) s n c) Se a variância populacional 2 é desconhecida Amostra grande (n > 30) : E ainda temos outros IC, por exemplo: IC( m;100 %) mˆ z / 2 s n 2) IC para proporção (p); 3) IC para a variância ( 2 ), entre outros... 36
Exemplo A distribuição dos pesos de pacotes de sementes de milho, enchidos automaticamente por uma certa máquina, é normal, com desvio padrão () conhecido e igual a 0,20kg. Uma amostra de 15 pacotes retirada ao acaso apresentou os seguintes pesos, em kg: 20,05 20,10 20,25 19,78 19,69 19,90 20,20 19,89 19,70 20,30 19,93 20,25 20,18 20,01 20,09 0,14 0,12 Construa um intervalo de confiança de 95% para o peso médio dos pacotes de sementes 0,1de milho. IC( m;100 %) mˆ z / 2 n 0,08 0,06 0,04 2,5% mˆ 20, 02kg 95% N(0,1) 2,5% 0,02 0 - -z 0 z + 0 5 10 15? 37
Tabela da distribuição normal padrão (Z). 38
Exemplo 1 A distribuição dos pesos de pacotes de sementes de milho, enchidos automaticamente por uma certa máquina, é normal, com desvio padrão () conhecido e igual a 0,20kg. Uma amostra de 15 pacotes retirada ao acaso apresentou os seguintes pesos, em kg: 20,05 20,10 20,25 19,78 19,69 19,90 20,20 19,89 19,70 20,30 19,93 20,25 20,18 20,01 20,09 0,14 0,12 Construa um intervalo de confiança de 95% para o peso médio dos pacotes de sementes 0,1de milho. IC( m;100 %) mˆ z / 2 IC( m;95%) n 19,92; 0,08 0,06 0,04 20,12 0,02 Portanto, com 95% de confiança, podemos dizer que o peso médio dos pacotes de semente de milho é um valor entre 19,92 kg e 20,12 kg. 0 2,5% mˆ 20, 02kg 95% N(0,1) 2,5% - -z 0 z + 0 5 10 15? 1,96 39
Se o desvio padrão não fosse conhecido? Distribuição t-student 40
Para re-lembrar: _ Conceitos básicos. _ Como entrar com os dados na calculadora científica? _ Notação usada e descrever as contas. _ Como era as principais representações gráficas de estatística descritiva, como fazer elas e sua interpretação. 41
Tarefa 3 Os dados abaixo são referentes à altura de 100 plantas de milho, amostradas ao acaso. 158 194 215 163 212 219 218 174 178 213 213 210 218 169 214 175 190 232 201 200 201 211 199 187 167 201 182 217 195 154 197 209 219 188 192 158 206 183 213 158 178 202 174 196 198 167 216 214 167 203 159 205 168 202 191 178 157 156 169 233 176 198 192 217 206 187 159 198 218 222 189 186 195 223 216 221 185 189 229 199 259 177 217 195 225 219 231 169 207 183 289 185 203 215 193 201 177 166 204 195 Proceda ao sorteio de duas amostras de 20 plantas cada e obtenha: a) As medidas de posição (média, mediana); b) As medidas de dispersão (variância, desvio padrão, variância e erro padrão da média); c) A tabela de distribuição de frequências (considere 6 classes); d) O histograma de frequências absolutas; e) O gráfico de ogiva; f) O gráfico boxplot (interpretando-os em relação a variável observada). g) Intervalo de confiança para a média e variância populacional de cada amostra ao nível de 5% de significância e interprete-os. 42
Teste de hipótese Existem 3 pensamento diferentes para se realizar um TH: a) Método comum; b) Valor-p; c) Procedimento mecânico (por estatística). 43
A construção de um teste de hipóteses requer a especificação de duas hipóteses, denominadas: Hipótese Nula (H 0 ): É a hipótese que sugere um valor para o parâmetro populacional ou a igualdade dos parâmetros em teste. Geralmente expressa o conceito de nenhuma diferença. Hipótese alternativa (H 1 ou H a ): É a hipótese que sugere que a afirmação que estamos fazendo na hipótese nula é falsa. Geralmente, H 1 representa a suposição que o pesquisador quer provar, sendo que H 0 é formulado com o propósito de ser rejeitada. A construção da hipótese alternativa depende das informações que se têm do problema em estudo. 44
Assim, é necessário quantificar os possíveis erros associados a essa decisão. Decisão Na realidade H 0 é Verdadeira H 0 é falsa Rejeitar H 0 Erro tipo I Decisão Correta Aceitar H 0 Decisão Correta Erro tipo II Definições Erro Tipo I: = P(erro tipo I) = P(Rejeitar H 0 H 0 é verdadeira) (1 ) é o coeficiente de confiança Nível de significância ou nível descritivo do teste. Ao realizar-se um teste de hipóteses, parte-se de um dado valor pré-fixado de. Erro Tipo II: = P(erro tipo II) = P(Aceitar H 0 H 0 é falsa) (1 ) é denominado de poder do teste 45
Teste de hipóteses para média de populações normais Objetivo: avaliar afirmações sobre média(s) populacional(is). Existem, basicamente, 3 tipos de afirmações que se podem fazer quando se estudam médias populacionais: a) A afirmação diz respeito a uma média populacional. b) A afirmação diz que as médias de duas populações são todas iguais. c) A afirmação diz que as médias de três ou mais populações são todas iguais. 46
1 população normal 1) Teste para média de uma população normal 47
Teste sobre a média de uma populacional 1. o Passo: Defina a hipótese de nulidade (H 0 ) e a hipótese alternativa (H a ), em que m 0 é um valor constante que se deseja testar. Teste unilateral à esquerda Teste unilateral à direita Teste bilateral H 0 : m = m 0 H a : m < m 0 H 0 : m = m 0 H a : m > m 0 H 0 : m = m 0 H a : m m 0 RR: Região de Rejeição de H 0 RA: Região de Aceitação de H 0 48
Procedimento mecânico 49
Teste sobre a média de uma populacional 2. o Passo: Escolher a estatística adequada para julgar a hipótese H 0 População Normal a) Se a variância populacional 2 é conhecida e n é qualquer: Z Estatística mˆ m0 ~ N(0,1) 2 n b) Se a variância populacional 2 é desconhecida e a amostra é pequena (n 30) T mˆ m 2 s n 0 ~ t ( n1) c) Se a variância populacional 2 é desconhecida e a amostra é grande (n > 30) : Z mˆ m0 ~ N(0,1) 2 s n OBS: Serve também para uma população com distribuição qualquer e tamanho da amostra grande 50
Teste sobre a média de uma populacional 3. o Passo: Fixar a probabilidade e usar esse valor para construir a região crítica (RC) com os valores tabelados (z c ou t c ). Testes Unilateral esquerdo Unilateral direito bilateral Estatística H 0 : m = m 0 H a : m < m 0 H 0 : m = m 0 H a : m > m 0 H 0 : m = m 0 H a : m m 0 Z -z c 1 0 1 0 z c -z c 1 0 z c z T -t c 1 0 1 0 t c -t c 1 0 t c t 51
Teste sobre a média de uma populacional 4. o Passo: Usar as informações da amostra para encontrar o valor da estatística (valor calculado ou observado) que definirá a decisão do teste: a) b) c) mˆ m 0 z calc 2 n mˆ m t calc 2 s n 0 mˆ m z calc 2 s n 0 5. o Passo: Concluir: Se o valor amostral observado (z cal ou t cal ) pertencer à região de rejeição (RR) determinada pelo(s) z tab ou t tab, então rejeita-se H 0, concluindo que m m 0 (ou m m 0, ou m m 0 ). Se o valor amostral observado (z cal ou t cal ) pertencer à região de aceitação (RA) determinada pelo(s) z tab ou t tab, então aceita-se H 0, concluindo que m = m 0. 52
Teste sobre a média de uma população com variância desconhecida Exemplo Foi retirada uma amostra de tamanho 10, da população de pesos aos 210 dias de bezerros da raça Nelore. Os valores, em kg, foram os seguintes: 178 199 182 186 188 191 189 185 174 158 Desconfia-se que o peso é menor que 186, teste as hipóteses ao nível de significância de 5%. As hipóteses: H 0 : m = 186 H 1 : m < 186 versus t calc mˆ m 2 s n 183186 11,18 0 10 0,847 mˆ 183kg s 11,18kg n 10 t tab t ( 9,5%)? 53
54
Exemplo 1 (Andrade e Ogliari, 2010) Teste sobre a média de uma população com variância desconhecida Foi retirada uma amostra de tamanho 10, da população de pesos aos 210 dias de bezerros da raça Nelore. Os valores, em kg, foram os seguintes: 178 199 182 186 188 191 189 185 174 158 Desconfia-se que o peso é menor que 186, teste as hipóteses ao nível de significância de 5%. As hipóteses: H 0 : m = 186 H 1 : m < 186 versus t calc mˆ m 2 s n 183186 11,18 0 10 0,847 mˆ 183kg s 11,18kg n 10 t tab t ( 9,5%) 1,833 Logo, aceita-se H 0 ao nível de 5% de significância, concluindo que o peso dos bezerros é igual a 186 kg. 55
valor-p ou p-value 56
O valor-p (ou p-value) É o nome que se dá à probabilidade de se observar um resultado tão ou mais extremo do que o obtido pelo pesquisador (por meio da amostra), supondo que a hipótese nula seja verdadeira: valor-p = P(rejeitar H 0 usando o valor da amostra como corte H 0 é verdadeira) Regra prática: Se o valor-p < Rejeita-se H 0 Se o valor-p > Aceita-se H 0 Um valor p pequeno significa uma das duas situações: 1) Ou o pesquisador observou um resultado pouco provável de ocorrer, supondo a H 0 verdadeira; ou 2) A H 0 é falsa. OBS: O valor p é calculado com base na amostra, enquanto que é o maior valor p que leva à rejeição da hipótese nula. 57
1 população Exemplo 1: Pesos aos 210 dias de bezerros da raça Nelore peso<- c(178, 199, 182, 186, 188, 191, 189, 185, 174, 158) length(peso) t.test(peso, mu=186, alternative="less", conf.level = 0.95) # One Sample t-test # # data: peso # t = -0.8482, df = 9, p-value = 0.2092 # alternative hypothesis: true mean is less than 186 # 95 percent confidence interval: # -Inf 189.4839 # sample estimates: # mean of x # 183 58
Tarefa 4 a) Instale o software R em seu computador. Site: http://www.r-project.org 59
A interface do R é composta de três janelas principais: i) a console, que é a interface de programação; ii) o editor que é o processador básico de texto iii) a quartz, onde é apresentado os gráficos; 60
Tarefa 5 b) Em seguida, instale o software Rstudio em seu computador (precisa ser nessa ordem!) Site: https://www.rstudio.com/products/rstudio/download/ ii) o editor que é o processador básico de texto iii) a quartz, onde é apresentado os gráficos; i) a console, que é a interface de programação; 61
Álgebra de matrizes 62
Álgebra matricial Para a estatística ser usada (teórica ou aplicada), alguma álgebra matricial é necessária. Todo software estatístico entende as informações do experimento (dados) por meio de matrizes, por essa razão é útil, se não essencial, ter pelo menos algum conhecimento nesta área da matemática. A primeira vista, a notação de álgebra matricial é um pouco amedrontadora. No entanto, não é difícil entender os princípios básicos, desde que alguns detalhes sejam aceitos na fé. a) Matrizes e vetores Uma matriz m n é um arranjo de números com m linhas e n colunas, considerado como uma única entidade, da forma: A (m n) = a 11 a 12... a 1n a 21 a 22... a 2n.................. Se m = n então ela é uma matriz quadrada. a m1 a m2... a mn
Se existe somente uma coluna, tal como: c 1 c (m 1) = c 2... c m O negrito é usado para indicar matrizes e vetores. então ela é chamada um vetor coluna. Se existe somente uma linha, tal como: r (1 n) = r 1 r 2... r n ou r = (r 1, r 2,..., r n ) então ela é chamada um vetor linha. 64
A transposta de uma matriz é obtida trocando-se as linhas pelas colunas. Então a transposta da matriz A já vista é: a 11 a 21... a m1 A (n m) = a 12 a 22... a m2.................. a 1n a 2n... a mn Também a transposta de um vetor c é: c = (c 1, c 2,..., c n ), e a transposta do vetor linha r é o vetor coluna r.