Estatística e Modelos Probabilísticos - COE241

Estatística e Modelos Probabilísticos - COE241 Aula passada Variância amostral Método de Replicações Independentes Aula de hoje Para que serve a inferência estatística? Método dos Momentos Maximum Likehood Estimator (MLE) Teste de hipótese: definições

Para que serve a inferência estatística? Para qualquer modelo probabilístico é necessário estimar os parâmetros das funções distribuição de probabilidade que serão usadas A estimativa pode ser feita a partir de dados coletados do sistema Exemplo: taxa de chegada de clientes no sistema, taxa de serviço de um recurso, taxa de falha de um equipamento, etc

Para que serve a inferência estatística? As estimativas são baseadas nos resultados coletados do sistema durante um certo tempo O conjunto de todos os resultados possíveis de serem obtidos durante a execução do sistema é denominado população Em geral somente um sub-conjunto da população está disponível Métodos de inferência estatística tem o objetivo de estimar características de uma população a partir de um sub-conjunto da população denominado amostra

Para que serve a inferência estatística? A medida que o tamanho da amostra aumenta, as estimativas se tornam mais representativas da população A inferência estatística envolve as seguintes tarefas: Estimativa de parâmetros do modelo Teste de hipotése a respeito de parâmetros e distribuição de probabilidade da população

Amostra aleatória Definição: O conjunto de variáveis aleatórias X 1, X 2,..., X N é uma amostra aleatória de tamanho N da população que possui a função distribuição F X (x), dado que elas são independentes e identicamente distribuídas com F Xi (x) =F X (x), para todo i e todo x.

Estatística Definição: Qualquer função W(X 1, X 2,..., X N ) calculada a partir dos valores X 1, X 2,..., X N é chamada de uma estatística. Exemplo: média amostral: variância amostral: S 2 = 1 n n 1 i=1 n X n = 1 n i =1 X i X n 2 X i

Estimador Definição: Qualquer estatística (X 1, X 2,..., X N ) usada para estimar um parâmetro da população é chamada um estimador para

Propriedades desejáveis para um estimador Não tendencioso (unbiased): na média o estimador deve fornecer o valor verdadeiro. Eficiente: deve apresentar a menor variância quando comparado com outros Consistente: deve convergir em probabilidade para o valor verdadeiro

Estimador não tendencioso Definição: Uma estatística (X 1, X 2,..., X N ) é uma estimador não tendencioso do parâmetro se E[ (X 1, X 2,..., X N )] = Já provamos que a média amostral e a variância amostral são estimadores não tendenciosos.

Estimador eficiente Definição: Um estimador 1 do parâmetro é mais eficiente que um estimador 2, dado que: 1 e 2 são estimadores não tendenciosos de Var[ 1 ] Var[ 2 ] para todo Var[ 1 ] < Var[ 2 ] para algum

Estimador consistente Definição: Um estimador do parâmetro é consistente se ele converge em probabilidade para lim N P [ ]=0 Onde N é o tamanho da amostra

Métodos para estimativa de parâmetros Método dos momentos Método da máxima verossimilhança (maximum likehood)

Método dos Momentos Suponha a estimativa de um ou mais parâmetros da variável aleatória X Defina o K-ésimo momento amostral da v.a. X como: M = k n i=1 X i k /n,i=1, 2,... Igualando o valor obtido para o momento amostral com a expressão do momento da v.a. X, temos uma equação E [ X k ]=M k

Método dos Momentos O número de equações a serem resolvidas é igual ao número de parâmetros que temos que estimar para v.a. X Exemplo: Se a v.a. X tem três parâmetros, precisamos de três equações: E [ X ]=M 1 E [ X 2 ]=M 2 E [ X 3 ]=M 3

Método dos Momentos: exemplo

Maximum likelihood estimation (MLE) MLE is a method of estimating the parameters of a statistical model given observations, by finding the parameter values that maximize the likelihood of making the observations given the parameters. For example, one may be interested in the heights of adult female penguins, but is unable to measure the height of every single penguin in a population due to cost or time constraints. Assuming that the heights are normally distributed with some unknown mean and variance, the mean and variance can be estimated with MLE while only knowing the heights of some sample of the overall population. MLE would accomplish this by taking the mean and variance as parameters and finding particular parametric values that make the observed results the most probable given the model.

Método MLE Função densidade conjunta das v.a. Xi

Método MLE função likehood Função likehood das v.a. Xi

Método MLE Os valores de 1 2,..., k que maximizam a função likehood são os maximum likehood estimators-mle dos parâmetros 1 2,..., k Os MLE dos parâmetros são os valores para os quais a sequência de amostras tem a maior probabilidade de ocorrer pois maximizam a função densidade conjunta

Método MLE: exemplo 1 (ln(x))'= 1/x (ln(g(x))'= 1/g(x) * g'(x)

Método MLE: exemplo 1 Maximizar L(p) é equivalente a maximizar o logaritmo natural de L(p) L p = p x i 1 p n x i,0 p 1 n ln L p = x ln p n i=1 i x ln 1 p i=1 i d ln L p = dp n x 1 p n i=1 i n x 1 p i=1 i 1 n (ln(x))'= 1/x (ln(g(x))'= 1/g(x) * g'(x) p= 1 n n i=1 x i Calcular a segunda derivada de ln L(p) e verificar se é negativa para afirmar que o valor encontrado para p maximiza ln L(p)

Método MLE: exemplo 2 d (L(λ)) = n+ 1 d (λ) λ n i=1 n n+ 1 λ i=1 n λ= 1 n i=1 x i =0 x i x i

Testes Estatísticos São procedimentos que nos permitem decidir quando aceitar ou rejeitar uma determinada hipótese baseados na informação contida em uma amostra Duas hipóteses devem ser definidas: Hipótese nula - H 0 Hipótese contraditória H 1 : é a hipótese alternativa que gostaríamos de aceitar caso a hipótese nula seja falsa. Deve ser escolhida de acordo com o interesse.

Testes Estatísticos: Regiões O teste é baseado em um conjunto de variáveis aleatórias X 1, X 2,..., X N que é uma amostra aleatória de tamanho N da população O teste irá dividir o espaço de observações em duas regiões: R(H 0 ) região de aceitação R(H 1 ) região crítica ou de rejeição

Testes Estatísticos: Tipos de Erros Tipo de erro I: A hipótese nula (H 0 ) é verdadeira mas a amostra está na região de rejeição do teste. Logo a hipótese H 0 será rejeitada quando deveria ser aceita. A probabilidade de ocorrer este erro é também chamada de nível de significância do teste.

Testes Estatísticos: Tipos de Erros Tipo de erro II: A hipótese nula (H 0 ) é falsa mas a amostra está na região de aceitação do teste. Logo a hipótese H 0 será aceita quando deveria ser rejeitada. A probabilidade de ocorrer este erro é é chamada a potência do teste (power of the test)

Testes Estatísticos: Tipos de Erros