MOQ-3 ESTATÍSTICA Proessor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo
Probabilidade e Estatística: The Science o collecting and analyzing data or the purpose o drawing conclusions and making decisions Métodos analíticos: etrair conhecimento útil para tomada de decisão a partir de dados. Objetivo: azer coleta, redução, análise e modelagem dos dados buscando: Análise eploratória dos dados: obter dos dados a maior quantidade possivel de inormação Análise conirmatória de dados: inerência estatística
Desaio: Transormar dados em inteligência Cenários & Análises Como agir eicazmente? Perormance Corporativa Dados Relatórios Modelos Preditivos Modelos Descritivos Otimização Qual o melhor cenário? O que irá acontecer? Por que aconteceu? O que aconteceu? Dados Inormação Conhecimento Inteligência
Probabilidade Estatística: PROBABILIDADE POPULAÇÃO AMOSTRA ESTATÍSTICA Em probabilidade assume-se que população em estudo é conhecida Em estatística, amostras são utilizadas para se chegar a conclusões
Programa do curso: SEMANA CONTEÚDO Revisão de probabilidade: teoremas, distribuições discretas e contínuas, distribuições conjuntas, momentos populacionais. Princípios de Estatística e amostragem. Estimação pontual de parâmetros. Estatística descritiva. Distribuições amostrais. Teorema do limite central. Variáveis 3 aleatórias Qui-quadrado e t de Student. 4 Prova Propriedades dos estimadores. Intervalos de coniança 5 (estimação por intervalo). Tamanho da amostra. 6 Teste de Hipóteses 7 Inerência baseada em amostras 8 Prova
Programa do curso: SEMANA CONTEÚDO 9 Teste de aderência e análise de dados categorizados 0 Distribuição F de Snedcor. Análise de variância (ANOVA) Princípios de eperimentação e algumas aplicações em engenharia Prova 3 Regressão linear simples. Estimação dos parâmetros pelo método dos mínimos quadrados. Coeiciente de determinação. Aplicações de modelos de regressão linear. Hipóteses de um 4 modelo de regressão. Estimação de parâmetros pelo método da máima verossimilhança. Inerência em análise de regressão. 5 Previsão utilizando regressão linear simples. Regressão linear múltipla. 6 Prova
Avaliação: 4 Provas ( por bimestre) Eame: Trabalho (individual) Bibliograia: Devore, J.L. (000), Probability and Statistics or Engineering and the Sciences, 5 th edition. Dubury Thomson Learning. Devore, J.L. (006), Probabilidade e Estatística para Engenharia e Ciências, Tradução da 6 a edição, Thomson. Walpole, R., Myers, R., Myers, S. e Ye, K. (009), Probabilidade e Estatística para engenharia e ciências, 8 a edição, Pearson. Site: http:// www.mec.ita.br/~rodrigo/
MOQ-3 ESTATÍSTICA REVISÃO DE PROBABILIDADE Proessor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo
Objetivo: Fazer uma breve revisão dos conceitos de modelos probabilísticos Tópicos:. Teoremas da probabilidade (TPT e TBayes) e independência.. Distribuições de probabilidade (univariadas). 3. Momentos (valor esperado, variância). 4. Distribuições conjuntas (multivariadas). Covariância. Correlação. Independência estatística. 5. Distribuição normal (univariada, bivariada e multivariada)
Teoremas da probabilidade: Teorema da probabilidade total: sejam E, E,, E n partições do espaço amostral e F um evento qualquer, então: P( F) = n i= P( E ). P ( F \ ) i E i Teorema de Bayes: sejam E, E,, E n partições do espaço amostral e F um evento qualquer, então: P( E j \ F) = n P( E i= j P( E ). P i ( F \ E ) ). P j ( F \ E ) i Auilia na estimação da probabilidade a posteriori a partir de uma probabilidade a priori.
Variáveis aleatórias unidimensionais: V.As são unções que associam números reais aos eventos de um espaço amostral (mapeiam o espaço amostral na reta real). X: Ω R Ω A X(A) O uso de variáveis aleatórias equivale a descrever os resultados de um eperimento aleatório por meio de números ao invés de palavras, o que apresenta a vantagem de possibilitar melhor tratamento matemático. R
Função de densidade de probabilidade (.d.p.): Também conhecida como unção de distribuição de probabilidade. Caso DISCRETO: a distribuição é caracterizada por uma.d.p. que associa probabilidades não-nulas aos possíveis valores da variável aleatória e zero aos demais. Caso CONTÍNUO: a distribuição é caracterizada por uma.d.p. que deverá obedecer as seguintes propriedades: b a + ( ) ( ) d = P( a X b) ( ) 0 d =, b > a
Parâmetro de posição: valor esperado Também conhecido por esperança e média. Caracteriza o centro (centro de massa) de uma distribuição. CASO DISCRETO: CASO CONTÍNUO: µ = Propriedades do valor esperado: ( X ) P( ) = E. i i i + ( X ) = ( ) µ = E. d E [K] = K E [ ± y] = E[] ± E[y] E [a+b] = a.e[]+b
Parâmetro de dispersão: variância Caracteriza o momento de inércia baricêntrico de uma distribuição. VAR ( X ) = σ ( X ) = E ( X µ ) [ ] = E( X ) E( ) X CASO DISCRETO: ( X ) ( µ ) P( ) Var. = i i i CASO CONTÍNUO: Desvio-padrão: σ() = σ = (σ ) ½ + ( X ) ( µ ) ( ) Var =. d Propriedades da variância: σ (k) = 0 σ (k.) = k. σ () σ (+k) = σ ()
Distribuição Normal [X~N(µ,σ )]: Uma variável aleatória X tem distribuição Normal se sua.d.p. é: ( ) = e πσ µ σ, < < R µ R (- < µ < ) σ R+ (σ > 0) Propriedades: σ = ½ σ = E [X] = µ Var [X] = σ Forma de sino centrado em µ Simétrica Achatamento depende de σ σ = Há um único máimo global em = µ () é crescente para < µ µ () é decrescente para > µ
Variáveis aleatórias bidimensionais: Seja um eperimento e seu espaço amostral. Sejam =X(A) e y= Y(A) duas unções cada uma associando um número real, para cada resultado A Ω, então (X,Y) é uma variável aleatória bidimensional. X: Ω R Ω A X(A) Y(A) R R
Função de densidade de probabilidade (.d.p.): Caso DISCRETO: p (, y) y p 0 (, y) = P( X =, Y = y) = p(, y) Caso CONTÍNUO: (, y) + + 0 (, y) ddy = P[( X, Y A)] = A (, y) para qualquer região A no ddy plano y
Distribuição de Probabilidade Marginal: Para cada variável bidimensional (X,Y) associaremos duas variáveis aleatórias unidimensionais chamadas Distribuições Marginais de X e Y, respectivamente. Caso Discreto: p( i ) = P[X= i ] = Σ p( i,y j ) p(y j ) = P[Y=y j ] = Σ p( i,y j ) j i Caso Contínuo: Deinem-se g e h, respectivamente, as unções de densidade marginais de X e de Y como: () + = (, y)dy e y(y) + = (, y)d
Variáveis aleatórias independentes (independência estatística): Caso Discreto: seja (X,Y) uma variável aleatória bidimensional, dizemos que X e Y são variáveis aleatórias independentes se e somente se: p( i,y j ) = p( i ). p(y j ), i e j Caso Contínuo: seja (X,Y) uma variável aleatória bidimensional, dizemos que X e Y são variáveis aleatórias independentes se e somente se: (,y) = (). y (y), (,y)
Covariância: A covariância é uma medida de relação entre duas variáveis. Deine-se covariância por: Cov [ ] = E[ ( µ )( y )] = E( XY ) E( X ). E( ) ( X Y ) σ = E ( E( X ))( y E( Y )), = µ Y XY y y y Nestes casos X e Y variam µ y µ y conjuntamente de orma linear (a covariância será alta) µ µ y y Nestes casos, não eiste relação ou µ y a relação não é linear (a covariância será baia) µ
Coeiciente de Correlação (ρ): O inconveniente da covariância como medida é sua dependência das unidades de medida das variáveis. Foi necessário criar uma medida adimensional Coeiciente de Correlação dado por: Propriedades: - ρ XY ( X, Y ) ρ Cov σ XY XY = σ σ = σ σ Se X e Y são independentes, então ρ XY =0 Se X e Y estão ligadas por uma relação linear, então ρ XY = ± ρ (ax+b,cy+d) = ρ XY X Y X Y
Distribuição Normal Bivariada [X~N(µ,Σ)]: em que µ é um vetor e Σ é uma matriz ( ) ( ) ( )( ) + =,,, ep, σ σ µ µ ρ σ µ σ µ ρ ρ σ πσ < <,, sua.d.p. depende de 5 parâmetros: µ, µ, σ, σ e ρ, Propriedades: As distribuições marginais de e de se distribuem conorme uma normal univariada Se ρ, =0 então as variáveis aleatórias são independentes
Variáveis aleatórias multidimensionais: Seja um eperimento e seu espaço amostral. Sejam =X(A), y= Y(A),, z = Z(A) n unções cada uma associando um número real, para cada resultado A Ω, então (X,Y,, Z) é uma variável aleatória multidimensional. X: Ω R Ω A... X(A)... Z(A) R R
Função de densidade de probabilidade (.d.p.): Caso DISCRETO: p (, y,..., z)...... p y z P( X =, Y 0 (, y,..., z) = y,..., Z = = z) = p(, y,..., z) Caso CONTÍNUO: (, y,..., z) + +... 0 (, y,..., z) ddy... dz = P[( X, Y,..., Z A)] =... A (, y,..., z) ddy... dz para qualquer região A no espaço multidmensional y... z
Variáveis aleatórias multidimensionais: Independência: seja (X,Y,,Z) uma variável aleatória multidimensional (p-dimensional), dizemos que X, Y, e Z são variáveis aleatórias independentes se e somente se: p( i,,z j ) = p( i ).p(y l ) p(z j ), i,, j (caso discreto) (,,z) = (). y (y) z (z), (,,z) (caso contínuo) Valor esperado Vetor (p) Covariância Matriz de variâncias e covariâncias (pp) Correlação Matriz de correlações (pp)
Distribuição Normal Multivariada [X~N(µ,Σ)]: em que µ é um vetor p e Σ é uma matriz pp ( ) ( ) ( ) ( ) Σ Σ = µ µ π T p ep, R Casos: p= p= ) ( = σ µ πσ e ( ) ( ) ( )( ) + =,,, ep, σ σ µ µ ρ σ µ σ µ ρ ρ σ πσ
Para casa: Lista de Eercícios (site: www.mec.ita.br/~rodrigo/) Leitura: Devore ou Walpole et al. caps. a Teto: Data Mining: An Industrial Research Perspective