Regressão Linear. Prof. Dr. Leandro Balby Marinho. Análise de Dados II. Introdução Regressão Linear Regressão Múltipla

Documentos relacionados
Métodos de reamostragem

INTRODUÇÃO A ECONOMETRIA

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani

Análise de Regressão Linear Simples e

Modelos de Regressão Linear Simples - parte III

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Virgílio A. F. Almeida DCC-UFMG 2005

Modelos de Regressão Linear Simples - parte II

Instituto Federal Goiano

Análise de regressão linear simples. Diagrama de dispersão

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

Prof. Lorí Viali, Dr.

Correlação e Regressão

Lucas Santana da Cunha de julho de 2018 Londrina

Definição Há correlação entre duas variáveis quando os valores de uma variável estão relacionados, de alguma maneira, com os valores da outra variável

Introdução ao modelo de Regressão Linear

Introdução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

Regression and Clinical prediction models

AULAS 14 E 15 Modelo de regressão simples

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Estatística Aplicada II. } Regressão Linear

Modelos de Regressão Linear Simples - parte I

Regressão linear simples

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Capítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Coeficiente de determinação R 2 no modelo de regressão linear normal

Fundamentos de Aprendizagem Estatística: Regressão

ECONOMETRIA I. I (12 valores)

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Análise de Regressão EST036

ANÁLISE DE REGRESSÃO

Gradiente descendente

Modelos de Regressão Linear Simples parte I

AULA 03 Análise de regressão múltipla: estimação

Regressão Linear - Parte I

Modelos de Regressão Linear Simples - Análise de Resíduos

Disciplina de Modelos Lineares Professora Ariane Ferreira

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Instituto Federal Goiano

REGRESSÃO LINEAR SIMPLES E MÚLTIPLA

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

BIOESTATÍSTICA. Análise de regressão

AULAS 17 E 18 Análise de regressão múltipla: estimação

Modelos de regressão para dados correlacionados. Cibele Russo

Multicolinariedade e Autocorrelação

Regressão Linear Multivariada

Exercícios Selecionados de Econometria para Concursos Públicos

Planejamento de Experimentos

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

REGRESSÃO LINEAR SIMPLES

Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Econometria I Lista 4: Inferência

Árvores de decisão e seus refinamentos na predição genômica da resistência à ferrugem alaranjada em café arábica

Ajustamento de Observações

AULA 8 - MQO em regressão múltipla:

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo

Estatística Aplicada

Modelos de Regressão Linear Simples - Análise de Resíduos

AULAS 14 E 15 Modelo de regressão simples

Regressão Linear Simples

Associação entre duas variáveis

Análise Multivariada Aplicada à Contabilidade

Prova # SUB 15 junho de 2015

Métodos baseados em árvores

Módulo 16- Análise de Regressão

Modelo de Regressão Múltipla

ME613 - Análise de Regressão

Distribuições Amostrais - Tamanho da Amostra

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

Ralph S. Silva

APRENDIZAGEM DE MÁQUINA

Planejamento de Experimentos

Regressão linear simples

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

BIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES

FACULDADE DE ECONOMIA DO PORTO. Licenciatura em Economia E C O N O M E T R I A II

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

Correlação e Regressão Linear

Na aula do dia 24 de outubro analisamos duas variáveis quantitativas conjuntamente com o objetivo de verificar se existe alguma relação entre elas.

Regressão linear múltipla. Regressão linear múltipla

Processamento de erros grosseiros - Identiمحcaچcﷺao

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Análise de Regressão

Seleção de Variáveis e Construindo o Modelo

REGRESSÃO E CORRELAÇÃO

Análise de Regressão EST036

Introdução. Teste e avaliação de modelos. Teste e avaliação de modelos. Teste de modelos. Avaliação de modelos

Prof.: Eduardo Vargas Ferreira

REGRESSÃO LINEAR. Introdução a Estatítica Aplicada a Climatologia Programa de Pós Graduação em Geografia Física Universidade de São Paulo

29 e 30 de julho de 2013

Análise de dados em Geociências

Transcrição:

Regressão Linear Prof. Dr. Leandro Balby Marinho Análise de Dados II Prof. Leandro Balby Marinho 1 / 36 UFCG DSC

Roteiro 1. Introdução 2. Regressão Linear 3. Regressão Múltipla Prof. Leandro Balby Marinho 2 / 36 UFCG DSC

Aprendizagem de Máquina Exemplo: Predição de Salário Anos de Escolaridade Salário Anual 8 26.000 8 21.000 10 26.000 11 36.000...... Dado que eu tenho x anos de escolaridade, qual será meu salário? Prof. Leandro Balby Marinho 2 / 36 UFCG DSC

Componentes da Aprendizagem Entrada: x (Anos de Educação) Saída: y (salário) Função alvo: f : X Y (função ideal de predição de salário) Dados de Treino: D train := {(x 1, y 1 ),..., (x N, y N )} (registros históricos) Hipótese: g : X Y Prof. Leandro Balby Marinho 3 / 36 UFCG DSC

Componentes da Aprendizagem [Yaser, 2012] Prof. Leandro Balby Marinho 4 / 36 UFCG DSC

Anos de Educação vs. Salário Income 20 30 40 50 60 70 80 Income 20 30 40 50 60 70 80 10 12 14 16 18 20 22 Years of Education 10 12 14 16 18 20 22 Years of Education Y = f (X ) + ɛ: ɛ é o erro que não depende de X e tem média 0. Prof. Leandro Balby Marinho 5 / 36 UFCG DSC

Predição e Inferência Na predição queremos predizer Ŷ = ˆf (X ), onde ˆf é um estimador para f e Ŷ as predições resultantes. A acurácia de Ŷ depende de duas quantidades: erro redutível e irredutível. Erro redutível: decorrente de ˆf, pode ser melhorado. Erro irredutível: associado a ɛ e independente de X. Na inferência queremos investigar a relação entre X e Y : Que preditores estão relacionados com a variável resposta? Qual a relação entre eles? Essa relação pode ser sumarizada usando uma equação linear? Prof. Leandro Balby Marinho 6 / 36 UFCG DSC

Mensurando a qualidade do modelo Dado um conjunto de treino D train, uma função de perda/custo l : Y Y R que calcula quão ruim é ŷ se o valor real é y, queremos encontrar ˆf tal que para um conjunto de teste D test (desconhecido durante o treino), o erro no teste seja mínimo. err(ˆf ; D test ) := 1 D test (x,y) D test l(ˆf (x), y) Quando l := (ˆf (x) y) 2 denominamos o erro de Mean Squared Error (MSE). Prof. Leandro Balby Marinho 7 / 36 UFCG DSC

Erro no Treino vs. Erro no Teste Um baixo erro no treino nem sempre é uma boa estimativa para o erro no testo. Y 2 4 6 8 10 12 Mean Squared Error 0.0 0.5 1.0 1.5 2.0 2.5 0 20 40 60 80 100 X 2 5 10 20 Flexibility Prof. Leandro Balby Marinho 8 / 36 UFCG DSC

Erro no Treino vs. Erro no Teste Um baixo erro no treino nem sempre é uma boa estimativa para o erro no testo. Y 2 4 6 8 10 12 Mean Squared Error 0.0 0.5 1.0 1.5 2.0 2.5 0 20 40 60 80 100 X 2 5 10 20 Flexibility Prof. Leandro Balby Marinho 8 / 36 UFCG DSC

Erro no Treino vs. Erro no Teste Um baixo erro no treino nem sempre é uma boa estimativa para o erro no testo. Y 10 0 10 20 Mean Squared Error 0 5 10 15 20 0 20 40 60 80 100 X 2 5 10 20 Flexibility Prof. Leandro Balby Marinho 8 / 36 UFCG DSC

O Trade-O Bias-Variância Variância se refere à quantidade de mudança em ˆf caso ele fosse estimado em um conjunto de treino diferente. Bias se refere ao erro associado ao grau de simplicação do modelo em relação ao problema que pode ser muito mais complexo. Para um dado x 0 o MSE pode ser decomposto em três quantidades: ( E y 0 ˆf ) 2 ) (x 0 ) = Var (ˆf (x0 ) } {{ } } {{ } MSE Variância [ + )] 2 Bias (ˆf (x0 ) } {{ } Bias + Var(ɛ) }{{} Erro irredutível Prof. Leandro Balby Marinho 9 / 36 UFCG DSC

O Trade-O Bias-Variância 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 0 5 10 15 20 MSE Bias Var 2 5 10 20 Flexibility 2 5 10 20 Flexibility 2 5 10 20 Flexibility Prof. Leandro Balby Marinho 10 / 36 UFCG DSC

Roteiro 1. Introdução 2. Regressão Linear 3. Regressão Múltipla Prof. Leandro Balby Marinho 11 / 36 UFCG DSC

Vendas vs. Propaganda Há uma relação entre investimento em propaganda e vendas? Se sim, quão forte? Essa relação é linear? Que tipo de propaganda mais contribui para as vendas? Podemos predizer vendas com alta precisão? 10 20 0 100 200 300 TV vendas Prof. Leandro Balby Marinho 11 / 36 UFCG DSC

Vendas vs. Propaganda Há uma relação entre investimento em propaganda e vendas? Se sim, quão forte? Essa relação é linear? Que tipo de propaganda mais contribui para as vendas? Podemos predizer vendas com alta precisão? 10 20 0 100 200 300 TV vendas Prof. Leandro Balby Marinho 11 / 36 UFCG DSC

Regressão Linear Simples Na regressão linear, asume-se que a relação entre a variável de entrada e saída é linear, ou seja. Y β 0 + β 1 X onde β 0 e β 1 são chamados de parâmetros (ou coecientes) do modelo. Para que servem os parâmetros? Prof. Leandro Balby Marinho 12 / 36 UFCG DSC

y y Parâmetros do Modelo β 0... β 1... Coeciente linear Coeciente angular 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 y 0.0 0.5 1.0 1.5 2.0 2.5 3.0 x 0.0 0.5 1.0 1.5 2.0 2.5 3.0 x 0.0 0.5 1.0 1.5 2.0 2.5 3.0 x β 0 = 0, β 1 = 1.5 β 0 = 0.5, β 1 = 0 β 0 = 0.5, β 1 = 1.5 Prof. Leandro Balby Marinho 13 / 36 UFCG DSC

Regressão como um Problema de Otimização Sales 5 10 15 20 25 0 50 100 150 200 250 300 TV Ideia: Escolha β 0, β 1 tal que ˆf (x) y nos dados de treino. Especicamente, escolha β 0, β 1 tal que o erro no treino (ˆf (x) y ) 2 err(ˆf ; D train ) := 1 n (x,y) D train seja mínimo (aka Residual Sum of Squares (RSS)). Esse método também é chamado de mínimios quadrados ou Ordinary Least Squares (OLS) Prof. Leandro Balby Marinho 14 / 36 UFCG DSC

Forma da Função de Erro RSS β 1 β 0 Prof. Leandro Balby Marinho 15 / 36 UFCG DSC

Estimativa dos Coecientes Podemos achar os parâmetros ótimos de forma fechada, igualando suas derivadas a 0. ˆβ 0 = ȳ ˆβ 1 x ˆβ 1 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 Também chamadas de equações normais. Prof. Leandro Balby Marinho 16 / 36 UFCG DSC

Algoritmo Regressão Simples RegSimples(D train ) 1 tmp x = 0 2 tmp y = 0 3 for i = 1 to n 4 tmp x = tmp x + x i 5 tmp y = tmp y + y i 6 x = tmp x /n 7 ȳ = tmp y /n 8 a = 0 9 b = 0 10 for i = 1 to n 11 a = a + (x i x)(y i ȳ i ) 12 b = b + (x i x) 2 13 β 1 = a/b 14 β 0 = ȳ β 1 x 15 return (β 0, β 1 ) Prof. Leandro Balby Marinho 17 / 36 UFCG DSC

Acurácia dos Coecientes Estimados Quando ˆβ 0 e ˆβ 1 são estimados através de um conjunto de dados apenas, eles podem diferir de β 0 e β 1. Se calcularmos ˆβ 0 e ˆβ 1 sob um grande número de conjuntos de dados, então a média delas seria muito próxima a β 0 e β 1. Y 10 5 0 5 10 Y 10 5 0 5 10 2 1 0 1 2 X 2 1 0 1 2 X Prof. Leandro Balby Marinho 18 / 36 UFCG DSC

Acurácia dos Coecientes Estimados Alguns dos conceitos que ajudam a diagnosticar os coecientes estimados são: Desvio Padrão: Estima a diferença entre ˆβ 1 e β 1. t-statistic: Número de desvios padrão de β 1 em relação a 0. p-valor: Probabilidade da relação entre X e Y existir por chance. Coeciente Std. Error t-statistic p-valor β 0 7,0325 0,4578 15,36 < 0, 0001 TV 0,0475 0,0027 17,67 < 0, 0001 Sumário da regressão para vendas vs. propaganda em tv. Prof. Leandro Balby Marinho 19 / 36 UFCG DSC

Desvio Padrão dos Resíduos O desvio padrão dos resíduos (RSE) determina a variabilidade inerente ao modelo de regressão. Preco 150000 200000 250000 Peso do Cerebro 0 100 200 300 400 500 500 600 700 800 900 Tamanho 0 100 200 300 400 500 600 700 Peso do Corpo Qual conjunto de dados tem maior variabilidade em relação ao modelo? Prof. Leandro Balby Marinho 20 / 36 UFCG DSC

Desvio Padrão dos Resíduos A estimativa do RSE é dada por 1 n 2 (x,y) D train (ˆf (x) y) 2 onde n 2 é o número de graus de liberdade associados à estimativa. Ou seja, como β 0, β 1 devem ser estimados primeiro, há uma perda de dois graus de liberdade. Prof. Leandro Balby Marinho 21 / 36 UFCG DSC

Impacto da Unidade de Medida no RSE A escala de valores Y inuencia na magnitude da variância. Peso 76 77 78 79 80 81 σ 2 = 0.075 Preco 150000 200000 250000 σ 2 = 155500900 18 19 20 21 22 23 24 25 500 600 700 800 900 Idade Tamanho Qual conjunto de dados é melhor explicado pelo modelo? Prof. Leandro Balby Marinho 22 / 36 UFCG DSC

Soma Total de Variação n Lembre que a soma total dos resíduos RSS = (y i ŷ i ) 2. A variação de Y antes da regressão é dada por: TSS = (y ȳ) 2 (x,y) D train Normalmente RSS < TSS. i=1 Prof. Leandro Balby Marinho 23 / 36 UFCG DSC

RSS vs. TSS A razão RSS/TSS é a proporção da variação total inexplicada pelo modelo. Prof. Leandro Balby Marinho 24 / 36 UFCG DSC

Coeciente de Determinação O coeciente de determinação, representado por R 2, é dado por R 2 = 1 RSS TSS e denota a proporção da variação de Y nos dados de treino que pode ser explicada pelo modelo. Quanto mais próximos a 1 forem os valores de R 2, mais o modelo consegue explicar a variação em Y. Prof. Leandro Balby Marinho 25 / 36 UFCG DSC

Correlação X e Y tem uma relação positiva se valores grandes de X estiverem pareados com valores grandes de Y, negativa se valores grandes de X estiverem pareados com valores pequenos de Y. Prof. Leandro Balby Marinho 26 / 36 UFCG DSC

Coeciente de Correlação Amostral O coeciente de correlação amostral entre os valores de X e Y é dado por: r = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 (y i ȳ) 2 r = 1 ou r = 1, se e somente se, todos os pontos estiverem na reta com coeciente angular positivo ou negativo resp. O quadrado do coeciente amostral fornece o coeciente de determinação. Prof. Leandro Balby Marinho 27 / 36 UFCG DSC

Acurácia da Regressão Sales 5 10 15 20 25 0 50 100 150 200 250 300 TV Considerando o exemplo das vendas vs propaganda em TV, nós temos: Métrica Valor RSE 3,26 R 2 0,612 Prof. Leandro Balby Marinho 28 / 36 UFCG DSC

Roteiro 1. Introdução 2. Regressão Linear 3. Regressão Múltipla Prof. Leandro Balby Marinho 29 / 36 UFCG DSC

Regressão Múltipla Como usar as outras variáveis disponíveis no modelo de regressão? Sales 5 10 15 20 25 Sales 5 10 15 20 25 Sales 5 10 15 20 25 0 50 100 200 300 TV 0 10 20 30 40 50 Radio 0 20 40 60 80 100 Newspaper Prof. Leandro Balby Marinho 29 / 36 UFCG DSC

Regressão Múltipla Como usar as outras variáveis disponíveis no modelo de regressão? Coeciente Std. Error t-statistic p-valor β 0 9,312 0,536 16,54 < 0, 0001 radio 0,203 0,020 9,92 < 0, 0001 Sumário da regressão para vendas vs. propaganda em radio. Coeciente Std. Error t-statistic p-valor β 0 12,351 0,621 19,88 < 0, 0001 jornal 0,055 0,017 3,30 < 0, 0001 Sumário da regressão para vendas vs. propaganda em radio. Prof. Leandro Balby Marinho 30 / 36 UFCG DSC

Regressão Múltipla Adicionando um coeciente a cada variável: Y = β 0 + β 1 X 1 + β 2 X 2 +... + β p X p + ɛ Uma vez os parâmetros estimados, fazemos predição com: ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 +... + ˆβ p x p Assim como na regressão simples, os parâmetros são estimados minimizando-se o RSS (via OLS). Prof. Leandro Balby Marinho 31 / 36 UFCG DSC

Modelo de Regressão é um Hiperplano Y X 2 X 1 Prof. Leandro Balby Marinho 32 / 36 UFCG DSC

Regressão Múltipla para Vendas vs Propaganda Coeciente Std. Error t-statistic p-valor β 0 2,939 0,3119 9,42 < 0, 0001 TV 0,046 0,0014 32,81 < 0, 0001 radio 0,189 0,0086 21,89 < 0, 0001 jornal -0,001 0,0059-0,18 0,8599 Por que jornal parece não estar relacionado com vendas na regressão múltipla, mas está na simples? Prof. Leandro Balby Marinho 33 / 36 UFCG DSC

Matriz de Correlação TV radio jornal vendas TV 1,000 0,0548 0,0567 0,7822 radio 1,000 0,3541 0,5762 jornal 1,000 0,2283 vendas 1,000 Como jornal está correlacionado com radio, ele ganha crédito pelo efeito de radio nas vendas. Prof. Leandro Balby Marinho 34 / 36 UFCG DSC

F-statistic Pelo menos um dos preditores X 1, X 2,..., X p é útil em predizer a variável alvo? A estatística F responde essa pergunta. Normalmente valores maiores que 1 indica que sim. Valores próximos a 1 são mais precisos quanto maior for n. O p-valor nesse caso indica a probabilidade de nenhum predito estar associado à variável alvo. Métrica Valor RSE 1,69 R 2 0,897 F-statistic 570 Diagnóstico do modelo para vendas vs propaganda. Prof. Leandro Balby Marinho 35 / 36 UFCG DSC

Referências Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning with Applications in R. Springer, 2013. Yaser S. Abu-Mostafa, Malik Magdon-Ismail. Learning from Data. AMLBook, 2012. Prof. Leandro Balby Marinho 36 / 36 UFCG DSC