Econometria Aplicada com uso do R Alexandre Rodrigues Loures Universidade Federal da Paraíba Centro de Ciências Sociais Aplicadas Programa de Pós-Graduação em Economia 10 de maio de 2015
LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 2
Capítulo 1 Introdução 1.1 Funções básicas do R 1.1.1 Usando o R como uma calculadora Pode-se utilizar a linha de comando do R para realizar as quatro operações matemática básicas e outras operações simples. ## Exemplos: ## realizando uma soma 2+2 ## [1] 4 ## realizando uma subtração 15-3 ## [1] 12 ## realizando uma multiplicação 2*8 ## [1] 16 ## realizando uma divisão 35/7 ## [1] 5 3
CAPÍTULO 1. INTRODUÇÃO ## extraindo a raiz quadrada sqrt(16) ## [1] 4 Tambem é possível utilizá-la para realizar operações mais complexas. ## Exemplos: ## calculando o neperiano de 8 log(8) ## [1] 2.079442 ## calculando o logaritmo na base 10 de 8 log(8,10) ## [1] 0.90309 ## calculando o logaritmo na base 5 de 8 log(8,5) ## [1] 1.29203 ## calculando a tangente de 9 tan(9) ## [1] -0.4523157 Outra funcionalidade do R é poder atribuir um valor qualquer a um objeto e depois utilizá-lo para fazer tanto operações simples quanto complexas. ## Exemplos: ## igualando a divisão de 200 por 10 à "q" q<-200/10 ## obtendo o resultado da divisão anterior q LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 4
1.1. FUNÇÕES BÁSICAS DO R ## [1] 20 ## multiplicando o objeto "q" por 2 q*2 ## [1] 40 ## obtendo o seno do objeto "q" sin(q) ## [1] 0.9129453 ## somando 30 ao objeto "q" q+30 ## [1] 50 ## subtraindo o objeto "q" de 100 100-q ## [1] 80 LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 5
CAPÍTULO 1. INTRODUÇÃO LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 6
Capítulo 2 Estatística Básica 2.1 Medidas de posição 2.1.1 Médias Média aritmética simples Média aritmética simples é a soma dos valores de uma série dividido pelo número total de elementos dessa série. Essa é a média mais utilizada no dia a dia. Sendo a representação matemática como se segue: n x = n em que: x i é cada elemento da série; e n é o número de elementos da série. Para calcular a média aritmética simples no R utiliza-se a seguinte sintaxe: i=1 x i (2.1) ## Exemplo: ## criando uma série de dados qualquer x<-c(15,40,10,25,26,33) ## sintaxe para calcular a média aritmética simples mean(x) ## [1] 24.83333 Média geométrica Média geométrica é a média das médias e é igual a raiz n ésima do produto (multiplicação) entre os elementos de uma série cuja representação matemática é 7
CAPÍTULO 2. ESTATÍSTICA BÁSICA como se segue: g = n x 1 x 2 x n (2.2) ou g = (x 1 x 2 x n ) 1 n (2.3) em que: x i é cada elemento da série; e n é o número de elementos da série. Há alguns packages no R que possuem uma sintaxe para o cálculo da média geométrica, contudo, pode-se lembrar da fórmula dessa média e calculá-la diretamente sem o uso de um comando específico para esse cálculo. ## Exemplo: ## criando uma série de dados qualquer x<-c(15,40,10,25,26,33) ## fazendo o produto interno dos elementos de "x" prod(x) ## [1] 128700000 ## número de elementos da série n<-6 ## calculando a média geométrica prod(x)ˆ(1/n) ## [1] 22.46966 Média harmônica Quando se trata de grandezas inversamente proporcionais (por exemplo: custo e quantidade) utiliza-se a média harmônica. Ou seja, essa é aplicada para calcular o custo médio de bens comprados com uma quantia monetária fixa, a velocidade média, etc.. Pois custo médio é igual a C = P q e velocidade média é igual a V = d t, isto é, o custo é inversamente proporcional à quantidade e a velocidade e inversamente proporcional ao tempo. A fórmula da média harmônica é: LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 8
2.1. MEDIDAS DE POSIÇÃO n h = (2.4) 1 x 1 + 1 x 2 + + 1 x n em que: x i é cada elemento da série; e n é o número de elementos da série. Assim como para as médias aritmética simples e a geométrica há alguns packages do R que possuem uma sintaxe para o cálculo da média harmônica, entretanto, não há necessidade de instalá-los para executar esse cálculo, basta entender a fórmula e aplicá-la manualmente no R. ## Exemplo: ## criando uma série de dados qualquer x<-c(15,40,10,25,26,33) ## dividindo 1 (um) por cada elemento do objeto "x" a<-1/x ## somando os elementos do objeto "a" b<-sum(a) ## número de elementos da série n<-6 ## calculando a média harmônica n/b ## [1] 19.97129 2.1.2 Mediana A mediana de uma série de dados qualquer separa a metade inferior da metade superior. Isto é, 50% da série terão valores inferiores ou iguais à mediana e os outros 50% da série terão valores superiores ou iguais à mediana. Há duas observações que precisam ser feitas. Primeiramente, é que os dados devem ser trabalhados ordenadamente (pode ser ordem crescente ou decrescente), ou seja, não se deve trabalhar com dados brutos, isto é, sem ordenação. Por exemplo, uma série de dados brutos {7,9,1,5,3} precisa ser ordenada {1,3,5,7,9} ou {9,7,5,3,1}. Segundo, deve verificar se o número de termos da série é par ou ímpar, pois haverá uma fórmula de cálculo distinta para cada uma das situações. como uma última observação, as LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 9
CAPÍTULO 2. ESTATÍSTICA BÁSICA fórmulas aplicadas no cálculo da mediana não reporta o valor mediano, mas sim, a posição em que se encontra o valor mediano. E de posse dessas posições retorna-se à série de dados para localizar a mediana. Se o número de termos da série dada for par a mediana será o termo de ordem dado pela fórmula: P Md = n+1 2. Se o número de termos da série dada for ímpar a mediana será a média aritmética simples dos termos de ordem dados pelas fórmulas: P Md = n 2 e P Md = n 2 + 1. em que: P Md é a posição do valor mediano na série; e n é o número de elementos da série. Exemplo 2.1: Qual a mediana da série {1,3,5,7,9}? (Note que a série já está ordenada, isto é, não são dados brutos) Uma vez que o número de termos da série é ímpar aplica-se apenas a fórmula P Md = n+1. Então, 2 P Md = 5 + 1 2 = 6 2 = 3 Logo, o valor mediano encontra-se na 3 ọ posição, ou seja, a mediana é M d = 5. Exemplo 2.2: Qual a mediana da série {1,3,5,7,9,10}? (Note que a série já está ordenada, isto é, não são dados brutos) Agora o número de termos da série é par e, portanto, aplica-se as duas fórmulas: P Md = n e P 2 M d = n + 1. Sendo assim, 2 e P Md = 6 2 = 3 P Md = 6 2 + 1 = 3 + 1 = 4 Então, o valor mediano será a média aritmética simples dos valores que se encontram na 3 ọ e 4 ọ posições e que são, respectivamente, 5 e 7. x = 5 + 7 2 = 12 2 = 6 LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 10
2.1. MEDIDAS DE POSIÇÃO Logo, a mediana é igual à M d = 6. Contudo, no R os valores reportados para a sintaxe da mediana são os valores medianos correspondentes à série de dados. ## Exemplo: ## criando a série de dados a<-c(1,3,5,7,9) ## calculando a mediana da série median(a) ## [1] 5 Para a outra série tem-se: ## Exemplo: ## criando a série de dados b<-c(1,3,5,7,9,10) ## calculando a mediana da série median(b) ## [1] 6 2.1.3 Moda A moda é o valor da série que mais ocorre, ou seja, aquele com maior frequência. Contudo, em uma série pode ser que não haja nenhum termo que se repete e, sendo assim, tal série é denominada de amodal. Por sua vez, se dois elementos ocorrem com maior frequência a série é chamada de bimodal e nos casos em que houver mais de dois elementos que repetem tem-se uma série multimodal ou polimodal. No R há duas formas para se calcular a moda. Se a série for pequena, facilitando a identificação visual da moda, utilizase a sintaxe table(nome da série) que reportará os termos da série e, abaixo desses, apresentará a frequência com que cada um ocorre. Mas para os casos em que a série é muito grande, o que dificultará a identificação visual, usa-se a sintaxe subset(table(nome da série),table(nome da série)==max(table(nome da série))) cuja saída apresentará o termo modal e abaixo desse a frequência com qual ocorre. LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 11
CAPÍTULO 2. ESTATÍSTICA BÁSICA ## Exemplo: ## criando uma série de dados w<-c(1,2,3,4,4,4,5,6,7) ## encontrando visualmente a moda da série table(w) ## w ## 1 2 3 4 5 6 7 ## 1 1 1 3 1 1 1 Ou ainda pode-se utilizar uma função que irá reportar o valor da moda, ou seja, irá reportar apenas o valor modal e não a frequência para cada um dos elementos da série. ## Exemplo: ## criando uma série de dados z<-c(1,2,3,4,4,4,5,6,7) ## encontrando a moda da série subset(table(z),table(z)==max(table(z))) ## 4 ## 3 LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 12
Capítulo 3 Regressão Linear Simples A análise de regressão linear simples estuda a relação linear entre duas variáveis quantitativas. Sendo uma denominada de variável dependente e a outra de variável independente. Essa análise é realizada sob dois pontos de vista distintos: 1. regressão que expressa a forma da relação linear entre as duas variáveis; e 2. correlação que quantifica a força dessa relação. Essa relação é representada por um modelo matemático, isto é, por uma equação que irá associar a variável explicada com a variável explicativa. Sendo a representação matemática dessa associação como se segue: Y = β 0 + β 1 X + µ (3.1) em que: Y é a variável explicada ou dependente que será calculada e por isso mesmo é aleatória; β 0 e β 1 são os parâmetros desconhecidos do modelo que irão ser calculados. Quando se está trabalhando com a população se diz que esses são as estimativas, contudo, se estiver trabalhando com uma amostra se diz que esses são os estimadores dos verdadeiros valores; X é a variável explicativa ou independente medida sem erro, isto é, sem aleatoriedade; e µ é a variável aleatória residual na qual encontram-se todas as outras variáveis que influenciam o comportamento da variável dependente Y e que não foram incluídas no modelo matemático. Ou seja, são influências sobre a variável explicada Y que não podem ser explicadas linearmente pelo comportamento da variável explicativa X. Exemplo 3.1: Será utilizada a Tabela I.1 do livro Econometria Básica, tradução da 4ª edição, de Damodar Gujarati. ## Exemplo: ## criando um data.frame com os dados da Tabela I.1 13
CAPÍTULO 3. REGRESSÃO LINEAR SIMPLES cons_pessoal<-data.frame( ano=c(1982,1983,1984,1985,1986,1987,1988, 1989,1990,1991,1992,1993,1994,1995,1996), dcp=c(3081.5,3240.6,3407.6, 3566.5,3708.7,3822.3,3972.7,4064.6,4132.2,4105.8,4219.8,4343.6,4486.0, 4595.3,4714.1), pib=c(4620.3,4803.7,5140.1,5323.5,5487.7,5649.5,5865.2, 6062.0,6136.3,6079.4,6244.4,6389.6,6610.7,6742.1,6928.4) ) ## chamando o data.frame criado cons_pessoal ## ano dcp pib ## 1 1982 3081.5 4620.3 ## 2 1983 3240.6 4803.7 ## 3 1984 3407.6 5140.1 ## 4 1985 3566.5 5323.5 ## 5 1986 3708.7 5487.7 ## 6 1987 3822.3 5649.5 ## 7 1988 3972.7 5865.2 ## 8 1989 4064.6 6062.0 ## 9 1990 4132.2 6136.3 ## 10 1991 4105.8 6079.4 ## 11 1992 4219.8 6244.4 ## 12 1993 4343.6 6389.6 ## 13 1994 4486.0 6610.7 ## 14 1995 4595.3 6742.1 ## 15 1996 4714.1 6928.4 ## obtendo as estatisticas descritvas dos dados summary(cons_pessoal$dcp) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 3082 3638 4065 3964 4282 4714 summary(cons_pessoal$pib) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 4620 5406 6062 5872 6317 6928 ## anexando a base a area de trabalho attach(cons_pessoal) ## plotando um gráfico para os valores y e x plot(pib,dcp) LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 14
dcp 3500 4000 4500 5000 5500 6000 6500 7000 pib ## adicionando a reta estimada da regressão plot(pib,dcp) abline(lm(dcp pib),col="red",lwd=2) LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 15
CAPÍTULO 3. REGRESSÃO LINEAR SIMPLES dcp 3500 4000 4500 5000 5500 6000 6500 7000 pib ## estimando a regressão simples entre dcp e pib reg<-lm(dcp pib) ## chamando a regressão linear simples entre dcp e pib reg ## ## Call: ## lm(formula = dcp pib) ## ## Coefficients: ## (Intercept) pib ## -184.0780 0.7064 ## chamando o sumário da regressão linear simples entre dcp e pib LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 16
summary(reg) ## ## Call: ## lm(formula = dcp pib) ## ## Residuals: ## Min 1Q Median 3Q Max ## -39.330-8.601 1.761 14.769 31.306 ## ## Coefficients: ## Estimate Std. Error t value Pr(> t ) ## (Intercept) -1.841e+02 4.626e+01-3.979 0.00157 ** ## pib 7.064e-01 7.827e-03 90.247 < 2e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 20.29 on 13 degrees of freedom ## Multiple R-squared: 0.9984,Adjusted R-squared: 0.9983 ## F-statistic: 8145 on 1 and 13 DF, p-value: < 2.2e-16 LOURES, A. R. UNIVERSIDADE FEDERAL DA PARAÍBA 17