ALTERNATIVA AO USO DA REGRESSÃO LINEAR SIMPLES PARA GRANDES BASES DE DADOS

Documentos relacionados
1. CORRELAÇÃO E REGRESSÃO LINEAR

Prof. Lorí Viali, Dr.

Associação entre duas variáveis quantitativas

Gabarito da Lista de Exercícios de Econometria I

Capítulo 1. Exercício 5. Capítulo 2 Exercício

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Prof. Lorí Viali, Dr.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

PRESSUPOSTOS DO MODELO DE REGRESSÃO

Análise de Regressão

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Estatística II Antonio Roque Aula 18. Regressão Linear

O problema da superdispersão na análise de dados de contagens

Análise de Variância. Comparação de duas ou mais médias

2 Incerteza de medição

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

CORRELAÇÃO E REGRESSÃO

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Análise Exploratória de Dados

Algarismos Significativos Propagação de Erros ou Desvios

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

Análise de Regressão Linear Múltipla IV

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Cap. IV Análise estatística de incertezas aleatórias

Covariância na Propagação de Erros

7 - Distribuição de Freqüências

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Análise Exploratória de Dados

MODELOS DE REGRESSÃO PARAMÉTRICOS

Análise de Regressão Linear Múltipla VII

2. Validação e ferramentas estatísticas

Contabilometria. Aula 8 Regressão Linear Simples

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Avaliação do Modelo. Avaliação de Modelos. Métricas para avaliação de desempenho. Métricas para avaliação de desempenho 31/05/2017

ANÁLISE DA VARIÂNCIA DA REGRESSÃO

Estatística Espacial: Dados de Área

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Equações Simultâneas

Programa de Certificação de Medidas de um laboratório

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Serão abordados nesse capítulo os modelos causais, utilizados como ferramentas para o desenvolvimento e análise desse trabalho.

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

CURSO de ESTATÍSTICA Gabarito

CAPÍTULO 9 REGRESSÃO LINEAR PPGEP REGRESSÃO LINEAR SIMPLES REGRESSÃO LINEAR SIMPLES REGRESSÃO LINEAR SIMPLES UFRGS. Regressão Linear Simples

Redução dos Dados. Júlio Osório. Medidas Características da Distribuição. Tendência Central (Localização) Variação (Dispersão) Forma

Métodos Experimentais em Ciências Mecânicas

8.16. Experimentos Fatoriais e o Fatorial Fracionado

Elementos de Estatística e Probabilidades II

Modelo de Alocação de Vagas Docentes

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Reconhecimento Estatístico de Padrões

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

CAPÍTULO 2 - Estatística Descritiva

AULA 4. Segundo Quartil ( Q observações são menores que ele e 50% são maiores.

Testes não-paramétricos

Professor Mauricio Lutz CORRELAÇÃO

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 2

Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

AULA EXTRA Análise de Regressão Logística

Ajuste de Curvas Regressão. Computação 2º Semestre 2016/2017

Estudo quantitativo do processo de tomada de decisão de um projeto de melhoria da qualidade de ensino de graduação.

Estatística. 8 Teste de Aderência. UNESP FEG DPD Prof. Edgard

REGRESSÃO LINEAR ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA REGRESSÃO CURVILÍNEA FUNÇÃO QUADRÁTICA VERIFICAÇÃO DO AJUSTE A UMA RETA PELO COEFICIENTE 3 X 3

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

ÍNDICE DE CONSISTÊNCIA TEMPORAL: UM NOVO MÉTODO PARA AVALIAÇÃO DA ESTABILIDADE TEMPORAL DE ARMAZENAMENTO DE ÁGUA NO SOLO

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

Estudo e Previsão da Demanda de Energia Elétrica. Parte II

Prof. Cláudio Serra, Esp. 1. Produção de Leite x índice Pluviométrico y = 0.8x R 2 =

x Ex: A tabela abaixo refere-se às notas finais de três turmas de estudantes. Calcular a média de cada turma:

1.UNIVERSIDADE FEDERAL DE VIÇOSA, VIÇOSA, MG, BRASIL; 2.UNIVERSIDADE FEDERAL DE GOIÁS, GOIANIA, GO, BRASIL.

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

CONCEITOS INICIAIS DE ESTATÍSTICA MÓDULO 2 DISTRIBUIÇÃO DE FREQÜÊNCIA - ELEMENTOS Prof. Rogério Rodrigues

Tipo tratamento idade Tipo tratamento sexo

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

NOTA II TABELAS E GRÁFICOS

Identidade dos parâmetros de modelos segmentados

TESTE DO QUI-QUADRADO - Ajustamento

F = O modelo de Regressão Múltipla Geral é dado por: Y i = β 1 + β 2 X 1i + β 3 X 2i + +β k X ki + U i Para testar a hipótese nula de que: H

(B) Considere X = antes e Y = depois e realize um teste t para dados pareados e um teste da ANOVA de um DBC com 5 blocos. Compare os resultados.

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

AEP FISCAL ESTATÍSTICA

CAPÍTULO 7 TESTES DE HIPÓTESES

PESQUISA EM MERCADO DE CAPITAIS. Prof. Patricia Maria Bortolon, D. Sc. (colaboração de Prof. Claudio Cunha)

Análise de influência

O que heterocedasticidade? Heterocedasticidade. Por que se preocupar com heterocedasticidade? Exemplo de heterocedasticidade.

Correlação. Frases. Roteiro. 1. Coeficiente de Correlação 2. Interpretação de r 3. Análise de Correlação 4. Aplicação Computacional 5.

ANÁLISE DA RELAÇÃO ENTRE AS NOTAS DAS DISCIPLINAS DE MATEMÁTICA E FÍSICA DE ESTUDANTES DO ENSINO MÉDIO

MEDIDAS DE TENDÊNCIA CENTRAL

ESTUDO DE MODELOS PARA AJUSTE E PREVISÃO DE UMA SÉRIE TEMPORAL

Regressão Linear Múltipla. Frases. Roteiro

Capítulo XI. Teste do Qui-quadrado. (χ 2 )

Resumos Numéricos de Distribuições

Transcrição:

XXX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUÇÃO Maturdade e desafos da Engenhara de Produção: compettvdade das empresas, condções de trabalho, meo ambente. São Carlos, SP, Brasl, 1 a15 de outubro de 010. ALTERNATIVA AO USO DA RESSÃO LINEAR SIMPLES PARA GRANDES BASES DE DADOS Roberta Montello Amaral (PUC-Ro) amaralroberta@yahoo.com.br Alfredo froner (UNIFESO) alfredofroner@hotmal.com Este artgo tem o objetvo de apresentar uma nova técnca que auxle o pesqusador que trabalha com grandes amostras a concentrar sua atenção em um menor conjunto de dados que sejam, estes sm, relevantes para a tomada de decsão. Para taanto, apresenta uma solução alternatva para o problema de calcular um elevado número de regressões smples a partr de grandes bases de dados. A ferramenta ndca que se compare apenas o quadrado do coefcente de correlação de Pearson (coefcente de determnação R) com uma determnada constante g que vara em função do tamanho da amostra. Adconalmente, mesmo sem que se calculem as regressões, esta mesma ferramenta também ndca o snal dos coefcentes de correlação das equações de regressão, cujas estmações dexam de ser necessáras se não se está nteressado na magntude dos coefcentes beta. Palavras-chaves: base de dados; regressão lnear smples;correlação

1. Introdução Um grande problema com o qual a maora dos pesqusadores trabalha é com o tamanho de sua base de dados. Incar uma análse a partr de um número grande nformações pode atrapalhar e dfcultar a tomada de decsões, desvando o foco do problema que se deseja analsar. Trabalhar com bases de dados pequenas, por outro lado, pode gerar resultados estatstcamente não váldos. Enquanto trabalhar com bases de dados muto grandes pode acabar gerando confusões a partr do confundmento dos resultados possíves. Para que se trabalhe com regressões múltplas, por exemplo, espera-se o menor grau possível de multcolneardade entre as varáves ndependentes, para que se dmnuam as ocorrêncas de erros do tpo I e II; na verdade, conforme ndcam BUSSAB & MORETTIN (003), procuramos controlar o erro do tpo I (...) a probabldade do erro do tpo II, na maora dos casos, não pode ser calculada. Quanto maor a correlação entre duas varáves ndependentes, maor será o mpacto da exstênca de multcolneardade, cujo problema já se sabe que é mpossível de ser totalmente elmnado (trata-se, na verdade, de um problema de defnção quanto ao grau de multcolneardade que se está dsposto a acetar). Técncas foram desenvolvdas com o ntuto de reduzr o trabalho dos pesqusadores, de modo que seja possível levar o foco para as varáves mas mportantes. São exemplos destas técncas a análse fatoral, a análse dscrmnante, entre outras. Este trabalho tem o objetvo de apresentar uma nova técnca que auxle o pesqusador que trabalha com grandes amostras a concentrar sua atenção em um menor conjunto de dados que sejam, estes sm, relevantes para a tomada de decsão. Especfcamente, este artgo trata da apresentação de um únco valor que substtu toda a avalação estatístca com relação à sgnfcânca (ndvdual e global) ou não de betas estmados a partr de regressões lneares smples pelo método de mínmos quadrados ordnáros (O). Para tanto, está dvddo em cnco seções além desta ntrodução: avalação de bases de dados (onde se faz uma revsão do que caracterza uma base de dados e se mostra a sua mportânca), a regressão lnear smples e o método de O (para que sejam conhecdos os prncípos báscos daqueles modelos para o qual a metodologa aqu proposta se adequa), o método de análse smplfcado (com a apresentação do método propramente dto), extensão para o modelo de regressão múltpla (onde são apresentados os resultados já conhecdos para modelos com mas de uma varável explcatva) e conclusões.. Avalação de Bases de Dados Avalar uma base de dados é uma tarefa muto dfícl de ser descrta tal como uma receta de bolo. Ela sofre númeras varações em função do fenômeno que se deseja estudar, do tamanho da amostra que se dspõe, das varáves que se consegue observar, da coleta de dados dsponível. Mas, a despeto desta ncapacdade de se defnr a pror o que se deve avalar, é de relevânca determnante para o sucesso de mutos dos problemas de pesqusa nas dversas áreas do conhecmento. CORRAR et al. (009) resumem bem a mportânca de se estudar uma base de dados: Raríssmos são os ramos do conhecmento e as atvdades humanas que podem dspensar o apoo de técncas estatístcas em seu desenvolvmento. Um olhar mas acurado em torno de quase todos os fenômenos que nos cercam nos remete à conclusão de que tas técncas estão

partcpando cada vez mas do nosso cotdano. Essa tendênca parece se tornar mas acentuada na medda em que se expandem os recursos oferecdos pela nformátca, já que eles facltam sobremanera a análse de dados. Se antes o conhecmento estatístco era prvlégo daqueles que tnham nclnação vocaconal para ldar com números, hoje se tornou requsto de prmera ordem no exercíco de váras profssões. No estudo de fenômenos da natureza, no desenvolvmento de recursos medcnas, no planejamento das atvdades governamentas, na avalação de problemas que ameaçam o bem-estar socal, no controle de eventos relaconados com o mundo corporatvo e em mutas outras áreas, a estatístca ocupa posção de destaque. Segundo LACOMBE (004) entende-se por dados, em admnstração, regstro sobre fatos, passíves de serem ordenados, analsados e estudados para alcançar conclusões. A base de dados pode ser defnda, portanto, como um conjunto de valores quanttatvos ou qualtatvos a partr do qual se realzam estudos dos mas varados tpos com o ntuto de se confrmar ou rejetar hpóteses de nteresse do pesqusador. Normalmente se ndca que se faça, ncalmente, a partr de uma base de dados já exstente ou montada para um propósto específco, uma nvestgação que envolve as estatístcas mas smples, tas como médas (artmétca, ponderada, geométrca, harmônca), meddas assocadas ao segundo momento de varáves aleatóras (e.g. desvo-padrão, varânca, desvomédo, sem-varânca), meddas assocadas a momentos maores (tas como curtose e assmétrca), presença de outlers (valores atípcos, aparentemente nconsstentes com os demas valores amostras). Para tanto, recomenda-se a elaborações de gráfcos do tpo Boxplot, hstogramas, gráfcos de dspersão, entre outros. Destaca-se que, neste estudo prelmnar que se recomenda fazer dos dados, é mportante atentar-se para o que WHEELER & CHAMBERS (199) chamam de regra empírca : The Emprcal Rule: Gver a homogeneous set of data: Part One: Roughly 60% to 75% os the data Wll be located wthn a dstance of one sgma unt on ether sde of the average. Part two: Usually 90% to 98% of the data Wll be located wthn a dstance of two sgma unts on ether sde of the average. Part Three: Approxmately 99% to 100% of the data Wll be located wthn a dstance of three sgma unts on ether sde of the average. Mas as meddas estatístcas e a construção de gráfcos, mesmo para amostras grandes que atendem à regra empírca, não geram um grupo de nformações padronzadas e, mutas vezes, ao nvés de ajudar o pesqusador a entender o comportamento de sua base de dados, podem confund-los. Por sso, conhecer e empregar adequadamente cada uma das técncas dsponíves pode fazer a dferença entre o sucesso e o fracasso de uma análse de dados. 3. A Regressão Lnear Smples e o Método de Mínmos Quadrados Ordnáros O avanço da Economa gerou a necessdade de que determnados fatos fossem comprovados com provas matemátcas e estatístca de sua exstênca. Para auxlar este trabalho desenvolveu-se a Econometra, ramo da Economa que trata da mensuração de relações econômcas (MATOS, 000). Uma ferramenta mportante da econometra é a construção de modelos que, também de acordo com o mesmo autor, pode ser descrto como uma representação smplfcada da realdade, estruturada de forma tal que permta compreender o funconamento total ou parcal dessa realdade ou fenômeno. 3

A Econometra tem-se tornado um nstrumento de pesqusa muto mportante em face da formulação de novas teoras e do avanço das técncas de processamento de nformações, assm como do progresso da matemátca e da estatístca, como matéras auxlares. (MATOS, 000) Os modelos econométrcos usualmente são formados por varáves, equações, coefcentes e perturbações aleatóras (comumente chamadas de erro). A mas famosa técnca para que se estme, fundamentada em certos concetos estatístcos, os coefcentes e, consequentemente, as equações destes modelos, é a técnca de regressão lnear. Quando se deseja conhecer a equação de varáves aleatóras que mantêm relação com apenas uma outra varável aleatóra se utlza um caso partcular da regressão lnear, a regressão lnear smples. O modelo lnear smples é aquele que contém apenas uma varável explcatva. (MATOS, 000) Assm, a partr de uma base de dados formada por duas outras varáves, pode-se estmar os coefcentes e da segunte equação: Y = + X + u Onde: Y : é a varável explcada ou dependente, cujo comportamento se deseja conhecer/estudar; X : é a varável explcatva ou ndependente; : é o coefcente lnear do modelo, cujo valor será estmado com a técnca de regressão lnear smples; : é o coefcente angular do modelo, cujo valor será estmado com a técnca de regressão lnear smples; u : são as perturbações aleatóras; = 1,, 3,..., n (n= tamanho da amostra a partr da qual são fetos os cálculos). Para que os resultados estmados de e tenham valdade estatístca, uma sére de pressupostos deve ser atendda, a saber: Erros devem ser: aleatóros, normalmente dstrbuídos com valor esperado zero e com varânca constante (homocedástco), ndependentes entre s e ndependentes da varável explcatva; Não pode haver erro de medção das varáves ndependentes; No caso de estmação de séres temporas, estas devem ser estaconáras; Deve-se mnmzar problemas de especfcação do modelo. Uma das técncas mas empregadas para estmatva dos parâmetros das equações de modelos econométrcos é o método de O. Ele consste em estmar os coefcentes da segunte equação: E(Y ) = + X Para tanto, adota-se a hpótese de mnmzar a soma ao quadrado dos erros u. Conforme demonstra GUJARATI (000): 4

ˆ ( X X )( Y Y) e ˆ Y ˆ X ( X X ) O modelo, propramente dto, pode ser dvddo em duas parcelas: Y Yˆ uˆ De modo que se defne =u ˆ como a parcela dos erros que não pode ser explcada pelo modelo. E, assm, pode-se decompor a varável dependente em duas somas: ( Y Y) ˆ ( X X ) uˆ De modo que se defne um coefcente R, uma medda sntétca que dz quão bem a reta de regressão da amostra se ajusta aos dados (GUJARATI, 000): 0 R = / TOTAL 1 Ressalta-se que ambos os estmadores de e são, conforme o teorema de Gauss-Markov, não-vesados e efcentes. Além dsso, a relação entre o estmador de beta e seu desvo padrão segue uma dstrbução t-student com n- graus de lberdade e, portanto, pode-se calcular um ntervalo de confança para seu valor. Adconalmente, para que o método esteja completo, deve-se verfcar, com a ajuda de gráfcos específcos e técncas de cálculo estatístco se nenhum dos pressupostos anterores fo volado. TOTAL 4. O Método de Análse Smplfcado Smplfcar a análse que se deseja fazer não mplca em romper com o formalsmo da análse estatístca. Conforme a própra defnção do dconáro Aurélo (FERREIRA, 1993), a prmera defnção para smplfcar é tornar smples, fácl ou claro. Não quer dzer que smplfcar mplque em perder a qualdade do que se está estudando, mas sm em tornar os fenômenos mas transparentes, cuja compreensão é mas fácl. Nesse sentdo, um mportante teste para que se possa averguar a sgnfcânca de uma regressão lnear é o teste global da regressão, onde se levanta a hpótese de que todos os betas, conjuntamente, são estatstcamente nulos: H 0 : 1 = =... = = 0 H 1 : exste pelo menos um j 0 Segundo GUJARATI (000), Essa hpótese nula é uma hpótese conjunta de que e 3 [e qualquer outro, exceto o coefcente lnear] são conjunta ou smultaneamente guas a zero. Um teste de hpótese assm é chamado de teste de sgnfcânca global da reta de regressão observada ou estmada, sto é, se Y tem relação lnear tanto com X quando com X 3 [e com as demas varáves ndependentes consderadas]. Destaca-se que o teste de sgnfcânca global, em regressões múltplas, somente é substtuído pelos testes de hpótese ndvduas de cada se e só se não exstr relação lnear entre cada uma das varáves X e todas forem ndependentes entre s. Nos demas casos, a correlação 5

exstente entre os pares de varáves ndependentes consderadas pode, mesmo se for de um grau relatvamente baxo, afetar o resultado do teste de sgnfcânca global em relação aos testes de hpótese ndvduas. Desta forma, para regressões múltplas, o teste de sgnfcânca global não substtu, portanto, os testes de sgnfcânca ndvduas. Pela teórca econométrca, a relação adequada para que se faça este teste é a relação entre a méda dos quadrados da regressão (soma dos quadrados em relação à quantdade de regressores) e a méda dos quadrados dos erros (soma dos erros ao quadrado em relação aos graus de lberdade do erro). No caso da hpótese nula H 0 ser verdadera, a relação entre estas médas ( RESSÃO / S ) segue a dstrbução F de Fsher BROWNLEE apud GUJARATI (000), demonstra que, sob a hpótese de que os erros da regressão são normalmente dstrbuídos, se a hpótese nula for verdadera, F CALC = / GL / GL Tem dstrbução F com GL e GL graus de lberdade. Este resultado é de extrema nportânca, pos, sob valdade testa hpótese, pode-se provar que se os erros da regressão são normalmente dstrbuídos, possuem méda zero e são homocedástcos, então o estmador da varânca do modelo de regressão lnear é não vesado. Completa GUJARATI (000): Esta afrmação não deve causar surpresa, já que, se houver uma relação trval entre Y e X e X 3 [e as demas varáves ndependentes], a únca fonte de varação em Y se deve a forças aleatóras, representadas por u [erros do modelo]. Porém, se a hpótese nula for falsa, ou seja, se defntvamente X e X 3 [e as demas varáves ndependentes] nfluencarem Y (...) E [ ] será relatvamente maor do que R [ ], levando-se devdamente em conta seus respectvos gl. Portanto, o valor de F (...) fornece-nos um teste da hpótese nula de que os verdaderos coefcentes de nclnação são smultaneamente guas a zero. Mas os betas também podem ser testados ndvdualmente usando-se a estatístca t-student. Consderando-se um modelo com teste blateral e 95% de certeza (ou unlateral com 97,5% de certeza), para amostras relatvamente grandes (n>30), em um modelo sgnfcatvo, onde se deseja rejetar H 0 : =0, espera-se que stat t >,04. Para amostras com tamanhos menores, a estatístca t de rejeção de H 0 será sempre, em módulo, nferor a,04. Assm, para amostras onde n>30, pode-se adotar o valor,04 como lmte superor para comparação com a estatístca t tabelada e níco da área de rejeção da hpótese nula. Sabe-se que a dstrbução F de Fsher cujo valor tabelado fornece F t tal que: p(f N1-1, N-1 >F t ) = p, quando N 1 =, é equvalente à dstrbução t com N graus de lberdade, ou seja, ao quadrado da dstrbução t-student, também tabelada. Conforme JOHNSTON & DINARDO (1997), The F dstrbuton s defned n terms of two ndependent varables. (...) Thus t (n)=f(1,n); that s, the square of a t varable wth n degrees of freedom s an F varable wth (1,n) degrees of freedom. Assm, para regressões smples, onde se deseja testar um e somente um valor para, os resultados do teste F e do teste t devem ser equvalentes, sendo fato que o valor calculado de F é sempre o quadrado do valor calculado da estatístca t observada, onde: stat-t OBS = valor estmado do coefcente / erro padrão estmado do coefcente Assm, para as regressões smples, deseja-se que F CALC > =,04, mas F CALC =. 6

Queremos, então, encontrar regressões sgnfcatvas, onde > n TOTAL n 1 R g n,1616 1 R TOTAL /( n ) n 1 > n 1 R >. ( n ) TOTAL n 1 R > n,1616 n Assm, lmta-se a análse da regressão (desde que se possa garantr a nexstênca de heterocedastcdade e autocorrelação, hpótese que, mesmo exstente, em alguns casos pode ser relaxada, e.g. séres do tpo cross-secton) à comparação de um únco valor (R ) com uma constante g que vara em função do tamanho da amostra adotado. Este resultado é extremamente mportante, pos faclta que se avalem bases de dados muto grandes, como é o caso do mercado de ações. Se determnado pesqusador estver nteressado, por exemplo, em confrmar a ocorrênca do modelo CAPM para cálculo de de 60 meses de ações da Bovespa, é possível usar apenas a estatístca estmada R da regressão entre os retornos de cada ação e o prêmo de rsco. Como na Bovespa há, lstadas, mas de 300 ações, pode-se rodar as regressões pretenddas e comparar o coefcente de correlação de cada uma com o valor /(60+,1616) = 0,067. Ou seja, para aquelas ações onde R for superor a 0,067 pode-se admtr que há ndícos para se rejetar H 0 : = 0. Fca claro, por este exemplo, que o procedmento proposto faclta enormemente o trabalho do pesqusador, que fca dspensado de rodar qualquer modelo de regressão para dentfcar se há valores estatstcamente sgnfcatvos na sua base de dados. Adconalmente, o cálculo do R mplca, na verdade, em aplcar a metodologa de cálculo do coefcente de correlação de Pearson e elevá-lo ao quadrado, conforme a segunte fórmula: ( X ( X X )( Y Y) =1,, 3,..., n X ) ( Y Y) Onde: x são os valores observados da varável ndependente; y são os valores observados da varável dependente; n: tamanho da amostra. Este procedmento elmna, portanto, o uso de qualquer pacote estatístco para a análse dos dados, uma vez que uma smples planlha eletrônca é preparada para calculá-lo com bastante fdedgndade. No entanto, com o uso desta metodologa proposta não é possível conhecer o valor estmado dos betas das regressões smples, mas, anda assm, conhecendo o snal do coefcente de correlação é possível conhecer o snal dos betas, uma vez que, por construção do própro modelo de O, ambos são dêntcos. Assm, mesmo que não se possa avalar a magntude 7

da relação, com este procedmento pode-se determnar se as varáves em questão são postva (>0>0) ou negatvamente (<0<0) relaconadas, nformação esta que, mutas vezes, é sufcente para responder aos anseos do pesqusador. 5. Extensão para o Modelo de Regressão Múltpla No modelo de regressão lnear múltpla a comparação entre a regressão obtda torna-se mas complexa. Além de consderarmos, adconalmente, a questão da multcolneardade, há que se levar em conta não somente o tamanho da amostra, mas também o número de varáves ndependentes do modelo em questão. Para rejeção da hpótese nula H 0 : 1 = =... = = 0 é precso comparar a estatístca F calculada com a estatístca F tabelada. Conforme aponta GUJARATI (000), F R /( k 1) (1 R ) /( n k) Onde: F: estatístca F calculada a partr dos valores da amostra; R : coefcente de determnação da regressão múltpla; k: número de varáves ndependentes (consderando-se o coefcente lnear); n: número de observações. Como n, k e a estatístca F tabelada varam conforme o caso, não é possível determnar um únco valor que, se comparado a qualquer amostra gera o resultado estatístco do teste de hpóteses anterormente apresentado. Assm, há que se apurar, caso a caso, as estatístcas tabelada e a relação entre esta e o R para a efetva conclusão do teste de hpóteses. 6. Conclusões O objetvo ncal deste artgo, apresentado já na sua ntrodução fo de oferecer uma técnca alternatva às númeras regressões lneares smples para avalação conjunta de grandes bases de dados. A técnca consste em calcular um únco valor que, se comparado com o quadrado do coefcente de correlação de Pearson, ndca se o modelo é ou não sgnfcatvo com 95% ou 97,5% de certeza (para ntervalos de confança blateras ou unlateras, respectvamente da estmatva do coefcente angular estmado) e ndca o snal do, desde que respetadas as hpóteses de homocedastcdade e ndependênca de resíduos. De fato, fo possível sugerr o lmte g = /(n+,1616) para esta comparação, tendo sdo apresentada, também a fórmula para o teste de sgnfcânca global de regressões lneares múltplas descrta por GUJARATI (000), mas cuja observação é mas complcada (pos precsa-se estmar R a partr dos dversos coefcentes de correlação calculadas para cada par de varáves ndependentes) e sem resultados conclusvos a respeto dos snas das varáves explcatvas consderadas. Conclu-se, então, que, no caso do nvestgador desejar conhecer apenas a sgnfcânca estatístca e o snal do coefcente angular, este fca desobrgado a calcular dferentes regressões lneares pelo método de O (desde que as hpóteses desta modelagem sejam 8

atenddas), lmtando o seu trabalho ao cálculo do coefcente de correlação de Pearson,. Este procedmento garante uma redução sgnfcatva no montante de dados a serem avalados se estamos dante de grandes bases de dados, poupando tempo e, consequentemente, recursos fnanceros e computaconas. 7. Referêncas BUSSAB, W. de O.; MORETTIN, P. A.; Estatístca Básca. São Paulo: Edtora Sarava, 003. 5 a edção, 3 a tragem. CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. (Coord.); Análse Multvarada para os Cursos de Admnstração, Cêncas Contábes e Economa. São Paulo: Edtora Atlas, 009. FERREIRA, A. B. de H.; Mndconáro Aurélo da Língua Portuguesa. Ro de Janero: Edtora Nova Frontera, 1993. 3 a edção, 11 a mpressão. GUJARATI, D.N.; Econometra Básca. São Paulo: Makron Books, 000. 3ª edção. JOHNSTON, J. & DINARDO, J.; Econometrc Methods.Estados Undos: McGraw-Hll, 1997. 4ª edção. LACOMBE, F.; Dconáro de Admnstração. São Paulo: Edtora Sarava, 004. MATOS, O. C. de; Econometra Básca: Teora e Aplcações. São Paulo : Edtora Atlas, 000.3ª edção. SILVA, E. M. da et al.; Tabelas de Estatístca. São Paulo: Edtora Atlas, 1999. a edção. WHEELER, D. & CHAMBERS, D.; Understandng Statstcal Process Control. New York: SPC Press, 199. 9