Acervo técnico do Prof. Dr. Rubismar Stolf Universidade Federal de São Carlos CENTRO DE CIÊNCIAS AGRÁRIAS- campus de Araras Prof. Dr. Rubismar Stolf - rubismar@cca.ufscar.br Departamento de Recursos Naturais e Proteção Ambiental Via Anhanguera, km 174. Cx.Postal.153 CEP 13600-970 ARARAS SP BR Acesso: http://www.cca.ufscar.br/~rubismar/ ou: http://www.cca.ufscar.br/drnpa/hprubismar.htm 68. STOLF, R. Programa de regressão múltipla (REGR) de fácil manipulação e transformação de arquivos eletrônicos de dados. Geociências, São Paulo, v.15, n.2, p.425-433, 1996. Para visualizar o trabalho vá para a próxima página Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24).
PROGRAMA DE REGRESSÃO MÚLTIPLA (REGR) DE FÁCIL MANIPULAÇÃO E TRANSFORMAÇÃO DE ARQUIVOS ELETRÔNICOS DE DADOS (*) (TEXTO ORIGINAL DO MESMO TRABALHO) Rubismar STOLF (**) RESUMO O objetivo foi desenvolver um programa de regressão múltipla, especialmente desenhado para modelagem, que apresentasse facilidade e agilidade de operação. Para atingir o objetivo proposto as seguintes características foram introduzidas no programa: a) sub rotinas autoexplicativas, curtas, com reduzida necessidade de responder perguntas/tomar decisões; b) interface simples de confecção semi-automática de gráficos para detecção de regiões de desvios tendenciosos do modelo; c) submenu de manipulação e transformação matemática de arquivos de dados com 20 opções diferentes, permitindo o ajuste de uma gama de modelos; e) registro acumulado de todos os resultados das análises estatísticas passadas (tabelas contendo: data da realização da regressão; nome do arquivo; n o total de dados, n o de variáveis, n o de pontos; constantes da equação de regressão; coeficiente de determinação e correlação múltipla; desvio padrão de regressão, valor de F (teste F de Snedecor). Realizou-se uma revisão bibliográfica, extraindo-se, de compêndios de estatística, 15 exemplos de aplicação. Os mesmos foram transformados em (*) Auxílio FAPESP, processo 93/2997-7. Trabalho apresentado no VI SIMPÓSIO DE QUANTIFICAÇÃO EM GEOCIÊNCIAS, Rio Claro, 1995. (**) Depto. de Recursos Naturais e Proteção Ambiental, Centro de Ciências Agrárias, UFSCar, Campus de Araras. 13600 - Araras, SP.
2 arquivos eletrônicos de dados e incorporados ao programa. Subsequente à linha em branco do final de cada arquivo de dados (campo de observação), incluiu-se a citação bibliográfica, e os parâmetros estatísticos extraídos do livro citado. Palavras - chave: regressão múltipla, programa, computação, modelagem INTRODUÇÃO Programas, referentes a uma análise específica no campo da estatística, apresentam, isoladamente, um inexpressivo valor comercial pelo reduzido número de usuários e pela facilidade de reprodução de suas concepções. Estes programas, tais como os de regressão múltipla, têm sido inseridos, ultimamente, como parte de grandes pacotes estatísticos extremamente bem desenhados. Contudo, podem requerer tempo tanto para sua compreensão como no percurso de séries extensas de submenus. Dessa forma, sempre que o usuário recorrer a uma análise específica, das mais simples, via de regra necessitará do auxílio de um especialista do ambiente estatístico no qual o programa se insere. Parte da produção de programas de científicos dentro das universidades ocorre como atividade informal. Tais programas, mesmo sem valor comercial, podem apresentar mérito científico competitivo, quando desenhado especificamente para um tipo de aplicação. Contudo, não havendo a preocupação por parte dos pesquisadores/programadores em criar uma interface amigável para usuários, bem como difundir seu trabalho, o mesmo é perdido ao
3 longo do tempo. Por outro lado, sua divulgação cria alternativas em relação aos pacotes multitarefas, dirigidos a um público amplo, indiscriminado. A análise de regressão múltipla é uma importante ferramenta para o ajuste e seleção de modelos em geociências. É aplicada, normalmente, em situações de difícil controle de variáveis que influenciam o fenômeno, como em estudos ambientais. Via de regra é utilizada de maneira interativa com o usuário. Dessa forma um conjunto de dados é retrabalhado através de transformações matemáticas com acompanhamento dos parâmetros de ajuste e visualizações gráficas, característicos da modelagem. O objetivo do presente trabalho foi desenvolver um programa que apresente agilidade e facilidade de realizar tais operações. MATERIAL E MÉTODO Procurou-se imprimir as seguintes características ao programa no sentido de conferir ao mesmo agilidade e facilidade de uso: a) sub rotinas curtas, autoexplicativas, com reduzida necessidade de responder perguntas/tomar decisões; b) interface simples de confecção semi-automática de gráficos para detecção de regiões de desvios tendenciosos do modelo; c) possibilidade de transformação matemática e criação de novas variáveis para estabelecimento de modelos não lineares; e) registro acumulado de todos os resultados das análises estatísticas passadas.
4 Os seguintes parâmetros estatísticos e informações foram selecionados para apresentação na tabela de resultados: data da realização da regressão; nome do arquivo; n o total de dados, n o de variáveis, n o de pontos; constantes da equação de regressão; coeficiente de determinação e correlação múltipla; desvio padrão de regressão corrigido pelo grau de liberdade, valor de F de regressão múltipla (para o teste F de Snedecor). Utilizou-se o método clássico dos mínimos quadrados para o ajuste da função descrito em compêndios de estatística tal como em SPIEGEL (1971) (3). Neste método, os coeficientes de uma dada equação são calculados de maneira a minimizar a somatória do quadrado das diferenças entre o valor medido (real) e o estimado pela equação. Conseqüentemente, minimiza-se também o desvio padrão de regressão (erro padrão), parâmetro, este, normalmente utilizado como indicador do ajuste. Utilizou-se a linguagem Basic (Quick Basic, versão profissional 4.50 para DOS) Utilizou-se também comandos do DOS, através da instrução SHELL da linguagem Basic (executa uma linha de comando DOS e retorna à linha de programa). Com o objetivo de testar o programa e incorporar ao mesmo uma série de didática de arquivos de dados, realizou-se uma coletânea de exemplos de uso da regressão, utilizando-se os seguintes compêndios de estatística, DIXON et al. (1),WILFRID et al. (2), FOX (3), LI (4), SPIEGEL (5), STEEL & TORRIE (6), WEISKERG (7).
5 RESULTADOS E DISCUSSÃO O programa é composto de 9 arquivos. Quatro deles são resultantes do desenvolvimento do presente trabalho, propriamente dito. Os demais, são arquivos auxiliares, não específicos do programa, utilizados na edição e apresentação dos resultados. Na tabela 1 são apresentados os referidos arquivos com suas respectivas funções. O arquivo REGR.EXE comanda os demais arquivos. As tabelas, de 2 a 5, e figura 1 e 2 são cópias de telas do programa. Na tabela 2 apresenta-se o menu principal com suas funções. O programa interage com intensidade com o DOS, da maneira exposta no item material e métodos. O uso mais flagrante desse artifício aparece nas chaves 1, 2, 3, 7, 8 do MENU do programa (tabela 2), pois a apresentação dos resultados estatísticos da regressão, a criação e edição de arquivos de dados, a reedição histórica de análises passadas e o caderno de anotações do usuário são apresentados na tela através do editor de texto (ascii) do próprio DOS, versão 5.0 ou posterior (EDIT.COM). Dessa forma, carregam-se diferentes informações na tela, segundo as várias sub rotinas do programa, colocando a disposição do usuário um editor mundialmente conhecido como se fosse a própria tela de apresentação do programa. Na tabela 3 apresenta-se a edição de um arquivo de dados. A estrutura do arquivo é em colunas. Cada coluna representa uma variável; cada linha, as
6 coordenadas de um ponto. Carregando o arquivo pela chave de regressão o programa reconhecerá automaticamente o número de variáveis e de pontos. Além disso denominará, seqüencialmente, a 1a. coluna de variável X1; a 2a. de X2; a 3a. de X3; e assim sucessivamente até a penúltima coluna. A última coluna será interpretada como sendo a variável Y. Carregando-se, através da chave 1, por exemplo, um arquivo de 3 colunas, o programa ajustará automaticamente o modelo: a o +a 1.x 1 +a 2.x 2 =y, eliminando-se a necessidade de entrar com n o de pontos, n o de variáveis e nome das variáveis. Também no sentido de agilizar as operações, todas as vezes que for solicitada entrada de nome do arquivo o diretório atual é listado previamente, permitindo a busca através de curingas (*.*). Além disso o nome do ultimo arquivo utilizado é apresentado como opção de carregamento automático pressionando-se a tecla ENTER. O programa admite até 50 variáveis e um número de pontos praticamente ilimitado. Durante o processo computacional estatístico, o programa encerrará normalmente a leitura de dados caso encontre uma linha em branco (ou mais) no arquivo. Isto permite a colocação, a vontade, de observações no final do arquivo de dados sem necessidade de seguir um formato padrão (na tabela 3, vide observações após dados numéricos). Essas observações, caso haja, serão automaticamente mostradas na tela, quando o arquivo de dados for carregado para execução da regressão. Na tabela 4 apresenta-se o submenu de transformadas matemáticas tais com exponenciação (radiciação), transformação logarítmica, trigonométricas, trigonométricas inversas; soma (subtração) de uma constante, multiplicação
7 (divisão) por uma constante, totalizando 20 tipos. Após a transformação pode-se optar por criar uma nova variável (criar mais uma coluna de dados), ou fazer com que a nova variável, substitua a variável original. Permite também, manipular o arquivo promovendo troca de posição, soma, subtração, multiplicação ou divisão entre 2 colunas de dados bem como eliminar uma coluna de dados. Na tabela 5 ilustra-se a forma de apresentação dos resultados de regressão, utilizando os dados contidos em um arquivo denominado GRADES4.DAT. Tratase de um modelo em quatro dimensões com coeficiente de correlação múltipla 0,89. Contudo o gráfico semi-automático, Y medido versus Y estimado (figura 1), evidencia a existência de desvios tendenciosos nas extremidades do campo de variação de Y do modelo. Trata-se de um indicativo de que ha um potencial de incremento do modelo no sentido de sua linearização. Enquanto a figura 1 representa graficamente o ajuste do modelo a o + a 1.x 1 + a 2.x 2 + a 3.x 3 = y, a figura 2 corresponde ao modelo a o.(x 1 ) a1.(x 2 ) a2.(x 3 ) a3 = y, este último incontestavelmente superior. Com este exemplo, procurou-se evidenciar a importância da chave 5 (confecção semi - automática de gráfico Y medido, Y estimado), não presente em programas correlatos. Acompanha o programa uma serie didática de 15 exemplos. Os 15 arquivos foram assim codificados (V?_EX??.DAT): V2_EX01.DAT (exemplo 01 de 2 variáveis)... V3_EX07.DAT (sétimo exemplo de 3 variáveis)... V5_EX01.DAT(exemplo 01 de 5 variáveis). Na zona de observações de cada um deles (subsequente a linha em branco do final do arquivo de dados), foram adicionadas as seguintes informações: referência completa sobre o livro do qual o
8 exemplo foi extraído; o significado físico das variáveis; e resultados estatísticos fornecidos pelo livro correspondentes aos que o programa fornece. Dessa forma é possível exercitar-se na utilização do programa e conhecer algumas aplicações. Para cada chave de ação (1 a 8) existe uma chave específica (help) de ajuda (F1 a F8). A chave A -Ajuda Geral lista uma apostila eletrônica sobre o programa contendo 21 telas. O programa cria automaticamente alguns arquivos temporários no diretório de trabalho. Se o programa for instalado em um diretório protegido (como algumas áreas de REDE), após iniciar o programa mude para uma área não protegida: no menu principal acione D - Dos e mude de diretório/drive; após retorne ao programa (digite EXIT). MULTIPLE REGRESSION COMPUTING PROGRAM (REGR) FOR EASY MANIPULATION AND DATA FILES TRANSFORMATION ABSTRACT The aim of this work was to develop an easy and fast multiple regression program, specially designed for modeling. To pursue the mentioned aim, the following characteristics was introduced: a) short and self - explained subroutines, avoiding questions/decisions; b)semi - automatic graphical interface to detect biased deviation regions of the model. c)sub - menu with 20 options for manipulating and transforming data files e)accumulated historical record of the past statistical analyses ( tables with date of analyses; file name; total number of
9 data; number of points and variables; parameters of the fitted equation; multiple correlation and determination coefficients; standard error; F value (Snedecor test). Through the bibliography, to accomplish training and testing purposes, 15 multiple regression examples was incorporated to the program. The literature, the meaning of the variable and the book results, was added at the zone observation (in the file, after the end of the numeric data). Keywords: multiple regression, soft - ware, computing, modeling REFERÊNCIAS BIBLIOGRAFIAS DIXON, Wilfrid J., MASSEY Jr, Frank J. Introduction to statistical analysis. 3ed. New York: Mc Graw Hill, 1969. p.213-214. FOX, J. Linear statistical models and related methods. New York: John Wiley, l984. p.30-33. LI, J. C. R. Statistical inference. 2ed. Ann Arbor: Edwards Brothers, l967. p.90-95. SPIEGEL, M. R. Estatistica. São Paulo: Mc Graw Hill do Brasil, l976. p.452-465. SPIEGEL, M. R. Statistical. New York: Mc Graw Hill, 1961. p.273-274, 281. STEEL, R. G. D., TORRIE, J. H. Principles and procedures of statistics. New York: Mc Graw Hill, l960. p.277-304.
10 WEISKERG, S. Applied linear regression. 2ed. New York: John Wiley, 1985. p.34-41.
11 Tabela 1- Arquivos, do programa e auxiliares, com respectivas funções ARQUIVOS DO PROGRAMA: 1) REGR.EXE (arquivo principal - ligado às funções básicas) 2) REG-GRF1.EXE (gráfico entre y estimado e y medido) 3) REG-GRF2.EXE (gráfico entre 2 variáveis qualquer do arquivo) 4) REG-AJUD.TXT (apostila sobre o programa) ARQUIVOS AUXILIARES (manter no diretório do programa, opcional/ no DOS) : 1) REG-MONO.EXE (permite confecção gráfica em monitores antigos) 2) LIST.COM (leitor de textos) 3) EDIT.COM (editor de texto do DOS 5.0 em diante) 4) EDIT.HLP (texto de ajuda do editor do DOS 5.0 em diante) 5) QBASIC.EXE (necessário para rodar o editor EDIT.COM do DOS) Tabela 2. Tela do MENU PRINCIPAL. Chaves, de 1 a 7, são as básicas.
12 Tabela 3. Tela exemplificando edição de arquivo de dados pela chave 3 do menu principal. A última coluna corresponde sempre à variável Y. As observações colocadas após linha em branco não interferem na análise estatística. TABELA 4. Tela do SUBMENU de transformadas matemáticas (chave 4 do MENU PRINCIPAL)
13 Tabela 5. Tela de apresentação dos resultados. Figura 1. A Chave 5 do MENU PRINCIPAL. permite uma visualização da qualidade do ajuste. No exemplo, o modelo y=a 0 +a 1.x 1 +a 2.x 2 +a 3.x 3 aplicado aos dados do arquivo grades4.dat provoca desvios tendenciosos.
Figura 2. O modelo y=a 0. (x 1 ) a1. (x 2 ) a2. (x 3 ) a3 aplicado aos dados do arquivo grades4.dat não provoca desvios tendenciosos (compare com a figura anterior). 14