REGRESSÃO LOGÍSTICA APLICADA NA ANÁLISE ESPACIAL DE DADOS ARQUEOLÓGICOS



Documentos relacionados
5.1 Seleção dos melhores regressores univariados (modelo de Índice de Difusão univariado)

NOTA II TABELAS E GRÁFICOS

TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

Introdução e Organização de Dados Estatísticos

UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA - Centro de Ciências Sociais e Aplicadas Curso de Economia

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

PROJEÇÕES POPULACIONAIS PARA OS MUNICÍPIOS E DISTRITOS DO CEARÁ

Estatística stica Descritiva

Sistemas Robóticos. Sumário. Introdução. Introdução. Navegação. Introdução Onde estou? Para onde vou? Como vou lá chegar?

PARTE Apresente as equações que descrevem o comportamento do preço de venda dos imóveis.

Professor Mauricio Lutz CORRELAÇÃO

Variabilidade Espacial do Teor de Água de um Argissolo sob Plantio Convencional de Feijão Irrigado

Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

CENTRO UNIVERSITÁRIO DO LESTE DE MINAS GERAIS - UnilesteMG

Introdução à Análise de Dados nas medidas de grandezas físicas

Sistemas de Filas: Aula 5. Amedeo R. Odoni 22 de outubro de 2001

4 Critérios para Avaliação dos Cenários

7. Resolução Numérica de Equações Diferenciais Ordinárias

Objetivos da aula. Essa aula objetiva fornecer algumas ferramentas descritivas úteis para

Regressão e Correlação Linear

Despacho Econômico de. Sistemas Termoelétricos e. Hidrotérmicos

Elaboração: Fevereiro/2008

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

Nota Técnica Médias do ENEM 2009 por Escola

Probabilidade e Estatística. Correlação e Regressão Linear

Rastreando Algoritmos

UNIVERSIDADE DO ESTADO DA BAHIA - UNEB DEPARTAMENTO DE CIÊNCIAS EXATAS E DA TERRA COLEGIADO DO CURSO DE DESENHO INDUSTRIAL CAMPUS I - SALVADOR

Covariância e Correlação Linear

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 1 Revisões de Estatística

NORMAS DE SELEÇÃO AO DOUTORADO

Fast Multiresolution Image Querying

Cálculo do Conceito ENADE

Estimativa da Incerteza de Medição da Viscosidade Cinemática pelo Método Manual em Biodiesel

IV - Descrição e Apresentação dos Dados. Prof. Herondino

Universidade Salvador UNIFACS Cursos de Engenharia Cálculo IV Profa: Ilka Rebouças Freire. Integrais Múltiplas

Y X Baixo Alto Total Baixo 1 (0,025) 7 (0,175) 8 (0,20) Alto 19 (0,475) 13 (0,325) 32 (0,80) Total 20 (0,50) 20 (0,50) 40 (1,00)

UTILIZAÇÃO DO MÉTODO DE TAGUCHI NA REDUÇÃO DOS CUSTOS DE PROJETOS. Uma equação simplificada para se determinar o lucro de uma empresa é:

7 - Distribuição de Freqüências

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

7.4 Precificação dos Serviços de Transmissão em Ambiente Desregulamentado

REGRESSÃO LOGÍSTICA. Seja Y uma variável aleatória dummy definida como:

1.UNIVERSIDADE FEDERAL DE VIÇOSA, VIÇOSA, MG, BRASIL; 2.UNIVERSIDADE FEDERAL DE GOIÁS, GOIANIA, GO, BRASIL.

CÁLCULO DO ALUNO EQUIVALENTE PARA FINS DE ANÁLISE DE CUSTOS DE MANUTENÇÃO DAS IFES

PLANILHAS EXCEL/VBA PARA PROBLEMAS ENVOLVENDO EQUILÍBRIO LÍQUIDO-VAPOR EM SISTEMAS BINÁRIOS

Associação entre duas variáveis quantitativas

Expressão da Incerteza de Medição para a Grandeza Energia Elétrica

Organização da Aula. Gestão de Obras Públicas. Aula 2. Projeto de Gestão de Obras Públicas Municipais. Contextualização

3 Algoritmos propostos

ALGORITMO E PROGRAMAÇÃO

ESPELHOS E LENTES ESPELHOS PLANOS

Aplicando o método de mínimos quadrados ordinários, você encontrou o seguinte resultado: 1,2

Lista de Exercícios de Recuperação do 2 Bimestre. Lista de exercícios de Recuperação de Matemática 3º E.M.

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Estimativa da fração da vegetação a partir de dados AVHRR/NOAA

1 Princípios da entropia e da energia

Avaliação da Tendência de Precipitação Pluviométrica Anual no Estado de Sergipe. Evaluation of the Annual Rainfall Trend in the State of Sergipe

CAPÍTULO 1 Exercícios Propostos

Controle de qualidade de produto cartográfico aplicado a imagem de alta resolução

CQ110 : Princípios de FQ

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

Hansard OnLine. Guia Unit Fund Centre

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Análise Econômica da Aplicação de Motores de Alto Rendimento

RAE-eletrônica ISSN: Escola de Administração de Empresas de São Paulo. Brasil

1 a Lei de Kirchhoff ou Lei dos Nós: Num nó, a soma das intensidades de correntes que chegam é igual à soma das intensidades de correntes que saem.

O problema da superdispersão na análise de dados de contagens

3 A técnica de computação intensiva Bootstrap

Métodos de Monitoramento de Modelo Logit de Credit Scoring

Influência dos Procedimentos de Ensaios e Tratamento de Dados em Análise Probabilística de Estrutura de Contenção

2 Metodologia de Medição de Riscos para Projetos

MAPEAMENTO DA VARIABILIDADE ESPACIAL

BALANÇO HÍDRICO: UMA FERRAMENTA PARA GESTÃO INDUSTRIAL E OTIMIZAÇÃO AMBIENTAL.

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

Apostila de Estatística Curso de Matemática. Volume II Probabilidades, Distribuição Binomial, Distribuição Normal. Prof. Dr. Celso Eduardo Tuna

O Método de Redes Neurais com Função de Ativação de Base Radial para Classificação em Data Mining


Regressão Múltipla. Parte I: Modelo Geral e Estimação

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

LOCALIZAÇÃO ESPACIAL DA MÃO DO USUÁRIO UTILIZANDO WII REMOTE. Ricardo Silva Tavares 1 ; Roberto Scalco 2

Escolha do Consumidor sob condições de Risco e de Incerteza

CONGRESSO DE INICIAÇÃO CIENTÍFICA E PÓS-GRADUAÇÃO - I CICPG SUL BRASIL Florianópolis 2010

ELEMENTOS DE CIRCUITOS

MODELOS DE REGRESSÃO PARAMÉTRICOS

Associação de resistores em série

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Variáveis dummy: especificações de modelos com parâmetros variáveis

2 ANÁLISE ESPACIAL DE EVENTOS

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).

Equipas Educativas Para uma nova organização da escola. João Formosinho Joaquim Machado

Termodinâmica e Termoquímica

Distribuição de Massa Molar

PLANEJAMENTO DE EXPERIMENTOS E OTIMIZAÇÃO DE SISTEMAS MISTOS

1. Conceitos básicos de estatística descritiva. A ciência descobre relações de causa efeito entre fenómenos. Há fenómenos que são muito complexos

PROJECTO DO LAYOUT DE INSTALAÇÕES INDUSTRIAIS

! Superlntenrlencia Reg.onaJ do Ma:toGro$So. Qualificação e Reinserção Profissional dos Resgatados do Trabalho Escravo elou em AÇÃO INTEGRADA

As tabelas resumem as informações obtidas da amostra ou da população. Essas tabelas podem ser construídas sem ou com perda de informações.

INE 7001 ESTATÍSTICA PARA ADMINISTRADORES I NOTAS DE AULA PROF. MARCELO MENEZES REIS MANOEL DE OLIVEIRA LINO

Transcrição:

ÍTALO TSUCHIYA REGRESSÃO LOGÍSTICA APLICADA NA ANÁLISE ESPACIAL DE DADOS ARQUEOLÓGICOS Dssertação apresentada ao Curso de Pós Graduação em Cêncas Cartográfcas para a obtenção do Título de Mestre em Cêncas Cartográfcas pela Unversdade Estadual Paulsta. PRESIDENTE PRUDENTE 2002

ÍTALO TSUCHIYA REGRESSÃO LOGÍSTICA APLICADA NA ANÁLISE ESPACIAL DE DADOS ARQUEOLÓGICOS Dssertação apresentada ao Curso de Pós Graduação em Cêncas Cartográfcas para a obtenção do Título de Mestre em Cêncas Cartográfcas pela Unversdade Estadual Paulsta. Orentadora Profa. Dra. Vlma Mayum Tachbana Co-orentador Prof. Dr. Nlton Nobuhro Ima PRESIDENTE PRUDENTE 2002

REGRESSÃO LOGÍSTICA APLICADA NA ANÁLISE ESPACIAL DE DADOS ARQUEOLÓGICOS por Ítalo Tsuchya Engenhero Cartógrafo Dssertação aprovada como requsto parcal para obtenção do grau de Mestre no Programa de Pós-Graduação em Cêncas Cartográfcas da Unversdade Estadual Paulsta, pela comssão formada pelos professores. Prof. Dr. José Alberto Quntanlha Profa. Dra. Rosângela Custódo Cortez Thomaz Profa. Dra. Vlma Mayum Tachbana Presdente Prudente, dezembro de 2002.

DEDICATÓRIA Dedco esse trabalho aos meus Pas, e aos meus rmãos v

AGRADECIMENTOS Prmeramente ao Deus, pos quando Ele quer não tem quem não quera Aos que me orentaram e auxlaram muto nesse trabalho: Vlma Mayum Tachbana e Nlton Nobuhro Ima À banca examnadora: José Alberto Quntanlha e à Rosângela Custódo Cortez Thomaz. Aos professores da graduação em Engenhara Cartográfca e Pós em Cêncas Cartográfcas prncpalmente a Mauro I. Ishkawa, Otávo Y. Itame, Ervaldo A. da Slva, José M. Arana, Mara de Lourdes Galo, Tereza H. Yamabe, Mauríco Galo, Paulo de Olvera e Messas Meneguette Jr. Aos Departamentos de Cartografa e Planejamento, prncpalmente a Graça, Cdnha, Sonnha, Ruth e Leonce. A todos os funconáros da FCT/Unesp, especalmente Geraldo, Gege, Mlton, Flora, Mara, Walmr, Sílvo Tadao Fujsak, Cláuda, Fátma, Marsa, Raquel, Geny, Antéro, Pedro, Moacr, Eduardo, Edmlson, Mauro, Sávo, Geraldnho, Nlson, Donato, Caldera, Bubu, Francsco, Paulo Ruz, Fátma Paulno, Cda e as pessoas a qual não me lembre, mas que estão sempre presentes. Aos amgos Marcelo A. Crllo, Lus F. Sapucc, Danel R. dos Santos, Káta L. Olvera, Lucnha, Fábo L. de Almeda, Wagner Carrupt, Eduardo A. Slva, João Bosco N. Jr., André Castro, José L. Maa, Elvagner B. de Olvera, France M. Ferrera, João Osvaldo, Elas A. Jr, Govane M. do Vale e José A. Perez. Aos amgos da empresa Sementes Selecta, especalmente à Telma Mendes, Hélo Okumoto, Ademr Honóro, Cáta Vaz de Avla, e Tnnha. Aos amgos do Programa de Pós Graduação em Cêncas Cartográfcas e Graduação Engenhara Cartográfca. Aos amgos da Sala 2, Sala 20, Latogeo, Laboratóro de Foto, Laboratóro Móvel, Estação GPS e Estação Metereológca v

Para mutas questões matemátcas há uma resposta defnda. Esta pode ser muto dfícl encontrar, abrangendo mutos problemas técncos, e poderemos ter de nos contentar com uma aproxmação Meyer, 978, referndo-se à Estmação de Parâmetros. v

SUMÁRIO TÍTULO... TERMO DE APROVAÇÃO... DEDICATÓRIA... v AGRADECIMENTOS...v EPÍGRAFE... v SUMÁRIO...v LISTA DE FIGURAS...x LISTA DE TABELAS...x RESUMO...x ABSTRACT...x. INTRODUÇÃO..... Objetvos... 2.2. Conteúdo do Trabalho... 3 2. GEOPROCESSAMENTO... 4 2.. Sstema de Informação Geográfca... 4 2... Modelagem de dados... 6 2..2. Modelos tpo geo-campo... 8 2..3. Representação dos geo-campos... 2.2. Álgebra de Mapas...3 3. ANÁLISE DE DADOS ESPACIAIS EM ARQUEOLOGIA...6 3.. Modelagem predtva...7 3... Método por decsão por árvore...20 3..2. Modelagem através de decsão por árvore...22 3.2. Análse dscrmnante pelo método de Fsher...25 3.2.. Função dscrmnante de Fscher para 2 populações...26 3.2.2. Problema de classfcação geral...30 4. REGRESSÃO LOGÍSTICA...35 4.. Modelo de regressão logístca...36 4... Estmatvas de máxma verossmlhança...4 4..2. Teste de sgnfcânca dos coefcentes...44 5. MATERIAL E MÉTODO...50 5.. Materal...50 5.2. Modelagem dos dados arqueológcos...5 5.2.. Problemátca...52 5.2.2. Modelo Estátco...53 5.2.3. Unverso de representação...55 5.3. Banco de dados geográfcos (BDGs)...56 5.4. Ajustando o modelo de regressão logístca...57 5.5. Utlzando o modelo de regressão logístca...58 v

6. RESULTADO... 60 6.. Banco de Dados Geográfcos... 60 6.2. Ajustando o modelo de regressão logístca... 73 7. CONCLUSÃO... 82 7.. Recomendações... 85 BIBLIOGRAFIA v

LISTA DAS FIGURAS Fgura 0...05 Fgura 02...06 Fgura 03...06 Fgura 04...07 Fgura 05...09 Fgura 06...2 Fgura 07...8 Fgura 08...9 Fgura 09...2 Fgura 0...24 Fgura...28 Fgura 2...3 Fgura 3...37 Fgura 4...38 Fgura 5...50 Fgura 6...55 Fgura 7...56 Fgura 8...58 Fgura 9...59 Fgura 20...64 Fgura 2...65 Fgura 22...66 Fgura 23...67 Fgura 24...68 Fgura 25...69 Fgura 26...70 Fgura 27...7 Fgura 28...72 Fgura 29...78 Fgura 30...80 Fgura 3...82 Fgura 32...84 x

LISTA DAS TABELAS Tabela 0...32 Tabela 02...37 Tabela 03...62 Tabela 04...63 Tabela 05...74 Tabela 06...75 Tabela 07...76 Tabela 08...76 x

RESUMO - O presente trabalho tem como referênca o Projeto de Salvamento Arqueológco de Porto Prmavera, cujo objetvo fo resgatar, analsar e conservar os vestígos das antgas cvlzações rbernhas do Ro Paraná. Uma das etapas de um projeto de salvamento é a prospecção, nela, o arqueólogo realza a vstora em toda a área de nteresse à procura de ndícos das habtações pretértas, porém, essa etapa é demorada e onerosa. Com base na técnca de modelagem predtva multvarada (regressão logístca), alada às ferramentas de Geoprocessamento, pudemos avalar as prováves áreas de ocupação pretérta, reduzndo assm, a etapa de prospeção. Como resultado temos um mapa de classes, com as probabldades de ocorrênca de sítos arqueológcos utlzando o método de regressão logístca. Palavras chave: Geoprocessamento, Análse Espacal, Regressão Logístca, Modelos Predtvos e Arqueologa. ABSTRACT Ths work has as reference the Project of Archaeologcal Rescue of Porto Prmavera, whose objectve was to rescue, to analyze and to conserve the vestges of the old margnal cvlzatons of the Paraná Rver. One of the stages of project s the prospecton, n, the archaeologst carres through the nspecton n all the area of nterest to the search of ndcatons of the past habtatons, however, ths stage s delayed and onerous. On the bass of the technque of multvared predctve modelng (logstc regresson), alled to the tools of Geographc Informaton System, we could evaluate the probable areas of past occupaton, thus reducng, the stage of prospecton. As result we have a map of classrooms, wth the probabltes of occurrence of archaeologcal small farms usng the method of logstc regresson. Keywords: Geomatc, Spatal Analyss, Logstc Regresson, Predtcton Models and Archaeology. x

. INTRODUÇÃO Este trabalho tem como referênca o Projeto de Salvamento Arqueológco de Porto Prmavera - SP/MS, cujo objetvo fo resgatar o patrmôno arqueológco exstente na área de nfluênca da formação do lago da Usna Hdrelétrca Engenhero Sérgo Motta (Porto Prmavera). Esse tpo de resgate é denomnado Arqueologa de Salvamento ou de Contrato, sendo necessáro em grandes empreendmentos como gasodutos, projetos de urbanzação, hdrelétrcas, entre outros. A Arqueologa de Contrato é realzada por meo de convênos, onde a empresa contratante oferece recursos fnanceros para a equpe ou nsttução, que realza o resgate do materal arqueológco, que possa estar sob a área abrangda pelo empreendmento. Segundo Caldarell (989), a exemplo do que ocorreu em outros países, a pesqusa arqueológca levada a cabo no Brasl, é predomnantemente realzada por contrato de prestação de servços, no qual os arqueólogos elaboram pareceres técncos, ntegrados ao Estudo de Impacto Ambental (EIA) e o Relatóro de Impacto do Meo Ambente (RIMA), dferencando-se da Arqueologa Acadêmca, cujo objetvo é o crescmento teórco da Cênca. Um Projeto de Salvamento Arqueológco dvde-se nas etapas de campo, gabnete e laboratóro, sendo que na prmera são realzadas as prospecções para a procura de ndícos de habtações ou passagens dos índos e a escavação para o resgate desse materal. Na segunda parte são elaborados os relatóros, que serão entregues à empresa contratante. Na últma etapa são realzadas análses dos materas coletados, bem como o arquvamento das nformações no acervo arqueológco. O foco deste projeto está na prospecção, que é a etapa na qual os arqueólogos verfcam a exstênca de ocupações ou passagens de antgas cvlzações em campo. Esse processo é realzado pelos pesqusadores com base no conhecmento de como se comportavam as populações, bem como a assocação das varáves ambentas como geomorfologa, geologa, altmetra e vegetação. Na prospecção faz-se o camnhamento em toda área à procura de vestígos arqueológcos.

Para Moras (990), a prospecção é um processo ncal, determnado como reconhecmento da área, durante o qual são realzadas mssões de averguação do terreno, com base em nformações cartográfcas, textos especalzados e declarações da comundade local. Nesse processo são demarcadas as áreas onde estão localzados os sítos e ocorrêncas arqueológcas, sendo que o prmero denota grande presença de materal e o segundo menos materal, deduzndo-se como área de morada e acampamento, respectvamente. A verfcação de sua exstênca no campo permte o posconamento através da determnação das coordenadas geográfcas e o regstro no materal cartográfco exstente. No decorrer desta verfcação são, também, fetas coletas de materal arqueológco comprobatóro, com o objetvo de garantr o testemunho e possbltar uma análse mas acurada, em laboratóro, da potencaldade em vstas de uma futura escavação do síto. Como vsto acma, o processo de prospecção é demorado e oneroso, pos trata de uma busca de materal das antgas ocupações em campo. Assm sendo, propõe-se verfcar a performance da análse espacal (regressão logístca) em um modelo de dados geográfcos do lago de nundação da UHE Sérgo Motta, a fm de gerar um produto adequado à predção de locas mas propícos para conter ndícos de antgas cvlzações. Espera-se, com sso, contrbur para a otmzação do processo de prospecção em Projetos de Salvamento Arqueológco e pesqusas arqueológcas..2. Objetvos O presente trabalho objetva determnar parâmetros de um modelo matemátco que represente a probabldade de ocorrênca de um evento de nteresse, tal como presença de sítos arqueológcos, baseado nas varáves ambentas como geologa, geomorfologa, pedologa e altmetra e, em alguns locas conhecdos, de presença ou ausênca de vestígos arqueológcos (dcotômcos). A determnação dos parâmetros dar-se-á pelo método de Regressão Logístca, que selecona as varáves mas relevantes ao modelo arqueológco da população rbernha que habtava o Ro Paraná, podendo, a partr do modelo ajustado, predzer as prováves áreas de ocupações pretértas. 2

Todo o processo poderá valdar uma ferramenta de análse espacal para a geração de mapa com as prováves áreas de ocupações pretértas, otmzando uma das etapas do Projeto de Salvamento Arqueológco: a prospecção..3. Conteúdo do trabalho Apresenta-se o conteúdo da pesqusa em sete capítulos: o prmero consttuse de uma breve ntrodução e os objetvos do trabalho, onde é abordada sua mportânca para a Arqueologa e seus processos. No segundo capítulo são apresentados concetos de Sstema de Informação Geográfca (SIG), com enfoque sobre modelos do tpo geo-campo, utlzando-se o conceto dos unversos de abstração adaptado por Câmara et. al.(996) para o caso de SIG. No tercero capítulo são apresentados alguns tpos de análses espacas para predção de sítos arqueológcos, com ênfase no método de classfcação por árvore e análse da função dscrmnante de Fsher. No quarto capítulo são apresentados os concetos do modelo logístco, bem como a técnca de teste de hpóteses. O materal e o método da aplcação de Regressão Logístca com auxílo das ferramentas de Geoprocessamento são apresentados no capítulo cnco. Os resultados obtdos a partr da Regressão Logístca para o conjunto de dados do Projeto de Porto Prmavera são mostrados no capítulo ses. As conclusões e recomendações do autor compõem o sétmo capítulo desta dssertação. 3

2. GEOPROCESSAMENTO A análse espacal, como a que se propõe avalar neste trabalho, nsere-se no contexto do Geoprocessamento, que pode ser consderado como um conjunto de ferramentas de processamento e descrções de nformações geográfcas. Entre essas ferramentas podem ser ctados os métodos geoestatístcos, as ferramentas de Sstema de Informação Geográfca, os processamentos de magens e os métodos de nterpolação. Segundo Texera (992), Geoprocessamento é uma tecnologa que abrange o conjunto de procedmentos de entrada, manpulação, armazenamento e análse de dados espacalmente georreferencados. Para Câmara (996), Geoprocessamento denota a dscplna do conhecmento que utlza técncas matemátcas e computaconas para o tratamento da nformação geográfca e que vem nfluencando de manera crescente as áreas de Cartografa, Análse de Recursos Naturas, Transportes, Comuncações, Energa e Planejamento Urbano e Regonal. As ferramentas computaconas para o Geoprocessamento, chamadas de Sstemas de Informação Geográfca, permtem realzar análses complexas, ao ntegrar dados de dversas fontes e ao crar bancos de dados georreferencados. Tornam anda possível automatzar a produção de documentos cartográfcos. Baseado nesse conhecmento apresentam-se os concetos báscos de um Sstema de Informação Geográfca. 2.. Sstema de Informação Geográfca O Sstema de Informação Geográfca, a prncípo, é uma especalzação dos Sstemas de Informação (SI) que, segundo Laudon (999), é defndo como um conjunto de componentes nter-relaconados trabalhando junto para coletar, recuperar, processar, armazenar e dstrbur nformação com a fnaldade de facltar o planejamento, o controle, a coordenação, a análse e o processo decsóro em empresas e outras organzações. Um Sstema de Informação contém nformações sobre pessoas, lugares e cosas de nteresse no ambente ao redor da organzação e dentro da própra organzação, transformando a nformação em uma forma utlzável para a coordenação de fluxo de trabalho 4

de uma empresa, ajudando empregados ou gerentes na tomada de decsões, análses, vsualzações de assuntos complexos e na resolução de outros tpos de problemas. Num SI exste um cclo de três atvdades báscas: entrada, processamento e saída, como pode ser observado na Fgura 0. Ambente Organzação Entrada Processamento Saída Realmentação Fgura 0: Transformação dos dados orgnas em nformação útl (Fonte: Laudon, 999) Um Sstema de Informação Geográfca é um tpo de SI e surgu da necessdade de armazenamento, processamento e vsualzação de dados espacas, juntamente com o alto desenvolvmento computaconal. Worboys (995) defne o SIG como um Sstema de Informação baseado em computador, que permte capturar, modelar, manpular, corrgr, analsar e apresentar dados georreferencados. A tecnologa permte o montoramento de eventos, fortalecendo o processo de planejamento e organzação de qualquer sstema geográfco nformal. Bascamente, a nformação é tratada sob a forma de base de dados georreferencados, mantendo uma assocação com as nformações gráfcas tas como pontos, lnhas e polígonos e, com nformações não espacas (exemplo: a lumnação do poste é amarela ). Para Campbel (995), SIG é, na sua essênca, um conjunto de tecnologas baseado em computador que são hábes para armazenar, vsualzar, manpular e analsar dados espacas, mas partcularmente mapas baseados em nformação. E para Câmara (996), o termo Sstema de Informação Geográfca é aplcado para sstemas que realzam o tratamento computaconal de dados geográfcos. Um SIG armazena a geometra e os atrbutos dos dados que estão georreferencados, sto é, localzados na superfíce terrestre e representados numa projeção cartográfca. Os dados tratados em Geoprocessamento têm como prncpal característca dversdade de fontes geradoras e de formatos apresentados. Todas as defnções descrevem o Sstema de Informação Geográfca como ferramenta de análse, vsualzação e armazenamento de dados geográfcos, utlzando 5

ferramentas computaconas e recursos humanos. Essas ferramentas são utlzadas no auxílo de um determnado processo, provenentes da abstração ou smplfcação do mundo real, como mostra a Fgura 02. Peopleware Ferramentas (Programas) SIG + Base de dados Abstração ou smplfcação Mundo Real Resultados Fgura 02: Componentes de um Sstema de Informação Geográfca (Fonte: ESRI, 995) Mas detalhes sobre Sstema de Informação Geográfca podem ser encontrados em Câmara et. al. (2002), Worboys (995), Campbell (995), entre outros. 2... Modelagem de dados Na modelagem de um Sstema de Informação Geográfca deve-se levar em consderação as componentes que o envolvem, não somente analsar qual programa utlzar, mas também ter a preocupação da ntegração das três componentes báscas: organzações, pessoas e a tecnologa, para que resulte em um trabalho coeso e efcente. Um SIG utlza o esquema dos quatro unversos no processo de abstração, como apresentado na Fgura 03. Câmara (996) descreve o paradgma desses quatro unversos voltados para Sstemas de Informação Geográfca. Unverso físco Unverso matemátco Unverso de representação Unverso mplementação Fgura 03: Níves concetuas de abstração (Fonte: Câmara, 996) 6

Segundo Borges (997), o modelo busca sstematzar o entendmento que é desenvolvdo a respeto de objetos e fenômenos que serão representados em um sstema nformatzado. Os objetos e fenômenos reas, no entanto, são complexos demas para permtr uma representação completa, consderando os recursos à dsposção dos sstemas gerencadores de bancos de dados (SGBD) atuas. Desta forma, é necessáro realzar uma abstração dos objetos e fenômenos do mundo real, de modo a se obter uma forma de representação convenente, embora smplfcada, que seja adequada às fnaldades das aplcações do banco de dados. A modelagem de um Sstema de Informação Geográfca requer um conhecmento e uma habldade prátca com tecnologas de nformação geográfca; uma compreensão de organzações e ndvíduos, com uma perspectva comportamental (relaconamento e funconaldade) e uma compreensão ampla de como analsar e resolver problemas para os usuáros, como mostra a Fgura 04. Habldades para análse e solução de problemas Habldades para comportamento organzaconal e ndvdual Conhecmento em SIG Habldades para tecnologa de nformação Fgura 04: Temas centras do conhecmento em Sstemas de Informação (Laudon, 999). Assm a modelagem em SIG trata-se de uma técnca de projeto, que vsa a análse dos processos nerentes à realzação de determnadas atvdades, servndo para dversos objetvos. Rumbaugh (99) modela um projeto na segunte seqüênca: - Testar uma entdade físca antes de lhe dar a forma; - comuncação com clentes (arqueólogos); - vsualzação e - redução da complexdade. Em resumo, utlza-se a modelagem, pos os computadores e, conseqüentemente, os Sstemas de Informação Geográfca operam sobre números e caracteres e não há como aplcá-los dretamente às varáves do mundo real. A representação e a análse 7

destas varáves ambentas no contexto computaconal passam prmeramente pela aqusção de amostras da varável. Contudo, devdo à complexdade da natureza, à mprecsão na medda das amostras, às aproxmações de modelagem, aos nteresses de estudo e às lmtações computaconas, os modelos são representações smplfcadas da realdade. Um bom modelo é aquele que prevê correta e consstentemente o funconamento do mundo real para a varável de nteresse (Barbosa, 997). A modelagem do mundo real num banco de dados geográfcos é uma atvdade complexa, pos como já fo colocado, envolve a dscretzação do espaço geográfco (Davs, 2002). Nessa obra são apresentados os seguntes fatores envolvdos no processo de dscretzação do espaço: transção da nformação em undades lógcas de dados, forma como as pessoas percebem o espaço, natureza dversfcada dos dados geográfcos, exstênca das relações espacas, coexstênca de entdades essencas ao processamento e atvdades cartográfcas. No presente trabalho, como os dados referem-se, prncpalmente, a fenômenos que varam contnuamente no espaço (como geologa, geomorfologa, altmetra,...), a vsão de campos (Worboys, 995) é adotada para a representação adequada desses fenômenos. Assm, as representações do Mundo Arqueológco (Domíno Fonte) são funções do tpo f(e,n), onde E e N são as coordenadas referentes à área geográfca do projeto (domíno espacal) e essas funções têm como contradomíno os valores assocados às varáves ambentas (ndependentes). Mas nformações sobre geo-objetos podem ser obtdos em Worboys (995), Câmara et. al. (2002) e Barbosa (997). 2..2. Modelos tpo geo-campo Segundo Worboys (995), o modelo de geocampo trata a nformação como um conjunto de dstrbuções espacas, onde cada dstrbução pode ser formalzada como uma função matemátca de uma área geográfca, representando uma dstrbução geográfca contínua. A Fgura 05 representa as localzações de uma área geográfca baseada em geocampos para n varáves. 8

Locaton Var. 0 Locaton Var. 02 Locaton Var. n Fgura 05: Fenômenos geográfcos baseados em geo-campo (Fonte: Worboys, 995) Para Câmara (996), o geo-campo representa a dstrbução espacal de uma varável que possu valores em todos os pontos pertencentes a uma regão geográfca, na qual um geo-campo (f) é uma entdade matemátca que representa a dstrbução de uma varável espacalmente contínua sobre uma regão geográfca (R): onde: f = [R,V,λ], R : regão geográfca defnndo o domíno espacal V : contra-domíno de valores da varável na regão geográfca λ: mapeamento entre pontos (x,y) em R e valores em V (λ : R V) Um modelo de geo-campo consste em uma coleção fnta de n campos espacas, {f : n}. Para n, cada campo espacal f é uma função computável de um conjunto F para um atrbuto fnto do domíno A. Para uma melhor compreensão dos geo-campos é necessáro entender as suas propredades, que podem ser de estrutura espacal e domíno de atrbutos (Worboys, 995). O domíno de atrbutos pode conter valores mensuráves pertencentes aos seguntes tpos (Worboys, 995): 9

a) nomnas: valores qualtatvos em que não podem ser aplcadas as operações artmétcas. Por exemplo, o nome de um tpo de vegetação; b) ordnas: quantdades por ordenação numa escala lnear, mas não por magntude. Valores ordnas podem ser comparados por tamanho, mas não podem ser adconados, multplcados, subtraídos, etc. Como exemplo, o nível de escolardade nas regões; c) ntervalares: quantfcados pela posção relatva num ntervalo de escala, onde as meddas de ntervalo podem ser comparadas por tamanho, com a magntude da dferença, obtendo-se uma noção expressva e d) proporção: ao contráro dos ntervalos, é defndo com respeto a um ponto fxo, sendo permtdas as operações artmétcas (adção, subtração multplcação e dvsão). Pode-se ctar a alttude sobre o nível médo dos mares. Os geo-campos podem ser especalzados em (Câmara, 996): - Temátco: usado para modelar varáves cujos valores foram obtdos através de escalas de meddas temátcas, bnára, nomnal e ordnal. A função f caracterza um geo-campo temátco quando defne um mapeamento f : R V, tal que V é um conjunto fnto enumerável. Os elementos de V defnem os temas de um geo-campo temátco (p.ex. um mapa de solos é caracterzado pelo conjunto de temas {latosolo roxo, ltosolo, podzólco vermelho, etc.}); - Numérco: usado para modelar varáves cujos valores foram obtdos através de escalas de meddas numércas, ntervalares e proporconas. A função f caracterza um geo-campo numérco quando defne um mapeamento f : R V, tal que V é o conjunto dos reas. Dados de altmetra, temperatura, pressão são exemplos de dados geográfcos que podem ser modelados concetualmente como geo-campo; 0

- Imagem: usado para modelar varáves cujos valores foram obtdos através de dscretzação da resposta recebda por sensor remoto (passvo ou atvo) de uma área da superfíce terrestre. A função f caracterza um geo-campo magem quando defne um mapeamento f : R V, tal que V é o conjunto dos naturas. Esta classe é uma especalzação da classe geo-campo numérco. Clff e Ord (98) apud Barbosa (997) dz que uma característca partcular dos campos físcos é o grau extremamente alto de autocorrelação espacal. Essa característca permte nferr que posções próxmas têm chance de possuírem característcas smlares, compensando assm o fato de não se medr o fenômeno contínuo em todas as posções, dado que elas são nfntas. 2..3. Representação dos geo-campos Após a modelagem concetual deve ser gerado o modelo de representação, onde a geometra é representada no computador, baseado nos modelos matemátcos defndos no modelo concetual. Como os geo-campos representam dados espacas do Mundo Real como função do tpo f(x,y), esses podem ser representados, segundo Worboys (995), como os seguntes tpos: - Contínuo: no qual havendo uma pequena varação na localzação geográfca haverá também uma pequena mudança no valor do atrbuto, não ocorrendo varações abruptas num ntervalo pequeno, ou seja, a forma desse tpo de geo-campo é uma função suavzada (Fgura 06a); - Dferencáves: nesse tpo de geo-campo, a taxa de mudança é bem defnda (declve), como mostra a Fgura 06b; - Dscreto: nesse geo-campo pode-se notar que grafcamente, há uma descontnudade na curva, ou seja, os lmtes para as classes são bem defndos (Fgura 06c).

(a) (b) (c) Fgura 06: Geo-campos do tpo (a) contínuo, (b) dferencado e (c) dscreto (Worboys, 995) Esses tpos de representação são modelados de acordo com problema a ser aplcado pelo usuáro, pos cada abstração do Mundo Real é partcular à determnada aplcação. Neste trabalho utlzou-se o programa Arc/Info, que tem os permte gerar os seguntes tpos de geo-campo (Barbosa, 997): - Grd ou Lattce: são grades regulares com determnado lmte geográfco, resolução e valores da varável assocados, como uma matrz de células, onde para cada posção (x,y) tem-se um valor assocado. Esses valores podem ser do tpo float (real) ou nteger (ntero); - Regons (polígonos): são representações polgonas regulares ou rregulares, que têm valores atrbuídos a cada polígono. Cada regão tem um valor E, N (centróde) e um valor numérco, escalar ou dado alfanumérco, como é o caso da cobertura vegetal; - Isolnhas: são lnhas que têm o mesmo valor de varável. Numa determnada área geográfca têm-se váras solnhas ordenadas, onde, por regra, nunca se cruzam. As solnhas são formadas por pequenas lnhas, para os quas são atrbuídas coordenadas de níco, passagem, fm e o valor da varável. Como exemplo, as representações de curvas de nível e as lnhas sotermas; - TIN (Trangular Irregular Network): a rede de trângulos rregulares representa um terreno por meo de trângulos rregulares, onde os vértces são pontos amostrados no terreno. Os TINs são gerados por 2

amostras pontuas ou solnhas, cujos valores assocados representam a varável em questão; - Amostras de pontos rregularmente espaçados: nesse caso, as coordenadas não respetam um padrão de locação entre as amostras, perfazendo um conjunto de coordenadas E, N rregulares com o valor da varável assocado. Como exemplo pode ser ctada a coleta de amostras aleatóras de solo em Z, que atualmente é utlzada pelos técncos agrícolas; - Amostra de pontos regularmente espaçados: esse tpo de representação aloca coordenadas E, N e o valor da varável na área geográfca, porém respetando-se uma eqüdstânca entre as amostras. Segundo Barbosa (997), o espaçamento entre as amostras deve ser no mínmo duas vezes menor que a menor varação espacal presente no fenômeno em estudo, ou a freqüênca espacal da amostra deve ser duas vezes maor que a maor freqüênca espacal presente no fenômeno em estudo. 2.2. Álgebra de Mapas A álgebra de mapas é defnda como uma lnguagem para manpulação das representações cujo domíno é comum, ou seja, os planos de nformação compreendem a mesma regão geográfca. Como o presente trabalho trata da determnação de um modelo logístco para a predção de prováves áreas de ocupação pretérta e sua aplcação em uma regão geográfca, o projeto envolve a realzação de uma seqüênca de operações algébrcas com os dversos planos de nformação após o ajuste do modelo predtvo. Essas operações são realzadas com recursos acessados através de uma lnguagem de manpulação. Nesse tópco é dada ênfase à álgebra de campos utlzando o módulo ArcGrd do Arc/Info, que provê ferramentas de análses para grds (representações matrcas). 3

Segundo Berry apud Barbosa (997), o conceto de álgebra de mapas ou álgebra de campos pode ser vsto como uma extensão da álgebra tradconal, com um conjunto de operadores onde as varáves manpuladas são campos geográfcos. Estes operadores manpulam um, dos ou mas geo-campos, em que cada geo-campo descreve um atrbuto dferente ou até um mesmo atrbuto, mas com valores dferentes. A base ou elemento atômco desse tpo de processamento é a célula, que pode ser consderada como uma undade dscreta dentro de um domíno R (regão geográfca). O processamento de dados espacas por representações matrcas é uma poderosa ferramenta analítca, pos permte quatro tpos de funções: - Local (por célula): o valor resultante de cada célula é uma função do valor correspondente à sua localzação; - Focal (por vznhança): o valor de locação da célula é uma função de valores das células de entrada, especfcada pelos seus vznhos; - Zonal (por zonas ou valores guas): o valor resultante da análse leva em consderação células que tenham valores smlares ou da mesma categora, determnadas como zonas; - Global (por grd): o valor de saída de cada locação é potencalmente uma função de todas as células do grd de entrada. Na estrutura nterna desse tpo de representação, cada grd categórco tem um valor assocado numa tabela (VAT Value Atrbute Table), que armazena a base de dados relaconas e é análogo ao PAT (Polygon Attrbute Table) para feções do tpo polígono. Uma VAT é gerencada por um sstema de base de dados INFO, onde o grd é dvddo em undades quadradas denomnadas por tles e cada um representa uma porção do espaço (Esr, 995). Um tle forma blocos retangulares, onde há mas blocos no exo Y do que no exo X. Essa estrutura fo defnda para suportar acesso aleatóro aos dados, onde há rápda resposta no caso de uma localzação de uma determnada célula. Uma comparação análoga pode ser feta com a carta ao mlonésmo do IBGE, onde se tem dvsões e subdvsões do Brasl baseados num índce que faclta a localzação de uma determnada carta. 4

Uma outra fnaldade para esse tpo de estrutura é a compressão da coverage matrcal (Plano de Informação matrcal), onde o ArcGrd decde pelo melhor método de compressão devdo ao tpo de dados representados, otmzando o projeto do usuáro. Segundo Cordero (996), a lnguagem GRID, embora muto flexível, tem o séro nconvenente de não dstngur entre os dferentes tpos de operandos. Isto decorre do fato de estar lgada às estruturas de dados (matrzes) e não levar em conta a semântca das operações. A lnguagem LEGAL do SPRING permte as operações onde são analsados atrbutos qualtatvos e quanttatvos, cujos detalhes podem ser obtdos em http://www.dp.npe.br/geopro/trabalhos/sbsr96_.pdf. 5

3. ANÁLISE DE DADOS ESPACIAIS EM ARQUEOLOGIA Um SIG não é smplesmente um sstema computaconal que faz mapas, embora possa crar mapas em dferentes escalas, em dferentes projeções e com dferentes cores, ele é uma ferramenta analítca. A maor vantagem é que esse sstema permte dentfcar os relaconamentos espacas entre as feções dos mapas, não armazenando um mapa no sentdo convenconal, nem uma magem partcular ou uma vsão de uma área geográfca e sm armazenando dados, os quas podem ser desenhados numa vsão desejada pela demanda de um propósto partcular. (ESRI, 995). Nesse capítulo está ntroduzda uma breve abordagem sobre alguns métodos de análse espacal para dados arqueológcos, para que, a partr da determnação de um modelo, possa ser gerada uma superfíce probablístca da exstênca de fragmentos arqueológcos. Esse resultado é baseado nos planos de nformação das varáves ambentas (ndependentes ou explcatvas) e da varável resposta (presença/ausênca de sítos arqueológcos), que no caso é a presença ou a ausênca de vestígos arqueológcos. O aspecto teórco e aplcado da modelagem predtva em aplcações arqueológcas é um campo relatvamente novo na Arqueologa. Esses estudos foram realzados nos anos 50 e 60, mas só obtveram destaque após os anos 70 (Warren, 990), juntamente com o desenvolvmento da tecnologa computaconal. Nos anos seguntes fo possível realzar modelagem predtva em Arqueologa aplcada na Cartografa Dgtal, através das ferramentas de Sstemas de Informação Geográfca (SIG). A modelagem predtva se mostra útl na explcação de fenômenos baseados em fatores culturas, como exemplo, predzer a razão pelas quas antgas cvlzações preferam determnadas localzações para a nstalação dos acampamentos. Nesses casos, os modelos de predção podem oferecer meddas das fontes culturas em localdades específcas, predzendo um cenáro passado para a fxação das antgas cvlzações através de um modelo matemátco. Um modelo predtvo pode predzer as prováves áreas de ocupações pretértas, baseando-se nas preferêncas do habtat e em varáves do unverso físco, tornando-se útl na etapa de prospecção de Projetos de Salvamento Arqueológco. 6

O modelo predtvo assoca varáves mas condzentes com o tpo de ocupação através de métodos estatístcos, perfazendo a escolha mas provável dos povos préhstórcos e suas estratégas para realzar as ocupações. Com base na lteratura de Bona (992), Johnson e Wchern (992), Tachbana (2000), Galo (2000) e Warren (990), enfoca-se neste trabalho os seguntes modelos predtvos: árvore de decsão, análse dscrmnante de Fsher e Regressão Logístca. 3.. Modelagem predtva Antes de dar ênfase nos modelos de predção, são aqu apresentadas duas perspectvas báscas dos métodos predtvos: ndutvo e dedutvo. Os modelos ndutvos são processos analítcos de fatos partculares ou de casos ndvduas de uma hpótese que sugerem uma conclusão geral. Segundo Warren (990), são padrões compostos ou unformdades que são detectadas em observações empírcas, ou seja, podem ser obtdas novas conclusões a partr do conjunto amostral, permtndo a geração de novos conhecmentos baseados nas observações. Já os modelos dedutvos são gerados da teora e são análogos ao tpo de predção que são freqüentemente assocados com o método centífco e nessa vsão, não há a cração de novos conhecmentos e sm, a utlzação de um conhecmento prévo. Com base nesse entendmento, podem ser desenvolvdos modelos gráfcos e/ou numércos, que possbltem manpular varáves utlzando-se a nterseção e/ou os valores de pesos das varáves. Um modelo predtvo é compreenddo por um conjunto de testes de hpóteses, que consdera o método de nteração e os valores dos pesos para o modelo. Essa metodologa, enrquecda com o conhecmento dos arqueólogos, permte aprmorar os modelos predtvos aplcados à Arqueologa. Segundo Bona (992), há váras suposções sobre o desenvolvmento da modelagem predtva. A prmera envolve a suposção de que a escolha do local dos acampamentos dos povos pré-hstórcos fo nfluencada por elementos ambentas, naturas e físcos. A segunda é que essas varáves ambentas sobrevveram e podem ser representadas por dados atuas. Estes dados podem estar em mapas, monografas ou podem ser coletados no 7

campo. A tercera suposção consdera que as correlações entre locas arqueológcos e as característcas do ambente físco/natural, observado por arqueólogos, são fatos que ndcam as decsões dos povoamentos pretértos. Como um modelo predtvo tenta codfcar aspectos do comportamento humano, não se pode esperar que ele seja um modelo smplsta ou que possa ser desenvolvdo de forma medata, sem muto esforço. O tempo para o desenvolvmento de um modelo predtvo não é fnto. Após a obtenção de um modelo ncal, as observações dscrepantes, ou anomalas, devem ser dentfcadas e serem objeto de uma pesqusa adconal. Se algum padrão for encontrado, mutas anomalas tornam-se prevsíves e elas crescem em mportânca, necesstando-se de uma nova modelagem. Esta, novamente, tem que ser refnada através das observações que a modelaram, formando um cclo ntermnável. Portanto, a modelagem deve ser consderada e realzada como um processo dnâmco, de modo que qualquer conjunto de dados coletados, em qualquer momento, possa ser ncorporado no processo de modelagem para aumentar sua ntegrdade, acuráca e escopo. Consderando também a modelagem predtva como um processo dnâmco, Bona (992) descreve-a em três estágos (Fgura 07): - Coleta dos dados e sua organzação; - Desenvolvmento de um modelo ncal e teste deste modelo; - Introdução de novas varáves no modelo para refnamentos e aperfeçoamento. o. Estágo 2 o. Estágo 3 o. Estágo Coleta e organzação dos dados Desenvolvmento do modelo e testes Fgura 07: Estágos da modelagem predtva Refnamento e aprmoramento consderadas: No desenvolvmento do prmero estágo do modelo predtvo, devem ser - () As construções das hpóteses que se deseja verfcar: Nesse passo, devem ser consderadas as característcas e atvdades dos povos que habtavam a área de pesqusa, pos servem como ndcadores 8

mportantes para as varáves a serem modeladas, ou seja, a manera que essas varáves contrburão para a determnação das prováves áreas de ocupação pretérta; - (2) Estratéga para levantamento do conjunto ncal de dados: A partr das hpóteses geradas, tem-se um conjunto de dados ncas que são relevantes à explcação das hpóteses levantadas no prmero passo e - (3) Reconhecmento em campo: Para a valdação das hpóteses é necessáro que um conjunto de dados apresente observações váldas e seja complementado com as nformações sobre eventos já conhecdos. Para tal, é necessáro fazer um levantamento de campo. A fgura 08 lustra os passos do prmero estágo HIPÓTESES CONJUNTO INICIAL RECONHECIMENTO EM CAMPO Fgura 08: Passos da organzação dos dados para modelos predtvos No desenvolvmento do segundo estágo, também sugerdo por Bona (992), é necessáro processar as varáves organzadas no prmero estágo. Nesse ponto, as varáves são ntroduzdas ou removdas do processo e os pesos ajustam-se até que o modelo seja capaz de predzer, mas precsamente possível com os testes de hpóteses, a probabldade de ocorrênca de sítos arqueológcos. No fnal dessa etapa, se faz necessáro para a valdação do modelo predtvo, realzar a procura dos materas em campo que poderão também acrescentar ao modelo novas observações. No últmo estágo o pesqusador deve analsar os resultados obtdos com a aplcação do modelo predtvo, podendo ser ntroduzdas novas varáves para enrquecer e soldfcar a ntegrdade do modelo predtvo ajustado. 9

Em resumo, algumas dretrzes devem ser estabelecdas para a elaboração de um modelo predtvo. Warren (990) apresenta uma vsão geral dos métodos de modelagem predtva que têm sdo populares entre os arqueólogos durante os últmos anos, destacando modelos de probabldade, nos quas a varável dependente consste em dos ou mas grupos exaustvos e mutuamente exclusvos, que podem ser codfcados como sucesso versus fracasso, resposta versus não resposta, presença versus ausênca, etc., com respeto a uma ou mas varáves ndependentes. São eles: modelos de decsão por árvore, análse de regressão múltpla e análse de regressão logístca. Dando contnudade a este capítulo serão apresentados os dos prmeros métodos de predção. A análse de regressão múltpla é uma técnca ampla, mas de nteresse quando a varável resposta (dependente) é contínua. Neste trabalho, a varável de nteresse consste em apenas dos grupos mutuamente exclusvos. Por essa razão, com relação aos modelos de regressão, será abordado apenas o procedmento de regressão logístca, que ajusta melhor essas predções. Kvamme (990), Warren (990) e Perera e Itam (99), entre outros, obtveram bons resultados com a ntegração de Sstema de Informação Geográfca com procedmento de analse de regressão logístca. Por essa razão, será dado um enfoque especal a este últmo modelo, apresentando-o em um capítulo separado. 3... Método de decsão por árvore Dependendo do problema, o propósto básco de classfcação é produzr um classfcador acurado ou revelar a estrutura predtva do problema (Breman et. al., 984). Então, o objetvo do método de decsão por árvore é predzer ou apresentar explcações sobre respostas de uma varável dependente, tendo algo em comum com outras técncas de classfcação como Análse Dscrmnante, a Estatístca Não Paramétrca e a Estmação Não Lnear. O método de decsão por árvore tem como analoga uma árvore, na qual a raz pode ser consderada como o ponto de partda da análse. Esse método é utlzado para Os parâmetros são quantdades que caracterzam uma dstrbução. Na Estatístca Não Paramétrca não é necessáro fazer suposções sobre a dstrbução desses parâmetros da qual tenham sdo extraídos os dados para análse, por exemplo, se a dstrbução da população é normal. 20

predzer casos ou classes, a partr de uma varável categórca e dependente e uma ou mas varáves predtoras. Na medda em que o conjunto amostral va sendo comparado, os elementos vão sendo classfcados com base no conhecmento exstente sobre eles. Quando uma solução for gerada por decsão de árvore, seu resultado pode ser capaz de predzer novos dados e assm ser consderado um modelo de predção. Como uma árvore, esse tpo de classfcador também tem ramfcações, folhas e raz. A raz, como dto anterormente, é o prmero teste feto no conjunto de dados. As ramfcações são os testes subseqüentes ao prmero e caso a observação esteja na últma nstânca da ramfcação, ela será dta como pertencente à classe determnada por esse ramo. Quando a análse determna a classe do regstro ou elemento analsado, pode-se afrmar que ele permanece no nó fnal ou na folha da árvore que compõe os elementos classfcados. A fgura 09 mostra a estrutura do método de decsão por árvore. CONJUNTO DE DADOS RAIZ (NÓ INICIAL) NÃO TESTE SIM NÓ INTERMEDÍÁRIO CLASSIFICADO COMO TIPO NÃO TESTE 2 SIM CLASSIFICADO COMO TIPO 2 CLASSIFICADO COMO TIPO DADOS HOMOGÊNEOS Fgura 09: Árvore de classfcação Uma árvore de decsão utlza uma estratéga de dvdr para encontrar: Um problema complexo é decomposto em sub-problemas mas smples; Recursvamente a mesma estratéga é aplcada a cada sub-problema. A capacdade de dscrmnação de uma árvore vem da: 2

Dvsão do espaço defndo pelos atrbutos em sub-espaços; Do fato que a cada sub-espaço é assocada uma classe; Como vsto acma, os nós da árvore são verfcados através de comparações, assm sendo, o problema maor é determnar as regras a serem utlzadas nas comparações, pos a robustez do modelo envolve dretamente o resultado da predção. Uma estratéga adequada para a tomada de decsão gera um modelo super ajustado, perfazendo uma melhor classfcação e assm, os dados fcam próxmos da realdade. Para a geração de uma estratéga robusta é necessáro realzar uma modelagem que decda a melhor escolha para classfcar as varáves. 3..2. Modelagem através de decsão por árvore A modelagem, neste caso, trata de um processo que determna a seqüênca dos nós da árvore. A decsão é obtda de acordo com a prordade dos nós (testes). Ela permte que o método de decsão por árvore fque mas maleável de forma a acetar os valores ambíguos ou outlers (valores dscrepantes). O recurso utlzado para esse tpo de stuação é denomnado poda que, segundo Carvalho (200), tenta generalzar a árvore elmnando subárvores que parecem ser muto específcas. A segur é feta uma abordagem do método de decsão por árvore ID3, desenvolvdo por Qunlan em 993, que utlza o crtéro de entropa para dvdr os nós, ou seja, parte do prncípo de que a entropa cresce com a probabldade assocada a um determnado estado. O conceto de entropa é amplamente utlzado em Físca, mas precsamente em Termodnâmca. Em Estatístca está relaconado com a quantdade de nformação para explcar um determnado evento. Como exemplo, ao jogar uma cartela na Mega Sena a probabldade de acertar o prmero jogo é quase nula, de acertar a quna é pequena, mas é maor do que acertar as ses dezenas e de acertar uma quadra é pequena, mas é maor que todas as anterores. Sendo a probabldade de acertar a sena quase nula, a entropa pode ser (quantdade de nformação nula), para a quna a entropa pode ter valor 0,96 e para a quadra a entropa pode ser 0,92. Nota-se assm, que a entropa pode ser vsta como um valor assocado à necessdade de nformação para a explcação de um evento. Onde há maor 22

entropa não é necessáro uma quantdade grande de nformação para explcar um determnado acontecmento. No caso da classfcação pelo método de árvore, quando a entropa é nula, sgnfca que os dados são homogêneos (mesma classe). No caso do método ID3, dado um determnado nó x, o crtéro de dvsão usado é: ( p log p ) Entropa( x) 2 = () onde p é a probabldade da -ésma classe dentro do nó x. Então, para expressar a proporção de nformação gerada pela dvsão, utlza-se a segunte razão: Razão Ganho (x) = ganho(x)/informação da dvsão(x) (2) onde o ganho é a dferença de entropa de nformação do nó x e o denomnador refere-se as dvsões realzadas para o nó x. Ganho (x) = entropa(x) entropa (x, x2) Entropa(x, x2) = - (p*log(p) + p2*log(p2)) (3) O valor resultante da razão ganho das varáves predtoras mostra qual varável deve ser testada em ordem de nós, contada da raz (maor valor da razão ganho) até o nó mas dstante (menor valor da razão do ganho). Demonstra-se a segur um exemplo retrado de Carvalho (200). Supondo que uma locadora de carros quera classfcar os seus clentes de acordo com aluguel de carros mportados ou naconas utlzando-se as varáves predtoras: dade e saláro. 7 clentes alugaram carros naconas (N) e 7 alugam carros mportados (I). Para ncar a classfcação é necessáro escolher algumas varáves para serem utlzadas na formação de subgrupos mas homogêneos. No exemplo, o autor escolheu a dade como nó ncal, verfcando-se que os clentes tnham entre 8 a 70 anos. Foram produzdos alguns valores de dade: 20, 40, 50 e 60. Com a dade de 20 anos, dvdu-se o 23

grupo de clentes em dos subgrupos: aqueles que têm mas de 20 anos e aqueles que têm menos de 20 anos. A entropa dos dos subgrupos fo calculada, obtendo-se a entropa total da nformação neste prmero nível da árvore de decsão. Suponha que a entropa tvesse o valor H 20 = 0,78. Partndo-se do grupo ncal, novamente, dos novos subgrupos foram crados: aqueles com mas de 40 anos e aqueles com menos de 40 anos. Novamente, calculando-se a entropa desses subgrupos obteve-se o valor H 40 = 0,64. Repetndo-se o processo para as dades de 50 e 70 anos, os valores da entropa obtdos foram H 50 = 0,7 e H 60 = 0,8. Comparando-se os valores calculados das entropas, observou-se que a menor entropa era do subgrupo 40, ou seja, se utlzar uma regra com base na dade menor ou gual que 40 anos, obtêm-se dados homogêneos. O próxmo passo fo defnr um novo crtéro para a separação dos dados remanescentes ao prmero nó (teste). A varável saláro pôde ser aplcada no próxmo nó, onde os valores varavam de R$ 2.000,00 a R$ 0.000,00. Do mesmo modo à prmera aplcação, os grupos foram subdvddos em: R$ 3.000,00; R$ 5.000,00 e R$ 8.000,00 e foram calculadas as entropas assocadas, obtendose H 3.000 = 0,6, H 5.000 = 0,2 e H 8.000 = 0,3. Então, para o teste do últmo nó puderam ser utlzados saláros maores e menores que R$ 8.000,000. A árvore de classfcação desse exemplo é mostrada na fgura 0. CONJUNTO DE DADOS (24) RAIZ SIM NÃO IDADE > 40ANOS NÓ INTERMEDÍÁRIO (2) ALUGA CARRO NACIONAL (2) NÃO SIM ALUGA CARRO NACIONAL (4) SALÁRIO > R$ 8.000,00 ALUGA CARRO IMPORTADO (8) DADOS HOMOGÊNEOS Fgura 0: Árvore de Classfcação para o exemplo de loja de aluguel 24

Com base nos dados de trenamento da árvore de decsão, pôde ser gerado um modelo que permtu classfcar um conjunto de dados multvarados; baseado na razão de ganho, uma árvore, contendo testes, permtu classfcar dados localzados na área de confusão entre classes. Em Arqueologa Lmp e Carr (985) apud Warren (990) utlzaram essa técnca. Eles seleconaram 3 varáves ambentas que podam ter sdo mportantes para explcar o assentamento pré-hstórco no sudeste do Arkansas (EUA), bem como os regstros arqueológcos. Cada varável ambental fo então dcotomzada em alternatva sm-não (decsão favorável versus decsão desfavorável) e as dcotomas foram agrupadas em blocos para crar uma sére vasta de árvores de decsões herárqucas. Cada árvore dfera de todas outras em termos de número ou posção de seus blocos. Em seguda, uma amostra de váras estruturas possíves de decsão por árvore fo aplcada aos dados ambentas na regão para dentfcar locas váves de povoamento. Essas localdades foram comparadas com as localzações de sítos arqueológcos conhecdos para verfcar o potencal predtvo de cada árvore. Uma vantagem desse modelo é a possbldade da sua estrutura mtar o processo de tomada de decsões de povos pré-hstórcos, sendo bastante flexível em comparação com métodos tradconas. Segundo os autores, a desvantagem é que sua mplementação é enfadonha e é muto dfícl de testar os resultados. Além dsso, ele é lmtado pelo fato que quando varáves contínuas são dcotomzadas nas ramfcações, o número possível de ramos torna-se nfnto. Também recomenda como últmo recurso utlzado quando a análse exploratóra ou métodos tradconas não conseguem representar o Mundo Real. 3.2. Análse dscrmnante pelo método de Fsher Um outro método de predção utlzando-se a classfcação é a análse dscrmnante, cujo prncípo é descrever grafcamente (em 3 dmensões ou menos) ou algebrcamente as característcas dferencas de um conjunto de observações multvaradas, sendo que cada uma dessas observações traz nformações de p varáves X e estão defndas no espaço p-dmensonal R p. 25

Essa espéce de classfcação permte alocar observações em duas ou mas classes rotuladas, tentando encontrar dscrmnantes, cujos valores numércos fazem com que as populações estejam tão separadas quanto possível (Tachbana, 2000). Consdere g populações ou grupos π,..., π g, onde g 2. Supõe-se que a cada população π j está assocada uma função densdade de probabldade (fdp) f j (x) no espaço R p, ou seja, se um ndvíduo pertence a uma população π j, tem fdp f j (x). Então, a meta da análse dscrmnante é alocar um ndvíduo para um dos g grupos com base nas observações x. Na teora apresentada a segur é dada ênfase no caso de duas populações, ou seja, g = 2, pos é a stuação mas comum na Arqueologa, onde uma é a provável área de ocupação pretérta e o seu complementar, a provável área que não fo ocupada. 3.2.. Função dscrmnante de Fsher para 2 populações A déa da função dscrmnante de Fsher é transformar a observação multvarada X em unvarada Y, tal que Y traga nformação das populações π e π 2. Se essas populações forem mas dstntas possíves, fca mas fácl afrmar a qual delas pertence as observações; mas nem sempre sso acontece e as populações ocupam algumas áreas em comum no espaço, denomnadas regões de confusão. Para resolver esse problema, Fsher, em 936, sugeru tomar a combnação ˆ' lnear de X para crar Y ( y = l x ), por ser uma função smples de X e de fácl tratamento matemátco. Tendo µ y (E(l x/π )) como a méda dos resultados Y, obtda das X, cujas observações pertencem a π e µ 2y (E(l x/π 2 )) a méda de Y obtda de X que pertence a π 2, Fsher seleconou a combnação lnear que maxmza o quadrado da dstânca entre µ y e µ 2y relatva à varabldade de X nas duas populações, dadas pelas matrzes de covarânca Σ=E [(x-µ )(x-µ ) ], =, 2, consderada gual para duas populações. Nessa matrz, µ e µ 2 são, respectvamente, a méda da população de X da população π e méda de X da população π 2. A dstânca máxma das duas populações é dada por (x-µ ) Σ - (x-µ 2 ). Naturalmente as quantdades populaconas µ, µ 2 e Σ raramente são conhecdas e a expressão anteror só poderá ser utlzada se forem estmadas as quantdades populaconas. 26