COMPARAÇÃO DA DISCRIMINAÇÃO LOGÍSTICA COM O MÉTODO DA MÁXIMA VEROSSIMILHANÇA GAUSSIANA NA CLASSIFICAÇÃO DE IMAGENS DIGITAIS

Documentos relacionados
MODELOS DE REGRESSÃO PARAMÉTRICOS

O problema da superdispersão na análise de dados de contagens

3 A técnica de computação intensiva Bootstrap

Prof. Lorí Viali, Dr.

O problema da superdispersão na análise de dados de contagens

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Classificação de Padrões

Associação entre duas variáveis quantitativas

1. CORRELAÇÃO E REGRESSÃO LINEAR

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

4 Critérios para Avaliação dos Cenários

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Prof. Lorí Viali, Dr.

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Reconhecimento Estatístico de Padrões

Testes não-paramétricos

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

REGRESSÃO NÃO LINEAR 27/06/2017

Cap. 5 Classificação Temática

Dados ajustáveis a uma linha recta

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

Ajuste dos Mínimos Quadrados

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Programa de Certificação de Medidas de um laboratório

AULA EXTRA Análise de Regressão Logística

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

2 Incerteza de medição

Aprendizagem de Máquina

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D.

3 Algoritmos propostos

Prof. Lorí Viali, Dr.

Métodos Avançados em Epidemiologia

2 Análise de Campos Modais em Guias de Onda Arbitrários

CORRELAÇÃO E REGRESSÃO

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

Cap. 11 Correlação e Regressão

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Algarismos Significativos Propagação de Erros ou Desvios

Análise de Variância. Comparação de duas ou mais médias

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

ALGORITMOS PARA DADOS AUMENTADOS

5 Implementação Procedimento de segmentação

Cálculo Numérico BCC760 Interpolação Polinomial

7 - Distribuição de Freqüências

Cap. IV Análise estatística de incertezas aleatórias

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

Estatística II Antonio Roque Aula 18. Regressão Linear

2 Metodologia de Medição de Riscos para Projetos

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

6 Modelo Proposto Introdução

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES

Gráficos de Controle para Processos Autocorrelacionados

PRESSUPOSTOS DO MODELO DE REGRESSÃO

Capítulo 1. Exercício 5. Capítulo 2 Exercício

DELINEAMENTOS EXPERIMENTAIS

Laboratório de Mecânica Aplicada I Determinação de Centros de Gravidade

Eletromagnetismo Aplicado

Estudo e Previsão da Demanda de Energia Elétrica. Parte II

Palavras-Chave: Métodos Interativos da Potência e Inverso, Sistemas Lineares, Autovetores e Autovalores.

7 Tratamento dos Dados

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES

Análise de Regressão Linear Múltipla IV

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Análise de Regressão Linear Múltipla VII

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Estatística Espacial: Dados de Área

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

Covariância na Propagação de Erros

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

Teoria Elementar da Probabilidade

Gestão e Teoria da Decisão

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

4.1 Modelagem dos Resultados Considerando Sazonalização

FACULDADE DE ECONOMIA DO PORTO. Licenciatura em Economia E C O N O M E T R I A II

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Regressão Linear Simples by Estevam Martins

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

Avaliação do tamanho da amostra de segmentos regulares para estimar a área plantada com café na região sul de Minas Gerais

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Representação e Descrição de Regiões

Análise de Regressão

ANÁLISE DA VARIÂNCIA DA REGRESSÃO

Modelo de Alocação de Vagas Docentes

EQUAÇÕES DIFERENCIAIS ORDINÁRIAS (EDO) PROBLEMA DO VALOR INICIAL (PVI)

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

3 Elementos de modelagem para o problema de controle de potência

Transcrição:

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL CENTRO ESTADUAL DE PESQUISAS EM SENSORIAMENTO REMOTO E METEOROLOGIA CURSO DE PÓS-GRADUAÇÃO EM SENSORIAMENTO REMOTO COMPARAÇÃO DA DISCRIMINAÇÃO LOGÍSTICA COM O MÉTODO DA MÁXIMA VEROSSIMILHANÇA GAUSSIANA NA CLASSIFICAÇÃO DE IMAGENS DIGITAIS Dssertação submetda como requsto parcal para a obtenção do grau de MESTRE EM SENSORIAMENTO REMOTO HÉLIO RADKE BITTENCOURT Orentador Professor Dr. Robn Thomas Clarke Porto Alegre, abrl de 2.

AGRADECIMENTOS Gostara de agradecer especalmente ao Prof. Robn Thomas Clarke, pela orentação prestada durante a elaboração deste trabalho. Desejo também epressar meus agradecmentos ao Prof. Vctor Haertel que, juntamente com meu orentador, contrbuu defntvamente para a mnha formação acadêmca. Devdo ao ecelente convívo proporconado no decorrer do curso, agradeço também aos colegas José Lus Motta, Mauro Erbert, Marcos Martns e Marcelo Remão; às secretáras Mônca e Magdalena e ao Prof. Jorge Ducat, ecoordenador do CEPSRM. Desejo também epressar meus snceros agradecmentos à CAPES, pelo apoo fnancero, e a Pró-Retora de Pesqusa da UFRGS, pelo ncentvo à partcpação em eventos centífcos. Por fm, agradeço a mnha esposa Suzel, com quem compartlhe pratcamente toda elaboração deste trabalho.

SUMÁRIO INTRODUÇÃO.... Introdução....2 Problema de Pesqusa e Objetvos... 2 REVISÃO BIBLIOGRÁFICA... 2. Hstórco do Modelo Logístco e Prncpas Aplcações... 2.2 Dscrmnação va Modelos Logístcos... 2.3 Reconhecmento Estatístco de Padrões... 3 MÉTODOS PROPOSTOS E MATERIAL... 3. Processo de Tomada de Decsão em Reconhecmento de Padrões... 3.2 Classfcador da Máma Verossmlhança Gaussana... 3.3 Dscrmnação Logístca... 3.4 Materal Utlzado... 4 RESULTADOS E DISCUSSÕES... 4. Comparação entre os Processos de Estmação... 4.2 Resultados Obtdos por Smulação... 4.3 Resultados Obtdos com Imagens Dgtas... 5 CONCLUSÕES... REFERÊNCIAS BIBLIOGRÁFICAS...

LISTA DE FIGURAS FIGURA : Função logístca e relação logt... FIGURA 2: Número de parâmetros a ser estmado para dscrmnação de três classes (k3), em função do número de característcas (p)... FIGURA 3: Comportamento das classes w, w 2 e w 3 com relação às característcas e 2... FIGURA 4: Saída do procedmento CATMOD do software estatístco SAS... FIGURA 5: Probabldade condconal P(w ) como função de e 2... FIGURA 6: Probabldade condconal P(w 2 ) como função de e 2... FIGURA 7: Probabldade condconal P(w 3 ) como função de e 2... FIGURA 8: Fronteras de decsão para as classes unformemente dstrbuídas... FIGURA 9: Comportamento das classes w, w 2 e w 3 com relação às característcas e 2... FIGURA : Hstogramas bdmensonas ( e 2 ) para as classes w, w 2 e w 3... FIGURA : Saída do procedmento CATMOD do software estatístco SAS... FIGURA 2: Fronteras de decsão para o modelo de dscrmnação logístca... FIGURA 3: Ilustração das fronteras de decsão no caso da máma verossmlhança gaussana... FIGURA 4: Segmento de uma cena Landsat-TM, composção colorda 5-4-2 (R-G-B)... FIGURA 5: Comportamento espectral médo das classes nas ses bandas espectras...

FIGURA 6: Hstogramas da banda TM-3 nas três bandas espectras... FIGURA 7: Imagem temátca gerada a partr da classfcação por dscrmnação logístca... FIGURA 8: Imagem temátca gerada a partr da classfcação por máma verossmlhança gaussana... FIGURA 9: Segmento de magem AVIRIS, composção 96-56-6 (R-G-B) e verdade terrestre... FIGURA 2: Comportamento espectral médo das classes nas dez bandas consderadas... FIGURA 2: Imagens temátcas e verdade terrestre: prmera magem classfcada por máma verossmlhança gaussana; segunda magem classfcada por dscrmnação logístca...

LISTA DE TABELAS TABELA : Varáves dummy y para a construção da função de verossmlhança... TABELA 2: Eemplo de amostra de trenamento... TABELA 3: Vetores méda e matrzes covarânca por classe... TABELA 4: Estmatvas para os vetores méda e matrzes covarânca por classe... TABELA 5: Taa esperada de erros de classfcação para as classes unformemente dstrbuídas... TABELA 6: Tabela de classfcação por método... TABELA 7: Descrção das classes w, w 2 e w 3... TABELA 8: Tabela de classfcação por método baseada em 3. padrões... TABELA 9: Tabela de classfcação baseada em.992 amostras de testes... TABELA : Tabela de classfcação de magem...

RESUMO A tradconal técnca de regressão logístca, muto conhecda e utlzada em estudos médcos, permta apenas a modelagem de varáves-resposta bnáras. A etensão do modelo logístco para varáves-resposta multnomnas amplou em muto as áreas de aplcação da regressão logístca. Na área de reconhecmento de padrões o modelo logístco multnomal recebeu a denomnação de dscrmnação logístca, pos a sua prncpal função tornou-se classfcar/dscrmnar padrões. A dscrmnação logístca apresenta aparentes vantagens em relação a métodos convenconas de classfcação. O método da máma verossmlhança gaussana, amplamente dfunddo e utlzado, necessta da estmação de um número muto grande de parâmetros, pos supõe que as dstrbuções subjacentes de cada classe sejam normas multvaradas. A dscrmnação logístca, por sua vez, não faz restrções quanto à forma funconal das varáves, e o número de parâmetros do modelo é relatvamente pequeno. Nesse estudo, os prncípos da técnca de dscrmnação logístca são apresentados detalhadamente, bem como aplcações prátcas de classfcação de magens Landsat-TM e AVIRIS. Os procedmentos de dscrmnação logístca e da máma verossmlhança gaussana foram comparados a partr de dados reas e smulados. Os resultados sugerem que a dscrmnação logístca seja consderada como uma alternatva ao método da máma verossmlhança gaussana, prncpalmente quando os dados apresentarem desvos da normaldade.

ABSTRACT The tradtonal Logstc Regresson technque, well known and utlzed n medcal research, allows modelng of bnary response varables only. The etenson of the Logstc Model to multnomal-response varables sgnfcantly broadens the applcaton spectrum of logstc regresson. In pattern recognton, the multnomal logstc model has been named Logstc Dscrmnaton, as ts man functon has become classfyng/dscrmnatng patterns. Logstc Dscrmnaton shows apparent advantages n comparson wth conventonal methods of classfcaton. The Gaussan Mamum Lkelhood Method, wdely dffused and utlzed, requres estmaton of a very large number of parameters, for t assumes that the underlyng dstrbutons of each class s normal multvarate. Logstc Dscrmnaton, n contrast, has no restrctons wth regard to the functonal form of the varables, and the number of parameters s relatvely small. In ths study, the Logstc Dscrmnaton Technque prncples as well as practcal eamples of AVIRIS and Landsat-TM mage classfcaton are presented n great detal. We ve compared the Logstc Dscrmnaton and the Gaussan Mamum Lkelhood procedures usng both smulated and real data. Results show that logstc dscrmnaton s an alternatve to the Gaussan Mamum Lkelhood classfer, specally when the data presents devatons from normalty.

INTRODUÇÃO. Introdução Sensoramento Remoto pode ser defndo, de uma forma geral, como a tecnologa que permte aqusção, armazenamento e nterpretação de nformações sobre característcas de objetos de nteresse, sem a necessdade de um contato físco com eles. Os objetos de nteresse são, na verdade, alvos localzados na superfíce terrestre. Os nstrumentos que consttuem a tecnologa de sensoramento remoto são câmeras fotográfcas, vdeocâmeras, radares e outros modernos equpamentos sensores nstalados a bordo de aeronaves ou satéltes. O produto típco de um sensor remoto é algum tpo de magem. Nesse estudo foram utlzadas magens coletadas pelos sstemas sensores eletro-óptcos AVIRIS (aerotransportado) e TM (nstalado a bordo do satélte Landsat 5). Estes sensores regstram os snas provenentes da nteração entre a radação eletromagnétca provenente do sol e a superfíce terrestre na forma de snas elétrcos. Os snas elétrcos, produzdos pelo detector de um sstema eletro-óptco, ndcam o nível de radânca médo da área correspondente a um pel da magem na

superfíce terrestre. Os pes são os menores elementos de uma magem, estando dretamente relaconados à resolução espacal dos sstemas sensores. As magens coletadas por sensores como o AVIRIS e o TM consttuem grandes conjuntos de dados puramente quanttatvos, formados por n observações (nn o de pes) e p varáves (pn o de bandas espectras dsponblzadas pelo sstema sensor). As bandas espectras são faas do espectro eletromagnétco nas quas o sensor é sensível. Uma mesma cena é mageada por sensores com sensbldade a dferentes comprmentos de onda, para que assm, seja possível a obtenção de um conjunto de característcas para um mesmo alvo. De um ponto de vsta matemátco, cada pel da magem pode ser vsualzado como um ponto num espaço p-dmensonal. Se admtrmos que a radânca dos alvos captada pelo sensor é nfluencada por números fatores aleatóros (por eemplo presença da atmosfera, nível de lumnação solar, defcêncas no própro sstema sensor), podemos consderar o vetor de valores observados para cada pel como uma estmatva do verdadero nível de radânca do(s) alvo(s), correspondente(s) àquele pel. Pensando desta forma, ou seja, nclundo um componente de ncerteza aos valores observados para cada pel, passaremos a ter um problema estatístco quando desejarmos fazer uma classfcação da magem e, portanto, modelos probablístcos deverão ser preferencalmente utlzados.

Tratando-se de problemas estatístcos no espaço multdmensonal, as técncas de análse estatístca multvarada vêm a se enquadrar perfetamente. A palavra multvarada é utlzada quando estamos trabalhando num espaço de três ou mas dmensões. Em uma magem Landsat-TM o número de bandas espectras dsponblzadas pelo sstema sensor é sete e, portanto, podemos trabalhar num espaço de sete dmensões (p7). Já o sensor AVIRIS, classfcado como um sensor hperespectral, dsponblza 22 bandas espectras (p22). Problemas de classfcação de magens obtdas por meo de sensores remotos também se enquadram numa mportante área, denomnada Reconhecmento de Padrões, que trabalha com a dentfcação, descrção, agrupamento e classfcação de padrões. Eemplos de padrões podem ser letras de um alfabeto, árvores de uma floresta e pes de uma magem. A área de reconhecmento de padrões é de fundamental mportânca no mundo moderno, onde cada vez mas necesstamos de sstemas, preferencalmente automátcos, que sejam capazes de ldar com a grande quantdade de nformação dsponível. Os problemas estatístcos de classfcação de magens dgtas obtdas por sensoramento remoto são estudados de forma mas aprofundada na área de Reconhecmento Estatístco de Padrões, onde é feta a ntegração entre técncas estatístcas e város tpos de problemas envolvendo reconhecmento de padrões. Estem mutos classfcadores já consagrados e amplamente utlzados, como, por eemplo, o da máma verossmlhança gaussana. Esse classfcador pode

ser encontrado em pratcamente todos pacotes computaconas dsponíves no mercado. Contudo, estem stuações onde o classfcador baseado na dstrbução gaussana pode não produzr os melhores resultados, pos a suposção de normaldade nem sempre pode ser aceta. Nesse estudo será apresentado um classfcador baseado em um conceto anda pouco eplorado na área de reconhecmento de padrões a dscrmnação logístca e sua comparação com o método da máma verossmlhança gaussana. A prmera vsta, a dscrmnação logístca apresenta duas vantagens dretas em relação ao método da máma verossmlhança gaussana: ) não é necessáro fazer suposções quanto à forma funconal dos dados de entrada; 2) o número de parâmetros a ser estmado é relatvamente pequeno. A técnca de regressão logístca é amplamente dfundda na área médca, prncpalmente em problemas que envolvam varáves-resposta bnáras. Contudo anda é pouco eplorada do ponto de vsta dscrmnatóro para classfcação de magens dgtas. Portanto, no decorrer desse trabalho, pretendemos apresentar a técnca de dscrmnação logístca como uma alternatva a métodos convenconas de classfcação e, prncpalmente, compará-la com o método da máma verossmlhança gaussana..2 Problemas de Pesqusa e Objetvos A nova geração de sensores hperespectras tem capacdade de dsponblzar nformação numa grande quantdade de bandas espectras. O sensor

aerotransportado AVIRIS pode magear uma mesma cena em 22 faas do espectro eletromagnétco, enquanto sensores como o TM, nstalado no satélte Landsat-5, e o HRV, nstalado no satélte SPOT, fcam lmtados a, no mámo, sete bandas. A grande quantdade de nformação presente em uma magem AVIRIS proporcona rqueza de detalhes, contudo o processamento da magem torna-se mas complcado. Em procedmentos de reconhecmento estatístco de padrões que utlzam métodos paramétrcos como, por eemplo, a dscrmnação logístca e o classfcador gaussano, um aumento no número de bandas espectras pode causar um aumento tão grande no número de parâmetros a ponto de comprometer o processo de estmação. A dscrmnação logístca apresenta aspectos altamente desejáves em classfcadores paramétrcos. Foram eatamente esses fatores que motvaram a eecução desse estudo, cujos prncpas objetvos são lstados a segur na forma de perguntas: Qual a efcênca do modelo logístco quando os dados nas p bandas espectras de uma magem dgtal têm dstrbução normal multvarada? Qual o comportamento da dscrmnação logístca frente a dados claramente não gaussanos? Qual a efcênca da dscrmnação logístca e do método da máma verossmlhança gaussana na classfcação de magens Lansat-TM e AVIRIS?

2 REVISÃO BIBLIOGRÁFICA De acordo com Hosmer e Lemeshow (989, p. 6) a regressão logístca, em sua forma tradconal, consste de um modelo que relacona um conjunto de p varáves ndependentes X, X 2,..., X p a uma varável dependente Y que assume apenas dos possíves estados, dgamos ou. O modelo logístco permte a estmação dreta da probabldade de ocorrênca de um evento (Y): P( Y ep ) + ep ( β + β + K+ β p p ) ( β + β + K+ β ) p p e, conseqüentemente, P( Y ) P( Y ) + ep( β + β + K+ β p. p ) onde β são os parâmetros do modelo. A transformação que está por trás do modelo logístco é a chamada transformação logt, denotada por g(). É uma função lnear nos parâmetros, contínua e que pode varar de - a + : β

P( Y ) logt( ) g( ) ln P( Y ) β + β + K+ β p p Hosmer e Lemeshow (989, p. 6) dzem que há pelo menos duas razões para utlzação do modelo logístco na análse de varáves-resposta dcotômcas: ) de um ponto de vsta matemátco, é etremamente fleível e fácl de ser utlzada; 2) permte uma nterpretação de resultados bastante rca e dreta. A fgura apresenta a função logístca com o seu característco formato em S e a relação lnear entre uma únca varável e o logt g(). Função logístca Logt (função lnear), P(Y),8,6,4 logt()g(),2 - X X FIGURA : Função logístca e relação logt Anderson (982) enfatza que a dscrmnação logístca pode ser aplcada a uma grande varedade de famílas de dstrbuções, pos a suposção de lneardade do logt é válda numa grande quantdade de funções de dstrbução de probabldade, como por eemplo, a dstrbução normal multvarada com gual matrz covarânca.

2. Hstórco do Modelo Logístco e Prncpas Aplcações É dfícl precsar eatamente o ano no qual o modelo logístco fo utlzado pela prmera vez, mas Co e Snell (989, p. 25) e Hosmer e Lemeshow (989) concordam que o modelo de regressão logístca ganhou reconhecmento após o trabalho de Truett, Cornfeld e Kennel (967) que analsava o rsco de doença coronára em um grande projeto conhecdo por Framngham heart study. Esse trabalho ganhou fama e até hoje é consderado um marco ncal dos estudos envolvendo regressão logístca nas áreas da saúde. McLachlan (992, p. 256) também afrma que as prmeras aplcações do modelo logístco foram em estudos prospectvos de doenças coronáras. Contudo, nessas aplcações, os autores realzaram o processo de estmação de parâmetros sob a suposção de normaldade, que se torna desnecessára quando a estmação é feta por máma verossmlhança va métodos numércos. O procedmento de estmação em um conteto mas genérco fo proposto por Day and Kerrdge (967) e por Walker and Duncan (967). A mportânca da dstrbução logístca e as vantagens das estmatvas obtdas com a transformação logt já eram conhecdas nas décadas de 4 e 5 para análse de varáves-resposta bnáras. Berkson apud Co e Snell (989, p. 24) lançou uma sére de artgos onde apresentava o modelo logístco como uma alternatva para a análse de dados bnáros e também como sendo preferível ao modelo probt. McLachlan (992, p. 257) afrma que os modelos logt e probt são pratcamente probt() Φ [ P( Y ) ] onde Φ [. ] denota a probabldade acumulada na normal padrão.

ndstnguíves na prátca e que o modelo logístco é preferdo por sua convenênca computaconal. Hosmer e Lemeshow (989) afrmam que o modelo de regressão logístca tornou-se um método padrão de análse de regressão de dados dcotômcos, especalmente nas cêncas da saúde. De fato, aplcações da regressão logístca são comumente encontradas em peródcos da área de saúde, tas como The Amercan Journal of Epdemology, The Amercan Journal of Publc Health, The Internatonal Journal of Epdemology e The Journal of Chronc Dseases. A lteratura sobre regressão logístca é muto vasta, tendo apresentado um crescmento muto rápdo. Além das númeras aplcações na área da saúde, a regressão logístca também tem sdo utlzada no campo da econometra, admnstração e educação. Por esse motvo, encontramos artgos envolvendo regressão logístca em peródcos de dversas áreas. 2.2 Dscrmnação va Modelos Logístcos Segundo McLachlan (992, p. 257) o modelo logístco fo prmeramente ntroduzdo sem a preocupação de utlzá-lo para dscrmnação de classes. É comum encontrarmos na lteratura os termos regressão logístca e dscrmnação logístca. Ambos pratcamente se referem à mesma cosa, mudando, às vezes, apenas o ponto de vsta. Quando o prncpal objetvo da utlzação do modelo logístco consste na dscrmnação/classfcação de elementos, o termo dscrmnação logístca é o mas

ndcado. Nas áreas relaconadas à saúde, onde o modelo logístco é muto utlzado para relaconar uma varável bnára com um conjunto de varáves ndependentes, o termo mas empregado é regressão logístca. A dscrmnação logístca só tornou-se possível porque o modelo, orgnalmente desenvolvdo para varáves-resposta bnáras, fo estenddo para varáves-resposta poltômcas (três ou mas categoras). Hosmer e Lemeshow (989, p. 26-245) apresentam a etensão do modelo logístco para varáves poltômcas utlzando como eemplo uma varável resposta Y com três categoras, codfcadas como, ou 2. Assm como a função logt de uma varável resposta bnára fo parametrzada em termos da razão entre a probabldade de ocorrênca (Y) e nãoocorrênca de um evento (Y), o modelo logístco para uma varável resposta com três níves terá duas funções logt: a razão entre Y e Y e a razão entre Y2 e Y. Nesse caso, o nível Y é assumdo como base. P( Y ) g( ) ln P( Y ) β + β + K + βp p g 2 ( P( Y ) ln P( Y 2) ) β 2 + β 2 + K + β 2 p p A partr das funções lneares g (), cujos parâmetros são estmados por máma verossmlhança, é possível calcular as probabldades condconas de

ocorrênca de cada categora da varável-resposta Y dado um conjunto de observações, 2,..., p, conforme segue: P( Y ) g + e ( ) g ( + e 2 ) P( Y ) g + e g ( e ) ( ) g ( + e 2 ) P( Y 2 ) g + e g ( e 2 ) ( ) g ( + e 2 ) Krzanowsk (988, p. 359) afrma que, no momento em que as probabldades a posteror P(Yy ) do modelo logístco são utlzadas para se estabelecer uma regra de alocação, a abordagem é chamada de dscrmnação logístca. Contudo trabalhos mas antgos, como o de Press e Wlson (978) e Efron (975), utlzavam o termo regressão logístca mesmo quando o modelo era utlzado para dscrmnação. A etensão do modelo para k categoras é dreta e será apresentada em detalhes no prómo capítulo, bem como os procedmentos de estmação por mamzação da função de verossmlhança. 2.3 Reconhecmento Estatístco de Padrões Em recente revsão sobre o estado-da-arte na área de reconhecmento de padrões, Jan, Dun e Mao (2) fzeram um rápdo levantamento nas edções da

revsta IEEE Transactons on Pattern Analyss and Machne Intellgence, onde verfcaram que, desde 979, 35 artgos da revsta enquadravam-se na área de reconhecmento de padrões. A esmagadora maora dos artgos (86%) relaconava-se à abordagem estatístca, sendo que mas da metade deles tratava do delneamento de classfcadores. Segundo Jan, Dun e Mao (2, p. 4), a abordagem estatístca tem sdo estudada de forma muto ntensa, sendo atualmente a mas utlzada na prátca, apesar das técncas envolvendo redes neuras estarem em ampla epansão. Na abordagem estatístca cada padrão (em magens dgtas um padrão é um pel) é representado em termos de p característcas, sendo encarado como um vetor no espaço p-dmensonal, onde p pode ser, por eemplo, o número de bandas espectras. O prncpal objetvo é a defnção de fronteras no espaço p-dmensonal que determnem a separação entre dferentes classes de padrões presentes na magem. As fronteras de decsão são determnadas por dstrbuções probablístcas que defnem a probabldade dos padrões pertencerem a cada classe, onde o prncpal objetvo é a mnmzação da taa de erro de classfcação. Processos de reconhecmento de padrões que utlzam a abordagem estatístca egem que o pesqusador faça algumas escolhas durante a sua realzação. A prmera escolha defne o método de classfcação que será utlzado: classfcação supervsonada ou não-supervsonada. Em métodos supervsonados, padrões são dentfcados como membros de classes pré-defndas. Quando temos amostras de padrões representatvas das classes presentes na magem (amostra de trenamento), as

técncas supervsonadas são preferíves. Em mutas stuações, a escassez de amostras pode mpossbltar a realzação de processos supervsonados. Nesses casos, os padrões podem ser agrupados de acordo com smlardades estentes entre eles, sem a necessdade de amostras de trenamento, o que caracterza os processos não-supervsonados. O termo análse de agrupamento (cluster analyss) é utlzado quase como um snônmo desse tpo de classfcação. A segunda mportante escolha que o pesqusador deve fazer consste da opção entre métodos paramétrcos e não-paramétrcos. Se a forma das funções de probabldade dentro de cada classe é conhecda, então um conjunto de parâmetros deverá ser estmado. No caso da dstrbução normal multvarada, o vetor méda e a matrz covarânca são os parâmetros que defnem a dstrbução. Na dscrmnação logístca, os vetores de parâmetros β defnem as funções logt. Os métodos nãoparamétrcos, por sua vez, são utlzados quando a forma da função de probabldade das classes presentes na magem não é conhecda. Nesses casos, não é necessára a especfcação de um modelo que descreva o comportamento probablístco dos padrões dentro de cada classe. Por esse motvo, métodos não-paramétrcos também são chamados de métodos de dstrbução lvre. Tanto o tradconal método da máma verossmlhança gaussana quanto a dscrmnação logístca são métodos supervsonados e paramétrcos, pos necesstam de um conjunto de amostras de trenamento a partr do qual os parâmetros necessáros são estmados. McLachlan (992, p. 255) prefere denomnar a dscrmnação logístca como uma abordagem parcalmente paramétrca, pos são apenas as funções logt que são assumdas ser lneares.

3 MÉTODOS PROPOSTOS E MATERIAL 3. Processo de Tomada de Decsão em Reconhecmento de Padrões A abordagem estatístca para reconhecmento de padrões está ntmamente relaconada com teoras de decsão estatístca e áreas da análse multvarada. Nesse tpo de abordagem, cada padrão é consderado como uma entdade únca, representada por um número fnto de característcas, dspostas na forma de um vetor. No caso específco de magens dgtas, cada pel da magem consttu um vetor, formado por um conjunto de p característcas, que podem ser, por eemplo, espectras ou teturas. Padrão 2 M p Vamos consderar o problema de classfcação de um dado padrão em uma das k possíves classes, w, w 2,..., w k, partndo do pressuposto que cada padrão pode ser alocado em uma, e somente uma classe. A determnação de regras para alocação de padrões em classes pré-defndas pode ser vsta como um problema de

análse dscrmnante. A quantdade e a qualdade da nformação dsponível sobre os padrões é que rão possbltar a determnação de regras mas ou menos efcentes para a correta dscrmnação dos padrões em suas respectvas classes. Tou e Gonzalez (974, p. ) consderam que o processo de tomada de decsão em reconhecmento de padrões, pode ser tratado como uma dsputa entre o classfcador do sstema de reconhecmento de padrões e a natureza. Nesse jogo, o objetvo do classfcador é encontrar uma solução ótma a qual mnmze a probabldade de erros de classfcação. A regra de decsão de Bayes é um dos possíves camnhos para se encontrar a solução ótma. Essa estratéga parte do pressuposto que as funções de probabldade dentro de cada classe w, denotas por p( w ), são conhecdas e que há dsponbldade de nformações adconas sobre as classes, as quas chamaremos de probabldades a pror P(w). Portanto, a partr do conhecmento das funções de probabldade de cada classe e das probabldades a pror, é possível utlzar o bemconhecdo teorema de Bayes para estabelecer a probabldade à posteror de um certo padrão pertencer a classe w. Teorema de Bayes: P( w ) p( w ) P( w ) k P( w j ) p( w j ) j onde, P(w ) probabldade a pror de um padrão pertencer à classe w. k número de classes

p( w ) função densdade de probabldade de na classe w P ( w ) probabldade a posteror do padrão pertencer à classe w k Logcamente P( w ). Como o denomnador do teorema de Bayes é constante para todas as classes w, ele pode ser desconsderado na regra de classfcação. A partr daí podemos estabelecer uma smples regra de classfcação baseada apenas no numerador do teorema de Bayes. Assm, o padrão será classfcado como pertencente à classe w se: P ( w ) > P( w j ), para todo j ou smlarmente P( w ) p( w ) > P( w j ) p( w j ) para todo j. O custo de classfcar erroneamente um dado padrão na classe w, quando na realdade o mesmo devera ser classfcado na classe w j ( j ), pode ser utlzado para estabelecer uma regra de classfcação baseada na mnmzação da função rsco R( w ) : k R ( w ) L( w,w j ) P( w j ) p( w j ) j onde, L(w,w j ) é o custo de alocar o padrão na classe w quando a classe verdadera é w j. Nesse caso, um dado padrão será classfcado como pertencente à classe w na qual o rsco R( w ) é mínmo.

3.2 Classfcador da Máma Verossmlhança Gaussana Quando há conhecmento de que as funções densdade de probabldade p( w ) nas classes w (,2,...,k) sejam gaussanas, ou haja evdêncas sufcentes para acetação de tal suposção, a regra de classfcação de Bayes toma uma forma bastante conhecda e utlzada. McLachlan (992, p. 52) e Tou e Gonzalez (974, p. 9) afrmam que modelos normas para as funções densdade nas k classes são mportantes tanto do ponto de vsta teórco como prátco, sendo aproprados para mutas mportantes aplcações prátcas. Johnson e Wchern (982, p. 24) salentam que, apesar de dados reas nunca serem eatamente normas, a função densdade gaussana é freqüentemente uma apromação útl para a verdadera dstrbução populaconal. Mutos problemas do mundo real nserem-se naturalmente dentro da estrutura da teora normal. Haertel e Landgrebe (999, p. 2374) nformam que, tratando-se de cenas naturas, as dstrbuções das classes espectras presentes na magem podem ser apromadas pela dstrbução normal multvarada. A bem-conhecda dstrbução normal p-varada é dada por ' p ( w ) ep ( µ ) ( µ ), 2,..., k p/2 / 2 ( 2π) 2 onde µ e são, respectvamente, os parâmetros vetor méda e matrz covarânca assocados à classe w.

Vetor méda µ µ µ M µ 2 p Matrz covarânca σ σ M σ 2 p σ σ σ 2 22 M p2 K K O K σ σ σ p 2p M pp onde µ j é o valor esperado da característca j na classe ; σ jm é a varânca, ou a covarânca, entre as característcas j e m da classe. Para estabelecer a regra de decsão do classfcador de máma verossmlhança gaussana vamos consderar p w ) uma dstrbução normal p- ( varada. Por smplcdade remos desconsderar dferentes custos de erros de classfcação ou, equvalentemente, estaremos atrbundo L(w,w j ) para classfcação correta e L(w,w j ) para classfcação errada. P w ) P( w ) p( w ) ( P ( w ) P( w ) ep p/ 2 / 2 µ 2 ( 2 π) ' ( µ ) ( ) p / 2 O termo ( 2π ), constante a todas classes w na regra de classfcação, fcando: P ( w ) P( w ) ep / 2 µ 2 ' ( µ ) ( ), pode ser desconsderado

A forma fnal da função de dscrmnação baseada na máma verossmlhança gaussana fca mas smples se tomarmos o logartmo natural da epressão anteror: ln ' [ P w ] [ P w ] ( µ ) ( ) ln ( ) ln ( µ ) 2 Por smplcdade de notação, consderaremos G ( ) ln P( w ). Portanto, com a nova notação: G ( ) ln µ 2 2 ' [ P w ] ( µ ) ( ) ln ( ) 2 [ ] A regra de classfcação para um dado padrão, será a segunte: w se G ( ) > G ( ) j j Se o pesqusador não dspuser de nformações prévas sobre as probabldades a pror de cada classe w, poderá utlzar o que chamamos de uma pror não nformatva consderando P(w ) / k para todas as classes w, w 2,..., w k. Nesse caso, a função de dscrmnação fca mas smples e o fator comum ½ pode ser omtdo. ' ( µ ) ( ) G ( ) ln µ Podemos smplfcar anda mas a epressão, desde que haja razões sufcentes para consderarmos a estênca de uma matrz covarânca comum a todas as classes w. Consderando 2 K k, a função decsão toma a forma da dstânca de Mahalanobs. ' ( µ ) ( ) G ( ) µ

A estmação dos parâmetros será feta a partr de um conjunto de amostras de trenamento, 2,..., n devdamente rotuladas com as respectvas classes w as quas pertencem. Segundo McLachlan (992, p. 54) e Johnson e Wchern (982, p.46) os estmadores de máma verossmlhança para os parâmetros desconhecdos µ e são, respectvamente, o vetor das médas amostras X e a matrz covarânca amostral S, desde que corrgda pelo fator ( n -) / n. A estatístca S, apesar de não ser o estmador de máma verossmlhança, é um estmador não-tendenconso de. 3.2. Fronteras de decsão no caso gaussano A função de dscrmnação G (), para o caso onde são consderadas dferentes matrzes covarânca para cada classe, é conhecda como uma regra de dscrmnação quadrátca. De acordo com Rchards (993, p.85), as fronteras de decsão mplementadas pelo classfcador de máma verossmlhança gaussana são quadrátcas e tomam a forma de parábolas, círculos ou elpses. As fronteras de decsão entre as classes w e w j são obtdas, smplesmente, gualando as funções de dscrmnação G () G j (). Rchards (993, p.84) afrma que, tratando-se de classes espectras, a separação entre pares de classes será feta através de superfíces no domíno multspectral. As classes espectras são defndas por regões no espaço multspectral onde os escores de suas funções dscrmnante são os maores.

No caso homoscedástco, ou seja, sob a suposção de uma matrz covarânca comum, as superfíces de decsão entre pares de classes são lneares, descrevendo retas, planos ou hperplanos. 3.3 Dscrmnação Logístca O modelo tradconal de regressão logístca para varáves-resposta bnáras, bem como a etensão do modelo para três níves, foram apresentados no capítulo 2. Agora será apresentada a generalzação do modelo logístco para varáves-resposta com k níves (k>2), o que permtrá a sua utlzação para dscrmnação entre k classes. Na dscrmnação logístca a probabldade de um dado padrão pertencer a uma das classes w é estmada dretamente por meo da segunte epressão: P ' ep( β + β) ( w ) k ' + ep( β + β ) j j j β onde, 2 β β2 k M M p βp Consderando w, w 2,..., w k classes eaustvas e eclusvas, podemos afrmar que k P( ). Portanto, a probabldade do padrão pertencer a w k-ésma classe, denotada por P(w k ), pode ser obtda por dferença: ( ) w P P( ) k w k

β O modelo logístco necessta da estmação de k- vetores de parâmetros, correspondentes a k- classes presentes na magem. A k-ésma classe é assumda como base. O logartmo natural da razão entre as probabldades do padrão pertencer às classes w (,...,k-) e a probabldade de pertencer ao nível base w k são assumdas como sendo funções lneares. Portanto, teremos k- funções logt g (): g ( w ) ( w ) P ) ln β + β k P k ( McLachlan (992, p.255) consdera a suposção de lneardade nos parâmetros fundamental na abordagem logístca e, por esse motvo, a chama de modelagem parcalmente paramétrca, pos apenas as funções logt estão sendo modeladas (consderadas lneares). Para eemplfcar a utlzação da dscrmnação logístca, vamos consderar um caso onde a varável resposta possu três níves (k3), correspondentes a três dferentes classes w, w 2 e w 3. As probabldades de um padrão pertencer a uma das classes w são calculadas da segunte forma: P P ep( β + β) ( w ) 2 + ep( β + β ) ep( β2 + β2) ( w2 ) 2 + ep( β + β )

P ( w3 ) 2 + w2 + ep ( β + β ) [ P( w ) P( ) ] Os vetores β e β, com dmensão p cada, e os nterceptos β 2 e β 2 consttuem os 2(p+) parâmetros do modelo a serem estmados. Vejamos as funções logt assocadas a esse modelo: ( w ) β + β + β + β2 2 + βp p ( w ) P g + ( ) ln β K P 3 ( w2 ) ( w ) g P + 2 ( ) ln β2 + β 2 β2 + β2 + β22 2 + K β2p p P 3 g 3 ( w3 ) ( w ) P ( ) ln P 3 A utlzação do modelo logístco para dscrmnação de classes pode ser dreta. A regra de classfcação para alocar um dado padrão numa das classes w é muto smples: w se P( w ) > P( w ) j j Assm, como no caso do classfcador gaussano, a regra de classfcação na dscrmnação logístca pode ser vsta num conteto bayesano, com a nclusão de nformações obtdas a pror. Além dsso, é possível nclur dados referentes aos

custos de erros de classfcação para se estabelecer uma regra de classfcação baseada na mnmzação da função rsco R(w ), conforme segue: k ( w ) R L( w,w ) P( w ) P( w ) j j j onde, P( w ) probabldade a pror de um padrão pertencer à classe w. P( w ) probabldade do padrão pertencer à classe w, L(w,w j ) custo de alocar o padrão na classe w quando a classe j verdadera é w j. k número de classes Nesse caso, a regra de classfcação aloca o padrão na classe w onde a função rsco é mínma, da segunte forma: w se R( w ) < R( w ) j j 3.3. Processo de estmação de parâmetros na dscrmnação logístca O processo de estmação dos parâmetros em regressão logístca está baseado na mamzação da função de verossmlhança l(, β). Para tornar possível a realzação desse procedmento são necessáras n amostras de trenamento,, 2, K n, cujas classes a que pertencem são conhecdas.

Os vetores solução que mamzam a função l(, β) são aqueles que tornam máma a probabldade da partcular amostra de trenamento, 2,, K n ter sdo seleconada. Sendo assm, sob a hpótese da amostra ser representatva da população em estudo, estaremos obtendo um modelo que mamza as chances de classfcar todos padrões da população nas classes w as quas realmente pertencem. Para apresentar a função de verossmlhança da dscrmnação logístca, temos de crar k varáves dummy, as quas chamaremos de y,y 2,..,y k que assumem o valor se o padrão pertence à classe correspondente, e zero em caso contráro, conforme mostra a tabela. A tabela 2 apresenta um eemplo de amostra de trenamento com a notação que será utlzada na função de verossmlhança, que nclu um índce h para ndvdualzar as n observações amostras. TABELA Varáves dummy y para a construção da função de verossmlhança dummy y y 2 K y k Classe w K w 2 K M M M O M w k K

TABELA 2 Eemplo de amostra de trenamento Observação Classe a que Varáves ndependentes ( h ) pertence ( y h ) h 2h K ph y 2 K p 2 y 2 2 22 K p2 3 y 3 3 23 K p3 M M M M M M n y n n 2n K pn Utlzando as varáves dummy, a função de verossmlhança l fca: ), ( β ( ) ( ) ( ) ( ) ( ) ( ) ( ) + + + n h y k c h c h k y k c h c h 2 y k c h c h kh 2h h g g g g g g ) ( ep ) ( ep ) ( ep ) ( ep ) ( ep ) ( ep, K l β Como, pos devdo ao fato do nível k ser assumdo como base, e para h fo, podemos reescrever a função de verossmlhança: ( ) ) ( ep h k g k y h ) ( h k g ( ) ( ) ( ) ( ) ( ) ( ) + + + n h k c h c y k c h c h 2 y k c h c h k j,h k 2h h y g g g g g ) ( ep ) ( ep ) ( ep ) ( ep ) ( ep, K l β onde ( ) h h β g ep ) ( β +

É mas fácl trabalhar matematcamente com o logartmo natural da função de verossmlhança, o que não nterfere no processo de mamzação. Chegamos, então, a uma epressão mas smples: ( ) + + + + k c h c h k )h (k h 2 2h n h h h g g y g y g y ) ( ln ) ( ) ( ) (, ln K l β As equações de verossmlhança são encontradas tomando as prmeras dervadas parcas de ln l em relação a cada um dos parâmetros do modelo. Para mamzá-las gualamos cada equação a zero. ), ( β j β p j k β j ), ( β l A forma geral das equações de verossmlhança é: + + p j - k se e e y j - k se e e y β n h k c g g h jh n h k c ) ( g ) ( g h j h c h h c h ) ( ) ( ), l( β onde ( ) h h β g ep ) ( β +

A solução do sstema de equações de verossmlhança nos leva as estmatvas para os k- vetores de parâmetros β ˆ. Tratando-se de equações claramente não lneares, necesstamos da utlzação de métodos numércos para encontrarmos uma solução. Esses processos são teratvos e estão dsponíves em alguns softwares estatístcos. No presente estudo utlzamos o procedmento CATMOD do sstema SAS que, conforme Allson (999, p. 4), utlza o método de Newton-Raphson, bastante rápdo para convergênca. Esse procedmento, descrto em SAS (989, p. 45-57) e Spanos (999, p.667), é própro para modelagem de dados categórcos. A técnca de regressão logístca também pode ser realzada no SAS através dos procedmentos LOGISTIC e GENMOD. Entretanto, o procedmento CATMOD é o únco capaz de obter as estmatvas de máma verossmlhança no caso de varável resposta multnomal. O procedmento Multnomal Logstc Regresson dsponível no software SPSS versão. descrto em Noruss e SPSS Inc. (999, p. 65) também pode ser utlzado com varáves-resposta multnomas. Apesar de apresentar uma nterface bastante amgável ao usuáro, os resultados obtdos com o SPSS em grandes amostras mostraram estmatvas etremamente elevadas para os vetores de parâmetros, o que nos levou a dar preferênca ao SAS. β

3.3.2 Testes de sgnfcânca O prmero teste de sgnfcânca mportante em dscrmnação logístca é o teste da razão de verossmlhança, onde testamos a hpótese de que pelo menos um dos parâmetros βj é dferente de zero (eceto os nterceptos parâmetros β ). Esse teste faz uma comparação entre o valor da função de verossmlhança para o modelo contendo apenas os nterceptos e a verossmlhança do modelo fnal com todos os parâmetros estmados. A estatístca de teste D, chamada de devance, tem uma dstrbução qu-quadrado e é calculada da segunte forma: l( β ) D 2ln 2ln l( β ) 2ln l(, β) ~ l(, β) 2 χ ( k ) p onde, ) é o valor da função de verossmlhança apenas com os nterceptos l(β l(, β) é o valor da função de verossmlhança para o modelo fnal k é o número de classes p é o número de varáves ncluídas no modelo β e βj Para a realzação de testes de sgnfcânca ndvduas para os parâmetros, é bastante comum a utlzação da bem-conhecda estatístca de Wald, onde a hpótese nula é a de que o partcular coefcente β j é gual a zero. A estatístca W de Wald é defnda como o quadrado da razão entre a estmatva de máma verossmlhança para o coefcente e seu respectvo erro-padrão (EP). Essa estatístca tem uma dstrbução assntotcamente qu-quadrado com um únco grau de lberdade:

W βˆ j EP j ( βˆ ) 2 ~ 2 χ Os erros-padrão das estmatvas de máma verossmlhança βˆj são calculados a partr da matrz nformação I(β), obtda a partr do negatvo do valor esperado da matrz de dervadas parcas de segunda ordem do logartmo natural da função de verossmlhança l (, β). A matrz I(β) é quadrada, com dmensão (k-)(p+). Os termos que compõem a matrz são obtdos da segunte forma: 2 l(, β) I( β) E β j β j se, k j, j p A matrz covarânca assntótca ˆ ( β ) para as estmatvas de máma verossmlhança é obtda tomando-se o nverso da matrz nformação I(β) : ˆ ( β) I( β) Apesar do teste de Wald ser muto conhecdo, Hauck e Donner (977, p. 853) não aconselham sua utlzação porque observaram no mesmo um comportamento aberrante, apresentando freqüentes falhas na rejeção de coefcentes que deveram ser sgnfcatvos. Os autores sugerem a utlzação do teste da razão de verossmlhança para verfcar a sgnfcânca de cada varável ndvdualmente. A estatístca de teste G faz uma comparação entre o valor da função de verossmlhança com e sem a varável :

l(, β) G 2ln l(, β) / ~ χ 2 onde, l(, β ) / é o valor da função de verossmlhança sem a varável l(, β) é o valor da função de verossmlhança com a varável 3.3.3 Interpretação dos parâmetros A nterpretação dos parâmetros estmados no modelo de regressão logístca torna-se smlar ao caso da regressão múltpla tradconal. Como vmos anterormente, no caso de uma varável resposta com k níves, o k-ésmo nível será assumdo como base e, portanto, podemos estabelecer k- funções logt, contrastando cada nível contra o nível base, conforme segue: g ( w ) ( w ) P ` ) ln β + β k P k ( Aplcando a função eponencal nos dos lados da gualdade, temos: e P P ( w ) ( w ) g ( ) β +βí k e k Assm, temos que um aumento de uma undade na varável j causará um β aumento de e j undades na razão entre as probabldades do padrão pertencer a

classe w em relação à classe w k. Portanto, quando j aumenta em uma undade, a classe w torna-se e β j vezes mas provável que wk.. 3.4 Materal Utlzado Os recursos computaconas (hardware) necessáros para a realzação do trabalho foram um computador AMD K6-2 com 64Mb de memóra RAM e mpressora jato de tnta Epson 48SX com resolução de 72dp. Os prncpas softwares foram o programa matemátco MATLAB versão 5.3, o pacote estatístco SAS versão 6. e o programa de processamento de magens Multspec versão.2. O software estatístco SPSS versão. fo utlzado para elaboração de gráfcos trdmensonas. As duas magens dgtas utlzadas nesse estudo foram coletadas pelos sensores TM e AVIRIS. A magem do satélte Landsat 5, sensor TM, coletada em 992 cobre uma etensa área do ltoral gaúcho, caracterzada pela presença de mutas lagoas e da serra geral. Já a magem coletada pelo sensor aerotransportado AVIRIS, obtda em junho de 992, cobre uma área agrícola do estado norte-amercano de Indana.

4. RESULTADOS E DISCUSSÕES 4. Comparação entre os Processos de Estmação Ambos os métodos dscrmnação logístca e máma verossmlhança gaussana são supervsonados e paramétrcos, pos necesstam da estmação de parâmetros a partr de um conjunto de amostras de trenamento. No método da máma verossmlhança gaussana cada uma das k classes necessta da estmação de p parâmetros para o vetor méda e p( p + ) 2 parâmetros para a matrz covarânca. Portanto, consderando a dscrmnação entre k classes pelo método da máma verossmlhança, com dferentes matrzes covarânca para cada classe, necesstamos da estmação de p( p + ) k p + parâmetros. Sob a 2 suposção de gualdade das k matrzes covarânca, a função de dscrmnação toma a forma da dstânca de Mahalanobs, e o número de parâmetros necessáros deca p( p + ) muto, para kp +. 2

O modelo utlzado para dscrmnação logístca é freqüentemente rotulado como um modelo robusto. Um dos motvos desse rótulo deve-se o fato do modelo necesstar da estmação de um número razoavelmente pequeno de parâmetros, o que permte, ao menos teorcamente, uma redução no número de amostras de trenamento. Em dscrmnação logístca necessta-se de apenas p+ parâmetros para cada uma das k- classes de padrões. A fgura apresenta a relação entre o número de característcas (p) e o número de parâmetros necessáros em cada um dos classfcadores máma verossmlhança gaussana com dferentes matrzes covarânca, dstânca de Mahalanobs e dscrmnação logístca consderando k3 classes. Número de parâmetros 4 3 2 Máma verossmlhança gaussana Mahalanobs Dscrmnação logístca 5 5 2 25 3 35 4 45 5 Número de característcas (p) FIGURA 2: Número de parâmetros a ser estmado para dscrmnação de três classes (k3) em função do número de característcas (p)

Enquanto o número de parâmetros cresce lnearmente em função do número de característcas na dscrmnação logístca, o crescmento é quadrátco nos classfcadores baseados no modelo gaussano. A taa de crescmento é mas alta no caso da máma verossmlhança gaussana com dferentes matrzes covarânca. Apesar da vantagem em relação ao número de parâmetros, o processo de estmação na dscrmnação logístca é mas compleo, pos necessta da utlzação de métodos numércos para obtenção das estmatvas de máma verossmlhança. Os métodos numércos são procedmentos teratvos que só tornamse váves com a utlzação de computadores. A presença de colneardade correlação entre as característcas j geralmente ocasona superestmatvas para os parâmetros do modelo e/ou estmatvas etremamente elevadas para os erros-padrão. Os classfcadores da máma verossmlhança gaussana e a dstânca de Mahalanobs necesstam de boas estmatvas dos vetores méda e da(s) matrz(es) covarânca, o que só é possível com quantdades razoáves de amostras de trenamento. O aumento na resolução espectral dos atuas sstemas de sensoramento remoto tem ocasonado um consderável aumento no número de bandas espectras e, consequentemente, o tamanho amostral necessáro para trenamento de classfcadores supervsonados deve ser sufcentemente grande. Assm, quando trabalhamos com classes espectras presentes em magens dgtas, o número de parâmetros pode faclmente tornar-se muto alto, a ponto de nvablzar o processo de classfcação.

4.2 Resultados Obtdos por Smulação Com o objetvo de estudar o comportamento dos classfcadores frente a varáves com dferentes dstrbuções probablístcas, fo realzado um estudo de smulação a partr de conjuntos de dados gerados no software MATLAB. Esse tpo de estudo é muto mportante para um melhor entendmento do funconamento dos classfcadores, vsto que a classfcação é realzada sob condções totalmente controladas. 4.2. Classes unformemente dstrbuídas Utlzando o gerador de números aleatóros do MATLAB foram smulados 3 ml vetores [ 2 ' ] dvddos em três classes: w, w 2 e w 3. Todas classes apresentam mesma varabldade nterna, mas possuem dferentes vetores méda, conforme podemos verfcar na fgura 3 e na tabela 3. FIGURA 3: Comportamento das classes w, w 2 e w 3 com relação às característcas e 2.

TABELA 3 Vetores méda e matrzes covarânca por classe Classe Vetor méda Matrz covarânca w w 2 w 3 3,5 /2 µ 3,5 /2 4, /2 µ 2 2 4, /2 4,75 /2 µ 3 3 4,75 /2 Após etrar uma amostra aleatóra de 3 vetores para cada classe, totalzando 9 observações, procedemos com a estmação dos parâmetros necessáros na dscrmnação logístca e na máma verossmlhança gaussana. Os parâmetros do modelo logístco foram estmados no software SAS, sendo que a classfcação fo posterormente realzada no MATLAB. Devdo a facldade de programação, a classfcação por máma verossmlhança gaussana fo dretamente realzada no MATLAB. Os parâmetros estmados no software SAS permtem escrever equações que estmam dretamente a probabldade P(w ). Essas equações são: ep{ 43,5 6,872 7,6382} { 6,872 7,638 } + ep{ 2,,297 2,33 } P ( w ) + ep 43,5 2 ep{ 2,,297 2,332} { 6,872 7,638 } + ep{ 2,,297 2,33 } P ( w ) 2 + ep 43,5 2 2 2 P( w ) P( w ) P( ) 3 w2

Para eemplfcar o funconamento das equações, admta três padrões [3,25 3,25]; 2 [4,25 4,25] e 3 [4,75 4,75] que claramente pertencem às classes w, w 2 e w 3. As probabldades condconas estmadas são: P ( ),9953 P( 2 ), 37 w w P( w ) 2,6 9 P ( 2 ),469 P( 2 ), 949 P( 2 ), 7 w 2 w 2 w 2 4 P ( 3),76 P( 2 ), 4793 P( 3 ), 99983 w 3 w 3 w 3 O modelo dscrmnou satsfatoramente as três classes de padrões, consderando esses valores de. A fgura 4 mostra a saída do procedmento CATMOD do software SAS, contendo as estmatvas e testes para os parâmetros. The SAS System Parameter Estmates Iteraton 2 3 4 5 6 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 6.3628.3566 -.932 -.487-2.77 -.98 2 32.296 8.723-3.887-2.223-4.82-2.756 3 55.297 3.6-6.748-3.5888-6.8683-3.4984 4 8.769 46.2582-9.8392-5.37-9.959-5.2487 5 4.74 63.8233-2.699-7.2787-2.73-7.284 6 23.5884 82.2259-4.7987-9.2869-5.568-9.4866 7 37.672 96.2786-6.2493 -.7327-6.8326 -.259 8 42.956.5589-6.7595 -.243-7.532 -.9585 9 43.4686 2.759-6.868 -.294-7.632-2.297 43.4729 2.83-6.872 -.297-7.638-2.33 MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Ch-Square Prob -------------------------------------------------- INTERCEPT 2 95.29. X 2 7.4. X2 2 29.9. ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Ch- Effect Parameter Estmate Error Square Prob ---------------------------------------------------------------- INTERCEPT 43.5 4.9226 92.44. 2 2. 4.579 49.44. X 3-6.872 2.69 65.99. 4 -.297.98 32.52. X2 5-7.638 2.37 57.72. 6-2.33 2.2495 28.6. FIGURA 4: Saída do procedmento CATMOD do software estatístco SAS Anda eplorando o modelo logístco, as fguras 5 a 7 apresentam o comportamento das probabldades P(w ) em função das varações de e 2. Percebe-se claramente as regões de maor probabldade para cada classe de padrões.

As fguras 5 e 7 revelam o característco formato em S da curva logístca, enquanto a fgura 6 mostra uma superfíce bastante pronuncada na regão referente à classe w 2.,,8 P(w ),6,4,2 6 - Característca 6 Característca 2 FIGURA 5: Probabldade condconal P(w ) em função de e 2.,,8 P(w2 ),6,4,2 6 - Característca 6 Característca 2 FIGURA 6: Probabldade condconal P(w 2 ) em função de e 2.

,,8 P(w3 ),6,4,2 6 - Característca 6 Característca 2 FIGURA 7: Probabldade condconal P(w 3 ) em função de e 2. Para a realzação da classfcação por máma verossmlhança gaussana foram necessáras estmatvas dos vetores méda e das matrzes covarânca de cada classe. A tabela 4 apresenta as estmatvas baseadas na amostra de 9 padrões. TABELA 4 Estmatvas para os vetores méda e matrzes covarânca por classe Classe Vetor méda Matrz covarânca w w 2 w 3 3,522 ˆ,88 -, 3,574 -,,85 3,9725 2 ˆ,85, 2 3,9986,,87 4,749 3 ˆ,87,9 3 4,7592,9,8 Como as matrzes covarânca são pratcamente guas nas três dferentes classes, as funções de dscrmnação G () tomaram a forma da dstânca de Mahalanobs: G ' ( ) ˆ ( ( ) ), 2 e 3

As matrzes covarânca sugerem ndependênca entre as característcas e 2, pos os elementos fora da dagonal prncpal são pratcamente nulos. Admtndo ausênca de covarânca, o classfcador gaussano tornou-se equvalente à dstânca eucldana. A fgura 8 apresenta as fronteras de decsão para dscrmnação das três classes que, como era de se esperar, são lneares. 6, 5,5 5, 4,5 4, G 3() > G () G 3() > G 2() Característca 2 3,5 3, 2,5 2,5 G () > G 2() G () > G 3() 3, 3,5 4, 4,5 G 2() > G () G 2() > G 3() 5, 5,5 V4 Classe w3 Classe w2 Classe w 6, Característca FIGURA 8: Fronteras de decsão do classfcador de máma verossmlhança gaussana Observando a fgura 3 percebe-se que a taa esperada de erro de classfcação pode ser obtda smplesmente computando as áreas de ntersecção entre as classes e multplcando-as por /2. A tabela 5 apresenta as taas esperadas de erros de classfcação e a tabela 6 resume os resultados obtdos na classfcação dos 3 ml padrões que consttuem a população.

TABELA 5 Taa esperada de erros de classfcação para as classes unformemente dstrbuídas Classe Área de ntersecção Taa esperada de erro de classfcação Taa esperada de classfcação correta w /4 2,5% 87,5% w 2 5/6 5,6% 84,4% w 3 /6 3,% 96,9% Geral 5/48,4% 89,6%. TABELA 6 Tabela de classfcação por método Classfcação por dscrmnação logístca Classfcação por máma verossmlhança gaussana Classe w w 2 w 3 w w 2 w 3 verdadera w 85,9% 4,%,% 87,2% 2,8%,% w 2,7% 86,4% 2,9%,9% 84,8% 3,3% w 3,% 3,3% 96,7%,% 2,9% 97,% Acuráca geral 89,7% Acuráca geral 89,7% O desempenho de ambos classfcadores fo pratcamente dêntco, atngndo taas geras de classfcação correta de 89,7%. O resultado ndca que, para classes unformemente dstrbuídas, com homogenedade de varânca e covarâncas nulas, o desempenho dos classfcadores tende a ser smlar. De fato, as fronteras de decsão de ambos classfcadores fcaram espacalmente muto prómas e foram defndas por retas.

4.2.2 Classes normalmente dstrbuídas Conforme descrto no capítulo 3, o classfcador gaussano assume que as dstrbuções de probabldade P( w ) seguem uma dstrbução normal p-varada, onde p denota o número de característcas consderadas no problema de classfcação. Passamos, então, a smular dados com dstrbução normal multvarada tendo como objetvo verfcar o comportamento da dscrmnação logístca frente a dados normalmente dstrbuídos. Utlzando novamente o gerador de números aleatóros do MATLAB foram smulados 3 ml vetores [ 2 ' ], dvddos em três classes: w, w 2 e w 3. Cada classe possu dferentes vetores méda e matrzes covarânca, com eceção das classes w 2 e w 3 que propostalmente compartlham do mesmo vetor méda. A tabela 7 apresenta os parâmetros utlzados na smulação e as fguras 9 e lustram grafcamente os dados gerados. TABELA 7 Descrção das classes w, w 2 e w 3 Classe Vetor méda Matrz covarânca w w 2 w 3 4,6,3 µ 5,3,4 2,8,6 µ 2 2 3,6,7 2,8 -,7 µ 3 3 3 -,7,7

FIGURA 9: Comportamento das classes w, w 2 e w 3 com relação às característcas e 2. FIGURA : Hstogramas bdmensonas ( e 2 ) para as classes w, w 2 e w 3 O processo de estmação de parâmetros fo realzado a partr de um conjunto de 3 amostras de trenamento para cada classe escolhdas de manera aleatóra. Os resultados do processo de estmação de parâmetros, realzado no software SAS, são apresentados na fgura.

The SAS System CATMOD PROCEDURE Parameter Estmates Iteraton 2 3 4 5 6 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ -4.359.9622.7532.66.577 -.39 2-7.3536.356.283 -.22.968 -.327 3 -.636.266.2383 -.493.5864 -.3543 4-2.2583.357.39 -.6 2.5 -.3665 5-3.7.324.32 -.6 2.27 -.3687 6-3.228.3246.32 -.6 2.2253 -.3689 7-3.222.3246.32 -.6 2.2256 -.3689 MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Ch-Square Prob -------------------------------------------------- INTERCEPT 2 49.3. X 2 3.8. X2 2 24.33. ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Ch- Effect Parameter Estmate Error Square Prob ---------------------------------------------------------------- INTERCEPT -3.222 2.593 4.22. 2.3246.583 5.2.225 X 3.32.3694 2.77.4 4 -.6.695.3.783 X2 5 2.2256.5362 7.23. 6 -.3689.659 4.95.262 FIGURA : Saída do procedmento CATMOD do software estatístco SAS A dscrmnação logístca necessta da estmação de k- vetores de parâmetros, correspondentes as k- funções logt. Observando a saída do software SAS, percebe-se que os parâmetros da segunda função logt (destacados em negrto) não foram tão sgnfcatvos quanto os parâmetros da prmera função. Isso ocorreu devdo à ncapacdade do modelo logístco em separar as classes w 2 e w 3. Como as fronteras de decsão da dscrmnação logístca são lneares, a separação entre as classes que compartlham do mesmo vetor méda tornou-se bastante defcente, conforme lustra a fgura 2.

FIGURA 2: Fronteras de decsão para o modelo de dscrmnação logístca O classfcador de máma verossmlhança gaussana, por sua vez, gerou fronteras de decsão quadrátcas que possbltaram maor separabldade entre as classes. As formas elíptcas das fronteras de decsão do classfcador gaussano permtram chegar a resultados muto superores aos da dscrmnação logístca, conforme podemos perceber na fgura 3 e na tabela 8. O resultado obtdo não é nesperado, pos em stuações de normaldade multvarada o classfcador gaussano é ótmo. Nesse caso específco, todas as funções densdade P( w ) são seguramente normas bvaradas. Como foram consderadas dferentes matrzes covarânca para cada classe w, fez-se necessáro estmar um total 5 parâmetros.

FIGURA 3: Ilustração das fronteras de decsão no caso da máma verossmlhança gaussana TABELA 8 Tabela de classfcação por método baseada em 3. padrões Classe verdadera Classfcação por dscrmnação logístca Classfcação por máma verossmlhança gaussana w w 2 w 3 w w 2 w 3 w 92,9%,2% 7,% 94,% 5,6%,3% w 2 9,2% 6,8% 3,%,2% 67,4% 22,5% w 3,% 64,2% 35,8%,% 6,2% 93,8% Acuráca geral 63,2% Acuráca geral 85,% 4.3 Resultados Obtdos com Imagens Dgtas Após observar o comportamento dos classfcadores frente a stuações controladas, o desempenho dos mesmos fo comparado em condções mas prómas da realdade. Dos segmentos de cenas coletadas pelos sensores remotos TM e AVIRIS foram utlzados.

Foram trabalhados apenas atrbutos espectras. Portanto, os dados de entrada para os classfcadores foram os valores dos contadores dgtas regstrados para os n pes das magens nas p bandas espectras dsponblzadas pelos sensores. 4.3. Classfcação de magem Landsat-TM Incamos com a classfcação de um segmento de uma cena obtda pelo satélte Landsat 5, sensor TM, composta de 436 lnhas, 535 colunas e 6 bandas espectras. O número total de pes da magem é superor a 23 ml. Podemos vsualzar na fgura 4 que a magem é bascamente composta de três classes bem dferencadas: água, culturas e vegetação. FIGURA 4: Segmento de uma cena Landsat-TM, composção colorda 5-4-2 (R-G-B) As três classes apresentam comportamentos espectras vsualmente dferentes, em especal nas bandas espectras 4 e 5, conforme podemos verfcar na fgura 5. Por esse motvo, espera-se que os classfcadores apresentem baos percentuas de erros de classfcação

Comportamento Espectral médo das classes 25 Contadores dgtas 2 5 5 Água Culturas Vegetação B B2 B3 B4 B5 B7 Bandas espectras FIGURA 5: Comportamento espectral médo das classes nas ses bandas espectras 2 Ao contráro das stuações anterores, onde trabalhamos com apenas duas característcas, os pes agora serão vstos como vetores num espaço a ses dmensões. Sendo assm, não há como construrmos gráfcos a ses dmensões para avalarmos o comportamento das classes. Os hstogramas undmensonas podem ajudar nessa tarefa, conforme podemos observar na fgura 6 que apresenta os hstogramas para as três classes na banda TM3. O processo de estmação dos parâmetros, tanto para a dscrmnação logístca como para o método gaussano, fo realzado sobre uma amostra de pouco mas de ml pes devdamente rotulados. O modelo logístco necesstou da estmação de 4 parâmetros β j, enquanto que o classfcador da máma verossmlhança gaussana precsou de 8 parâmetros para os vetores méda e mas 63 para as matrzes covarânca, totalzando 8 parâmetros.

3 Banda TM3 Classe : Água Banda TM3 Classe 2: Culturas 8 2 6 Número de pes 25, 26, 27, 28, 29, 3, 3, Número de pes 4 2 6, 7, 8, 9, 2, 2, 22, 23, 24, Contadores dgtas Contadores dgtas 2 Banda TM3 Classe 3: Vegetação 8 6 Número de pes 4 2 5, 7,5, 2,5 5, 7,5 2, 22,5 25, 27,5 3, Contadores dgtas FIGURA 6: Hstogramas da banda TM-3 nas três bandas espectras As equações que estmam as probabldades P(w ) na dscrmnação logístca foram seguntes: P ( w ) + e g 2 c ( ) e gc ( ) Classes: w Água; w 2 Culturas; w 3 Vegetação g () 3.6.58* +.984* 2.276* 3.7899* 4.227* 5 +.929* 7 g 2 () 4.3.7992* + 2.3858* 2.9673* 3 3.77* 4 +.9979* 5 +.598* 7 2 A banda espectral TM6, ou banda termal, não é utlzada por possur dferente resolução espacal.

Antes de proceder a classfcação pelo método da máma verossmlhança gaussana, a suposção de normaldade fo verfcada. Mesmo que os hstogramas sugram dados normalmente dstrbuídos, testes de aderênca de Kolmogorov-Smrnov, realzados para as ses bandas espectras nas três classes, ndcaram o contráro. Esses resultados unvarados levam a crer que a hpótese de normaldade multvarada não seja plausível, ndcando que a stuação não é muto favorável ao classfcador gaussano. As fguras 7 e 8 mostram as magens temátcas geradas a partr das classfcações e a tabela 9 resume o resultado da classfcação, baseado em apromadamente duas ml amostras de teste. FIGURA 7: Imagem temátca gerada a partr da classfcação por dscrmnação logístca FIGURA 8: Imagem temátca gerada a partr da classfcação por máma verossmlhança gaussana

TABELA 9 Tabela de classfcação baseada em.992 amostras de teste Classfcação por dscrmnação logístca Classfcação por máma verossmlhança gaussana Classe Água Culturas Vegetação Água Culturas Vegetação Verdadera Água 768,%,%,% 766 99,7%,% 2,3% Culturas,% 696,%,%,% 637 9,5% 59 8,5% Vegetação 7,3%,2% 52 98,5%,%,% 528,% Acuráca geral 99,6% Acuráca geral 96,9% No classfcador de máma verossmlhança gaussana houve uma menor taa de acerto geral, pos houve confusão entre as classes de culturas e vegetação, provavelmente provocada pela smlardade nos vetores méda das duas classes e pela quebra da suposção de normaldade. 4.2.2 Classfcação de magem AVIRIS O sensor aerotransportado AVIRIS possu altíssma resolução espectral, mageando smultaneamente uma mesma cena em 22 bandas espectras, posconadas entre,38 e 2,5 mcrômetros. A resolução espacal do sensor também é alta, mas depende da altura de vôo. O tamanho típco de um pel fca em torno de 7 a 2km. A alta resolução do sensor proporcona uma rqueza de nformação tão grande, que cudados especas são necessáros ao se trabalhar com magens AVIRIS. A escassez de amostras de trenamento pode faclmente mpedr que o processo de estmação seja realzado. A magem utlzada, cuja verdade terrestre é conhecda, contém grande varedade de classes por tratar-se de uma zona agrícola, conforme mostra a fgura 9.

FIGURA 9: Segmento de magem AVIRIS, composção 96-56-6 (R-G-B) e verdade terrestre As classes espectras presentes nesse segmento da magem têm comportamentos espectras bastante semelhantes, conforme lustrado na fgura 2. Fo utlzado um subconjunto de bandas espectras, etraídas de manera sstemátca. Comportamento espectral médo das classes Contadores dgtas 6 5 4 3 2 Soybean-mn Soybean-notll Grass-Pasture Corn-mn Grass-Trees B6 B26 B56 B76 B96 B26 B46 B76 B96 B26 Bandas FIGURA 2: Comportamento espectral médo das classes nas dez bandas consderadas Repetndo o procedmento de estmação utlzado na magem Landsat- TM, chegamos a estmatvas para os 44 parâmetros da dscrmnação logístca e para

os 325 parâmetros do classfcador gaussano. Agora trabalhamos com apenas 53 amostras de teste, mas a hpótese de normaldade pode ser aceta em todas as classes e em todas as bandas espectras. Isso sugere que a hpótese de normaldade multvarada seja verdadera. Os resultados da classfcação são apresentados na fgura 2 e na tabela. FIGURA 2: Imagens temátcas e verdade terrestre: prmera magem classfcada por máma verossmlhança gaussana; segunda magem classfcada por dscrmnação logístca. TABELA Tabela de classfcação da magem AVIRIS Dscrmnação logístca Máma verossmlhança gaussana Classe verdadera. 2. 3. 4. 5.. 2. 3. 4. 5.. Soybean-mn 66 73,3%,%,% 24 26,7%,% 58,%,% 32 35,6%,% 2. Soybean-notll 8 2,% 3. Grass-pasture,% 4. Corn-mn 28 23,3% 5. Grass-trees,% 53 8,3%,%,% 2,7%,% 3 %,%,%,%,% 92 76,7%,% 5 7,6%,%,% 8 98,3% 64,4%,%,% 8 6,7%,% 66 %,%,%,%,% 3 %,%,%,%,% 2 93,3%,% Acuráca geral 84,3% Acuráca geral 9,6%,%,%,% 2 % Mesmo com escassez de amostras de teste, o classfcador gaussano apresentou resultados superores. Esse fato provavelmente ocorreu devdo à dstrbução conjunta das bandas espectras ter sdo satsfatoramente apromada pela normal multvarada. O modelo logístco apresentou maor taa de erros de classfcação entre as classes Soybean-mn e corn-mn.