Projeto de Trabalho de Conclusão de Curso

Documentos relacionados
MARCELO RIBEIRO DA LUZ MARCOS FABIANE KUFNER

a) a soma de dois números pares é par. b) a soma de dois números ímpares é par. c) a soma de um número par com um número ímpar é ímpar.

P(seleção de um elemento baixo) = p P(seleção de um elemento médio) = p. P(seleção de um elemento alto) = p

Neste pequeno artigo resolveremos o problema 2 da USAMO (USA Mathematical Olympiad) 2005: (x 3 + 1)(x 3 + y) = (x 3 + y)(1 + y) = z 9

Análise de Regressão Linear Simples e Múltipla

Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação

Segunda aula de mecânica dos fluidos básica. Estática dos Fluidos capítulo 2 do livro do professor Franco Brunetti

FINANCEIRA. Reginaldo J. Santos. Universidade Federal de Minas Gerais Agosto de de abril de 2009

Processos Estocásticos

3 Qualidade de Software

Análise de Arredondamento em Ponto Flutuante

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

GABARITO. Física B 07) 56 08) A 09) E. Nas lentes divergentes as imagens serão sempre virtuais. 10) A

UFJF MÓDULO III DO PISM TRIÊNIO GABARITO DA PROVA DE FÍSICA

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

Verificação e validação do coeficiente de arrasto frontal para escoamento supersônico e hipersônico de ar sobre cones

INSTITUTO TECNOLÓGICO

Modelagem Conceitual parte II

Probabilidade parte 2. Robério Satyro

1. Introdução 2. OMCC e a Pesquisa Perfil-Opinião

Faculdade Sagrada Família

Exercícios Teóricos Resolvidos

10. Risco, Retorno e Mercado

4. Metodologia. Capítulo 4 - Metodologia

Aula 4 Estatística Conceitos básicos

III APRESENTAÇÃO E INTERPRETAÇÃO DOS RESULTADOS

Processos Estocásticos

Análise de componentes independentes aplicada à avaliação de imagens radiográficas de sementes

Topologia digital. Vizinhança

PROBABILIDADE. Aula 5

Capítulo 3 Modelos Estatísticos

Distribuição Binomial

Potenciação no Conjunto dos Números Inteiros - Z

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Modelos Pioneiros de Aprendizado

Avaliação Econômica. Relação entre Desempenho Escolar e os Salários no Brasil

Colégio Politécnico da UFSM DPADP0024 : Processamento Digital de Imagens (Prof. Dr. Elódio Sebem)

ESTUDO SOBRE A EVASÃO E O TEMPO ATÉ A FORMATURA DOS ALUNOS DO CURSO DE ESTATÍSTICA DA UFPR

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

Resoluções comentadas de Raciocínio Lógico e Estatística SEFAZ - Analista em Finanças Públicas Prova realizada em 04/12/2011 pelo CEPERJ

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

INVESTIMENTO A LONGO PRAZO 1. Princípios de Fluxo de Caixa para Orçamento de Capital

Distribuição de probabilidades

Uso do modelo logito generalizado na análise de dados da criminalidade em Santarém-PA.

O teste de McNemar. A tabela 2x2. Depois

COMPARAÇÃO DO DESEMPENHO ACADÊMICO DOS INGRESSANTES EM GEOGRAFIA PELO VESTIBULAR E PELO PAIES

MICROECONOMIA II ( ) João Correia da Silva

3 Matemática financeira e atuarial

Eventos independentes

DURATION - AVALIANDO O RISCO DE MUDANÇA NAS TAXAS DE JUROS PARTE ll

Correlação quando uma Variável é Nominal

Matemática. Resolução das atividades complementares. M1 Trigonometria no ciclo. 1 Expresse: p 4 rad. rad em graus. 4 rad 12 p b) 330 em radianos.

QUANTIFICADORES. Existem frases declarativas que não há como decidir se são verdadeiras ou falsas. Por exemplo: (a) Ele é um campeão da Fórmula 1.

TÉCNICAS DE PROGRAMAÇÃO

Retas e Planos. Equação Paramétrica da Reta no Espaço

Atmosfera Padrão. Atmosfera Padrão

Uma análise aplicada de decisão com opção de venda utilizando cadeias de Markov

Técnicas Multivariadas em Saúde. Comparações de Médias Multivariadas. Métodos Multivariados em Saúde Roteiro. Testes de Significância

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

Capítulo 5: Aplicações da Derivada

de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição Teste Chi-Quadrado

Gerenciamento de Projetos Modulo II Clico de Vida e Organização

Unidade 3 Função Logarítmica. Definição de logaritmos de um número Propriedades operatórias Mudança de base Logaritmos decimais Função Logarítmica

O Princípio da Complementaridade e o papel do observador na Mecânica Quântica

Tomada de Decisão Multicritério na Logística

MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS

ROCHA, Ronai Pires da. Ensino de Filosofia e Currículo. Petrópolis: Vozes, 2008.

Aula 9 Plano tangente, diferencial e gradiente

FAQ: Parametrização para Contabilização

INOVAÇÕES NA CONSTRUÇÃO E NO CONTROLO DE ATERROS DE ESTRADAS E DE CAMINHOS DE FERRO DE ALTA VELOCIDADE PARTE 2

UTILIZAÇÃO DE SOFTWARES NA RESOLUÇÃO DE UM PROBLEMA DE PROGRAMAÇÃO LINEAR. Cintia da Silva Araújo, Tiago de Souza Marçal, Magda Aparecida Nogueira

O QUE É ATIVO INTANGÍVEL?

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

LEVANTAMENTO SOBRE A POLÍTICA DE COTAS NO CURSO DE PEDAGOGIA NA MODALIDADE EAD/UFMS

AS CONTRIBUIÇÕES DAS VÍDEO AULAS NA FORMAÇÃO DO EDUCANDO.

1. ENTALPIA. (a) A definição de entalpia. A entalpia, H, é definida como:

função de produção côncava. 1 É importante lembrar que este resultado é condicional ao fato das empresas apresentarem uma

COEFICIENTE DE ESCOAMENTO E VAZÃO MÁXIMA DE BACIAS URBANAS

AVALIAÇÃO DE UMA MEDIDA DE EVIDÊNCIA DE UM PONTO DE MUDANÇA E SUA UTILIZAÇÃO NA IDENTIFICAÇÃO DE MUDANÇAS NA TAXA DE CRIMINALIDADE EM BELO HORIZONTE

FUNÇÃO DE 1º GRAU. = mx + n, sendo m e n números reais. Questão 01 Dadas as funções f de IR em IR, identifique com um X, aquelas que são do 1º grau.

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

CALIBRAÇÃO DE PISTÃOFONES. ANALISE COMPARATIVA ENTRE O MÉTODO DE APLICAÇÃO DE TENSÃO E O MÉTODO DE COMPARAÇÃO

Um estudo sobre funções contínuas que não são diferenciáveis em nenhum ponto

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ

Métodos Quantitativos Prof. Ms. Osmar Pastore e Prof. Ms. Francisco Merlo. Funções Exponenciais e Logarítmicas Progressões Matemáticas

fx-82ms fx-83ms fx-85ms fx-270ms fx-300ms fx-350ms

Função bayesiana em R para o problema de Behrens-Fisher multivariado

Exercícios 1. Determinar x de modo que a matriz

Trabalho de Implementação Jogo Reversi

TÉCNICAS DE AVALIAÇÃO ECONÔMICA. comunicação técnica do CETEM Avaliação Econômica de Projetos Prof. Raul Oliveira Neto

Boletim. Contabilidade Internacional. Manual de Procedimentos

ATIVIDADES PRÁTICAS SUPERVISIONADAS

O planejamento do projeto. Tecnologia em Gestão Pública Desenvolvimento de Projetos Aula 8 Prof. Rafael Roesler

Do neurônio biológico ao neurônio das redes neurais artificiais

Testes (Não) Paramétricos

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro

O MÉTODO HÚNGARO PARA RESOLUÇÃO DE PROBLEMAS DE OTIMIZAÇÃO

CAPÍTULO 3 - RETIFICAÇÃO

XXXIV OLIMPÍADA PAULISTA DE MATEMÁTICA Prova da Fase Final (6 de novembro de 2010) Nível α (6 o e 7 o anos do Ensino Fundamental)

Transcrição:

MARCELO RIBEIRO DA LUZ MARCOS KUFNER Projeto de Trabalho de Conclusão de Curso Trabalho aresentado ara a discilina de Laboratório de Estatística II do curso de graduação em Estatística da Universidade Federal do Paraná. Orientadora: Profa. Sonia Isoldi M. Muller CURITIBA 008

Comaração entre Reconhecimento de Padrões e Classificação e Regressão Logística como método de melhor resultado na verificação de fatores que influenciam a evasão de alunos do curso de estatística da UFPR. MARCELO RIBEIRO DA LUZ MARCOS KUFNER Curso de Estatística Universidade Federal do Paraná 008 RESUMO O estudo que é aresentado neste trabalho tem como objetivo comarar duas técnicas estatísticas, uma técnica sendo a de Reconhecimento de Padrões e Classificação e a outra a Regressão Logística, como sendo a melhor técnica ara verificar os fatores que influenciam na evasão de alunos do curso de Estatística. Neste estudo foram coletadas informações de 63 alunos que ingressaram no curso de Estatística da Universidade Federal do Paraná entre os anos de 998 e 000, sendo que foi tomado como base nota e freqüência nas discilinas cursadas no semestre do curso, e variáveis como gênero, idade, sexo, estado civil entre outras. Para esta análise será utilizada as técnicas de Regressão Logística e Reconhecimento de Padrões e Classificação Como a variável resosta é dicotômica, ou seja, aresenta as categorias desistência do curso ou a não desistência do curso, ode-se alicar estas duas análises neste estudo. Palavras-chaves: Regressão Logística, Reconhecimento de Padrões, Evasão.

. INTRODUÇÃO. O PROBLEMA No Brasil, evasão escolar entende-se como a interrução do ciclo de estudos, o que é uma realidade em todas as IES (Instituição de Ensino Suerior) do aís. Esse abandono trás rejuízos tanto ara o aluno que não terminou o curso e não terá em seu currículo o título de formação, quanto ara as instituições que erdem em restigio externo ou internamente e também a sociedade com investimentos mal aroveitados. Por que um jovem ou uma jovem que, or meio de todos os esforços ossíveis, conseguiu uma vaga universitária abandona a escola? A desistência na educação suerior, segundo CASTRO (994), é relacionada grande diversidade do sistema e à esecificidade de cada instituição. Na busca de resostas ara as causas desse fenômeno há que se analisar o que está sendo efetivamente imlementado ara favorecer as condições acadêmicas do aluno e, conseqüentemente, melhorar o sistema de ensino nacional. Conforme enfatiza a UNESCO (004), a evasão é semre rocesso individual, se bem que ode constituir-se em fenômeno coletivo a ser estudado como associado à eficiência do sistema. Pode haver deceções, também, quanto às exectativas levantadas em relação à vida universitária, à estrutura e metodologia do trabalho acadêmico e ao excesso de aulas teóricas nos rimeiros semestres, quando o aluno, mesmo com o ouco conhecimento esecífico, almeja o exercício da rofissão. Candidatos à educação suerior, em decorrência de suas condições sociais e financeiras, desistem desde o início, da tentativa de ingressar em um curso mais concorrido, ortanto, de mais difícil acesso, e otam or outro menos rocurado, mesmo com ouco interesse em exercer a rofissão corresondente. Eseram que a oção or áreas menos concorridas ossibilite o ingresso a um nível educacional, cujo título oderá facilitar a ascensão social. Neste asecto, SCHIEFELBEIN (974) observa que a universidade construiu em seu interior um sistema semelhante ao resto do sistema escolar. Algumas carreiras fazem

arte do sonho da maioria dos candidatos, e chegam a selecionar os mais rearados, seja qual for o critério de seleção. Com o significativo crescimento da iniciativa rivada na educação suerior brasileira, fatores econômicos ligados ao trabalho e ao estudo odem ser mais decisivos que a qualidade. Conforme SGANZERLA (00), as raízes das diferentes formas de abandono são distintas e as ações reventivas ara tratarem desses comortamentos também devem ser diferentes. Antes de iniciar rogramas de manutenção dos estudantes na universidade, é indisensável conhecer as formas de evasão. Não basta saber quem e quantos abandonam, mas o orquê da decisão e avaliar o grau de integração universitário, a fim de buscar o desenvolvimento dos sistemas. Inúmeros estudos, teses de mestrados, doutorado tentam entender os asectos comuns entre os estudantes que evadem os cursos sueriores, na tentativa de criar uma ferramenta que ossa identificar características visando auxiliar a IES a desenvolver rogramas que ajudem a reduzir os números da evasão. Neste estudo vamos analisar diferentes variáveis de alunos matriculados no ano de 998/999/000 no curso de Estatística da Universidade Federal do Paraná, notas e freqüências nas 5 discilinas do º semestre do curso, idade, gênero, estado civil, escore do vestibular e outras ossíveis. Tentaremos através das informações encontrar o erfil dos estudantes que concluíram ou evadiram o curso, ara embasamento de um róximo trabalho que vise diminuir a evasão escolar.. HIPÓTESES O rocedimento estatístico de Reconhecimento de Padrões e Classificação é mais eficiente do que o de Regressão Logística As co-variáveis nota e frequencia das discilinas são mais imortantes na evasão que as demais.

. OBJETIVOS.OBJETIVO GERAL O objetivo geral do trabalho é verificar qual das metodologias estatísticas, neste caso o reconhecimento de Padrões e Classificação e a Regressão Logística têm o melhor desemenho na verificação dos fatores que influenciam na evasão dos alunos do curso de Estatística da UFPR..OBJETIVO ESPECÍFICO Verificar quais são as co-variáveis significativas na detecção de alunos que ingressam no curso de Estatística e que já cursaram o semestre venham a desistir ou não do curso. 3. JUSTIFICATIVA: O curso de estatística da UFPR historicamente tem um número elevado de alunos que não concluem o curso, muitos deles já desistem logo aós comletarem o semestre, sendo assim este estudo visa tentar detectar as ossíveis razões desta evasão, e que num futuro róximo seja ossível trabalhar com os asectos que mais influenciam na evasão ara que este tio de situação ocorra o menor numero de vezes. Como na estatística temos vários métodos disoníveis, escolhemos fazer uma comaração entre a análise multivariada e a regressão logística ara ter um método que nos conduza a uma avaliação mais aurado sobre este assunto.

4. MATERIAL E MÉTODOS 4. DADOS COLETADOS Este estudo foi realizado com 63 alunos que ingressaram no curso e estatística da universidade federal do Paraná nos anos de 998, 999 e 000, tendo como objetivo investigar quais as covariáveis aresentam-se significativas ara a variável resosta: evasão (54 observações) ou não evasão do curso (09 observações). 4. METODOLOGIA ESTATÍSTICA 4.. Regressão Logística A escolha da técnica estatística a ser utilizada segundo GIOLO (004) deve ser levada em conta com relação à natureza da variável resosta, neste caso a variável resosta é dicotômica, ou seja, aresenta as categorias evasão do curso ou não evasão do curso, e ainda do onto de vista matemático, fácil de ser usada e de interretação bem simles. Sendo assim otou-se ela utilização da regressão logística, na tentativa de encontrar um modelo exlicativo da variável resosta em função das variáveis exlicativas. A regressão logística arte da função de distribuição logística que é dada or: F(x) e x, ara x -,..., + + e -x + e x () A função de distribuição logística toma valores entre zero e um, assume valor zero em uma arte do domínio das variáveis exlicativas, um em outra arte do domínio e cresce suavemente na arte intermediária ossuindo uma articular curva em forma de S. O modelo de regressão logística é exresso or: θ(x) P(Y x) ex {β 0 + β k x k } k. + ex {β 0 + β k x k } () k

Para descrever a variação entre os θ(x) E (Y x) foi, então, foi roosto a utilização do modelo acima citado, onde Y i significa a resença da resosta, x é o vetor que reresenta as covariáveis (fatores de risco), isto é, x (x, x,..., x ). O arâmetro β 0 é o interceto e β k (k,..., ) são os arâmetros da regressão. Nota-se que este modelo retornará uma estimativa da robabilidade do indivíduo ter a resosta dado que o mesmo ossui, ou não, determinados fatores de risco. Conseqüentemente, - θ(x). + ex {β 0 + β k x k } (3) k retornará uma estimativa de robabilidade do indivíduo não ter a resosta dado que o mesmo ossui ou não determinados fatores de risco. Observe, ainda, que fazendo-se: θ(x) β 0 + P β k x k LOG -θ(x) K Tem-se um modelo linear ara seus arâmetros, e deendendo da variação de x, ode ser contínuo e variar de - a +. A estimação dos arâmetros em regressão logística geralmente é feita elo método da máxima verossimilhança. Para a alicação, deste método é necessário construir inicialmente a função de verossimilhança a qual exressa à robabilidade dos dados observados como uma função dos arâmetros desconhecidos. Os estimadores de máxima verossimilhança dos arâmetros serão os valores que maximizam esta função. Para encontrar esses valores no modelo de regressão logística, considera-se a variável resosta Y codificada como 0 ou. Da exressão () ode-se obter a robabilidade condicional de que Y dado x, Isto é, θ(x) P(Y x) e, que - θ(x) fornece a robabilidade condicional de que Y0 dado x. Assim, θ(x) será a contribuição ara a função de verossimilhança dos ares (Y i, x i ) em que Y i e - θ(x i ), a contribuição dos ares em que Y i 0. Assumindo então que as observações são indeendentes tem-se a seguinte exressão: L(β) (θ(x i )) Yi (- θ(x i )) -yi (4)

As estimativas de β serão os valores que maximizam a função de verossimilhança dada em (4). Algebricamente é mais fácil trabalhar com o logaritmo desta função, isto é, com: l(β) log L(β) + n y i log (θ(x i )) + ( - y i ) log ( - θ(x i )) (5) i Para obter os valores de β que maximizam l(β) basta diferenciar a resectiva função com reseito a cada arâmetro β j (j 0,,..., ) obtendo-se, assim, o sistema de + equações, i n (y i - θ(x i )) 0 i n x ij (y i - θ(x i )) 0 j,..., que, quando igualadas a zero, roduzem como solução as estimativas de máxima verossimilhança de β. Os valores ajustados ara o modelo de regressão logístico são, ortanto, obtidos substituindo-se as estimativas de β em (). 4... Estatísticas Qui-quadrado Nesta estatística os totais marginais n + e n + são fixos e, ortanto, sob a hiótese nula H 0, de não existência de significância ara o estudo, a distribuição de robabilidade associada é a hiergeométrica. Assim o valor eserado de nij é: e a variância: E(N ij H 0 ) (n i+ )(n +j ) m ij n V (N ij H 0 ) (n + ) (n + ) (n + ) (n + ) v ij. n (n - ) Para uma amostra suficientemente grande, n tem aroximadamente uma distribuição normal, o que imlica que: Q (n - m ) v tem aroximadamente uma distribuição qui-quadrado com um grau de liberdade. Não imorta como as linhas e colunas sejam arranjadas, Q assumirá semre o mesmo valor, uma vez que: n - m n ij - m ij n n - n n n

Uma estatística relacionada a Q é a estatística de Pearson dada or: Q P (n ij - m ij ) n Q. i j m ij (n -) Se as contagens (freqüências) nas caselas forem suficientemente grandes, Q P segue uma distribuição qui-quadrado com um grau de liberdade. Ainda, quando n cresce, Q P e Q convergem. Uma regra útil ara determinar o tamanho amostral ade-quado ara Q e Q P é que o valor eserado m ij seja maior do que 5 ara todas as caselas. 4... Sensibilidade e Esecificidade Estas medidas determinam a eficiência do modelo selecionado detectar a verdade. A sensibilidade é definida como a roorção de resultados ositivos que o estudo aresenta, quando realizado em sujeitos conhecidos terem a doença, ou seja, é a roorção de verdadeiros ositivos. A esecificidade, or outro lado, é definida como a roorção de resultados negativos que o estudo aresenta, quando realizado em sujeitos conhecidos estarem livres da doença (roorção de verdadeiros negativos). O desejado de um exame (teste) é que ele tenha, simultaneamente, alta sensibilidade e esecificidade. 4...3 Poder Preditivo do Modelo O oder reditivo do modelo ode também ser obtido com a finalidade de avaliar a qualidade do modelo ajustado. Para isso, faz-se necessário estabelecer uma robabilidade, denominada onto de corte", a artir da qual se estabeleça que: - a variável resosta receba o valor, isto _e, Y ara robabilidades estimadas elo modelo que sejam maiores ou iguais a esse onto de corte e, ainda, que - a variável resosta receba o valor 0, isto _e, Y 0 ara robabilidades estimadas elo modelo que sejam menores do que esse onto de corte. 4...4 Deviance Residual e Resíduos de Pearson As estatísticas Q e Q L, são usadas ara verificar a qualidade de ajuste do modelo de regressão logística, fornecem um único número o qual resume a concordância entre os

valores observados e os ajustados. PREGIBON (98) estendeu os métodos de diagnóstico de regressão linear ara a regressão logística e argumenta que, como as estatísticas quiquadrado de Pearson (Q ) e deviance (Q L ) são duas medidas usadas ara verificar a qualidade do modelo ajustado, faz sentido analisar os comonentes individuais dessas estatísticas, uma vez que estes comonentes são funções dos valores observados e reditos elo modelo. Assim, se em uma tabela de contingência s x, tem-se ara cada uma das s linhas n i+ sujeitos dos quais n i aresentam a resosta de interesse (sucesso) e θ i denota a robabilidade redita de sucesso ara a i-ésima linha (gruo), define-se o i-ésimo resíduo or: c i. n i - ((n i+ ) θ i ) i ;...s. (n i+ ) θ i ( - θ i ) Esses resíduos são conhecidos como resíduos de Pearson, uma vez que a soma deles ao quadrado resulta em Q P. O exame dos valores residuais c i auxiliam a determinar quão bem o modelo se ajusta aos gruos individuais. Freqüentemente, resíduos excedendo o valor,0 (ou,5 ) indicam falta de ajuste. Similarmente, a deviance residual é um comonente da estatística deviance e é exressa or: d i sinal(n i - y i ) [ n i log (n i /y i ) + ( ni+ - n i ) log ((n i+ - n i )/(n i+ - y i ))] /, em que y i (n i +) θ i. A soma das deviances residuais ao quadrado resulta na estatística deviance Q L. A artir do exame dos resíduos deviance ode-se observar a resença de resíduos não usuais (demasiadamente grandes), bem como a resença de outliers ou, ainda, adrões sistemáticos de variação indicando, ossivelmente, a escolha de um modelo não muito adequado. As estatísticas de diagnóstico aresentadas ermitem, ao analista, identificar adrões de covariáveis que estão com um ajuste obre. Aós estes adrões serem identificados, ode-se, então, avaliar a imortância que eles têm na análise. 4...5 Gráfico Q-Qlot com Enveloe Simulado No caso em que a variável resosta é assumida ser normalmente distribuída, é comum que afastamentos sérios da distribuição normal sejam verificados or meio do gráfico de robabilidades normal dos resíduos. No contexto de modelos lineares generalizados, em que distribuições diferentes da normal são também consideradas,

gráficos similares com enveloes simulados odem ser também construídos com os resíduos gerados a artir do modelo ajustado. A inclusão do enveloe simulado no Q-Qlot auxilia a decidir se os ontos diferem significativamente de uma linha reta, (GIOLO, 006) aresenta códigos em linguagem Slus, que odem ser utilizados no acote estatístico R, ara gerar tais gráficos em: regressão gama, logística, Poisson e binomial negativa, além da normal. Para que o modelo ajustado seja considerado satisfatório, faz-se necessário que as deviances residuais caiam dentro do enveloe simulado. 4.. Reconhecimento de Padrões e Classificação O reconhecimento de adrões, segundo SONKA, HLAVAC & BOYLE (993), baseia-se na atribuição de classes ara os ixels através do rocesso chamado Análise Discriminante. De acordo com JOHNSON & WICHERN (988), análise discriminante são técnicas multivariadas interessadas com a searação de uma coleção de objetos (ou observações) distintos e que alocam novos objetos em gruos reviamente definidos. A análise discriminante quando emregada como rocedimento de classificação não é uma técnica exloratória, uma vez que ela conduz a regras bem distribuídas, as quais odem ser utilizadas ara classificação de novos objetos. As técnicas estatísticas de discriminação e classificação estão incororadas num contexto mais amlo, que é o do reconhecimento de adrões. Particia junto com técnicas de rogramação matemática e redes neurais na formação do conjunto de rocedimentos usados no reconhecimento e classificação de objetos e indivíduos. Algumas máquinas inteligentes são exemlos do que vem a ser reconhecimento de adrões, são elas: míssil que escolhe or onde entrar em um abrigo (Guerra do Golfo); carro que se desloca sozinho em um camus universitário; máquina que classifica tábuas de madeira ela sua tonalidade de cor; etc. Estes exemlos refletem o emrego da chamada inteligência artificial que consiste, entre outras, de alicações de técnicas de reconhecimento de adrões usando tecnologia adequada como a câmera de televisão ara visão e um rocessador eletrônico como cérebro. Os objetivos imediatos da técnica quando usada ara discriminação e classificação são, resectivamente, os seguintes:. Descrever algebricamente ou graficamente as características diferenciais dos objetos (observações) de várias oulações conhecidas, no sentido de achar discriminantes

cujos valores numéricos sejam tais que as oulações ossam ser searadas tanto quanto ossível.. Gruar os objetos (observações) dentro de duas ou mais classes determinadas. Tenta-se encontrar uma regra que ossa ser usada na alocação ótima de um novo objeto (observação) nas classes consideradas. Uma função que seara, ode servir como alocadora, e da mesma forma uma regra alocadora, ode sugerir um rocedimento discriminatório. Na rática, os objetivos e, freqüentemente, sobreõem-se e a distinção entre searação e alocação torna-se confusa. A terminologia de discriminar e classificar foi introduzida or FISCHER (936) no rimeiro tratamento moderno dos roblemas de searação. 4... Problema Geral de Classificação Em seu livro, JOHNSON & WICHERN (988) considera dois gruos em uma cidade, rorietários de certo equiamento e não-rorietários desse equiamento. Afim de identificar o melhor tio de camanha de vendas, o fabricante do equiamento está interessado em classificar famílias como futuros comradores do equiamento ou não, com base em x renda e x tamanho do lote de moradia. Amostras aleatórias de n rorietário e n não-rorietários roduziram os dados abaixo. Tabela 4.: Amostras de Famílias Prorietárias e Não-Prorietárias com Base na Renda e Tamanho do Lote de suas Moradias. Π Prorietários Π Não-Prorietários x x x x 0.0 9. 5.0 9.8 8.5 8.4 7.6 0.4.6 0.8.6 8.6 0.5 0.4 4.4 0. 9.0.8 8.0 8.8 36.7 9.6 6.4 8.8 36.0 8.8 9.8 8.0 7.6..0 9. 3.0 0.0 5.8 8. 3.0 0.4.0 9.4 7.0.0 7.0 7.0 7.0 0.0.0 7.4

Figura Figura 4. 4.- Reresentação Gráfica Gráfica dos Dados da Tabela da Tabela 4. no 4. Esaço no Esaço Discriminante Renda 4 36 3 6 6 Família NãoP ro P ro 7 8 9 0 Tamanho do Lote Observa-se na figura 4. que: ) rorietários tendem a ter maiores rendas e maiores lotes; ) renda arece discriminar melhor que lote 3) existem mistura entre gruos. Dado que existe mistura e conseqüentemente classificações erradas, a idéia é criar uma regra (regiões R e R ) que minimize a chance de fazer esta mistura. Um bom rocedimento resultará ouca mistura de elementos gruais. Pode ocorrer que de uma classe ou oulação exista maior robabilidade de ocorrência do que de outra classe. Uma regra de classificação ótima deve levar em conta as robabilidades de ocorrência a riori. Outro asecto da classificação é o custo. Suonha que classificar um item em Π quando na verdade ele ertencente a Π reresente um erro mais sério do que classificar em Π quando o item ertencente a Π. Então deve-se levar isso em conta. Seja f ( x ) e f ( x ) as f.d.. s associadas com o vetor aleatório X de dimensão das oulações Π e Π, resectivamente. Um objeto, com as medidas x, deve ser reconhecido como de Π ou de Π. Seja Ω o esaço amostral, isto é, o conjunto de todas as ossíveis observações x. Seja R o conjunto de valores x ara os quais nós classificamos o objeto como Π e R Ω - R os remanescentes valores x ara os quais nós classificaremos os objetos como Π. Os conjuntos R e R são mutuamente exclusivos.

Para, odemos ter a figura: Figura 4.: Regiões de classificação ara duas oulações A robabilidade condicional, de reconhecer um objeto como de Π quando na verdade ele é de Π é: P( ) P(X R Π ) Ω f R R (x)dx Da mesma forma: P( ) P(X R Π ) f (x)dx R P( ) reresenta o volume formado ela f.d.. f ( x ) na região R. Sendo (caso univariado) tem-se: P ( ) f ( x ) dx R P ( ) f ( x ) dx R f (x) f (x) R R Classificado como π Classificado como π Figura 4.3: Classificação das Regiões ara Duas Poulações. Seja a robabilidade a riori de Π e ser a robabilidade a riori de Π, onde +. As robabilidades de reconhecer corretamente ou incorretamente são dados or:

P(rec. correta/te. como Π ) P( X Π e é rec. correta/te como Π ) P( X R Π )P(Π ) P( ) P(rec. incorreta/te como Π ) P( X Π e é rec. incorreta/te como Π ) P( X R Π )P(Π ) P( ) P(rec. correta/te como Π ) P( X Π e é rec. correta/te como Π ) P( X R Π )P(Π ) P( ) P(rec. incorreta/te como Π ) P( X Π e é rec. incorreta/te como Π ) P( X R Π )P(Π ) P( ) Regras de reconhecimento são freqüentemente avaliados em termos de suas robabilidades de reconhecimento errado. Poulação verdadeira Tabela 4.: Matriz do Custo de Reconhecimento Errado Reconhecimento como Π Π Π 0 c( ) Π c( ) 0 Para qualquer regra, a média, ou o custo eserado de reconhecimento (classificação) errado é dado ela soma dos rodutos dos elementos fora da diagonal rincial elas resectivas robabilidades: ossível. ECM c( )P( )() + c( )P( )() Uma regra razoável de reconhecimento deve ter ECM muito baixa, tanto quanto As regiões R e R que minimizam o ECM são definidas elos valores de x tal que valem as desigualdades: R f(x) f (x) c( ) c( ) Raz ao das Raz ao dos Raz ao das densidades custos robabilidades `a riori

R f(x) c( ) < f (x) c( ) Razao das Razao dos Razao das densidades < custos robabilidades `a riori 4... Critério TPM Outro critério, além do ECM, ode ser usado ara construir rocedimentos ótimos. Assim, ode-se ignorar o ECM e escolher R e R que minimizam a robabilidade total de erro de classificação (TPM). TPM P( x Π e é classificada errada) + P( x Π e é classificada errada) TPM f ( x ) d x + f ( x ) d x R R Matematicamente, isto é equivalente a minimizar ECM quando os custos de classificação errada são iguais. Assim, odemos alocar uma nova observação x 0 ara a oulação com a maior robabilidade osteriori P(Π i x 0 ), onde P( Π x ) 0 P( Π ocore e observa - se x ) 0 P( observa - se x ) 0 P( observa - se x Π ) P( Π ) 0 P( observa - se x Π ) ( Π ) + P( observa - se x Π ) ( Π ) f ( x ) 0 f ( x ) + f ( x ) 0 0 0 0 e P( Π x ) P( Π x ) 0 0 f ( x ) 0 f ( x ) + f ( x ) 0 0 e classifica-se x 0 em Π quando P(Π x 0 ) > P(Π x 0 )

4...3. Classificação com Duas Poulações Normais Multivariadas Assume-se que f ( x ) e f ( x ) são densidades normais multivariadas, a rimeira com µ e a segunda com µ, então suondo, a F.D.L. de Fisher ode ser usada ara classificação e corresonde a um caso articular da regra de classificação com base em ECM. Assim, Seja X ' [ X, X,..., X ] ara oulações Π e Π e f i ( x): ex x x i i µ µ ( π ) ' ara i, mínimo ECM. Suonha que os arâmetros Π e Π e, são conhecidos, tem-se as regiões de R : f f ( x) ( x) ( π ) ( π ) ex ( x )' ( x ) µ Σ µ i i Σ ex ( x )' ( x ) µ Σ µ i i Σ ex ' ' + x µ x µ x µ x µ c c ( ) ( ) R : f f ( x) ( x) ex ' ' + x µ x µ x µ x µ < c c ( ) ( ) Sejam as oulações Π e Π normais multivariadas. A regra de reconhecimento que minimiza ECM é dada or: reconhecer x 0 como sendo de Π se

µ µ ' 0 µ µ ' µ µ + x e x 0 como sendo de Π em caso contrário. c ln c ( ) ( ) Em situações em que µ i i, são desconhecidas e Σ também, a regra deve ser modificada. Segundo Anderson (984) tem-se a seguinte regra do ECM mínimo ara duas oulações normais (regra amostral). Alocar x 0 em Π se c x x S x 0 x x S x x ' ' ln + c ( ) ( ) Alocar x 0 em Π em caso contrário. O rimeiro termo da regra de classificação e reconhecimento, x x ' S x, é a função linear obtida or Fisher que maximiza a variabilidade univariada entre as amostras relativamente a variabilidade dentro das amostras. A exressão inteira w x x S x x x S x x x x S x x x + + ' ' ' [ ] é conhecida como função de classificação de Anderson(984). Quando,, tem-se a classificação quadrática. Suondo as matrizes de covariância ara x Π e Σ ara x Π em, as regras de reconhecimento de adrões tornam-se mais comlicadas. Seja então x N ( µ i, Σ i ) i, com µ µ e Σ Σ. A robabilidade total de reconhecimento errada (TPM) e o custo eserado de reconhecimento errado deendem da razão de densidades f f ( x) ( x)

ou, equivalentemente, do logaritmo das razões das densidades ln f ( x) f ( x) ln f ( x) ln f ( x) Sejam as oulações Π e Π descritas or densidades normais multivariadas N ( µ, Σ ) e N ( µ, Σ ). Então a regra de reconhecimento que minimiza o ECM é dado ' or: 0 ( ) R x x 0 x 0 k + ' ' µ µ. Substituindo as exressões das densidades normais multivariadas tem-se: R f ( x) f ( x) ( π ) ( π ) Σ Σ ex ( x µ )' Σ ( x µ ) ex ( x µ )' Σ ( x µ ) c ln c ( ) ( ) Na rática, a regra de reconhecimento estabelecida é imlementadas substituindo-se os arâmetros µ, µ, Σ e Σ elas suas estimativas x, x, S e S, tal que: Alocamos x 0 em Π se: ' c x 0 ( S S ) x 0 + x ' S x ' S x 0 k ln c ( ) ( ) Alocamos x 0 em Π, caso contrário. 4...4 Discriminação e Classificação entre Duas Poulações - Método de Fischer Basicamente, o roblema consiste em searar duas classes de objetos ou fixar um novo objeto em uma das duas classes. Deste modo, é interessante alguma exemlificação.

A tabela I a seguir mostra diversas situações onde a análise discriminante ode ser emregada. É comum denominar as classes (oulações) de Π e Π, e os objetos searados ou classificados com base nas medidas de variáveis aleatórias são associadas com vetores do tio: X [X,X,..., X P ], onde as variáveis X i, i,,...,, são as medidas das características investigadas nos objetos. Os valores observados de X odem diferir de uma classe ara outra, sendo que a totalidade dos valores da a classe é a oulação dos valores x ara Π e aqueles da a classe é a oulação dos valores de X ara Π. Assim, estas oulações odem ser descritas elas funções densidade de robabilidade f ( x ) e f ( x ). Tabela 4.3: Situações - Exemlos Poulações Π e Π Variáveis medidas (comonentes de x ). Sucesso ou insucesso de estudantes na Universidade.. Machos e fêmeas adultos. 3. Comrador de um novo roduto e não comrador de um novo roduto. 4. Artigos jornalísticos escritos or Paulo Francis e Carlos Castelo Branco. 5. Pessoa de alto risco no crédito e essoa de baixo risco. 6. Duas esécies de lanta semelhantes. -Notas no vestibular, notas no curso, número de discilinas no curso. -Altura, eso, erímetro do bíces, erímetro do tórax, erímetro do quadril. -Educação, renda, tamanho da família. -Freqüência de diferentes alavras, comrimento das sentenças. -Renda, idade, número de cartões de crédito, tamanho da família. -Comrimento da étala, rofundidade da fenda da étala, diâmetro do ólen. A idéia de Fischer foi transformar as observações multivariadas X s nas observações univariadas y s tal que os y s das oulações Π e Π sejam searadas tanto quanto ossível. Fischer teve a idéia de tomar combinações lineares de X ara criar os y s, dado que as combinações lineares são funções de X e or outro lado são de fácil cálculo

matemático. Seja µ y a média dos y s obtidos dos X s ertencentes a Π e µ y a média dos y s obtidos dos X s ertencentes a Π, então Fischer selecionou a combinação linear que maximiza a distância quadrática entre µ y e µ y relativamente à variabilidade dos y s. Assim, seja: µ E( X Π ) valor eserado de uma observação multivariada de Π. µ E( X Π ) valor eserado de uma observação multivariada de Π. e suondo a matriz de covariância ΣΕ( X µ i )( X µ i ) i, como sendo a mesma ara ambas as oulações, e considerando a C.L. tem-se e Y x c' X x x µ y E(Y Π ) E( c X Π ) c E( X Π ) c µ, µ y E(Y Π ) E( c X Π ) c E( X Π ) c µ, V(Y) σ y V( c X ) c V( X )c c Σc, que são a mesma ara ambas as oulações. Segundo Fischer, a melhor combinação linear é a derivada da razão entre o quadrado da distância entre as médias e a variância de Y. ( µ µ ) y y σ y ( c' µ c' µ ) c'( µ µ )( µ µ ) c ( c' δ ) c' c c' c c' c onde δ µ - µ. Seja δ µ - µ e Y c X ( c' δ ), então c' c é maximizada or c k Σ- δ k Σ ( µ - µ ) ara qualquer k 0. Escolhendo k tem-se c Σ- ( µ - µ ) e Y c X ( µ - µ ) Σ- X, que é conhecida como função discriminante linear de Fischer.

A função discriminante linear de Fischer transforma as oulações multivariadas Π e Π em oulações univariadas, tais que as médias das oulações univariadas corresondentes sejam searadas tanto quanto ossível relativamente a variância oulacional, considerada comum. Assim tomando-se y 0 ( µ - µ ) Σ- x 0 como o valor da função discriminante de Fischer ara uma nova observação x 0, e considerando o onto médio entre as médias das duas oulações univariadas, m ( µ y µ y ), como m ( c' µ + c' µ ) m ( µ µ ) µ + ( µ µ ) µ tem-se que: m ( µ µ ) ( µ + µ ), E(Y 0 Π ) - m 0 E(Y 0 Π ) - m < 0, ou seja, se X 0 ertence a Π, se esera que Y 0 seja igual ou maior do que o onto médio. Por outro lado se X 0 ertence a Π, o valor eserado de Y 0 será menor que o onto médio. Desta forma a regra de classificação é : alocar x 0 em Π se y 0 - m 0 alocar x 0 em Π se y 0 - m < 0 Geralmente, os arâmetros µ, µ e Σ são desconhecidos, então suondo que se tenha n observações da v.a. multivariada X da oulação Π e n observações da v.a. multivariada X da oulação Π, então os resultados amostrais ara aquelas quantidades são: x n x ; S ( x x )( x x ) n i n i i i i n

x n x ; S ( x x )( x x ) n i n i i i i n mas uma vez que se assuma que as oulações sejam assemelhadas é natural considerar a variância como a mesma, daí estima-se a matriz de covariância comum Σ or: S ( n ) S + ( n ) S ( n + n ) que é um estimador não-viciado daquele arâmetro. conseqüentemente, a função discriminante linear de Fischer amostral é dada or: y c x ( x x ) S x a estimativa do onto médio entre as duas médias amostrais univariadas y c x e y c x é dada or: m ( y + y ) ( x x ) S x + ( x x ) S x m ( x x ) S ( x + x ) e finalmente a regra de classificação é a seguinte: alocar x 0 em Π se y 0 ( ) x x S x m 0 alocar x 0 em Π se y 0 ( ) x x S x < m 0 ou melhor se y 0 - m 0 x 0 é alocado em Π y 0 - m < 0 x 0 é alocado em Π A combinação linear articular y c x ( x x ) S x ( y y ) ( c d) ( c x c x ) S y c S c c S c maximiza a razão: onde d x x e S y n ( yi y ) + ( yi y ) i n n n i

4.3 RECURSOS COMPUTACIONAIS A análise dos dados será feita através dos softwares R e Statgrahics Centurion, sendo que serão utilizadas: regressão logística,estatística qui-quadrado, deviance residual, resíduos de Pearson, Q-Qlot com enveloe simulado, sensibilidade, esecificidade e oder reditivo do modelo, reconhecimento de adrões e classificação.

5. CRONOGRAMA DE ATIVIDADES

6. REFERÊNCIAS BIBLIOGRÁFICAS CASTRO, O fenômeno da evasão escolar na educação suerior no Brasil, 005. Disonível em htt://www.iesalc.unesco.org.ve/rogramas/deserci%c3%b3n/informe%0deserci%c3%b3n %0 Brasil%0-%0D%C3%A9bora%0Niquini.df acessado 06/03/07 as 6:0 min FISHER, R.A., The statistical utilizacion of multile measurements, Annals os Eugenics. 8 (938), 376-386. GIOLO, Suely Ruiz. Aostila de Análise de Regressão, 003. GIOLO, Suely Ruiz. Aostila de Análise de Dados Discretos, 004. GIOLO, Suely Ruiz. Introdução a Análise de Dados Categóricos, 006. JOHNSON, R. A., WICHERN, D.W. Alied Multivariate Statistical Analysis. Prentice Hall International, Inc. New Jersey, 988. MULLER, Sonia I. M. Gama. Sistema Integrado de Avaliação com Alicação na Engenharia, 007. NETO, Anselmo Chaves. Aostila de Análise Multivariada II, 005. PREGIBON, D. Logistic regression diagnostics, Annals of Statistics, v.9, 98. SONKA, Milan; HLAVAC, Vaclav & BYLE, Roger. Image Processing, Analysis and Machine Vision. Ed. Chaman & Hall, Cambridge, 993.