Redes neurais em análise de sobrevivência: Uma aplicação na área de relacionamento com clientes

Documentos relacionados
Detecção de Infração em faixa de pedestres sem semáforos utilizando visão computacional e redes neurais

As combinações. combinatória que envolviam o princípio multiplicativo e as permutações.

Plantas e mapas. Na Aula 17, aprendemos o conceito de semelhança

Um dos conceitos mais utilizados em Matemática

CPV O Cursinho que Mais Aprova na GV

8.5 Cálculo de indutância e densidade de energia magnética

3 Aprendizado por reforço

4 DEFINIÇÃO DA GEOMETRIA, MALHA E PARÂMETROS DA SIMULAÇÃO

ϕ ( + ) para rotações com o Flechas e deflexões

3 Redes Neurais Artificiais

EAE36AM - ESTATÍSTICA APLICADA A EXPERIMENTOS

1E207 - MACROECONOMIA II

Projeção ortográfica de sólidos geométricos

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Multi-Layer. Perceptrons. Algoritmos de Aprendizado. Perceptrons. Perceptrons

Emerson Marcos Furtado

Wireless LANs - Extens

O triângulo é uma figura geométrica muito. Você já sabe que o triângulo é uma figura geométrica de:

Recordando operações

Perfis Importantes no Scrum

Triângulos. O triângulo é uma figura geométrica muito. Para pensar. Nossa aula

Análise de Sobrevivência

A linguagem matemática

Camada de Transporte

serotonina (humor) dopamina (Parkinson) serotonina (humor) dopamina (Parkinson) Prozac inibe a recaptação da serotonina

A Metodologia de Box & Jenkins

INTELIGÊNCIA ARTIFICIAL

Parábola. Sumário Parábola com vértice V = (x o, y o ) e reta focal. paralela ao eixo OX... 7

UNIVERSIDADE EDUARDO MONDLANE Faculdade de Engenharia. Transmissão de calor. 3º ano

Redes Neurais: MLP. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

O círculo e o número p

Inteligência Computacional

Método dos Deslocamentos

10. CARGAS ACIDENTAIS E MÓVEIS; LINHAS DE INFLUÊNCIA

ENTECA 2003 IV ENCONTRO TECNOLÓGICO DA ENGENHARIA CIVIL E ARQUITETURA

MOQ-12: PROBABILIDADES E PROCESSOS ESTOCÁSTICOS. VA s e Distribuições

3 Modelos Comparativos: Teoria e Metodologia

Edital 06/2016 Programa de Pós-Graduação em Engenharia Ambiental Processo Seletivo de Mestrado 2017 Instruções

painel sandwich poliuretano cobertura

Modelo de regressão estável aplicado a econometria

Calculando áreas. Após terem sido furadas, qual delas possui maior área?

ANÁLISE DE SOBREVIVÊNCIA. Airlane P. Alencar IME-USP Alessandra C. Goulart FM-USP

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Capítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação

TÉCNICAS DE AMOSTRAGEM

Relações diferenciais de equilíbrio para vigas

XXVII Olimpíada Brasileira de Matemática GABARITO Segunda Fase

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Na figura abaixo, a balança está em equilíbrio e as três melancias têm o mesmo peso. Nessas condições, qual é o peso (em kg) de cada melancia?

Neste capítulo estamos interessados em resolver numericamente a equação

1 O esquema de Alamouti: Diversidade na transmissão

3 Estática das estruturas planas

painel sandwich poliuretano fachada

Teoria do consumidor. Propriedades do Conjunto Consumo,

Equações não lineares

3TRU022: Mecânica II Prof.: Roberto Buchaim Exercícios resolvidos

Introdução às Redes Neurais Artificiais

Sistemas Inteligentes

PROCESSOS DE CARGA E DESCARGA DE UNIDADES FLUTUANTES DE PRODUÇÃO ARMAZENAMENTO E TRANSFERÊNCIA DE PETRÓLEO. Ricardo Saldanha da Gama da Câmara e Souza

MAT 461 Tópicos de Matemática II Aula 8: Resumo de Probabilidade

Aula 07 Propriedades da resposta ao impulso

f(h) δ h p f(x + h) f(x) (x) = lim

GABARITO LISTA 5 = REVISÃO GEOMETRIA ESPACIAL: PRISMAS, CILINDROS, PIRÂMIDES, CONES E ESFERAS.

Quem Trabalha Muito e Quem Trabalha Pouco no Brasil? *1

Edital 04/2016 Programa de Pós-Graduação em Engenharia Ambiental Processo Seletivo de Doutorado 2016 Instruções

Just-in-time. Podemos dizer que estamos usando a técnica. Conceito

( ) ( ) ( ) ( ) ( ) (19) O ELITE RESOLVE IME 2012 MATEMÁTICA DISCURSIVAS MATEMÁTICA

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

, um deslocamento segundo o eixo local l 2. , u l 2. . Para aplicar ou restringir estes deslocamentos aplica-se uma força segundo o eixo local l 1

UM MODELO NEURAL PARA A PREVISÃO DA DEMANDA DE ENERGIA ELÉTRICA NA CIDADE DE FRANCA

4 Redes Neurais Artificiais

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

II. MODELAGEM MATEMÁTICA

4 Modelo da mistura de carvões

Paradigmas de Aprendizagem

5 Tudo que sobe, desce

DETECÇÃO DE RASTROS DE DUST DEVILS EM IMAGENS DA SUPERFÍCIE DE MARTE

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Leandro Lima Rasmussen

MODELAÇÃO DA PROPAGAÇÃO DE ONDAS SÍSMICAS ATRAVÉS DO MÉTODO DOS ELEMENTOS DE FRONTEIRA

4 Modelagem Numérica. 4.1 Método das Diferenças Finitas

4 Modelos de Regressão Dinâmica

3 INTERVALOS DE CONFIANÇA

Avaliação de Sistemas de Medição

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

Modelos básicos de distribuição de probabilidade

3 Estimação e Compensação de movimento na codificação de vídeo

CIRCUITOS MAGNÉTICOS LINEARES E NÃO LINEARES

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

2 O Problema do Fluxo de Custo Mínimo

Problemas comuns Desenvolvimento e Design de Sistemas Web Categorias de problemas Exemplo de problema de funcionamento

CAPÍTULO 9 CINEMÁTICA DO MOVIMENTO ESPACIAL DE CORPOS RÍGIDOS

Intervalos de Confiança

Princípios da Engenharia de Software Aula 01

Intervalos de conança

ISO/IEC 12207: Manutenção

ANOVA - parte I Conceitos Básicos

O efeito interacção em modelos de equações estruturais

Por que o alumínio compete com o aço?

Transcrição:

Redes neurais em anáise de sobrevivência: Uma apicação na área de reacionamento com cientes Marceo Hiroshi Ogava DISSERTAÇÃO APRESENTADA AO INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DA UNIVERSIDADE DE SÃO PAULO PARA OBTENÇÃO DO TÍTULO DE MESTRE EM CIÊNCIAS Área de concentração: Estatística Orientador: Prof. Dr. Antonio Caros Pedroso de Lima São Pauo, unho de 2007.

Redes neurais em anáise de sobrevivência: Uma apicação na área de reacionamento com cientes Este exempar corresponde à redação fina da dissertação devidamente corrigida e defendida por Marceo Hiroshi Ogava e aprovada pea Comissão Jugadora. São Pauo, 4 de unho de 2007. Banca Examinadora: Prof. Dr. Antonio Caros Pedroso de Lima (Orientador) IME-USP Profa. Dra. Lúcia Pereira Barroso IME-USP Prof. Dr. Manoe Raimundo de Sena Junior UFPE

Perguntaram ao Daai Lama... O que mais te surpreende na Humanidade? E ee respondeu: Os homens... Porque perdem a saúde para untar dinheiro, depois perdem dinheiro para recuperá-a. E por pensarem ansiosamente no futuro, esquecem do presente de ta forma que acabam por não viver nem o presente nem o futuro. E vivem como se nunca fossem morrer... e morrem como se nunca tivessem vivido.

Aos meus queridos pais.

Agradecimentos Agradeço a todos que, de aguma maneira, contribuíram para a eaboração deste trabaho, em especia: Ao professor Antonio Caros, pea orientação, compreensão e cobranças nos momentos certos. Aos meus queridos pais Katsue e Aio, peo carinho, apoio e confiança que sempre depositaram em mim. À minha irmã Harumi, peo incentivo e por me dar duas sobrinhas maravihosas: Gabriea e a Daniea. À minha namorada Beatri, pea compreensão, carinho e apoio em todos os momentos. Ao professor Cóvis de Araúo Peres, pea amiade, incentivo e ensinamentos que tornaram a Estatística muito mais interessante. Aos meus amigos da ETFSP, do IME e da empresa, pea amiade, companheirismo e apoio. Aqui, gostaria faer um agradecimento especia à minha querida amiga Tatiana Terabayashi Mehado que muito me audou, sobretudo na fase fina deste trabaho. E, finamente, aos professores do Departamento de Estatística do IME-USP que muito contribuíram para a minha formação.

Resumo A medida que as economias modernas tornam-se predominantemente baseadas na prestação de serviços, as companhias aumentam seu vaor na criação e na sustentabiidade do reacionamento a ongo prao com seus cientes. O Customer Lifetime Vaue (LTV), que é uma medida de potencia de geração de ucro, ou vaor de um ciente, vem sendo considerado um ponto fundamenta para o gerenciamento da reação com os cientes. O principa desafio em prever o LTV é a produção de estimativas para o tempo de duração do contrato de um ciente com um dado provedor de serviços, baseado nas informações contidas no banco de dados da companhia. Neste trabaho, apresentaremos uma aternativa aos modeos estatísticos cássicos, utiiando um modeo de redes neurais para a previsão da taxa de canceamento a partir do banco de dados de uma empresa de TV por assinatura.

Abstract As modern economies become predominanty service-based, companies increasingy derive revenue from creation and sustenance of ong-term reationships with their customers. The Customer Lifetime Vaue (LTV), which is a measure of the profit generating potentia, or vaue of a customer, is increasingy being considered as a touchstone for customer reationship management. The centra chaenge of LTV is the production of estimated customer tenures with a given service provider, based on information contained in the company database. In this study, we consider an aternative to cassica statistica modes, using a neura networ mode for haard prediction based on the database information of a pay TV company.

Índice 1 Introdução 1 2 Contexto da apicação 4 2.1 O mercado de TV por assinatura......................... 4 2.2 Churn............................................. 7 2.3 Retenção do ciente................................... 7 2.4 Banco de dados...................................... 8 3 Anáise de sobrevivência 10 3.1 Definições.......................................... 10 3.2 Dado incompeto..................................... 13 3.3 Estimador de Kapan-Meier............................. 14 3.4 Modeos de regressão para dados de sobrevivência........... 15 3.4.1 Modeos de regressão semiparamétricos com riscos proporcionais............. 15 3.4.2 Modeos de regressão para dados de sobrevivência agrupados..................................... 17 4 Redes neurais artificiais 25 4.1 Definições........................................... 25

4.2 Tipos de arquitetura................................... 28 4.2.1 Redes com uma camada.......................... 30 4.2.2 Redes muticamadas............................. 32 4.3 Agoritmos de treinamento.............................. 33 4.4 Funções de ativação................................... 42 4.5 Redes neurais em probemas de anáise de sobrevivência...... 44 5 Resutados 54 5.1 Partição do banco de dados.............................. 55 5.2 Tratamento das covariáveis.............................. 55 5.3 Apicação das técnicas.................................. 56 5.3.1 Anáise de sobrevivência para dados agrupados........ 56 5.3.2 Redes neurais................................... 59 5.4 Comparação dos modeos............................... 61 6 Concusões 68 A Lista de covariáveis 70 B Derivadas de 2ª ordem 73 Referências bibiográficas 75

Capítuo 1 Introdução As empresas passaram, na útima década, por duas grandes fases na área de reacionamento com o ciente, e agumas deas encontram-se, agora, na terceira fase. A primeira fase foi aquea em que o foco era direcionado apenas na aquisição de novos cientes, não se preocupando com os cientes que estavam saindo da empresa. Com o mercado cada ve mais competitivo como, por exempo, o mercado de TV por assinatura, é sabido hoe que a aquisição de um novo ciente é muito mais cara do que a manutenção de um ciente que á está na base e, foi neste momento, que a segunda fase se iniciou. A segunda fase é caracteriada pea tentativa de reter o ciente a quaquer custo chegando em aguns casos, a manter cientes que não geram nenhuma receita à empresa. Isso pode ser expicado porque, ainda nos dias de hoe, muitas empresas são avaiadas pea quantidade de cientes na base e não pea quaidade dos mesmos. Agumas empresas, enxergando a possibiidade de aumentar a rentabiidade da base de cientes equiibrando os gastos de aquisição e retenção, entraram na terceira fase do reacionamento com o ciente. Nesta fase a empresa tenta descobrir qua é o ponto até onde vae a pena gastar para manter um ciente na base ou deve-se deixá-o ir e sair em busca de um novo ciente no mercado. Para este fim, técnicas de Gerenciamento do Reacionamento com o Ciente (conhecido como Customer Reationship Management - 1

CRM) são desenhadas, desenvovidas e impementadas. Essas técnicas obetivam auxiiar os administradores a entender as necessidades dos cientes, descobrindo padrões, e audando a desenvover ofertas direcionadas que são, não apenas mehor desenhadas para cada tipo de ciente, mas também mais ucrativas para o negócio a ongo prao. Entre essas técnicas, o LTV ( Customer Lifetime Vaue ) ou, em uma tradução ivre, Vaor Durante o Tempo de Reacionamento com o Ciente, que é uma medida do potencia de geração de receita de um ciente, vem ganhando muita atenção nos útimos anos e grandes companhias como IBM e ING vêm utiiando essa ferramenta rotineiramente para gerenciar e medir o sucesso de seus negócios (Gupta et a, 2006). Com ea é possíve: Criar serviços e ofertas especiais em que, quanto maior o vaor do ciente, mais irresistíveis serão esses serviços e essas ofertas, sueitos ainda a uma satisfatória margem de ucro para os negócios; Faer ações pró-ativas evitando que os cientes troquem de empresa, principamente em um mercado como o de TV por assinatura que apresentou um baixo crescimento nos útimos anos; Atingir e gerenciar cientes que não geram receita; Segmentar os cientes para ações de mareting, preços e promoções; Estimar e panear futuras oportunidades baseado no vaor acumuado do ciente. O LTV é, normamente, composto de dois componentes: o tempo de reacionamento (Tenure) e o potencia de geração de receita de um ciente. Apesar da modeagem do vaor (ou ucro), um dos componentes do LTV que eva em conta o consumo, os gastos fixos e variáveis á ser um grande desafio, o desafio centra na previsão do LTV está na produção de estimativas individuais para o tempo de reacionamento de um ciente com um determinado fornecedor de serviços, baseado no histórico do comportamento e consumo contidos no banco de dados da empresa. Portanto, vamos nos focar excusivamente na produção dessas estimativas. 2

No nosso caso vamos estimar o tempo de reacionamento com o ciente a partir do momento em que este entra em contato com a empresa e soicita o canceamento, ou sea, a partir do momento em que o ciente decidiu cancear o serviço e foi retido recebendo, ou não, uma oferta de desconto na mensaidade. Existem diferentes técnicas estatísticas, na área de Anáise de Sobrevivência, que podem ser apicadas para a modeagem do tempo de reacionamento (Tenure) e a nossa intenção é comparar um modeo cássico de Anáise de Sobrevivência com um modeo híbrido, que utiia redes neurais. 3

Capítuo 2 Contexto da apicação Neste capítuo vamos apresentar aguns conceitos e processos utiiados em empresas de TV por assinatura. Em seguida faremos uma breve descrição do banco de dados. 2.1 O mercado de TV por assinatura A TV por assinatura surgiu nos Estados Unidos na década de 40 como forma de pequenas comunidades receberem os sinais de TV aberta que não chegavam a suas casas com boa quaidade. As pessoas associavam-se e adquiriam uma antena de ata sensibiidade. Depois, com o uso de cabos coaxiais, os sinais eram distribuídos até as residências. No Brasi, o processo foi semehante. Começou há mais de 40 anos em função da necessidade de faer com que o sina das emissoras de teevisão ocaiadas na cidade do Rio de Janeiro chegasse às cidades viinhas com boa quaidade de som e de imagem. Os usuários que deseavam utiiar o serviço pagavam uma taxa mensa da mesma maneira que ocorre hoe no serviço de TV por assinatura. 4

Desde que se instaaram no Brasi, as empresas do setor enfrentaram três grandes crises econômicas e até meados da década passada ainda tinham uma penetração incipiente. Em 1994 havia apenas 400 mi assinantes e foi atingida em 2006 a marca de 4,5 mihões de assinantes. Apesar desse aumento, a penetração da TV paga no Brasi ainda é umas das menores do mundo atingindo em torno de 8% dos domicíios. Isso pode ser expicado peo pequeno número de domicíios casse A/B e pea grande cobertura da TV aberta. Com o mercado estagnado, as empresas têm notado que não estão entrando novos cientes no mercado, o que acontece é a troca de uma empresa pea outra, tornando grande a concorrência no setor e faendo do CRM uma peça chave para evitar que os bons cientes deixem a empresa. Existe uma grande confusão com reação às empresas de TV por assinatura, pois muitas pessoas acreditam que eas são as responsáveis pea produção do conteúdo dos canais, o que não é verdade. A empresa de TV por assinatura apenas distribui o conteúdo que uma outra empresa, chamada programadora, criou. Esse conteúdo chega via satéite à empresa que irá distribuir o conteúdo através de uma das três tecnoogias de TV por assinatura existentes no Brasi: DTH Direct to Home: Nesta tecnoogia o ciente recebe os sinais de TV diretamente do satéite, tem cobertura naciona por não depender de uma estrutura de cabos e tem uma participação de 34% do mercado. 5

Cabo: No Cabo, o assinante recebe o sina via cabo coaxia ou de fibra ótica e, por depender de uma grande infra-estrutura, só está disponíve nos grandes centros, o que não chega a ser um probema, pois são nesses ocais que estão os consumidores com maior poder aquisitivo. Como é uma tecnoogia mais antiga e mais barata, atinge uma participação de 60% no mercado. MMDS Mutichanne Mutipoint Distribution Service: No MMDS a empresa de TV por assinatura envia os sinais ao assinante através de uma antena de microondas; é a tecnoogia menos utiiada e responde por 6% do mercado. 6

2.2 Churn O canceamento da assinatura, conhecido como churn ou attrition, pode ser cassificado em dois tipos: Vountário: neste tipo de canceamento o ciente soicita o término do contrato, sea por fata de uso, probemas financeiros ou insatisfação com os serviços. Este será o nosso evento de interesse. Invountário: este canceamento ocorre quando parte da empresa a decisão em cancear o contrato do ciente por este estar inadimpente. 2.3 Retenção do ciente A retenção do ciente ocorre quando este entra em contato com a empresa decidido a cancear o serviço (no caso do Churn Vountário) e muda de idéia depois de conversar com o (a) operador (a) e, tave, receber aguma oferta. O processo se inicia quando ee é atendido peo Serviço de Atendimento ao Ciente (SAC) e, assim que demonstra sua intenção em cancear, é transferido para uma céua especia, que possui maior habiidade em negociar e têm disponíve um conunto de ofertas que vão desde brindes até descontos na mensaidade. O processo é finaiado, com a continuidade do contrato, caso o ciente sea retido, ou o canceamento, caso contrário. A nossa intenção é estimar a duração do tempo de reacionamento com o ciente a partir do momento que este demonstrar, através de um contato teefônico, a intenção em cancear o contrato que é revertida. O intuito é conceder a oferta de retenção mais atrativa sem que isso comprometa a rentabiidade da empresa nos próximos meses, pois quanto maior a duração estimada do tempo de reacionamento, maiores serão as opções de ofertas que teremos à disposição. 7

2.4 Banco de dados O banco de dados é constituído de informações mensais com histórico de 6 meses ou 12 meses, onde maior parte das informações está reacionada ao comportamento do ciente com reação à empresa, sendo carregadas mensamente no banco de dados. Essas informações geramente se mostram mais importantes do que aqueas reacionadas especificamente ao ciente como, por exempo, o sexo ou a idade, pois nem sempre o tituar da assinatura é o maior usuário do serviço. Como variáveis resposta temos: Indicador de censura: assume vaor 0 se o ciente canceou efetivamente o contrato depois de ter sido revertido pea primeira ve, ou vaor 1, caso contrário; Tempo de acompanhamento: é a duração do contrato (em meses) a partir do momento em que o ciente soicitou o canceamento pea primeira ve e foi revertido até o término do acompanhamento ou canceamento efetivo (vountário) do contrato, o que ocorrer primeiro. Podemos cassificar as informações contidas no banco de dados em aguns grupos (uma ista competa das covariáveis existentes no banco pode ser encontrada no Apêndice A): Tempo: Quantidade de meses desde a assinatura do serviço (Tenure); Financeiro: Austes financeiros, vaores devidos peo assinante, probemas com vaores cobrados, créditos concedidos, método de pagamento, etc; Contatos: Quantidade de contatos separados por motivo (SAC, assistência técnica, cobrança, soicitação de canceamento, etc); Programação: upgrade, downgrade, canais adutos, canais premium, pay-perview, etc; Outros: e-mai cadastrado, quantidade de receptores, etc. 8

O período de acompanhamento escohido foi de 12 meses a partir da data em que o canceamento foi soicitado e revertido, pois estamos assumindo que, se o ciente não estiver propenso a cancear durante todo esse período, ee pode receber as ofertas de maior vaor sem comprometer a rentabiidade da empresa. Foram considerados cientes que soicitaram o canceamento e foram revertidos ao ongo do mês de Setembro/05 totaiando 31464 cientes sendo contabiiados 3697 canceamentos vountários do contrato durante o período de acompanhamento (o que equivae a 88% de casos censurados). Nos próximos capítuos apresentaremos as técnicas que serão utiiadas para modear a estimativa do tempo de reacionamento com o ciente. Primeiramente serão apresentados os modeos usuais de Anáise de Sobrevivência como, por exempo, o modeo de riscos proporcionais de Cox e os modeos para dados agrupados. Em seguidas apresentaremos a técnica de redes neurais e aguns métodos propostos para adaptar essa técnica aos dados censurados. 9

Capítuo 3 Anáise de sobrevivência Neste capítuo vamos rever agumas técnicas cássicas para a anáise de dados de sobrevivência para os tempos de vida contínuos e discretos. Maiores detahes podem ser encontrados em Kabfeish e Prentice (1980) e Kein e Moeschberger (2003). 3.1 Definições Sea T o tempo de ocorrência de um determinado evento, no nosso caso o canceamento vountário do contrato, uma variáve aeatória não-negativa. A distribuição de probabiidade de T pode ser especificada em diferentes maneiras, três deas são particuarmente úteis na anáise de sobrevivência: a função de sobrevivência, a função de densidade de probabiidade e a função da taxa de canceamento. As reações entre essas representações são apresentadas abaixo para distribuições contínuas e discretas de T. A função de sobrevivência, ou de continuidade do contrato com a empresa, pode ser interpretada como a probabiidade de um ciente não cancear o contrato até o instante t, é defina por: S(t) = P(T > t), 0 < t <. (3.1) 10

Para T (absoutamente) contínuo: Sendo T, o tempo até o canceamento vountário do contrato, uma variáve aeatória contínua, S(t) é uma função contínua e não crescente. A função de sobrevivência é o compemento da função de distribuição acumuada, S(t) = 1 F(t), em que F(t) = P(T t). Aém disso, a função de sobrevivência é a integra da função densidade de probabiidade, f(t), isto é, t S ( t) = P( T > t) = f ( u) du (3.2) e, ds( t) f ( t) =. (3.3) dt A função da taxa de canceamento vountário do contrato, que pode ser interpretada como a força de um ciente, ativo num dado instante, cancear vountariamente o contrato no próximo instante de tempo infinitesima, é definida por: P( t T < t h T t) α ( t) = im. (3.4) h 0 h Sendo T uma variáve aeatória contínua, então, f ( t) d n( S( t)) α ( t) = =. (3.5) S( t) dt definida por: A função da taxa de canceamento vountário do contrato acumuada A(t), é 11

t A( t) = α ( u) du = n( S( t)). (3.6) 0 Então, para tempos de permanência contínuos, t S( t) = A( t)) = exp α ( u) du. (3.7) 0 Para T discreto: Se T, o tempo até o canceamento vountário do contrato, é uma variáve aeatória discreta assumindo vaores a 1 < a 2 <... com função de probabiidade: f a ) = P( T = a ), i = 1, 2,... ( i i (3.8) Então a função de sobrevivência é, S ( t) = f ( ai ). (3.9) i a t i A taxa de canceamento vountário do contrato em a i é definida como uma probabiidade condiciona de faha em a i, f ( ai ) α ( ai ) = P( T = ai T ai ) =, i = 1, 2,... (3.10) S( a ) i em que, S ( ai i ) = P( T a ). (3.11) 12

Segue que, S ( t) = (1 α ( a )) i ai t i (3.12) e i 1 i = 1 f ( a ) = α ( a ) (1 α ( a )). (3.13) i 3.2 Dado incompeto O principa diferencia da anáise de sobrevivência com reação a outras técnicas estatísticas é a censura. A censura ocorre quando, por exempo, um ciente não é observado durante todo o tempo de duração do seu contrato e sabemos apenas que o tempo de duração é maior que tempo de acompanhamento. Existem vários padrões de censura, que vão desde o conhecimento preciso do tempo de duração do contrato até a informação de que o canceamento ocorreu em um intervao (que pode se estender ao infinito, como no exempo anterior). No nosso caso, existem basicamente três tipos de censura: se o ciente continua com o contrato depois dos 12 meses de acompanhamento, se ee soicitou o canceamento novamente e foi revertido ou se o ciente foi canceado invountariamente. A partir de agora vamos assumir que o termo canceamento refere-se apenas ao nosso evento de interesse que é o canceamento vountário do contrato. Denote por T o tempo até o canceamento do -ésimo ciente. Em muitos casos não se tem a informação exata do vaor de T, mas sabe-se que é maior que um determinado um vaor C, tempo de censura, o que caracteria a censura à direita. Normamente, o tempo que conhecemos é o min (T, C ) e, aém disso, uma variáve indicadora de canceamento δ = I(T C ), ou sea, 13

1, 0, se T C caso contrário. 3.3 Estimador de Kapan-Meier Um método não-paramétrico, muito conhecido na Anáise de Sobrevivência, para estimar as funções de taxa de canceamento e sobrevivência é o método desenvovido por Kapan e Meier (1958). Suponha que os canceamentos ocorram nos tempos t < 1 < t2 < L t t n t, d representa o número de canceamentos no instante t = t, i = 1, 2,...,. Sea o número de cientes em risco de canceamento, este número é cacuado subtraindo do número de cientes em risco de canceamento no início do período t 1, o número tota de canceamentos e o número tota de censuras nesse mesmo período. Assim, para o instante t i, a taxa de canceamento é estimada por: i ti ˆα ( t ) =, i = 1,..., (3.14) i d n t i e a função de sobrevivência é estimada por: Sˆ( t i ) = Sˆ( t 1)(1 ˆ( α t )), i = 1,..., i i (3.15) com Sˆ (0) = 1. Propriedades do estimador Kapan-Meier podem ser vistas em Kabfeish e Prentice (1980). 14

3.4 Modeos de regressão para dados de sobrevivência Até agora nos concentramos apenas em uma amostra univariada de uma única distribuição do tempo de duração do contrato. Na prática, muitas situações envovem popuações heterogêneas e é importante considerar a reação entre o tempo de duração do contrato e os outros fatores. Uma maneira de se faer isso é através dos modeos de regressão, que podem ser paramétricos ou não-paramétricos (ou semiparamétricos), que envovem a especificação de um modeo para a distribuição do tempo T, dado Z, onde T representa o tempo de duração do contrato e Z o vetor de covariáveis de um mesmo ciente. Entre os modeos de regressão temos duas grandes casses: os modeos de ocação-escaa e os modeos de riscos proporcionais, sendo o segundo, a casse de interesse para nosso estudo. 3.4.1 Modeo de regressão semiparamétricos com riscos proporcionais. A famíia de modeos de riscos proporcionais é uma casse de modeos com a propriedade que diferentes cientes têm funções de taxas de canceamento proporcionais entre si. Isto é, a taxa α(t 1 )/α(t 2 ) para dois cientes com vetores de variáveis 1 e 2 não varia ao ongo de t. Isto impica que a função de risco de T, dado, pode ser escrita da seguinte forma: α( t ; ) = α 0 ( t) c( ), (3.16) em que α 0 (t) pode ter uma forma paramétrica específica ou uma função não-negativa arbitrária e c() quaquer função não-negativa com c(0)=1; α 0 (t) pode ser interpretada com uma função de taxa de canceamento base, pois representa a função de taxa de canceamento para um ciente com c()=1. Entre esses modeos encontramos o modeo semiparamétrico de riscos proporcionais sugerido por Cox (1972). 15

Os modeos de riscos proporcionais de Cox introduiram uma nova dimensão de fexibiidade na anáise de dados censurados com covariáveis. A função da taxa de canceamento no tempo t e vetor de regressão assume a forma: α( t ; ) = α 0 ( t) ) (3.17) em que α 0 (t) é uma função não-negativa arbitrária de t, = ( 1, 2,..., p ) é um vetor de covariáveis e é um vetor de parâmetros desconhecido, a ser estimado. O fator α 0 (t) é a taxa de canceamento associado a um ciente com covariáve de regressão = 0 que chamaremos de taxa de canceamento basa. A função de sobrevivência condiciona de T dado é: t t S( t; ) = P( T > t) = exp α( u) du = exp α 0 ( u) ) du 0 0 t = exp ) α ( u 0 t = exp α 0 0 ( u) du 0 ) ) du = [ S 0 ( t)] ) (3.18) com, t S0 ( t) = exp α 0( u) du (3.19) 0 a função de sobrevivência basa. A função de densidade condiciona de T dado é: 16

f ( t; ) = α ( t; ) S( t; ) = α t 0 ( t) e exp α0( u) d( u) 0 ) [ S ( t ] 0 ( t) e 0 ) ) = α. (3.20) Sendo α 0 (.) arbitrário, temos que este modeo é suficientemente fexíve para muitas apicações. Entretanto podemos citar duas importantes generaiações que não tornam a estimativa do muito compicada: Estratificação: neste caso permitimos que o α 0 (.) varie entre específicos subgrupos do banco de dados. Suponha que os cientes seam separados em r estratos e que o risco α (t; ) do -ésimo estrato depende da função arbitrária α 0 (t) e pode ser escrita como: α (t;)= α 0 (t) ) (3.21) para =1,..., r. Essa generaiação é úti nos casos em que uma ou mais covariáveis não aparentam possuir efeito mutipicativo na função de risco. Covariáveis dependentes do tempo: esta segunda importante generaiação permite que a covariáve de regressão varie com o tempo; neste caso o modeo deixa de ser de risco proporciona. 3.4.2 Modeos de regressão para dados de sobrevivência agrupados Existem casos em que os tempos de duração do contrato não são mais precisos que um intervao onde o canceamento ocorreu; na reaidade o tempo observado é sempre discreto, entretanto, se o intervao for pequeno reativamente à taxa de ocorrência dos canceamentos é raoáve assumirmos que o tempo é contínuo. Quando as unidades de tempo são grandes, meses, anos ou décadas, o tratamento desses dados se torna 17

probemático. Os dados de sobrevivência deste tipo são chamados de agrupados ou de censura intervaar. Existem, de maneira gera, duas aternativas para este probema que, na reaidade, possuem resutados muito simiares. A mais simpes é tratar o tempo como se fosse reamente discreto. Uma segunda aternativa é iniciarmos com um modeo de tempo contínuo, normamente o modeo de riscos proporcionais, e então cacuar os estimadores desse modeo que são apropriados para dados agrupados em intervaos. Este foi o procedimento utiiado por Prentice e Goecer (1978) e Aison (1982) que apresentaremos a seguir. Supondo que os tempos de canceamento seam agrupados em intervaos I i = [ξ i-1, ξ i ), i = 1,..., com ξ 0 = 0 e ξ =, os tempos de canceamento em I i são indicados por a i. A probabiidade de observarmos um canceamento de um ciente no intervao a i com vetor de regressão é: P( T i 1 = ai; ) = α ( ai; ) (1 α ( a = 1 ; )). (3.22) E a probabiidade de um indivíduo não cancear no intervao a i é: P( T i > ai; ) = (1 α ( a = 1 ; )). (3.23) Considere, t como sendo o tempo de duração do contrato observado ai, i = 1, 2,..., do -ésimo ciente. Suponha que δ = 1 se em T = t ocorreu um canceamento e 0 caso contrário. Com isso, a verossimihança dos dados de sobrevivência agrupados é dada por: L = 1 [ P( T = t ; ) ] [ P( T > t ; ) ] δ δ 18

P( T = P( T = t ; ) > t ; ) δ P( T > t ; ) = α ( t ; ) (1 α ( t ; )) δ t = 1 (1 α ( ; )) = t = 1 α ( ; ) (1 α ( ; )) y (1 α ( ; )) (3.24) em que y = 1 se o -ésimo ciente canceou o serviço no tempo T = e 0 caso contrário. Note que a função de verossimihança para os dados de sobrevivência agrupados é a mesma verossimihança de um modeo de resposta binária com probabiidade de evento α ( ; ). Apicando-se o ogaritmo, a função de verossimihança pode ser reescrita como: og L = n t { y og( ( ; )) (1 y )og(1 α ( ; )) } = 1 = 1 α. (3.25) Se assumirmos que os dados foram gerados por um modeo de riscos proporcionais com tempos absoutamente contínuos que foram, posteriormente, agrupados temos: ) i i 1 ) i P( T ai; ) [1 λ ] = = λ (3.26) = 1 em que, a i λ i = exp α 0 ( u) du (3.27) a i 1 19

é a probabiidade de sobrevivência condiciona em I i para um ciente com vetor de covariáveis = 0. A probabiidade do ciente não cancear o contrato no início do intervao I i é: P( T i = 1 ) > a ; ) = λ. (3.28) i substituem Para o cácuo da função de verossimihança, Prentice e Goecer (1978) λ, 0 λ < 1, por = og( og( λ )) para que a restrição sobre este < parâmetro sea retirada, pois aém de ser um dos passos para que as aproximações assintóticas da verossimihança seam adequadas, mehora a convergência do método Newton-Raphson para o cácuo dos estimadores de máxima verossimihança. Com isso a função de verossimihança pode ser reescrita como: og L = t n { = 1 = 1 y og{1 exp[ ( 1 y ) )} )]} (3.29) pois, α ( ; ) = 1 λ ) = 1 )) ) = 1 )) (3.30) sendo que o vetor de coeficientes é idêntico ao do modeo de riscos proporcionais com tempo absoutamente contínuo e é uma constante reacionada à probabiidade de sobrevivência condiciona no intervao definido por T = com = 0. O modeo de sobrevivência com dados agrupados torna-se, portanto, equivaente ao modeo de resposta binária com função de igação compementar og-og (Agresti, 1990). 20

O processo iterativo de Newton-Raphson para a obtenção da estimativa de máxima verossimihança ( ˆ, ˆ) é definido expandindo-se a função escore em torno de um vaor inicia. A função escore pode ser escrita como: og L = n t { y og{1 exp[ )]} (1 y ) )} = 1 = 1 n 1 = y = 1 1 exp[ )] ( 1 y ) )} [ exp[ )]][ )] = n exp[ )] ) y = 1 1 exp[ )] )} ( 1 y ). (3.31) e, og L m = n t { y og{1 exp[ )]} (1 y ) )} = 1 = 1 m = n t y = 1 = 1 1 1 exp[ )] ( 1 y ) ) m} [ exp[ )]][ ) ] m = n t y = = exp[ )] ) 1 exp[ 1 1 )] m} ( 1 y ) ). m (3.32) 21

Os estimadores de máxima verossimihança ( ˆ, ˆ) são as souções para: og L og L og L og L c' =, K,,, K, = ( 0,..., 0). (3.33) 1 1 s O método de Newton-Raphson para o cácuo de ( ˆ, ˆ) necessita ainda da segunda derivada do og L. A informação observada de Fisher pode ser escrita como: I 2 2 og L og L I 11 I12 = = (3.34) 2 2 I21 I22 og L og L Os componentes de I podem ser escritos como (ver apêndice B): 2 n og L exp[ )] ) = y 2 = 1 [ 1 exp[ )]] [exp[ )] ) 1] (1 y ) (3.35) )} 2 og L h = 0, h (3.36) 2 og L = m m 2 og L (3.37) 2 og L m n = m n t y = 1 = 1 n exp[ )] ) 2 [1 exp[ )]]. [exp[ )] ) 1] (1 y ) (3.38) )} 22

As estimativas de máxima verossimihança de atuaiação dos vaores iniciais (chute) via: ( ˆ, ˆ) são obtidas através da 1 0 1 = I 0 c 1 0 0 (3.39) onde e representam I e c assumindo I0 c0 0, 0 (chutes iniciais). O procedimento iterativo continua até que o deseáve níve de precisão sea acançado. Um chute inicia simpes é assumirmos = 0 0 e ˆ(0 ) 0 =, o estimador de máxima verossimihança quando = 0. Sea o número de cientes em risco de canceamento, este número é cacuado subtraindo do número de cientes em risco de canceamento no início do período I i1, o número tota de canceamentos e o número tota de censuras nesse mesmo período, e d o número de canceamentos no intervao I. Assim, o i-ésimo componente de ˆ(0) é: i n i i d = i ˆ i (0) og og 1. (3.40) n i Aém de fornecer os mesmos coeficientes de um modeo de riscos proporcionais, esse modeo também fornece o efeito basa de cada intervao de tempo que pode ser traduido para o componente de risco basa via: α ( t) 1 )) = (3.41) 0 A estimação direta da função de risco basa é muito úti, por ea mesma, e por faciitar a estimativa da função de risco individua. Uma ve que a função de risco α ( t; ) é estimada para o ciente, a função de sobrevivência usua é estimada por: 23

t = S ˆ ( t ) (1 ˆ α ( t ; )) (3.42) t= 0 em que, ˆ α = ( t ; ) ˆ α 0( t ) ˆ) = (3.43) e α ( t ˆ0 ) = 1 ˆ )) (3.44) e a mediana do tempo de duração do contrato pode ser estimada como sendo o vaor interpoado de t quando S ( t ) = 0,5. Propriedades assintóticas para os estimadores obtidos em (3.39) foram derivados por Andersen e Gi (1982). 24

Capítuo 4 Redes neurais artificiais A pesquisa em Redes Neurais Artificiais (RNA), mais comumente conhecidas apenas como Redes Neurais, foi motivada em seu início peo reconhecimento de que o cérebro humano trabaha de uma maneira totamente diferente dos computadores convencionais. O cérebro é atamente compexo, não-inear e com processamento paraeo (sistema de processamento de informações). Ee tem a capacidade de organiar seus componentes estruturais, conhecidos como neurônios, para executar certas tarefas (como por exempo, reconhecimento de padrões, percepção e controe motor) mais rápido que muitos computadores existentes na atuaidade. Neste capítuo vamos apresentar uma visão gera das Redes Neurais Artificiais. Maiores detahes podem ser encontrados em Bishop (1995), Hayin (1999) e Ohtoshi (2003). 4.1 Definições A Rede Neura Artificia (RNA) é um sistema de processamento paraeo de informações inspirado no funcionamento do cérebro humano. Ea é constituída de unidades simpes de processamento interigadas por um sistema de conexões que 25

armaenam o conhecimento experimenta e respondem da mesma maneira sempre que recebem sinais simiares. As Redes Neurais Artificiais têm as seguintes características: 1.) os sinais são transmitidos através de eementos de processamento simpes chamados de neurônios, nós ou unidades; 2.) os sinais trafegam entre os neurônios através de conexões; 3.) cada conexão tem um fator mutipicativo associado (peso) que é apicado ao sina transmitido; 4.) a cada neurônio se apica uma função de ativação (usuamente não inear). A função é apicada ao vaor de entrada do neurônio e imita a ampitude da saída do mesmo. Essa função é escohida de acordo com o intervao de vaores deseado na saída do neurônio. A rede neura é formada por um conunto de neurônios interigados através de conexões, que têm um fator mutipicativo associado. Cada neurônio apica uma função às entradas recebidas, chamada de função de ativação. Como no cérebro, o conhecimento do ambiente é adquirido pea rede através de um processo de aprendiado e os pesos (associados a cada conexão) são utiiados para armaenar o conhecimento adquirido. Figura 4.1: Neurônio artificia simpes x 1 X 1 w 1 Neurônio Y x 2 X 2 w 2 y y φ(y ) w 3 x 3 X 3 Unidades de entrada Pesos adaptativos Unidade de saída Como exempo, considere uma rede neura artificia simpes, conforme Figura 4.1, constituída peos neurônios (unidades) X 1, X 2 e X 3 na camada de entrada com vaores (sinais) x 1, x 2 e x 3 e pesos w 1, w 2 e w 3 associados, respectivamente, a esses neurônios. O 26

vaor de entrada, y, do neurônio Y é a soma ponderada dos vaores de entrada x 1, x 2 e x 3 peos pesos w 1, w 2 e w 3, ou sea, y ' = w x w x w x 1 1 2 2 3 3 (4.1) A ativação do neurônio Y é dada por aguma função da entrada da rede, y = ϕ(y'), em que ϕ é em gera uma função não inear como, por exempo, a função ogística. Logo, o vaor da saída da rede neura será: 1 y =. 3 (4.2) 1 exp w x i i i= 1 Note que existe uma grande semehança com os modeos estatísticos usuais: com as unidades de entradas equivaentes às covariáveis da regressão, os pesos equivaentes aos coeficientes das covariáveis e o vaor avo equivaente à variáve resposta ou dependente. Tipicamente, uma RNA é formada por unidades de entrada, unidades escondidas e unidades de saída ponderadas por pesos chamados pesos adaptativos ou sinápticos. Como exempo, vea a Figura 4.2 a seguir referente a uma rede neura com duas camadas de pesos adaptativos. Figura 4.2: Rede Neura com duas camadas de pesos adaptativos x 1 X 1 w 11 w 21 x 2 X 2 w 21 w 22 Z 1 v 1 Y y w 31 Z 2 v 2 x 3 X 3 w 32 27

Para a rede neura representada na Figura 4.2, o vaor da saída da rede neura pode ser escrito como: y = ϕ ( y' ) = ϕ( 1v1 2v2) (4.3) em que: i 3 = φ ( ') = φ( x w ), i =1,2 (4.4) i = 1 i sendo ϕ e φ funções não ineares quaisquer. Uma RNA é caracteriada principamente peos seguintes fatores: 1.) a arquitetura de rede a forma como os neurônios estão distribuídos pea rede; 2.) o agoritmo de treinamento (ou aprendiado) método utiiado para determinar os pesos nas conexões da rede; 3.) a função de ativação função apicada ao vaor de entrada do neurônio e que imita a ampitude da saída do mesmo. 4.2 Tipos de arquitetura A forma mais comum para se organiar os neurônios é arraná-os em camadas, onde os neurônios de uma mesma camada, geramente, possuem a mesma função de ativação e estão conectados aos mesmos conuntos de neurônios das outras camadas. Vea, por exempo, a Figura 4.2 em que a camada formada peos neurônios Z 1 e Z 2 estão conectados aos neurônios X 1, X 2 e X 3 da camada de entrada e ao neurônio Y da camada de saída. Em gera, na camada de entrada, a ativação de cada unidade é igua ao próprio vaor de entrada externo, como se apicássemos a função identidade ao vaor de entrada 28

externo, na Figura 4.3 está apresentada a unidade de entrada X1 da rede neura da Figura 4.1. Figura 4.3: Unidade de entrada X1 x 1 φ(y ) = y x 1 w1 Unidade de entrada X 1 Quando os sinais de uma rede neura fuem das unidades de entrada para as unidades de saída em uma direção para frente, temos o que são chamadas redes feed forward. São exempos de redes feed forward as Figuras 4.1 e 4.2. Aém das redes feed forward encontramos outro tipo de rede, que é a rede recorrente, onde os neurônios não dependem somente dos vaores de entrada, mas também dos seus próprios vaores defasados. Este tipo de rede é semehante ao processo utiiado na regressão com médias móveis da anáise de séries temporais. Um exempo é a rede de Hopfied (Hopfied, 1984) que consiste em um conunto de neurônios e um conunto de unidades de defasagem, formando um sistema recorrente com mútipos aços, em que um caso particuar é o da Figura 4.4. Figura 4.4: Rede Neura de Hopfied (Recorrente) Operadores de atraso Z -1 Z -1 Z -1 Saídas 29

Podemos cassificar as RNA em redes com uma camada ou muticamada, dependendo da quantidade de camadas de pesos adaptativos. 4.2.1 Redes com uma camada Uma RNA com uma única camada é aquea que tem apenas uma camada de pesos adaptativos. Como exempo vea a Figura 4.1. Note que se considerarmos a rede neura com apenas uma camada e assumirmos como função de ativação a função ogística temos um modeo usua de Regressão Logística e se assumirmos como função de ativação a função identidade, teremos uma Regressão Linear Mútipa. Como exempos de redes com apenas uma camada podemos citar: Neurônio de McCuoch-Pitts O modeo de McCuoch-Pitts (McCuoch e Pitts, 1943) é considerado como a primeira Rede Neura Artificia. Neste modeo, se a soma ponderada dos vaores provenientes das unidades de entrada for maior que um determinado vaor imiar a saída tem vaor 1, caso contrário, o vaor de saída é 0. Vea a Figura 4.5 a seguir. Figura 4.5: Exempo de neurônio com uma camada x 1 w w 21 q1 w 11 Y 1 y 1 = 1 x 2 X 1 X 2 Y 2 y 2 = 0 X p w 1p w 2p y q = 1 w qp x p Y q K = 1,, q 30

O vaor de saída do -ésimo neurônio é: p y = ϕ wx, (4.5) = 1 em que y é o vaor de saída do neurônio Y, = 1,...,q, w é o peso associado à conexão entre o neurônio X e o neurônio Y, x é o vaor da -ésima unidade (neurônio) de entrada e φ é a função de ativação definida por: ϕ ( y ') 1, = 0, se se y' > θ y' θ em que o θ é o vaor imiar. Perceptron de Rosenbatt O perceptron (Rosenbatt, 1958) é construído a partir do modeo de neurônio de McCuoch-Pitts onde é incorporado um viés externo. Geramente essas redes têm uma única camada de pesos fixos e função de ativação imiar. Figura 4.6: Perceptron X 0 x 1 X 1 w 1 -θ Y y x p X p w p 31

O perceptron é equivaente a uma anáise discriminante inear, sendo que a função discriminante é dada por: y p p = ϕ = w x θ ϕ w x, (4.6) = 1 = 0 em que w 0 = -θ e x 0 = 1. Se a anáise discriminante é apicada a duas popuações, φ é definida como: ϕ ( y' ) 1, = 1, se se y' > 0 y' 0 A constante w 0 = -θ é referida como imiar ou viés, faendo referência a que a soma ponderada das entradas deve exceder θ. 4.2.2 Redes muticamadas Quando uma rede neura possui mais de uma camada de pesos adaptativos, ea é chamada de muticamada. Vae embrar que esta não é uma terminoogia padroniada; por exempo, vea a rede neura da Figura 4.2. Aguns autores podem cassificá-a como uma rede com três camadas (entrada, escondida e saída) ou como uma rede com uma camada (uma camada escondida). O perceptron muticamada (Rumehart and McCeand,1986) é a arquitetura de rede muticamada mais comumente utiiada, faendo dessa a nossa escoha para este trabaho. Ea é formada por perceptrons, apresentados na seção anterior, arranados em camadas. O treinamento da rede perceptron muticamada (PML) utiia o agoritmo de aprendiado conhecido como agoritmo de retro propagação ou Bac-propagation (Hayin, 1999), que será descrito a seguir. 32

4.3 Agoritmos de treinamento Os agoritmos de treinamento são utiiados para austar os pesos com o obetivo de diminuir a diferença entre a resposta deseada, caso esta sea conhecida, e o vaor fornecido pea rede. Do ponto de vista estatístico, o treinamento corresponde à fase de estimação dos parâmetros de um modeo usando as informações de uma amostra. O treinamento pode ser cassificado de duas formas: Supervisionado: é aquee em que para cada vetor de entrada se conhece a saída, e assim conhecemos a diferença entre a resposta deseada e o vaor fornecido pea rede. Por exempo, uma regressão inear ou ogística em que austamos um modeo a partir de vaores conhecidos para as covariáveis e a variáve resposta. Não-supervisionado: neste caso não conhecemos o vaor deseado de saída para cada um dos vetores de entrada. Isso equivae aos métodos estatísticos de anáise de congomerados e de componentes principais. Existem diversos agoritmos utiiados no treinamento supervisionado, dentre os quais destacamos: Retro propagação ( Bac-propagation ); Gradiente Descendente Conugado; Levenberg-Marquardt; Deta-bar-Deta; Quic-Propagation. 33

Agoritmo Bac-propagation O agoritmo mais conhecido e utiiado para treinamento de redes neurais é o Bac-propagation (Fausett, 1994). Ee é baseado na regra deta (Rumehart e McCeand, 1986) que define que o vaor da correção a ser apicado aos pesos das conexões é igua a mutipicação de uma taxa de aprendiagem, o gradiente oca e o sina de entrada do neurônio. Para cada registro inserido na rede durante o treinamento, a informação é aimentada através da rede para gerar a previsão na unidade de saída. Esta previsão é comparada com o vaor rea, e a diferença entre os dois (Erro) é retro propagada pea rede para austar os pesos adaptativos para mehorar a predição para padrões simiares. Figura 4.7: Fuxo dos Sinais de um neurônio Sina da entrada Sina de erro Neste método o vetor gradiente da superfície de erros é cacuado. Este vetor aponta na direção da incinação mais íngreme a partir do ponto atua; movendo-se uma curta distância nessa inha, obtém-se uma diminuição do erro. Com uma seqüência de tais movimentos, eventuamente se chegará a um mínimo. Na prática, o tamanho do passo (distância) que queremos nos mover é proporciona à incinação e uma constante especia, chamada de taxa de aprendiagem. Quanto menor for a taxa de aprendiagem, menores serão as mudanças dos pesos das conexões na rede neura de uma iteração para próxima, e mais suaves serão as traetórias no espaço dos pesos. Isso, entretanto, poderá exigir um grande número de iterações até acançarmos o erro deseado. Em contrapartida, se escohermos uma taxa de aprendiagem muito grande, isso resuta em grandes mudanças nos pesos das conexões o que poderia tornar a rede neura instáve, com movimentos 34

osciatórios. A escoha dos pesos iniciais infuenciará a chegada a um mínimo goba ou oca. Usuamente iniciam-se os pesos e vieses com vaores entre -0,5 e 0,5 e taxa de aprendiagem η com vaor entre 0 e 1. O treinamento por Bac-propagation tem três estágios: o feed forward das unidades de entrada, o Bac-propagation do erro associado e o auste dos pesos e vieses. Como exempo, considere uma rede com uma camada escondida, como na Figura 4.8. Fixamos os pesos e vieses (v h e w h ) e a taxa de aprendiagem (η) no passo inicia. Figura 4.8: Rede neura com uma camada escondida (duas camadas de pesos adaptativos) X 0 Z 0 x 1 x 1 v 11 v 10 w 10 v q0 v w m0 20 w 20 1 1 Z w 11 1 y 1 y 1 Y 1 y 1 v 21 w w m1 21 v q1 x 2 X 2 x 2 2 Z 2 2 y 2 Y 2 y 2 y 2 x p X 1 X p x p v 1p v 2p v qp q Z q q w 1q w 2q w mq y m Y m y m y m Estágio: Feed forward Nesta etapa, para cada unidade da amostra de treinamento, as unidades de entrada (x, = 1, 2,..., p) transmitem o seu vaor para as unidades da camada escondida. Cacuase o vaor para cada camada escondida ( h, h = 1, 2,..., q): p ' = v x v (4.7) h h0 = 1 h 35

e apica-se a função de ativação: h ( ' ) = ϕ. (4.8) h Este processo é repetido para as unidades de saída (y, = 1, 2,..., m), ou sea, y' = w 0 q h= 1 h w h (4.9) e, novamente, apica-se a função de ativação: y ( y' ) = ϕ. (4.10) Estágio: Bac-propagation Para cada unidade de saída, o vaor avo que chamaremos de t, é conhecido (equivaentemente, como no caso da regressão onde a variáve resposta é conhecida na amostra) e pode-se cacuar o erro: e ( t y ) =. (4.11) O agoritmo foi desenvovido com o obetivo de obter os pesos que minimiem a função de erros, dada por: E = 1 2 m ( t y ) = 1 2. (4.12) Para isso é necessário cacuar as derivadas de E com reação aos pesos e vieses ou gradiente das superfícies de erros. 36

A base matemática para o agoritmo Bac-propagation é a técnica de otimiação conhecida como gradiente descendente. O gradiente de uma função (neste caso, a função é a função de erros e as variáveis são os pesos da rede), quando assume vaor positivo, dá a direção em que a função cresce mais rapidamente; o vaor negativo dá a direção em que a função decresce mais rapidamente. Através da apicação sucessiva da regra da cadeia, temos: h h w y y y y e e E w E = * *, (4.13) diferenciando a Eq. (4.12) em função de e : ( ) m m e e e e y t e E = = = = = 1 2 1 2 2 1 2 1, (4.14) diferenciando a Eq. (4.11) em função de y : ( ) = 1 = y y t y e, (4.15) diferenciando a Eq. (4.10) em função de : * y (4.16) ) ( ' ) ( * * * * y y y y y ϕ ϕ = =, e, finamente, diferenciando a Eq. (4.9) em função de w h : 37

y w * h w = 0 q h=1 w h h w h = h. (4.17) Substituindo as Eqs. (4.14) a (4.17) na Eq. (4.13) temos: E w h = e ϕ' ( y ). (4.18) * h A correção Δ wh apicada em w h é definida pea regra deta: E Δwh = η (4.19) w h sendo que η é a taxa de aprendiagem do agoritmo de Bac-propagation. O uso do sina negativo na Eq. (4.19) é ustificado peo gradiente descendente no espaço dos pesos, isto é, a procura da direção da mudança dos pesos que redu o vaor de E. Substituindo a Eq. (4.18) na Eq. (4.19) temos: Δ w h = ηδ (2) h (4.20) sendo que o gradiente oca (2) δ é definido por: δ (2) E = y * E = e e y y y * = e ϕ' ( * y ). (4.21) 38

Os termos para correção dos pesos e vieses das conexões posteriores à camada escondida são: Δ w = ηδ (2) 0 (4.22) e Δ w h = ηδ. (2) h (4.23) A partir das Eq. (4.22) e (4.23) nota-se que o fator chave envovido no cácuo do auste dos pesos Δw h é o sina do erro e da unidade de saída. Nesse contexto nós podemos identificar dois casos distintos, dependendo de onde a unidade está ocaiada. No caso anterior, a unidade é uma unidade de saída. Este caso é simpes porque cada unidade de saída tem um vaor avo, tornando o cácuo do sina do erro associado direto. Já nas unidades escondidas, eas dividem a responsabiidade sobre o erro nas unidades de saída da rede. A questão, entretanto, é como penaiar ou premiar as unidades escondidas pea sua participação. Isso é resovido pea retro propagação dos erros através da rede. Quando um neurônio h está em uma camada escondida da rede, não existe um vaor avo específico esperado. Portanto, o sina do erro deve ser determinado recursivamente em termos dos erros de todos os neurônios nos quais este neurônio está diretamente conectado. Definimos agora o gradiente oca h: (1) δ h para o neurônio escondido δ (1) h E = * h E = h h * h E * = ϕ '( h ). (4.24) h 39

Diferenciando a Eq. (4.12) em função de h, temos: E h e = e h = e * e y. (4.25) * y h Das Eqs. (4.10) e (4.11), e = t ϕ y ). ( * (4.26) Então, e y = ϕ '( y * * ) (4.27) diferenciando a Eq. (4.9) em função de h : y * = wh (4.28) h e, utiiando os resutados das Eqs. (4.27) e (4.28) na Eq. (4.25) temos: E h = = e ϕ '( y ) w δ * (2) w h h (4.29) sendo que na segunda inha utiiamos a definição do gradiente oca dado pea Eq. (4.21). Finamente substituindo a Eq. (4.29) na Eq. (4.24) encontramos: 40

(1) * (2) δ = ϕ' ( ) δ w. h h h (4.30) escondida são: Os termos para correção dos pesos e vieses das conexões anteriores à camada e Δ v = ηδ (1) h0 h (4.31) Δv h =ηδ x (1) h. (4.32) Estágio: Auste dos pesos e vieses Para os pesos e vieses das conexões posteriores à camada escondida temos que: w h ( atua) wh( anterior) Δwh = (4.33) para h = 0, 1, 2,..., q e = 1, 2,..., m. Para os pesos e vieses das conexões anteriores à camada escondida, temos que: v h ( atua ) vh ( anterior ) Δvh =. (4.34) Em cada iteração do agoritmo, todos os casos da amostra de treinamento (unidades amostrais) são submetidos um a um à rede e os vaores de saída rea e previsto são comparados através dos erros cacuados. Estes erros, untamente com o gradiente da superfície de erros, são usados para austar os pesos e então o processo se repete. Ao fina de cada iteração é verificado se um número estipuado de iterações foi atingido ou se o erro tota acançou um níve aceitáve; em caso positivo, o processo é interrompido. 41

Note que, para o desenvovimento acima, a função de ativação deve ser contínua, diferenciáve e monotonicamente não-decrescente. O agoritmo também pode ser modificado pea incusão de um termo de momento, o qua reforça o movimento em uma determinada direção, de modo que se muitos passos são tomados em uma mesma direção, o agoritmo aumenta a veocidade para se mover mais rapidamente sobre patôs. Outros agoritmos de treinamento Aém do Bac-propagation, outros agoritmos de treinamento mais sofisticados para otimiação da função não inear podem ser utiiados. Agoritmos mais avançados considerando a abordagem de redução do gradiente são: o Gradiente Descendente Conugado (Bishop, 1995) e Levenberg-Marquardt (Shepherd, 1997), que são mais rápidos do que o Bac-propagation em muitos probemas. E ainda temos os agoritmos Deta-bar-Deta (Jacobs, 1988) e Quic-Propagation (Fahman, 1988) são variações do agoritmo Bac-propagation. 4.4 Funções de ativação A função de ativação, denotada por ϕ (.), define a saída de um neurônio em termos de vaores que podem ser uma soma ponderada para o caso de neurônios na camada escondida ou um vaor vindo da amostra, caso sea uma unidade de entrada. Note que para as unidades de entrada a função de ativação é a função identidade. Lembre que a função de ativação é a mesma para todos os neurônios de uma camada, mas podem diferir de uma camada para outra. Entre as funções de ativação mais comuns podemos citar: 42

Função identidade: ( y ') = y' ϕ. Função indicadora: ϕ ( y ') 1, = 0, se se y' > θ y' θ em que θ é o vaor imiar. Função ogística: 1 ϕ ( y' ) =, y' (0,1). 1 y' ) Função tangente hiperbóica: y' 1 y' ) ϕ ( y' ) = tanh =, y' ( 1,1 ). 2 1 y' ) Função norma: ( y' ) φ( y' ) ϕ = em que φ é a função de distribuição acumuada da Norma padrão. A escoha da função de ativação define o intervao dos vaores de saída do neurônio, se utiiarmos a função ogística o intervao irá variar entre 0 a 1; se necessitarmos que os vaores variem entre -1 a 1 podemos escoher, por exempo, a função tangente hiperbóica. 43

4.5 Redes neurais em probemas de anáise de sobrevivência Diferentemente das situações em que o interesse é a ocorrência ou não de um determinado evento, na Anáise de Sobrevivência o interesse é o tempo até um determinado evento, que no nosso caso é o canceamento vountário do contrato, que pode ou não ocorrer. Nesses casos o tratamento correto das censuras é essencia. A simpes excusão das observações censuradas pode introduir vieses na predição dos eventos. Muitas estratégias têm sido desenvovidas a fim de adaptar as redes neurais aos dados censurados (censura à direita). Vamos apresentar a seguir aguns métodos que foram desenvovidos para a estimação do tempo de vida. Cassificação direta Este é o método mais simpes, que considera a sobrevivência em um período fixo de tempo e, conseqüentemente, resuta em um probema de cassificação binária (vea Figura 4.9). As observações censuradas são removidas, introduindo assim, os vieses. A unidade de saída da rede neura fornece uma estimativa da probabiidade de sobrevivência de um ciente, ou sea, a probabiidade de não cancear o contrato durante aquee período de tempo. Se o vaor for acima de 50% assumimos que o ciente não irá cancear nesse período. Está caro que este método aém de básico, não produ as curvas de sobrevivência ou risco individuais. Aém do mais, não ida com o probema da censura e das covariáveis dependentes do tempo. As probabiidades de não canceamento são assim subestimadas. 44

Figura 4.9: Cassificação direta Covariáveis Probabiidade de não cancear o contrato em até 6 meses Ohno-Machado Ohno-Machado (1996) utiia mútipas redes neurais para resover o probema da anáise de sobrevivência. Cada rede neura tem uma única unidade de saída que estima a sobrevivência em um determinado período de tempo (Figura 4.10). Figura 4.10: Estrutura utiiada por Ohno-Machado (1996) O banco de dados é particionado de maneira que cada parte corresponda a um período de tempo. Então, cada uma das redes neurais é treinada utiiando somente a parte do banco de dados que he corresponde. As observações censuradas são incuídas em todos os períodos de tempo até a sua censura. Note que o número de unidades de treinamento diminui à medida que o período de tempo se distancia do período inicia, o que torna essas estimativas menos confiáveis. A autora aerta que quando utiiamos estas 45