Introdução à aprendizagem

Documentos relacionados

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento)

Armazenamento, Visualização & Representação

Sistemas de Apoio à Decisão

Sistemas de Apoio à Decisão Introdução ao DataMining V 1.0, V.Lobo, EN/ISEGI, 2005

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Análise de componentes independentes aplicada à avaliação de imagens radiográficas de sementes

Pré processamento de dados II. Mineração de Dados 2012

Aprendizagem de Máquina

Projeto de Redes Neurais e MATLAB

Reconhecimento de Padrões Utilizando Filtros Casados

FERRAMENTAS DA QUALIDADE

Jogos vs. Problemas de Procura

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

O Princípio da Complementaridade e o papel do observador na Mecânica Quântica

Reconhecimento de Padrões. Reconhecimento de Padrões

Cotagem de dimensões básicas

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Do neurônio biológico ao neurônio das redes neurais artificiais

7 - Análise de redes Pesquisa Operacional CAPÍTULO 7 ANÁLISE DE REDES. 4 c. Figura Exemplo de um grafo linear.

Algoritmo. Iniciação do Sistema e Estimativa do consumo. Perfil do utilizador. Recolha de dados

Indicamos inicialmente os números de cada item do questionário e, em seguida, apresentamos os dados com os comentários dos alunos.

Computação Adaptativa

MLP (Multi Layer Perceptron)

Técnicas de Computação Paralela Capítulo III Design de Algoritmos Paralelos

Aplicação de Ensembles de Classificadores na Detecção de Patologias na Coluna Vertebral

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

Expansão de Imagem #2

Apresentação de Dados em Tabelas e Gráficos

Exercícios Teóricos Resolvidos

Curvas em coordenadas polares

4Distribuição de. freqüência

Capítulo 3 Modelos Estatísticos

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP

Eventos independentes

Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados

Engenharia de Software

Mestrado Integrado em Engenharia Civil. Disciplina: TRANSPORTES Prof. Responsável: José Manuel Viegas

Planificação de. Aplicações Informáticas B

Matemática Aplicada às Ciências Sociais

Faculdade Sagrada Família

"SISTEMAS DE COTAGEM"

AV1 - MA (b) Se o comprador preferir efetuar o pagamento à vista, qual deverá ser o valor desse pagamento único? 1 1, , , 980

Os gráficos estão na vida

Características dos Dados

Aula 4 Estatística Conceitos básicos

SPSS for Windows Conceitos Básicos Prof. Estevam Martins

3. ANÁLISE DE RISCO NA CONSTRUÇÃO CIVIL

Resolução da lista de exercícios de casos de uso

Navarro, F. In Planificacion del entrenamiento a largo plazo

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

Facturação Guia do Utilizador

Sociedade União 1º.Dezembro. Das teorias generalistas. à ESPECIFICIDADE do treino em Futebol. Programação e. Periodização do.

Engenharia de Software e Sistemas Distribuídos. Enunciado Geral do Projecto

EDUCAÇÃO TECNOLÓGICA - Disciplina semestral 32 aulas previstas

Introdução. Capítulo. 1.1 Considerações Iniciais

visão do mundo como varia a energia Juízos de valor: mecânica durante o a experiência permite verifimovimento

Ajuste de Curvas. Ajuste de Curvas

TÉCNICAS DE PROGRAMAÇÃO

Energia Eólica. Atividade de Aprendizagem 3. Eixo(s) temático(s) Ciência e tecnologia / vida e ambiente

Agrupamento de Escolas General Humberto Delgado Sede na Escola Secundária/3 José Cardoso Pires Santo António dos Cavaleiros

... Altamente eficiente. Fatiadora totalmente automática A 510 da Bizerba com balança integrada

Prof. Daniela Barreiro Claro

1.1. Viagens com GPS. Princípios básicos de funcionamento de um GPS de modo a obter a posição de um ponto na Terra.

Planejamento Estratégico de TI. Prof.: Fernando Ascani

1 Propagação de Onda Livre ao Longo de um Guia de Ondas Estreito.

Detector de intrusão Série Professional Sabe quando activar o alarme. Sabe quando não o fazer.

Aula 5 - Classificação

INSTRUMENTOS USADOS Lápis e lapiseiras Os lápis médios são os recomendados para uso em desenho técnico, a seleção depende sobretudo de cada usuário.

2ª fase. 19 de Julho de 2010

Observação das aulas Algumas indicações para observar as aulas

Planejamento Anual. Componente Curricular: Matemática Ano: 6º ano Ano Letivo: 2015 OBJETIVO GERAL

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

CAPÍTULO 1 Introduzindo SIG

Inquérito a Alunos do Curso de Design FA.UTL /08

Índice. Como aceder ao serviço de Certificação PME? Como efectuar uma operação de renovação da certificação?

OUTLIERS Conceitos básicos

Criar um formulário do tipo Diálogo modal ; Alterar a cor de fundo de um formulário; Inserir botões de comando e caixas de texto;

Ao redigir este pequeno guia pretendi ser conciso, indo directamente ao essencial.

Trabalho 7 Fila de prioridade usando heap para simulação de atendimento

Tutorial 7 Fóruns no Moodle

ORI: Pontuação e o modelo de espaço vetorial

Gestão do Risco e da Qualidade no Desenvolvimento de Software

Disponibilizo a íntegra das 8 questões elaboradas para o Simulado, no qual foram aproveitadas 4 questões, com as respectivas resoluções comentadas.

Potenciação no Conjunto dos Números Inteiros - Z

[ GUIA ] GESTÃO FINANCEIRA PARA EMPREENDEDORES

Modelos de Probabilidade e Inferência Estatística

Análise de Regressão Linear Simples e Múltipla

COMISSÃO DAS COMUNIDADES EUROPEIAS PARECER DA COMISSÃO

Programa Integrado de Monitoria Remota de Fragmentos Florestais e Crescimento Urbano no Rio de Janeiro

Gráficos. Incluindo gráficos

Transcrição:

Introdução à aprendizagem Aprender a partir dos dados conhecidos Fases do processo Exemplos (Treino) Algoritmo Conhecimento Aprendizagem Classificação Exemplos (novos) Interpretador CLASSIFICAÇÃO 1

Exemplo de aprendizagem Agência imobiliária pretende estimar qual a gama de preços para cada clinente Exemplos de treino: Dados históricos Ordenado vs custos de casas compradas (1) Exemplos (Treino) Classificação Algoritmo Exemplos (novos) Conhecimento Interpretador Aprendizagem CLASSIFICAÇÃO Nome Custo Ordn. Manel 226.000 1.300 João 320.500 2.400 Abel 190.600 730 Carlos 850.000 2.300 : : : Custo da casa Ordenado Exemplo de aprendizagem (2) Exemplos (Treino) Classificação Algoritmo Exemplos (novos) Conhecimento Interpretador Aprendizagem CLASSIFICAÇÃO Algoritmo Regressão linear Representação do conhecimento Recta (declive e ordenada na origem) Custo da casa Ordenada na origem = b 0 Inclinação= Custo= x Ordenado + b 0 Ordenado 2

Exemplo de aprendizagem (3) Exemplos (Treino) Classificação Algoritmo Exemplos (novos) Conhecimento Interpretador Aprendizagem CLASSIFICAÇÃO Exemplos novos Um novo cliente, com ordenado x Interpretação Usar a recta (método de previsão usado) para obter uma PREVISÃO Custo da casa x Ordenado Outro problema de predição Exemplo da seguradora (seguros de saúde) Existe um conjunto de dados conhecidos Conjunto de treino Queremos prever o que vai ocorrer noutros casos Empresa de seguros de saúde quer estimar custos com um novo cliente Conjunto de treino (dados históricos) Altura Peso Sexo Idade Ordenado Usa ginásio 1.60 79 M 41 3000 S N 1.72 82 M 32 4000 S N 1.66 65 F 28 2500 N N 1.82 87 M 35 2000 N S 1.71 66 F 42 3500 N S Encargos para seguradora E o Manel? Altura=1.73 Peso=85 Idade=31 Ordenado=2800 Ginásio=N Terá encargos para a seguradora? 3

Tipos de sistemas de previsão Clássicos Regressões lineares, logísticas, etc... Vizinhos mais próximos Redes Neuronais Árvores de decisão Regras Regressões lineares Dados Redes neuronais Previsões ensembles Árvores de decisão Tipos de Aprendizagem SUPERVISIONADA vs NÃO SUPERVISIONADA INCREMENTAL vs BATCH PROBLEMAS 4

Professor/Aluno Todo o processo de aprendizagem pode ser caracterizado por um protocolo entre o professor e o aluno. O professor pode variar entre o tipo dialogante e o não cooperante. Onde já vi isto? Protocolos Professor/Aluno Professor nada cooperante Só dá os exemplos => não supervisionada Professor cooperante Dá exemplos classificados => supervisionada Professor pouco cooperante Só diz se os resultados estão certos ou errados => aprendizagem por reforço Professor dialogante - ORÁCULO 5

Formas de adquirir o conhecimento Incremental Os exemplos são apresentados um de cada vez e a estrutura de representação vai-se alterando Não incremental (batch) Os exemplos são apresentados todos ao mesmo tempo e são considerados em conjunto. Acesso aos exemplos Aprendizagem offline Todos os exemplos estão disponíveis ao mesmo tempo Aprendizagem online Os exemplos são apresentados um de cada vez Aprendizagem mista Uma mistura dos dois casos anteriores 6

Problema do nº de atributos Poucos atributos Não conseguimos distinguir classes Muitos atributos Caso mais vulgar em Datamining Praga da dimensionalidade Visualização difícil e efeitos estranhos Atributos importantes vs redundantes Quais os atributos importantes para a tarefa? Problema da separabilidade Separáveis Erro Ø possível Não separáveis Erro sempre > Ø Erro de Bayes Erro mínimo possível para um classificador 7

Problema do melhor tipo de modelo A representação de conhecimento mais simples. Mais fácil de entender Árvores de decisão vs redes neuronais A representação de conhecimento com menor probabilidade de erro. A representação de conhecimento mais provável Navalha de Occam... Problemas... Adequabilidade da representação do conhecimento à tarefa que se quer aprender Ruído Ruído na classificação dos exemplos ou nos valores dos atributos. Má informação é pior que nenhuma informação Enormes quantidades de dados Quais são importantes? Tempo de processamento Aprender demais Decorar os dados. Vamos ver isso agora... 8

Generalização e overfitting Os dados Universo Amostra (bem conhecida) Onde queremos fazer previsões Onde é feita a aprendizagem 9

Exemplo de overfitting Seja um conjunto de 11 pontos. Encontrar um polinómio de grau M que represente esses 11 pontos. y x M i 0 w i x i 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Aproximação M = 1 x y w0 w1 x Erro grande 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 10

Aproximação M = 3 y 2 3 x w w x w x w 0 1 2 3x 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Data M=3 y Aproximação M = 10 2 3 4 5 6 7 8 9 10 x w w x w x w x w x w x w x w x w x w x w 0 1 2 3 4 5 6 7 8 9 10x 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Data M=10 Erro zero 11

Overfitting 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Data M=1 M=3 M=10 Curva de Overfiting Probabilidade de erro 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 A melhor Representação Conjunto de Teste Conjunto de treino 0,1 0 Complexidade da representação do conhecimento 12

Fases do processo Exemplos (Validação) Exemplos (Treino) Algoritmo Conhecimento Aprendizagem Classificação Exemplos (Teste) Interpretador CLASSIFICAÇÃO Generalização O objectivo não é aprender a agir no conjunto de treino mas sim no universo desconhecido! Como preparar para o desconhecido? Manter um conjunto de teste de reserva 13

Conjunto de treino/validação/teste Dados Known, conhecidos labeled data Conjunto Training de treino set Validation Conj. de Validação set Dados New, unlabeled Novos data Treina Controla o processo de aprendizagem Conj. Test Teste set Trabalho útil Classificador Classifier Prevê a capacidade de generalização Divisão dos dados Conjunto de treino Usado para construir o classificador Quanto maior, melhor o classificador obtido Conjunto de validação Usado para controlar a aprendizagem (opcional) Quanto maior, melhor a estimação do treino óptimo Conjunto de teste Usado para estimar o desempenho Quanto maior, melhor a estimação do desempenho do classificador 14

Estimativas do erro do classificador Em problemas de classificação Taxa de erro = nº de erros/total (ou missclassification error) Possibilidade de usar o custo do erro Em problemas de regressão Erro quadrático médio, erro médio, etc Estimativas optimistas ou não-enviesadas Erro no conjunto de treino (erro de resubstituição) Optimista Erro no conjunto de validação Ligeiramente optimista Erro no conjunto de teste Não enviesado. A melhor estimativa possível (no entanto se estes dados fossem usados para treino ) Estimativas robustas do erro Validação cruzada Cross-validation, ou leave-n-out Dividir os mesmos dados em diferentes partições treino/teste Calcular erro médio Nenhum dos classificadores é melhor que os outros!!! Treino Teste 1 2 3 4 1 2 3 4 1 2 4 3 1 3 4 2 2 3 4 1 e 4 e 3 e 2 e 1 Erro= e i /4 15

Outras medidas de erro em classificação Matriz de confusão Matriz de Classificado Classificado Separa os diversos tipos de erro Confusão como SIM como NÃO Falso Positivo (FP) Realmente é SIM TP FN O classificador diz que é, e não é Realmente é NÃO FP TN Falso Negativo (FN) O classificador não detecta que é Permite compreender em que é que o classificador é bom Medidas de erro Taxa de erro = (FP+FN)/n Erro mais tradicional Confiança positiva = TP/(TP+FP) Quão definitivo é um resultado positivo (por vezes precision ) Confiança negativa = TN/(TN+FN) Quão definitivo é um resultado negativo Sensibilidade = TP/(TP+FN) Quão bom é a apanhar os positivos (por vezes recall ) Precisão (acuracy) = (TP+TN)/n O complementar da taxa de erro Há mais medidas, adaptadas a cada problema em particular! Processo de aprendizagem A aprendizagem é um processo de optimização (Minimização do erro) Algoritmo de optimização Método do gradiente Subir a encosta Guloso Algoritmos genéticos Simulated annealing O que é o bias da pesquisa? Formas de adquirir o conhecimento 16

Iterações sucessivas do sistema de aprendizagem Tarefas do projecto do sistema Preparação dos dados. Redução dos dados. Modelação e predição dos dados. Casos e análise das soluções 17

Aproximação exploratória... Extracção optimizada das características novos dados Fenómeno Physical phenomena Classificador Classifier Medições Experimentais Conjunto de dados controlados perspectivas Análise exploratória de dados Desenho do classificador Dados Raw em data bruto Características fundamentais Fundamental features Extracção de características (feature extraction) Características Features Selecção de características (feature selection) Informação útil Validação Preparação dos dados Objectivos Data Warehouse Transformação dos dados Forma Standard Dependências temporais 18

Redução dos dados Métodos de redução Conjunto de treino Forma standard inicial Conjunto de treino inicial Atributos reduzidos Forma standard reduzida Conjunto de validação Conjunto de teste inicial Conjunto de teste Modelação iterativa e predição Mudança de parâmetros Conjunto de treino Método de predição Solução Testa o melhor Conjunto de validação 19

Análise das soluções Conjunto de teste Conjunto de treino Selecção de um subconjunto Análise da medida de desempenho Subconjunto de treino Método de predição Solução Os principais paradigmas Redes Neuronais Baseados em instâncias Algoritmos genéticos Indução de regras Aprendizagem analítica 20

Alguns pontos para meditar(1) Que modelos são mais adequados para um caso específico? Que algoritmos de treino são mais adequados para um caso específico? Quantos exemplos são necessários? Qual a confiança que podemos ter na medida de desempenho? Como pode o conhecimento a priori ajudar o processo de indução? Alguns pontos para meditar(2) Qual a melhor estratégia para escolher os exemplos? Em que medida a estratégia altera o processo de aprendizagem? Quais as funções objectivo que se devem escolher para aprender? Poderá esta escolha ser automatizada? Como pode o sistema alterar automaticamente a sua representação para melhorar a capacidade de representar e aprender a função objectivo? 21

Pré-Processamento dos dados Porquê pré-processar os dados Valores omissos (missing values) Factores de escala Invariância a factores irrelevantes Eliminar dados contraditórios Eliminar dados redundantes Discretizar ou tornar contínuo Introduzir conhecimento à priori Reduzir a praga da dimensionalidade Facilitar o processamento posterior Crucial! Garbage in / Garbage out 22

Valores omissos Usar técnicas que lidem bem com eles Substitui-los Por valores neutros Por valores médios (média, mediana, moda, etc) Por valores do vizinho mais próximo K-vizinhos, parzen, etc Interpolações Lineares, com splines, com Fourier, etc. Com um estimador inteligente Usar os restantes dados para fazer a previsão Alternativa: Eliminar valores omissos Eliminar registos Podemos ficar com poucos dados? Inputs? (neste caso 3 em 10) Eliminar variáveis Registos??????? Podemos ficar com poucas características (neste caso 4 em 9) 23

Abordagem iterativa Usar primeiro uma aproximação grosseira Eliminar registos / variáveis Usar simplesmente valores médios Observar os resultados Conseguem-se boas previsões? Resultados são realistas? Abordagem mais fina Estimar valores para os omissos Usar clusters para definir médias Normalização dos dados 24

Nomalização Efeitos de mudanças de escala O que é perto do quê? Porquê normalizar Para cada variável individual Para não comparar alhos com bugalhos! Entre variáveis Para que métodos que dependem de distâncias (logo de escala) não fiquem trancados numa única característica Para que as diferentes características tenham importâncias proporcionais. 25

Porquê normalizar Entre indivíduos Para insensibilizar a factores de escala Para identificar prefis em vez de valores absolutos Inputs Registos????????? Normlizar indivíduos (por linhas) Normlizar características ou variáveis (por colunas) Objectivos possíveis Aproximar a distribuição de uniforme Espalha maximamente os dados Aproximar a distribuição normal Identifica bem os extremos e deixa que estes sejam muito diferentes Ter maior resolução na zona de interesse 26

Pré-processamento Algumas normalizações mais comuns Min-Max y min y' y [0,1] max min Z-score y centrado em 0 com =1 Percentis Distribuição final sigmoidal y' y média DesvioPadr ão y =nº de ordem Sigmoidal (logística) y com maior resoução no centro 1 e y' 1 e y y Normalização sigmoidal Diferencia a zona de transição 1.0000 0.9000 0.8000 0.7000 0.6000 0.5000 0.4000 0.3000 0.2000 Pequena diferenciação Grande diferenciação 0.1000 0.0000-9 -8-7 -6-5 -4-3 -2-1 0 1 2 3 4 5 6 7 8 9 27

Transformações dos dados Projecções sobre espaços visualizáveis ou de dimensão menor Ideia geral: Mapear os dados para um espaço de 1 ou 2 dimensões Mapear para espaços de 1 dimensão Permite definir uma ordenação Mapear para espaços de 2 dimensões Permite visualizar a distribuição dos dados (semelhanças, diferenças, clusters) 28

Problemas com as projecções Perdem informação Podem perder MUITA informação e dar uma imagem errada Medidas para saber o que não estamos a ver Variância explicada Stress Outros erros (erro de quantização, topológico,etc) Dimensão intrínseca Dimensão do sub-espaço dos dados Pode ou não haver um mapeamento linear Estimativas da dimensão intrínseca Com PCA Verificar a diminuição dos V.P. Basicamente, medir a variância explicada Com medidas de stress (em MDS) Com medidas de erro 29

Seleccionar componentes mais relevantes para visualização Será sempre uma boa escolha? Dados originais multidimensinais Dados transformados Componentes a visualizar Quais as componentes mais importantes para compreender o fenómeno? PCA ICA outros Componentes ordenadas segundo algum critério PCA Principal Component Analysis Principal Component Analysis Análise de componente principais Transformada (discreta) de Karhunen-Loève Transformada linear para o espaço definido pelos vectores próprios da martriz de covariância dos dados. Não é mais que uma mudança de coordenadas (eixos) Eixos ordenados pelos valores próprios Utiliza-se normalmente SVD 30

Componentes principais Mudança de eixos Os novos eixos estão alinhados com as direcções de maior de variação Continuam a ser eixos perpendiculares Podem esconder aspectos importantes A 2ª componente é que separa! A dimensão intínseca é 1! Problemas com ACP Corre bem! Menos bem! Mal! 31

Componentes Independentes ICA Indepenant Component Analysys Maximizam a independência estatística (minimizam a informação mútua) Diferenças em relação a PCA PCA ICA Componentes Independentes Bom comportamento para clustering Muitas vezes melhor que PCA por espalhar melhor os dados Bom para blind source separation Separar causas independentes que se manifestam no mesmo fenómeno Disponibilidade Técnica recente ainda pouco divulgadada Boas implementações em Matlab e C Livro de referencia (embora não a ref.original): Hyvärinen, A., J. Karhunen, et al. (2001). Independent Component Analysis, Wiley-Interscience. 32

Referências sobre ICA Primeiras referências B.Ans, J.Herault, C.Jutten, Adaptative Neural architectures: Detection of primitives, COGNITIVA 85, Paris, France, 1985 P.Comon, Independant Component Analysis, a new concept?, Signal Processing, vol36,n3,pp278-283, July 1994 Algoritmo mais usado. FastICA Hyvärinen, A., J. Karhunen, et al. (2001). Independent Component Analysis, Wiley- Interscience. V.Zarzoso, P.Comon, How Fast is FastICA?, Proc.European Signal Processing Conf., Florence, Italy, Setember 2006 Recensão recente A.Kachenoura et al., ICA: A Potential Tool for BCI Systems, IEEE Signal processing Magazine, vol25, n.1, pp 57-68, January 2008 Código freeware e material de apoio FastICA para Matlab, R, C++, Python, e muitos apontadores para informação http://www.cis.hut.fi/projects/ica/fastica/ MDS MultiDimensional Scaling Objectivo Representação gráfica a 2D que preserva as distâncias originais entre objectos Vários algoritmos (e por vezes nomes diferentes) Sammon Mapping (1968) Também conhecido como Perceptual Mapping É um processo iterativo Não é, rigorosamente, um mapeamento Stress Mede a distorção que não foi possível eliminar Stress ( d ij ( d ij dˆ ij ) d ) 2 2 d ij distância dˆ distância d média das no verdadeira grafico distâncias 2 d 33

Exemplos de MDS Exemplo com países do mundo caracterizados por indicadores socio-económicos Nota: Ao acrescentar mais um dado é necessário recalcular tudo! Transformações tempo/frequência Transformada de Fourier É uma mudança de referencial! Projecta um espaço sobre outro Transformadas tempo/frequência Wavelets Wigner-Ville Identificam a ocorrência (localizada no tempo) de fenómenos que se vêm melhor na frequência 34

Transformada de Fourier Aplicações Análise de séries temporais Análise de imagens Análise de dados com dependências periódicas entre eles Permite: Invariância a tempo Invariância a posição O que é: Um decomposição em senos e cosenos Uma projecção do espaço original sobre um espaço de funções Transformada de Fourier O que é a decomposição? x(t)= = + + Com o que é que fico? Com o que quiser Com as amplitudes de cada frequência Com os valores das 2 frequências mais fortes Notas: Para não perder informação N-pontos geram N-pontos Posso calcular a transformada mesmo que faltem valores 35

Curvas principais, SOM, etc Curvas principais Hastie 1989 Define-se parametricamente a família de curvas sobre o qual os dados são projectados SOM Kohonen 1982 Serão discutidas mais tarde Bibliografia Sammon, J. W., Jr (1969). "A Nonlinear Mapping for Data Structure Analysis." IEEE Transactions on Computers C-18(5) Hastie, T. and W. Stuetzle (1989). "Principal curves." Journal of the American Statistical Association 84(406): 502-516. Hyvarinen, A. and E. Oja (2000). "Independant component analysis: algorithms and applications." Neural Networks 13: 411-430 Hyvärinen, A., J. Karhunen, et al. (2001). Independent Component Analysis, Wiley-Interscience. 36

Outros problemas de pré-processamento Eliminar outliers Efeito de alavanca dos outliers Efeito de esmagamento dos outliers Eliminar outliers Estatística (baseado em ) Problema dos inliers Métodos detectores de outliers Com k-médias Com SOM 37

Conversões entre tipos de dados Nominal / Binário 1 bit para cada valor possível Ordinal / Numérico Respeitar ou não a escala? Numérico / Ordinal Como discretizar? Outras transformações Médias para reduzir ruído Ratios para insensibilizar a escala Combinar dados É introdução de conhecimento à priori 38

Quanto pré-processamento? Mais pré-processamento Maior incorporação de conhecimento à priori Mais trabalho inicial, tarefas mais fáceis e fiáveis mais tarde Menos pré-processamento Maior esforço mais tarde Maior pressão sobre sistema de classificação/ previsão / clustering Princípio: garbage in garbage out Exemplos de problemas 39

Exemplos (1) Um banco quer estudar as características dos seus clientes. Para isso precisa de encontrar grupos de clientes para os caracterizar. Quais as variáveis do problema? Como descrever os diferentes clientes. Que problema de aprendizagem se está a tratar? Exemplo (2) Uma empresa de ramo automóvel resolveu desenvolver um sistema automático de condução de automóveis. Quais as variáveis do problema? Como descrever os diferentes ambientes. Que problema de aprendizagem se está a tratar? 40

Exemplo (3) Quer estudar-se a relação entre o custo das casas e os bairros de Lisboa. Quais as variáveis do problema? Como descrever os diferentes bairros. É um problema problema de predição, mas será de classificação ou de regressão? Exemplo (4) Uma empresa de seguros do ramo automóvel quer detectar as fraudes das declarações de acidentes. Quais as variáveis do problema? Como descrever os clientes e os acidentes? É um problema problema de predição, mas será de classificação ou de regressão? 41