Cap.2 Aprendizagem Bayesiana e baseada em protótipos V 3.0, V.Lobo, EN/ISEGI, 2005
|
|
- Estela Borba da Costa
- 8 Há anos
- Visualizações:
Transcrição
1 V 3.0, V.Lobo, E/ISEGI, 005 Classificação Bayesiana (revisões...) Victor Lobo Contexto Existem um conjunto de dados conhecidos Conjunto de treino Queremos prever o que vai ocorrer noutros casos Exemplo Empresa de seguros de saúde quer estimar custos com um novo cliente Conjunto de treino (dados históricos) E o Manel? Altura Peso Sexo Idade Ordenado Usa Encargos para ginásio seguradora M M F M F S S S S Altura=.73 Peso=5 Idade=3 Ordenado=00 Ginásio= Terá encargos para a seguradora? Tema central: Existe alguma maneira ÓPTIMA de fazer a classificação de um padrão de dados? O nosso exemplo... Dados completos Sim: classificação Bayesiana (óptima segundo um dado critério...) Conseguimos usar sempre esse método? ão: geralmente é impossível obter o classificador de Bayes É útil conhecê-lo? Sim: Dá um limite e um termo de comparação C/ variáveis largo estreito pequeno grande pomba pequeno Medição de características falcão águia grande Comprimento oção de Classificação Bayesiana Escolhe a classe mais provável, dado um padrão de dados max P(C i x) É sempre a escolha óptima! Problema: Estimar P(C i x) Solução: dado um dado, eu posso não saber à priori a classe, mas dado uma classe, eu talvez saiba à priori como são dos dados dessa classe... Teorema de Bayes Formulação do teorema de Bayes P(C,x ) = P(C x)p(x) = P(x C)P(C) logo.. P(C x) = P(x C)P(C) / P(x) Dado um x, P(x) é constante, o classificador Bayesiano escolhe a classe que maximiza P(x C)P(C) Classificador que maximiza P(C x) é conhecido como classificador MAP (maximum a posterioi)
2 V 3.0, V.Lobo, E/ISEGI, 005 Custos variáveis A escolha óptima da classe tem que ter em conta os custos de cometer erros Exemplos: detectar aviões num radar, detectar fraudes ou defeitos em peças Custo: ct(c i,c j ) = custo de escolher c j dado que a classe é de facto c j Matriz de custos Matriz com todos os custos de classificação Classificador de Bayes Custo de uma decisão: ct j (x) = Σ ct(c i, c j ) P(c i,x) Classificador de Bayes Escolhe a classe que minimiza o custo de classificação c=c : = arg min ct j (x) Determinação dos custos... Classificador de máxima verosimilhança Maximum Lielihood (ML) Muitas vezes podemos admitir que, à partida, todas as classes são equiprováveis esse caso, o classificador MAP simplifica para: P(C x) = P(x C)P(C) / P(x) = P(x C) Ou seja a classe mais provável é a que com maior probabilidade gera esse dado! a prática, um bom critério! Problemas em estimar P(x,C) Desconhece-se geralmente a forma analítica de P(x,C) Estimação de P(x,C) a partir dos dados Problema central em classificação!!! Estimação paramétrica Assumir que P(x,C) tem uma distribuição conhecida (gausseana, uniforme, etc), e estimar os parâmetros dessa distribuição Estimação não paramétrica Calcular P(x,C) directamente a partir dos dados Exemplo de classificação Bayesiana : Jogar ténis Caso : sabendo só o outloo Outloo Rainy Rainy Rainy Temperature Hot Hot Hot Cool Cool Humidity ormal ormal Windy Play o o o Queremos saber P(jogo outloo), em concreto, se outloo = overcast Classificador MAP: P(jogo outloo)=p(outloo jogo)p(jogo) Cool ormal Cool ormal ormal o P(jogo=sim)=9/4=0.4 P(jogo=não)=5/4=0.3 P(outrloo= overcast jogo=sim)=5/9=0.5 ormal P(jogo=sim outloo= overcast)=0.5 x 0.4 = 0.3 Hot ormal Rainy o
3 V 3.0, V.Lobo, E/ISEGI, 005 Problema quando x tem dimensão grande Se a dimensão de x é muito grande, devido à praga da dimensionalidade, é difícil calcular P(x,C) Solução: Assumir independência entre atributos Exemplo: Classificação de texto Classificador naive de Bayes Assume independência dos atributos: P(x,C) = Π P(x m,c) a prática tem bons resultados Evitar que P(x m,c) seja 0: Estimativa m: P=( n c + m x p) / (n + m) n c = exemplos de c n= total de exemplos m= ponderação (+/-prioi) p= estimativa à priori (equiprovável?) Algumas considerações... Aprendizagem incremental Um classificador Bayesiano por ir actulizando as suas estimativas Separababilide P(x,c i )>0 P(x,c j )=0 x Erro de Bayes = 0 ão separabilidade Inconsistência (com os atributos conhecidos): Um mesmo x, tanto pode pertencer a c i como c j Erro de Bayes > 0 Classificadores bayesianos: Classificador de Bayes Entra em linha de conta com custos MAP ML Assume custos iguais Assume classes equiprováveis aive de Bayes Assume independência entre atributos Erro de Bayes Erro do classificador bayesiano (geralmente MAP) Tema central Aprendizagem baseada em instâncias Victor Lobo Sistemas de aprendizagem que guardam exemplos dos dados Ex: Guardar a pomba típica ou som característico A classificação (ou decisão) é feita comparando a nova instância com os exemplos guardados Exemplos protótipos instâncias neurónios 3
4 V 3.0, V.Lobo, E/ISEGI, 005 Muitos nomes para a mesma coisa Estatística Kernel-based density estimation (Duda & Hart ) Locally-weighted regression (Hardle 90) Machine Learning Memory-based classification (Stanfill & Waltz ) Exemplar-based nowlegde acquisition (Bareiss 9) Instance-based classification (Aha 9) Case-based reasoning (Shan ) Lazy Learning ( Alpaydin 97) Redes euronais Prototype-based networs (Kohonen 95) RBF (Lowe ), LVQ, etc, etc... E muito, MUITO mais... (-means, -nn,etc,etc...) Fundamentos: Classificador óptimo escolhe classe mais provável: P(C x) = P(x C)P(C) / P(x) o caso de um classificador MAP, basta saber P(x C) Estimação de P(x C) quando os atributos de x têm valores contínuos: P(x C)=0, mas podemos calcular p(x C) o limite temos n p( x C) = / V Fundamentos n Para que p( x C) = / V É necessário que n, e V = um dado volume em torno da nova instância n= nº total de exemplos nesse volume =nº de exemplos que pertencem à classe C lim V = 0 n lim = n K-vizinhos Duas grandes famílias n=c te -vizinhos, vizinho mais próximo, etc V=c te Janelas de Parzen -vizinhos e vizinho mais próximo (=) Todos os exemplos são memorizados e usados na fase de aprendizagem. A classificação de um exemplo X consiste em encontrar os elementos do conjunto de treino mais próximos e decidir por um critério de maioria. Gasta muita memória!!! Algoritmo - vizinhos mais próximos Algoritmo de treino Para cada exemplo de treino (x, c(x)) adicionar à lista de exemplos de treino. Retorna lista de exemplos de treino. ão há dúvida é o mais simples!!! 4
5 V 3.0, V.Lobo, E/ISEGI, 005 Classificação por -vizinhos -earesteighbor(x, Exemplos de treino) Sejam y,, y, pertencentes à lista de exemplos de treino, os vizinhos mais próximos de x. Retorna cˆ ( x) arg max δ( v, c( yi )) v V em que V é o conjunto de classes e Regressão por -vizinhos Algoritmo de regressão -earesteighbor(x, exemplos de treino) Sejam y,, y, pertencentes à lista de exemplos de treino, os vizinhos mais próximos de x. Retorna cˆ ( x) c( y i ) δ ( x, y) 0 = se x se x y = y Fronteiras definidas pelo -nn Regressão linear grande Fronteiras suaves, ponderadas Estimador razoável da densidade de probabilidade pequeno Fronteiras mais rugosas, sensíveis a outrliers Mau estimador de densidade de probabilidade Margens de segurança Pode-se exigir uma diferença mínima para tomar uma decisão - Vizinho mais próximo 5 Vizinhos mais próximos 5
6 V 3.0, V.Lobo, E/ISEGI, 005 Exemplos de medidas de semelhança Distâncias Euclidiana Hamming Minowsi DM DMa ( X, Y, λ) Mahalanobis K λ λ = xi yi ( ) T ( X, Y, ϕ) = ( X Y ) Ψ[ ]( X Y ) KK Correlação ão normalizada C ( X, Y ) = X. Y = K x i y i Máxima correlação Cm K xi yi j j ( X, Y ) = max Classificação por -vizinhos pesados Algoritmo de classificação -earesteighbor(x, Exemplos de treino) Sejam y,, y, pertencentes à lista de exemplos de treino, os vizinhos mais próximos de x. Retorna cˆ ( x) arg max ϖiδ( v, c( yi )) v V em que ϖi = D ( x, y) Regressão pelos -vizinhos pesados Algoritmo de classificação -earesteighbor(x, Exemplos de treino) Sejam y,, y, pertencentes à lista de exemplos de treino, os vizinhos mais próximos de x. Retorna ϖic( y i ) cˆ ( x) ϖi Vizinho mais próximo (=) É simples e eficaz Está muito bem estudado Erro assimptótico (quando n ) Zero, se as classes forem separáveis x erro de Bayes, se não o forem (Cover 7; Ripley 9; Krishna 00) Erro do vizinho mais próximo Com n finito,e c classes Fronteiras do vizinho mais próximo Partição de Voronoi do conjunto de treino E bayes E nneighbour E bayes c E c bayes + sup x X mx cebayes ( x)( ) c δ(x) é a função de semelhança (Draopoulos 95), que pode ser estimada, e tem geralmente um valor baixo
7 V 3.0, V.Lobo, E/ISEGI, 005 Problemas com -nn Exigem MUITA memória para guardar o conjunto de treino Exigem MUITO tempo na fase de classificação Variantes sobre - vizinhos São muito sensíveis a outliers São muito sensíveis à função de distância escolhida Só de pode resolver com conhecimento à priori... Edited earest eighbors Remover os outliers, e os exemplos demasiado próximos da fronteira Usar a regra de classificação (-nn) sobre o próprio conjunto de treino, e eliminar os exemplos mal classificados K=3 já produz bons resultados Minimização do nº de protótipos Reduzir o nº de protótipos resolve os primeiros problemas! Deixa de ser possível estimar p(x) Enquadramento formal Q-Sets Heurísticas Condensed earest eighbors ( = IB, RIBL, etc) Condensed earest eighbors [Hart ] Reduced earest eighbors [Gates 7] Let 3 Train Training Set 4 #train umber of patterns in the training set 5 C Condensed earest eighbor set 7 Do 9 C = {Train } 0 Repeat Additions =FALSE For i = to #train 3 Classify Train i with C 4 If Train i is incorrectly classified 5 C = C {Train i} Additions =TRUE 7 End_if End_for 9 Until Additions = FLASE Let 3 Train Training Set 4 #train umber of patterns in the training set 5 #cnn umber of patterns in the C set C Condensed earest eighbor set 7 R Reduced earest eighbor Set 9 Do 0 R = C For i = to #cnn 3 Let Candidate_R = R { Ri} 4 Classify all Train with Candidate_R 5 If all patterns in Train are correctly classified R = Candidate_R 7 End_if End_for 7
8 Cap. Aprendizagem Bayesiana e baseada em protótipos V 3.0, V.Lobo, E/ISEGI, 005 Toy problem para testes Double F ou Harts Problem Simples visualisação, fronteira complexa Distribuição uniforme nas áreas indicadas Usada por muitos autores como ref Harts problem com 400 padrões Avaliação experimental dos métodos - Gerar pontos para conjunto de treino - Aplicar o método para obter um classificador 3 - Gerar M pontos para conjunto de validação 4 - Calcular o erro E no conjunto de validação 5 - Repetir os passos -4 várias vezes, e calcular os valores médios e desvios padrões para: Erro, º de protótipos, Tempo de treino e classificação Cálculo do erro Qual o tamanho do conjunto de validação para estimar o erro? Para cada padrão de validação Erro médio ( y) = E( x ) = p E i ˆ ( erro) x = 0( certo) y = x i p p pˆ( pˆ) = ˆ σ ( p ( p) > 5) y C/ p % e =0e σ = 0.0% 0 Rotinas Matlab Class_plot(x,y,class) [vx,vy]=voronoi_boundary(x,y,class) [ c,cp ] = nn( t_data, t_label, x, ) [ c ] = nn_mat( t_data, t_label, x ) [cnn,cnn_label]=cnn(train, train_label ) [rnn,rnn_label]=rnn(train,train_label,cnn,cnn_label) outclass=selfclassify( dataset,inclass ) [data]=remove_col(data,index) Fronteiras típicas
Aprendizagem Bayesiana e baseada em protótipos V 3.2, V.Lobo, EN/ISEGI, 2009
V 3., V.Lobo, E/ISEGI, 009 Classificação Bayesiana (revisões...) Victor Lobo Contexto Existem um conjunto de dados conhecidos Conjunto de treino Queremos prever o que vai ocorrer noutros casos Exemplo
Leia maisClassificação Bayesiana
Classificação Bayesiana Victor Lobo Contexto Existem um conjunto de dados conhecidos Conjunto de treino Queremos prever o que vai ocorrer noutros casos Exemplo Empresa de seguros de saúde quer estimar
Leia maisSistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010
V., V.Lobo, EN/ISEGI, O que é a árvore de decisão? Arvores de decisão Victor Lobo Algorítmo para tomar decisões (ou classificar) Modo de representar conhecimento Tem penas? Nós (testes, ou conceitos) Comprimento
Leia maisIntrodução a Datamining (previsão e agrupamento)
Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir
Leia maisIntrodução a Datamining (previsão e agrupamento)
E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir
Leia maisMLP (Multi Layer Perceptron)
MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -
Leia maisRedes Neurais. Mapas Auto-Organizáveis. 1. O Mapa Auto-Organizável (SOM) Prof. Paulo Martins Engel. Formação auto-organizada de mapas sensoriais
. O Mapa Auto-Organizável (SOM) Redes Neurais Mapas Auto-Organizáveis Sistema auto-organizável inspirado no córtex cerebral. Nos mapas tonotópicos do córtex, p. ex., neurônios vizinhos respondem a freqüências
Leia maisINTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por
INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca
Leia maisCRM e Prospecção de Dados
CRM e Prospecção de Dados Marília Antunes aula de 6 Abril 09 5 Modelos preditivos para classificação 5. Introdução Os modelos descritivos, tal como apresentados atrás, limitam-se à sumarização dos dados
Leia maisTeorema do Limite Central e Intervalo de Confiança
Probabilidade e Estatística Teorema do Limite Central e Intervalo de Confiança Teorema do Limite Central Teorema do Limite Central Um variável aleatória pode ter uma distribuição qualquer (normal, uniforme,...),
Leia maisIntrodução à Inferência Estatística
Introdução à Inferência Estatística 1. População: conjunto de indivíduos, ou itens, com pelo menos uma característica em comum. Também será denotada por população objetivo, que é sobre a qual desejamos
Leia maisPré processamento de dados II. Mineração de Dados 2012
Pré processamento de dados II Mineração de Dados 2012 Luís Rato Universidade de Évora, 2012 Mineração de dados / Data Mining 1 Redução de dimensionalidade Objetivo: Evitar excesso de dimensionalidade Reduzir
Leia mais3. REDES DE CAMADA ÚNICA
3. REDES DE CAMADA ÚNICA Perceptron Forma mais simples de RN Utilizado para classificação de padrões (linearmente separáveis) Consiste em um único neurônio, com pesos sinápticos ajustáveis e bias 3.1 Funções
Leia maisMINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br
MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para
Leia maisUTILIZANDO O SOFTWARE WEKA
UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia
Leia maisData Mining Software Weka. Software Weka. Software Weka 30/10/2012
Data Mining Software Weka Prof. Luiz Antonio do Nascimento Software Weka Ferramenta para mineração de dados. Weka é um Software livre desenvolvido em Java. Weka é um É um pássaro típico da Nova Zelândia.
Leia maisReconhecimento de Padrões
Engenharia Informática (ramos de Gestão e Industrial) Departamento de Sistemas e Informação Reconhecimento de Padrões Projecto Final 2004/2005 Realizado por: Prof. João Ascenso. Departamento de Sistemas
Leia maisQUALITATIVA VARIÁVEL QUANTITATIVA
NOMINAL ORDINAL QUALITATIVA VARIÁVEL QUANTITATIVA DISCRETA CONTÍNUA - Variável qualitativa nominal = valores que expressam atributos, sem nenhum tipo de ordem. Ex: cor dos olhos, sexo, estado civil, presença
Leia mais17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.
Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes
Leia mais3 Metodologia de Previsão de Padrões de Falha
3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar
Leia maisInferências Geográfica: Inferência Bayesiana Processo Analítico Hierárquico Classificação contínua
Inferências Geográfica: Inferência Bayesiana Processo Analítico Hierárquico Classificação contínua Análise Multi-Critério Classificação continua (Lógica Fuzzy) Técnica AHP (Processo Analítico Hierárquico)
Leia maisRedes Neurais Construtivas. Germano Crispim Vasconcelos Centro de Informática - UFPE
Redes Neurais Construtivas Germano Crispim Vasconcelos Centro de Informática - UFPE Motivações Redes Feedforward têm sido bastante utilizadas em aplicações de Reconhecimento de Padrões Problemas apresentados
Leia maisPROFº. LUIS HENRIQUE MATEMÁTICA
Geometria Analítica A Geometria Analítica, famosa G.A., ou conhecida como Geometria Cartesiana, é o estudo dos elementos geométricos no plano cartesiano. PLANO CARTESIANO O sistema cartesiano de coordenada,
Leia maisNaïve Bayesian Learning. Marcílo Souto DIMAp/UFRN
Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN 1 Teorema de Bayes Probabilidade de um evento H dada evidência E: Pr[ H E] Pr[ E H ]Pr[ H ] Pr[ E] Probabilidade a priori de H: Probabilidade do evento
Leia maisClassificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões
Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos
Leia mais1ª Lista de Exercícios
Universidade Federal de Campina Grande Disciplina: Mineração de Dados Período: 2008.3 Data: 21/10/08 Aluno: Halley F. S. de Freitas 1ª Lista de Exercícios O arquivo de dados é o do tempo: @relation weather.symbolic
Leia maisCRM e Prospecção de Dados
CRM e Prospecção de Dados Marília Antunes aula de 4 de Maio 09 5 Modelos preditivos para classificação (continuação) 5.6 Modelos naive Bayes - classificador bayesiano simples O método ganha a designação
Leia maisTeorema Central do Limite e Intervalo de Confiança
Probabilidade e Estatística Teorema Central do Limite e Intervalo de Confiança Teorema Central do Limite Teorema Central do Limite Um variável aleatória pode ter uma distribuição qualquer (normal, uniforme,...),
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem
Leia maisBC-0504 Natureza da Informação
BC-0504 Natureza da Informação Aulas 2 Entropia na termodinâmica e na teoria da informação Equipe de professores de Natureza da Informação Parte 4 Os pilares da teoria da informação Os estudos de criptografia
Leia maisMétodo para Classificação: - Naïve Bayes.
Método para Classificação: - Naïve Bayes. Modelagem statística (Bayesiana): Contrariamente ao 1R, usa todos os atributos; Duas premissas: Atributos igualmente importantes; Atributos estatisticamente independentes
Leia maisReconhecimento de Objectos
Dado um conjunto de características, relativas a uma região (objecto), pretende-se atribuir uma classe essa região, seleccionada de um conjunto de classes cujas características são conhecidas O conjunto
Leia maisMétodo de Monte Carlo e ISO
Método de Monte Carlo e ISO GUM para cálculo l de incerteza Prof. Dr. Antonio Piratelli Filho Universidade de Brasilia (UnB) Faculdade de Tecnologia Depto. Engenharia Mecânica 1 Introdução: Erro x incerteza
Leia maisAprendizado Bayesiano. Disciplina: Agentes Adaptativos e Cognitivos
Aprendizado Bayesiano Disciplina: Agentes Adaptativos e Cognitivos Conhecimento com Incerteza Exemplo: sistema de diagnóstico odontológico Regra de diagnóstico " p sintoma (p,dor de dente) doença (p,cárie)
Leia maisRegressão Linear Multivariada
Regressão Linear Multivariada Prof. Dr. Leandro Balby Marinho Inteligência Artificial Prof. Leandro Balby Marinho / 37 UFCG DSC Roteiro. Introdução 2. Modelo de Regressão Multivariada 3. Equações Normais
Leia maisMedidas e Incertezas
Medidas e Incertezas O que é medição? É o processo empírico e objetivo de designação de números a propriedades de objetos ou eventos do mundo real de forma a descreve-los. Outra forma de explicar este
Leia maisResoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ
Resoluções comentadas das questões de Estatística da prova para ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ Realizada pela Fundação João Goulart em 06/10/2013 41. A idade média de todos
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Aula anterior Organização e Recuperação de Informação(GSI521) Modelo vetorial- Definição Para o modelo vetorial, o
Leia maisO objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de
MINERAÇÃO DE DADOS MINERAÇÃO DE DADOS O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de dados. A mineração de dados é formada por um conjunto de ferramentas e técnicas
Leia maisAvaliando o que foi Aprendido
Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função
Leia maisQUEDA LIVRE. Permitindo, então, a expressão (1), relacionar o tempo de queda (t), com o espaço percorrido (s) e a aceleração gravítica (g).
Protocolos das Aulas Práticas 3 / 4 QUEDA LIVRE. Resumo Uma esfera metálica é largada de uma altura fixa, medindo-se o tempo de queda. Este procedimento é repetido para diferentes alturas. Os dados assim
Leia maisTÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação
Leia maisLista de Exercícios Tratamento de Incerteza baseado em Probabilidade
Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade 1) Explique o termo probabilidade subjetiva no contexto de um agente que raciocina sobre incerteza baseando em probabilidade. 2) Explique
Leia maisProjeto Supervisionado
Projeto Supervisionado Caio Almasan de Moura ra: 095620 Indice 1. Introdução 2. Principal Projeto: Modelo de Score 2.1. Objetivo... pg 3 2.2. Agentes Envolvidos... pg 3 2.3. Contextualização... pg 3 2.4.
Leia maisData Mining: Ferramenta JAVA
Data Mining: Ferramenta JAVA JAVA para Data Mining Weka 3: Data Mining Software em Java http://www.cs.waikato.ac.nz/ml/weka/ Coleção de algoritmos para as tarefas de data mining; Free software. WEKA: JAVA
Leia maisUniversidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados
Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:
Leia maisPE-MEEC 1S 09/10 118. Capítulo 4 - Variáveis aleatórias e. 4.1 Variáveis. densidade de probabilidade 4.2 Valor esperado,
Capítulo 4 - Variáveis aleatórias e distribuições contínuas 4.1 Variáveis aleatórias contínuas. Função densidade de probabilidade 4.2 Valor esperado, variância e algumas das suas propriedades. Moda e quantis
Leia maisInvestigação Operacional
Sumário Victor Lobo Investigação Operacional Introdução Programa da cadeira Bibliografia Horário de dúvidas e contactos Avaliação O que é Investigação Operacional? Investigar as operações da empresa, embora
Leia maisBCC202 - Estrutura de Dados I
BCC202 - Estrutura de Dados I Aula 04: Análise de Algoritmos (Parte 1) Reinaldo Fortes Universidade Federal de Ouro Preto, UFOP Departamento de Ciência da Computação, DECOM Website: www.decom.ufop.br/reifortes
Leia maisUNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA 4 a LISTA DE EXERCÍCIOS GBQ12 Professor: Ednaldo Carvalho Guimarães AMOSTRAGEM
1 UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA 4 a LISTA DE EXERCÍCIOS GBQ12 Professor: Ednaldo Carvalho Guimarães AMOSTRAGEM 1) Um pesquisador está interessado em saber o tempo médio que
Leia maisDistribuições de Probabilidade Distribuição Normal
PROBABILIDADES Distribuições de Probabilidade Distribuição Normal BERTOLO PRELIMINARES Quando aplicamos a Estatística na resolução de situações-problema, verificamos que muitas delas apresentam as mesmas
Leia maisUniversidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Revisão de Probabilidade e Estatística Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Conceitos Básicos Estamos
Leia maisMétodos para Classificação: - Naïve Bayes.
Métodos para Classificação: - 1R; - Naïve Bayes. Visão Geral: Simplicidade em primeiro lugar: 1R; Naïve Bayes. 2 Classificação: Tarefa: Dado um conjunto de exemplos préclassificados, construir um modelo
Leia maisClassificação: 1R e Naïve Bayes. Eduardo Raul Hruschka
Classificação: 1R e Naïve Bayes Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada
Leia maisClassificação. Eduardo Raul Hruschka
Classificação Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Super-ajuste e validação cruzada Combinação de Modelos
Leia maisO comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.
ESTATÍSTICA INDUTIVA 1. CORRELAÇÃO LINEAR 1.1 Diagrama de dispersão O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.
Leia maisA Preparação dos Dados
A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre
Leia maisIntrodução a Química Analítica. Professora Mirian Maya Sakuno
Introdução a Química Analítica Professora Mirian Maya Sakuno Química Analítica ou Química Quantitativa QUÍMICA ANALÍTICA: É a parte da química que estuda os princípios teóricos e práticos das análises
Leia mais2. Método de Monte Carlo
2. Método de Monte Carlo O método de Monte Carlo é uma denominação genérica tendo em comum o uso de variáveis aleatórias para resolver, via simulação numérica, uma variada gama de problemas matemáticos.
Leia maisAprendizado com Classes Desbalanceadas*
Aprendizado com Classes Desbalanceadas* *Estes slides foram originalmente preparados pelos professores Ronaldo C. Prati e Gustavo Batista. Para esta aula, os slides foram revisados e modificados pelo professor
Leia maisCapítulo 1: Eletricidade. Corrente continua: (CC ou, em inglês, DC - direct current), também chamada de
Capítulo 1: Eletricidade É um fenômeno físico originado por cargas elétricas estáticas ou em movimento e por sua interação. Quando uma carga encontra-se em repouso, produz força sobre outras situadas em
Leia maisMedidas de Tendência Central
Medidas de Tendência Central Generalidades Estatística Descritiva: Resumo ou descrição das características importantes de um conjunto conhecido de dados populacionais Inferência Estatística: Generalizações
Leia maisHistogramas. 12 de Fevereiro de 2015
Apêndice B Histogramas Uma situação comum no laboratório e na vida real é a de se ter uma grande quantidade de dados e deles termos que extrair uma série de informações. Encontramos essa situação em pesquisas
Leia maisTestedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição. 38.1 Teste Chi-Quadrado
Parte X Testedegeradoresde números aleatórios Os usuários de uma simulação devem se certificar de que os números fornecidos pelo gerador de números aleatórios são suficientemente aleatórios. O primeiro
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala [quinta-feira, 7:30 12:00] Atendimento Segunda
Leia maisRevisão: Noções básicas de estatística aplicada a avaliações de imóveis
Curso de Avaliações Prof. Carlos Aurélio Nadal cnadal@ufpr.br 1 AULA 03 Revisão: Noções básicas de estatística aplicada a avaliações de imóveis 2 OBSERVAÇÃO: é o valor obtido durante um processo de medição.
Leia maisProf. Júlio Cesar Nievola Data Mining PPGIa PUCPR
Encontrar grupos de objetos tal que objetos em um grupo são similares (ou relacionados) uns aos outros e diferentes de (ou não relacionados) a objetos em outros grupos Compreensão Agrupa documentos relacionados
Leia maisSistemas de Apoio à Decisão
Sistemas de Apoio à Decisão Data Mining & Optimização Victor Lobo Objectivos gerais Abrir horizontes em temas actuais Aprender técnicas usadas em Sistemas de apoio à decisão ou Business Intelligence Métodos
Leia maisCorrelação e Regressão Linear
Correlação e Regressão Linear A medida de correlação é o tipo de medida que se usa quando se quer saber se duas variáveis possuem algum tipo de relação, de maneira que quando uma varia a outra varia também.
Leia maisJogos vs. Problemas de Procura
Jogos Capítulo 6 Jogos vs. Problemas de Procura Adversário imprevisível" necessidade de tomar em consideração todas os movimentos que podem ser tomados pelo adversário Pontuação com sinais opostos O que
Leia maisMODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS
MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS DISCRETAS Definições Variáveis Aleatórias Uma variável aleatória representa um valor numérico possível de um evento incerto. Variáveis aleatórias
Leia maisKDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?
KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule
Leia maisCOMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder
Comentário Geral: Prova muito difícil, muito fora dos padrões das provas do TCE administração e Economia, praticamente só caiu teoria. Existem três questões (4, 45 e 47) que devem ser anuladas, por tratarem
Leia maisProf. Júlio Cesar Nievola Data Mining PPGIa PUCPR
Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise
Leia mais4 Segmentação. 4.1. Algoritmo proposto
4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças
Leia maisClassificação - avaliação de resultados - 1. Mineração de Dados 2013
Classificação - avaliação de resultados - 1 Mineração de Dados 2013 Luís Rato (Capítulo 4 do livro Introduction to Data Mining ) Universidade de Évora, Mineração de dados / Data Mining 1 Desempenho Desempenho
Leia maisReconhecimento de marcas de carros utilizando Inteligência Artificial. André Bonna Claudio Marcelo Basckeira Felipe Villela Lourenço Richard Keller
Reconhecimento de marcas de carros utilizando Inteligência Artificial André Bonna Claudio Marcelo Basckeira Felipe Villela Lourenço Richard Keller Motivação Análise estatística das marcas de carros em
Leia maisProblemas de Satisfação de Restrições
Problemas de Satisfação de Restrições Texto base: Stuart Russel e Peter Norving - Inteligência Artificial David Poole, Alan Mackworth e Randy Goebel - Computational Intelligence A logical approach junho/2007
Leia maisScale-Invariant Feature Transform
Scale-Invariant Feature Transform Renato Madureira de Farias renatomdf@gmail.com Prof. Ricardo Marroquim Relatório para Introdução ao Processamento de Imagens (COS756) Universidade Federal do Rio de Janeiro,
Leia maisUtilização do SOLVER do EXCEL
Utilização do SOLVER do EXCEL 1 Utilização do SOLVER do EXCEL José Fernando Oliveira DEEC FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO MAIO 1998 Para ilustrar a utilização do Solver na resolução de
Leia maisIntrodução à Análise Química QUI 094 ERRO E TRATAMENTO DE DADOS ANALÍTICOS
Introdução a Analise Química - II sem/2012 Profa Ma Auxiliadora - 1 Introdução à Análise Química QUI 094 1 semestre 2012 Profa. Maria Auxiliadora Costa Matos ERRO E TRATAMENTO DE DADOS ANALÍTICOS Introdução
Leia maisO QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I
O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I! A utilização de escores na avaliação de crédito! Como montar um plano de amostragem para o credit scoring?! Como escolher as variáveis no modelo de credit
Leia maisAlgoritmos Indutores de Árvores de
Algoritmos Indutores de Árvores de Decisão Fabrício J. Barth Sistemas Inteligentes Análise e Desenvolvimento de Sistemas Faculdades de Tecnologia Bandeirantes Abril de 2013 Problema: Diagnóstico para uso
Leia maisARRAYS. Um array é um OBJETO que referencia (aponta) mais de um objeto ou armazena mais de um dado primitivo.
Cursos: Análise, Ciência da Computação e Sistemas de Informação Programação I - Prof. Aníbal Notas de aula 8 ARRAYS Introdução Até agora, utilizamos variáveis individuais. Significa que uma variável objeto
Leia maisProjeto de Redes Neurais e MATLAB
Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação
Leia maisData Mining II Modelos Preditivos
Data Mining II Modelos Preditivos Prof. Doutor Victor Lobo Mestre André Melo Mestrado em Estatística e Gestão de Informação Objectivo desta disciplina Fazer previsões a partir de dados. Conhecer os principais
Leia maisEduardo C. Xavier. 24 de fevereiro de 2011
Reduções Eduardo C. Xavier Instituto de Computação/Unicamp 24 de fevereiro de 2011 Eduardo C. Xavier (IC/Unicamp) Reduções 24 de fevereiro de 2011 1 / 23 Programação Linear (PL) Vimos que na tentativa
Leia maisData Mining: Conceitos e Técnicas
Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:
Leia maisIMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.
IMES Catanduva Probabilidades e Estatística Estatística no Excel Matemática Bertolo, L.A. Aplicada Versão BETA Maio 2010 Bertolo Estatística Aplicada no Excel Capítulo 3 Dados Bivariados São pares de valores
Leia maisAnálise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr
Análise de Regressão Tópicos Avançados em Avaliação de Desempenho Cleber Moura Edson Samuel Jr Agenda Introdução Passos para Realização da Análise Modelos para Análise de Regressão Regressão Linear Simples
Leia maisMétodo Simplex - Variantes V 1.1, V.Lobo, EN / ISEGI, 2008
Revisões Variantes sobre o método Simplex: Método do grande M Simplex básico Solução óptima multipla Em simplex: valores 0 na função custo Solução degenerada Em simplex: empates na variável a sair, variáveis
Leia maisClassificação de Imagens
Universidade do Estado de Santa Catarina Departamento de Engenharia Civil Classificação de Imagens Profa. Adriana Goulart dos Santos Extração de Informação da Imagem A partir de uma visualização das imagens,
Leia maisACH2043 INTRODUÇÃO À TEORIA DA COMPUTAÇÃO. Seção 5.1 Problemas indecidíveis. Slides originais gentilmente cedidos pela Profa. Ariane Machado Lima
ACH2043 INTRODUÇÃO À TEORIA DA COMPUTAÇÃO Seção 5.1 Problemas indecidíveis Slides originais gentilmente cedidos pela Profa. Ariane Machado Lima 1 Na aula passada... A MT é indecidível (usando diagonalização)
Leia maisVariantes sobre o método Simplex: Método do grande M
Variantes sobre o método Simplex: Método do grande M Revisões Simplex básico Solução óptima multipla Em simplex: valores 0 na função custo Solução degenerada Em simplex: empates na variável a sair, variáveis
Leia maisAnálise de complexidade
Introdução Algoritmo: sequência de instruções necessárias para a resolução de um problema bem formulado (passíveis de implementação em computador) Estratégia: especificar (definir propriedades) arquitectura
Leia maisMatlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida
27 de maio de 2014 O que é a Neural Networw Toolbox? A Neural Network Toolbox fornece funções e aplicativos para a modelagem de sistemas não-lineares complexos que não são facilmente modelados com uma
Leia maisAplicação de Ensembles de Classificadores na Detecção de Patologias na Coluna Vertebral
Aplicação de Ensembles de Classificadores na Detecção de Patologias na Coluna Vertebral Hedenir M. Pinheiro Instituto de Informática Universidade Federal de Goiás (UFG) Caixa Postal 131 74001-970 Goiânia
Leia maisAprendizado Bayesiano
Aprendizado Bayesiano Marcelo K. Albertini 26 de Junho de 2014 2/20 Conteúdo Teorema de Bayes Aprendizado MAP Classificador ótimo de Bayes 3/20 Dois papéis para métodos bayesianos Algoritmos de aprendizado
Leia mais