Outliers Detecção de Anomalias AULA DATA MINING
|
|
- Luís Camarinho Vilarinho
- 7 Há anos
- Visualizações:
Transcrição
1 Outliers Detecção de Anomalias AULA DATA MINING
2 Motivação/Caso unidimensional Bill Gates ganha $500 milhões por ano. Ele está numa sala com 9 professores, 4 que recebem $40k/ano, 3 ganham $45k/ano, e 2 ganham $55k/ano. Qual é a média de salário das pessoas na sala? Qual seria a média de salários se Gates não estivesse na sala? Média com Gates: $50,040,500 Média sem gates: $45,000
3 Média e mediana Qual é a média e a mediana da seguinte série de números: Média é 15 Mediana é 14
4 Outlier Em uma série de números, um número que é muito MAIOR ou MENOR que o resto dos números é chamado de Outlier.
5 Uma abordagem simples para encontrar outliers é encontrar os 5 números que sumarizam a série
6 Encontrar os 5 números que sumarizam a série: Passo 1: Ordene os números do menor para o maior Passo 2: Identificar a mediana Passo 3: Identificar o menor e o maior número Passo 4: Identificar a mediana entre o menor número e a mediana geral de toda a série de dados, e a mediana entre a mediana geral e o maior número na série
7 Cinco números que sumarizam a série 3 - Menor número no conjunto 9 - Mediana entre o menor número e a mediana geral 14 Mediana de toda a série 17 Mediana entre o maior número e a mediana de toda a série 40 Maior número da série Esses são os cinco números que sumarizam a série
8 Encontrar os 5 números que sumarizam a série abaixo: 42 4 Menor Mediana Mediana Mediana Maior 50
9 Encontrar os 5 números que sumarizam a série abaixo: Menor = 2 Mediana = 5.5 Mediana = 10.5 Mediana = 16.5 Maior = 21
10 Esses 5 números dividem os dado em quatro quartos o Quartil 2o Quartil 3o Quartil 4o Quartil
11 O Quartil inferior (Q1) é o segundo dos 5 números que sumarizam os dados 25% de todos os números da série são menores que Q O Quartil superior (Q3) é o quarto dos 5 números que sumarizam os dados 25% de todos os números da série são maiores que Q3
12 Qual a porcentamgem de números que está entre Q1 e Q3? 50% de todos os números estão entre Q1 e Q Esse intervalo é chamado de Inter-Quartil (IQR) O Tamanho do IQR é a distância entre Q1 e Q = 8
13 Para determinar se um número é um outlier, multiplique o IQR por = IQR = 8 Um outlier é um número que seja cuja diferença com com Q1 é menor que 12 ou a diferença com Q3 é maior que 12
14 IQR = OUTLIER
15 O que são outliers? Um outlier é um fato que desvia tanto de outros fatos a ponto de gerar suspeitas de que foi gerado um mecanismo diferente. D.Hawkins: Identification of Outliers. Chapman and Hall, London, 1980.
16 Detecção de outliers - aplicações Detecção de fraudes o comportamento de compras de alguém que rouba um cartão de crédito é provavelmente diferente daquele do proprietário do cartão. Detecção de intrusões Ataques em sistemas de computadores apresentam comportamento diferente do comportamento usual dos sistemas. Perturbações em ecossistemas Furacões, secas, enchentes, ondas de calor, incêndios. Saúde pública Casos de varíola são considerados anomalias, que podem indicar um problema com o processo de vacinação na cidade. Medicina Para um certo paciente, certos sintomas ou resultados de testes podem indicar problemas de saúde.
17 Técnicas de detecção de anomalias Enfoques estatísticos Baseadas em distância Baseadas em densidade
18 Definição baseada em distância Um objeto O de um banco de dados BD é chamado de BD(p,d)-outlier se pelo menos uma fração p (0 < p < 1) de objetos de BD estão fora de uma vizinhança de raio d de O p = 2/3 outlier
19 Processo não inteiramente automático Determinação dos parâmetros p e d Teste de validade: decidir se os objetos identificados como outliers são realmente outliers Tarefa de um especialista humano
20 Problema Entrada Banco de dados D com N objetos Um número p, 0 < p < 1 Um número d > 0 Dist = função distância considerada Saida Conjunto dos outliers de D, i.e., conjunto dos objetos O tais que o número máximo de objetos dentro de uma d- vizinhança de O é M = N (1-p)
21 Algoritmo Simples Determinar para cada objeto do BD sua vizinhança de tamanho d Determinar aqueles objetos cuja vizinhança tem um número de elementos M Estrutura de índice multidimensional Executa-se uma busca dentro de um raio d para cada objeto p de BD No momento em que M+1 objetos são encontrados, a busca termina e O é declarado não-outlier Os objetos que sobram são declarados outliers Problemas: construção da estrutura de índice e o tempo da busca, para cada objeto p do BD.
22 Algoritmo NL (Nested Loop) Evita a construção da estrutura de índice multidimensional Foco: diminuir o custo de acesso a disco Complexidade = O(kN 2 ) k = número de atributos do BD N = número de tuplas do BD
23 Idéia do algoritmo NL Bloco A Bloco A Bloco B Bloco C Bloco D Banco de Dados Buffer Para cada objeto t de A - Cont := 0 - Para cada objeto s de A se dist(t,s) d então Cont:= Cont se Cont M etiqueta-se t como não-outlier
24 Algoritmo NL Bloco A Bloco B Bloco A Bloco D B C Bloco C Bloco D Banco de Dados Buffer Para cada objeto t de A não etiquetado - Cont := 0 - Para cada objeto s de B se dist(t,s) d então Cont:= Cont se Cont > M etiqueta-se t como não-outlier 4 acessos ao banco de dados
25 Algoritmo NL Bloco A Bloco B Bloco A Bloco D Bloco C Bloco D Banco de Dados Buffer Ao final do loop são realizados 2 acessos ao banco de dados: 1 para carregar o bloco B no segundo array e outro para carregar o bloco C no segundo array No final do loop, tem-se o bloco C no segundo array.
26 Algoritmo NL Bloco A Bloco B Bloco D Bloco C Bloco C Buffer Bloco D Banco de Dados Ao final do loop são realizados 2 acessos ao banco de dados: 1 para carregar o bloco A no segundo array e outro para carregar o bloco B no segundo array No final do loop, tem-se o bloco B no segundo array.
27 Algoritmo NL Bloco A Bloco B Bloco C Bloco B Bloco C Buffer Bloco D Banco de Dados Ao final do loop são realizados 2 acessos ao banco de dados: 1 para carregar o bloco A no segundo array e outro para carregar o bloco D no segundo array No final do loop, tem-se o bloco D no segundo array.
28 Algoritmo NL Bloco A Bloco B Bloco B Bloco D Bloco C Buffer Bloco D Algoritmo pára D já apareceu no primeiro array Banco de Dados Total de acessos ao disco: 10 Cada acesso: um bloco é varrido Número de blocos = 4 Total de varridas = 10/4 = 2,5
29 Algoritmo NL - generalização Capacidade do buffer = K ( 0 < K < 1) (=fração do BD) No exemplo K = 0,5 Divide-se o buffer em duas partes B1 e B2 Divide-se o banco de dados em 2K blocos (no exemplo número de blocos = 2/0.5 = 4
30 Algoritmo FindAllOutsM baseado em células Hipóteses simplificadoras Dados bi-dimensionais (número de atributos = 2). Dados cabem na memória primária (tanto o BD quanto as células que serão construidas a partir dele) Generalização A idéia pode ser generalizada para dados com dimensões quaisquer. Uma extensão deste algoritmo para bancos de dados armazenados em disco : ver referência
31 Estrutura de Células Vizinhança de raio d d 2 C 2 = d 2 C = d 2 L = tamanho da célula = d 2 2
32 As vizinhanças L1 e L2 de cada objeto d Vizinhança L2(Cx,y) Célula Cx,y Objeto (x,y) Vizinhança L1(Cx,y)
33 Prop1: Máxima distância entre objetos de uma mesma célula Objetos pertencentes a uma mesma célula tem uma distância máxima de L 2 = d 2 = d L L 2 = d/2 L Logo : Toda d-vizinhança de um objeto em Cx,y contém a célula inteira Cx,y
34 Prop2: Máxima distância entre objetos de uma célula e objetos de sua vizinhança L1 Se p está na célula Cx,y e q está em L1(Cx,y) então dist(p,q) d d Logo : Toda d-vizinhança de um objeto em Cx,y contém a célula inteira Cx,y e sua vizinhança L1
35 Prop3: Mínima distância entre objetos de uma célula e objetos fora da vizinhança L2 = 3L = 3 d 2 2 = 1,06 d > d Logo, se q é um objeto dentro da d-vizinhança de um objeto p de Cx,y então dist(q,p) d portanto q deve estar dentro de L2 U L1 U Cx,y Logo a d-vizinhança de p está contida em L2 U L1 U Cx,y
36 Condição para objetos de uma célula não serem outliers Se número de objetos em Cx,y > M então nenhum objeto de Cx,y é um outlier De fato: Propriedade 1 Toda d-vizinhança de um objeto p em Cx,y contém toda a célula Cx,y Portanto contém mais de M elementos Portanto p não pode ser um outlier
37 Condição para objetos de uma célula não serem outliers Se o número de elementos em Cx,y junto com sua vizinhança L1 é maior do que M então nenhum objeto de Cx,y é um outlier De fato: Propriedade 2 Toda d-vizinhança de um objeto p em Cx,y contém toda a célula Cx,y e sua vizinhança L1 Portanto contém mais de M elementos Portanto p não pode ser um outlier
38 Condição para objetos de uma célula serem outliers Se o número de objetos em Cx,y U L1 U L2 é M então TODO objeto p de Cx,y é um outlier. De fato: a d-vizinhança de p está contida em Cx,y U L1 U L2 Portanto, a d-vizinhança de qualquer objeto de Cx,y não contém mais do que M objetos. Portanto, os objetos de Cx,y são todos outliers.
39 Algoritmo FindAllOutsM baseado em células Hipóteses simplificadoras Dados bi-dimensionais (número de atributos = 2). Dados cabem na memória primária (tanto o BD quanto as células que serão construidas a partir dele) Generalização A idéia pode ser generalizada para dados com dimensões quaisquer. Uma extensão deste algoritmo para bancos de dados armazenados em disco : ver referência
40 Algoritmo FindAllOutsM Seja m = número de células (calculado em função de d e do tamanho do BD ) 1. Para cada q = 1,..., m Ct-q := 0 % (vai contar o número de objetos em cada célula) 2. Para cada objeto p do BD 1. Associe a p uma célula Cq (a célula em que está inserido) 2. Ct-q:= Ct-q + 1 Após estes dois passos, todas as células estão construidas e sabemos o número de elementos de cada célula.
41 Algoritmo FindAllOutsM cont. Os passos seguintes vão determinar quais objetos p do BD são outliers, verificando-se somente: O número de elementos de sua célula C O número de elementos da vizinhança L1 de C O número de elementos da vizinhança L2 de C
42 Algoritmo FindAllOutsM cont. Idéia Células com mais de M elementos são etiquetadas de Vermelho Células na vizinhança L1 de uma célula vermelha são etiquetadas de Azul. Células coloridas não tem chance de conter outliers
43 Algoritmo FindAllOutsM cont. Idéia (continuação) Para cada célula branca, contamos o número de seus elementos e da vizinhança L1 Se for > M, não tem chance nenhuma de conter outliers é etiquetada de Azul Para cada célula branca restante, calcula-se o número de seus elementos junto com L1 e L2. Se for M : com certeza todos os elementos desta célula serão outliers.
44 Algoritmo FindAllOutsM cont. Idéia (continuação) Para as células brancas onde a soma total de seus elementos junto com as vizinhanças L1e L2 for > M, faz-se a checagem das vizinhanças para cada objeto da célula.
45 Algoritmo FindAllOutsM cont. 3. Para cada q=1,...,m se Ct-q > M etiqueta célula Cq Vermelha Todas as outras células são etiquetadas Branca 4. Para cada célula vermelha, verifica as células em sua vizinhança que são brancas. Etiqueteas de Azul
46 Algoritmo FindAllOutsM cont. 5. Para cada célula branca Cw Ct-w1:= Ct-w + Σ i ɛ L1(Cw) Ct-i Se Ct-w1 > M então Cw é etiquetada de Azul Se Ct-w1 M Ct-w2:= Ct-w1 + Σ i ɛ L2(Cw) Ct-i Se Ct-w2 M, marque todos os elementos de Cw como outliers Se Ct-w2 > M
47 Algoritmo FindAllOutsM cont. Se Ct-w2 > M Para cada p ɛ Cw Ct-p = Ct-w1 (pois toda d-vizinhança de p contém Cw U L1) Para cada q ɛ L2(Cw) : Se dist(p,q) d : Ct-p = Ct-p + 1 Se Ct-p > M, p é etiquetado como não-outlier Se Ct-p M, p é etiquetado como outlier
48 Caso k-dimensional Algoritmo FindAllOutsM é baseado nas propriedades 1, 2 e 3. Estas propriedades dão as condições suficientes para que um objeto seja classificado como outlier ou não-outlier. Precisamos determinar O valor de L (tamanho de cada célula) A espessura da vizinhança L2 para que as propriedades 1, 2 e 3 continuem valendo.
49 Caso k-dimensional No caso k =2 L = tamanho da célula = d 2 2 Diagonal de um hipercubo k-dimensional de lado L = L k Quanto deve valer L em função de d para que as propriedades 1 e 2 continuem valendo? L = d 2 k
50 Caso k-dimensional No caso bi-dimensional a espessura da vizinhança L2 é 2 Mostre que para que a propriedade 3 continue valendo (distância mínima entre um objeto de Cx,y e um objeto fora de L2 deve ser > d) é suficiente que a espessura da vizinhança L2 deve ser o primeiro inteiro maior ou igual a 2 k - 1
51 Complexidade O(c k + N) N = Tamanho do BD k = dimensão do BD Para dimensões pequenas ( 4), complexidade é razoável. Fixada a dimensão do BD, a complexidade é linear em função do tamanho do BD A versão do algoritmo que trata o caso em que os dados são armazenados em disco: cada página de dados não é acessada mais do que 3 vezes.
52 Complexidade Resultados empíricos mostram que Algoritmos baseados em estruturas de célula são superiores a outros algoritmos para k 4. Para k > 4, algoritmo NL é a melhor escolha.
53 Referências Análise comparativa de performance quando varia-se N, p, d, k Edwin M. Knorr, Raymond T. Ng: : Algorithms for Mining Distance-Based Outliers in Large Datasets. In Proc. 24th International Conference on Very Large Databases, VLDB 1998, New York, USA. D.Hawkins: Identification of Outliers. Chapman and Hall, London, 1980.
1 Uma definição de Outlier baseada em distância
Curso de Data Mining Sandra de Amo Outliers Estas notas tratam do problema de deteção de outliers, isto é, exceções, em grandes volumes de dados. A identificação de outliers pode levar à descoberta de
Leia maisSumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA
Sumário : Merging of Adaptive Finite Intervals Elaine Ribeiro de Faria Análise de Agrupamento de Dados ICMC-USP Dezembro 2010 Introdução Visão Geral e Objetivos do Algoritmo Grid Adaptativo Algoritmo Algoritmo
Leia maisBanco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas
Processamento e Otimização de Consultas Banco de Dados Motivação Consulta pode ter sua resposta computada por uma variedade de métodos (geralmente) Usuário (programador) sugere uma estratégia para achar
Leia maisAlgoritmo CLIQUE (Clustering In QUEst)
Algoritmo CLIQUE (Clustering In QUEst) Marcelo Camacho de Souza Nº USP: 3199616 Roteiro Algoritmo CLIQUE Exemplo Prático Complexidade Computacional Vantagens e Desvantagens Autores (IBM Almaden Research
Leia maisProcessamento de Produtos ( X )
Processamento de Produtos ( X ) Alternativas e suas estimativas de custo A: laço aninhado ( nested-loop ) A: laço aninhado com índice ( indexed nestedloop ) A: merge-junção ( balanced-line ou sortmerge
Leia maisOrdenação e Busca em Arquivos
Ordenação e Busca em Arquivos Cristina D. A. Ciferri Thiago A. S. Pardo Leandro C. Cintra M.C.F. de Oliveira Moacir Ponti Jr. Exemplos de Busca Registros de tamanho fixo M A R I A R U A b 1 S A O b C A
Leia maisPARTE 2- MEDIDAS DE TENDÊNCIA CENTRAL VERSÃO: JANEIRO DE 2017
COMUNICAÇÃO SOCIAL E MARKETING CENTRO DE CIÊNCIAS SOCIAIS APLICADAS UNIVERSIDADE CATÓLICA DE PETRÓPOLIS ESTATÍSTICA APLICADA PARA PESQUISA EM MARKETING E COMUNICAÇÃO (BASEADO NO MATERIAL DE AULA DO PROFESSOR
Leia maisMétodos Não Paramétricos
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Métodos não Paramétricos Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Métodos Não Paramétricos Introduzir
Leia maisANÁLISE E PROJETO DE BANCO DE DADOS
ANÁLISE E PROJETO DE BANCO DE DADOS ESTRUTURAS E INDEXAÇÃO FELIPE G. TORRES ARQUIVOS Um arquivo é uma sequência de registros. Em muitos casos do mesmo tipo. Se cada registro no arquivo tem exatamente o
Leia maisStela Adami Vayego DEST/UFPR
Resumo 4 - Resumo dos dados numéricos por meio de números (continuação) 4. A importância do desvio padrão Para se entender a importância que o desvio padrão representa na análise de dados estatísticos,
Leia maisANÁLISE DE DADOS: DÉCIMA LISTA DE EXERCÍCIOS
ANÁLISE DE DADOS: DÉCIMA LISTA DE EXERCÍCIOS Humberto José Bortolossi AMPLITUDES E AMPLITUDES INTERQUARTÍLICAS [47] Para o conjunto de dados (3, 5, 7, 4, 8, 2, 8, 3, 6), (a) calcule sua amplitude e (b)
Leia maisUnidade II. Organização de Computadores. Prof. Renato Lellis
Unidade II Organização de Computadores Prof. Renato Lellis Ciclo de Execução da Instrução 1. Trazer a próxima instrução da memória até o registrador 2. Alterar o contador de programa para indicar a próxima
Leia maisProcessamento de imagem a cores
A cor é um poderoso descritor que frequentemente simplifica a identificação e extracção de objectos de uma cena Os humanos podem discernir milhares de cores, mas apenas duas dezenas de cinzentos O processamento
Leia maisUso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas
usuário processador de E/S gerador de respostas Uso de Índices na Otimização e Processamento de Consultas Profa. Dra. Cristina Dutra de Aguiar Ciferri analisador controle de autorização verificador de
Leia maisResolução e Critérios de Correção U.C Sistemas de Gestão de Bases de Dados. 19 de fevereiro de 2013 INSTRUÇÕES
Resolução e Critérios de Correção U.C. 21103 Sistemas de Gestão de Bases de Dados 19 de fevereiro de 2013 Ministério da Educação e Ciência p-fólio INSTRUÇÕES O tempo de duração da prova de p-fólio é de
Leia maisProcessamento da Consulta. Processamento da Consulta
Processamento da Consulta Equipe 05 Adriano Vasconcelos Denise Glaucia Jose Maria Marcigleicy Processamento da Consulta Refere-se ao conjunto de atividades envolvidas na extra de dados de um banco de dados.
Leia mais5 Resultados Dados artificiais Convergência à mediana e à média com dados artificiais
5 Resultados Os resultados da aplicação do método proposto estão estruturados de forma a evidenciar: 1. A convergência numérica do algoritmo proposto nesta tese para a mediana e para a média de grupos
Leia mais3 Estatística p/ Descrição, Exploração e Comparação de Dados (Triola 10 a ed.)
3 Estatística p/ Descrição, Exploração e Comparação de Dados (Triola 10 a ed.) C V D O T Centro Variação Distribuição Outliers Tempo Valor representativo ou médio Quanto os valores variam entre eles Natureza
Leia mais1 Classificadores Bayseanos Simples
Aula 12 - Classificadores Bayseanos Curso de Data Mining Sandra de Amo Classificadores Bayseanos são classificadores estatísticos que classificam um objeto numa determinada classe baseando-se na probabilidade
Leia maisModelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
Leia maisTópicos em Gestão da Informação II
Tópicos em Gestão da Informação II Aula 04 Medidas de posição relativa Prof. Dalton Martins dmartins@gmail.com Gestão da Informação Faculdade de Informação e Comunicação Universidade Federal de Goiás Determinando
Leia maisExercícios: Vetores e Matrizes
Universidade Federal de Uberlândia - UFU Faculdade de Computação - FACOM Lista de exercícios de programação em linguagem C Exercícios: Vetores e Matrizes 1 Vetores 1. Faça um programa que possua um vetor
Leia maisRevisão de estatística descritiva
Revisão de estatística descritiva Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais 1 Estatística descritiva É utilizada para resumir, descrever e organizar os dados coletados pelo pesquisador.
Leia maisFUNDAMENTOS DE ARQUITETURAS DE COMPUTADORES MEMÓRIA CACHE CAPÍTULO 5. Cristina Boeres
FUNDAMENTOS DE ARQUITETURAS DE COMPUTADORES MEMÓRIA CACHE CAPÍTULO 5 Cristina Boeres Introdução! Diferença de velocidade entre Processador e MP O processador executa uma operação rapidamente e fica em
Leia maisEA075 Memória virtual
EA075 Memória virtual Faculdade de Engenharia Elétrica e de Computação (FEEC) Universidade Estadual de Campinas (UNICAMP) Prof. Levy Boccato 1 Motivação Problema: programas cujos tamanhos ultrapassavam
Leia maisCA II Variável Composta
exatasfepi.com.br CA II Variável Composta André Luís Duarte O que adquire entendimento ama a sua alma; o que cultiva a inteligência achará o bem. Provérbios 19:8 Variáveis Compostas Homogêneas Unidimensionais
Leia maisAlgoritmos e Estruturas de Dados II. Ordenação Externa II. Ordenação Externa. Ordenação Externa. Ordenação Externa
Algoritmos e Estruturas de Dados II Ordenação Externa II Prof. Ricardo J. G. B. Campello As análises dos métodos de ordenação tradicionais se preocupam basicamente com o tempo de execução dos algoritmos
Leia maisINF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza
INF2608 - Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza Trabalho 02 Visualização de Imagens Sísmicas e Detecção Automática de Horizonte Resumo Este trabalho
Leia maisSCC0173 Mineração de Dados Biológicos
SCC073 Mineração de Dados Biológicos Análise Exploratória de Dados Parte A: Revisão de Estatística Descritiva Elementar Prof. Ricardo J. G. B. Campello SCC / ICMC / USP Tópicos Análise Exploratória de
Leia maisRevisão de estatística descritiva
Revisão de estatística descritiva Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais 1 Apresentação de grupos: dia 19/02 (quinta) Definir e eplicar sucintamente o funcionamento das seguintes
Leia maisRaciocínio Baseado em Casos. Baseado no material do prof. Luis Otavio Alvares
INE5430 Inteligência Artificial Tópico: Raciocínio Baseado em Casos Baseado no material do prof. Luis Otavio Alvares (C) - Prof. Mauro Roisenberg 18/09/2010 1 Raciocínio Baseado em Casos CBR (Case-Based
Leia maisProcessamento Cosequencial: Ordenação Interna e Externa. Thiago A. S. Pardo Leandro C. Cintra M.C.F. de Oliveira Cristina D. A.
Processamento Cosequencial: Ordenação Interna e Externa Thiago A. S. Pardo Leandro C. Cintra M.C.F. de Oliveira Cristina D. A. Ciferri Ordenação em RAM Situação: arquivo cabe em RAM Etapas leitura de todos
Leia maisBusca em Regiões Ortogonais
Busca em Regiões Ortogonais Claudio Esperança Paulo Roma 1 O problema O problema O problema consiste em recuperar objetos tipicamente pontos que intersectam ou estão contidos numa região simples do espaço
Leia maisAprendizado por Instâncias Janelas de Parzen & Knn
Universidade Federal do Paraná (UFPR) Especialização em Engenharia Industrial 4.0 Aprendizado por Instâncias Janelas de Parzen & Knn David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Aprendizado por
Leia maisPARTE 2- MEDIDAS DE TENDÊNCIA CENTRAL VERSÃO: MARÇO DE 2017
COMUNICAÇÃO SOCIAL E MARKETING CENTRO DE CIÊNCIAS SOCIAIS APLICADAS UNIVERSIDADE CATÓLICA DE PETRÓPOLIS ESTATÍSTICA APLICADA PARA PESQUISA EM MARKETING E COMUNICAÇÃO (BASEADO NO MATERIAL DE AULA DO PROFESSOR
Leia maisMAE Introdução à Probabilidade e Estatística I 2 o semestre de 2017 Gabarito da Lista de Exercícios 2 - Estatística Descritiva II - CASA
MAE0219 - Introdução à Probabilidade e Estatística I 2 o semestre de 2017 Gabarito da Lista de Exercícios 2 - Estatística Descritiva II - CASA Exercício 1 (a) A variável Frequência Cardíaca é do tipo quantitativa
Leia maisAULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO
UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MEAU- MESTRADO EM ENGENHARIA AMBIENTAL URBANA ENG C 18 Métodos de Pesquisa Quantitativos e Qualitativos AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO
Leia maisProbabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16)
Probabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16) Resumo: Veremos nesta aula tabelas, cálculos de porcentagem e gráficos; amostras e tipo de amostragem; Medidas de tendência central e medidas
Leia maisEstatística
Estatística 1 2016.2 Sumário Capítulo 1 Conceitos Básicos... 3 MEDIDAS DE POSIÇÃO... 3 MEDIDAS DE DISPERSÃO... 5 EXERCÍCIOS CAPÍTULO 1... 8 Capítulo 2 Outliers e Padronização... 12 VALOR PADRONIZADO (Z)...
Leia maisEstatística aplicada a ensaios clínicos
Estatística aplicada a ensaios clínicos RAL 838 Luís Vicente Garcia lvgarcia@fmrp.usp.br Faculdade de Medicina de Ribeirão Preto Estatística aplicada a ensaios clínicos aula 3 características POPULAÇÃO
Leia maisMatrizes esparsas: definição
Matrizes esparsas: definição o objetivo é mostrar os métodos de armazenamento e manipulação de matrizes esparsas esparsidade de uma matriz é a relação entre o número de elementos nulos de uma matriz e
Leia maisAula 10: Introdução a Vetores e Matrizes
Aula 10: Introdução a Vetores e Matrizes Fernanda Passos Universidade Federal Fluminense Programação de Computadores IV Fernanda Passos (UFF) Vetores e Matrizes Programação de Computadores IV 1 / 50 Agenda
Leia maisSumário. Definição do Plano de Execução
Sumário 1 Introdução ao Processamento de Consultas 2 Otimização de Consultas 3 Plano de Execução de Consultas Introdução a Transações 5 Recuperação de Falhas 6 Controle de Concorrência 7 Fundamentos de
Leia mais1 ō Trabalho Prático de Programação Imperativa 2001/2002 Propostas de trabalho
1 ō Trabalho Prático de Programação Imperativa 2001/2002 Propostas de trabalho 21 de Novembro de 2001 1 Cartões mágicos Considerando os cartões abaixo é possível adivinhar um número de 1 a 63. Para tal
Leia maisMétodos para Classificação: - Naïve Bayes.
Métodos para Classificação: - 1R; - Naïve Bayes. Visão Geral: Simplicidade em primeiro lugar: 1R; Naïve Bayes. 2 Classificação: Tarefa: Dado um conjunto de exemplos préclassificados, construir um modelo
Leia mais3 a Lista de Exercícios
Universidade Federal de Santa Catarina Departamento de Informática e Estatística Bacharelado em Ciências da Computação INE 5406 - Sistemas Digitais - semestre 2010/2 Prof. José Luís Güntzel guntzel@inf.ufsc.br
Leia maisEstatística Descritiva
C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística
Leia maisaula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES
ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES 18 aula META Fazer com que o aluno seja capaz de realizar os procedimentos existentes para a avaliação da qualidade dos ajustes aos modelos. OBJETIVOS Ao final
Leia maisVariáveis e Memória. Revisão. Conceitos. Operações sobre a memória
Variáveis e Memória Revisão Estudamos, na Introdução, que os programas de computador implementam algoritmos, os quais manipulam um conjunto de dados para produzir um resultado. O algoritmo é um conjunto
Leia maisEstatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:
6 ESQUEMA DO CAPÍTULO Estatística Descritiva 6.1 IMPORTÂNCIA DO SUMÁRIO E APRESENTAÇÃO DE DADOS 6.2 DIAGRAMA DE RAMO E FOLHAS 6.3 DISTRIBUIÇÕES DE FREQUÊNCIA E HISTOGRAMAS 6.4 DIAGRAMA DE CAIXA 6.5 GRÁFICOS
Leia maisInstituto de Matemática e Estatística, UFF Março de 2011
,,,,, Instituto de Matemática e Estatística, UFF Março de 2011 ,, Sumário,,. finitos,. conjunto: por lista, por propriedade.. Igualdade,. Propriedades básicas.. ,, Christos Papadimitriou, Autor dos livros
Leia maisEstruturas de Dados Estáticas Cont.
Estruturas de Dados Estáticas 1 Estruturas de Dados Estáticas Cont. Matriz (arrays multidimensionais) Uma matriz é uma variável composta homogênea bidimensional formada por uma sequência de variáveis,
Leia maisModelo Relacional. Josino Rodrigues
Modelo Relacional Josino Rodrigues Modelo Relacional Chave Primária Atributos PILOTO Num-cad Nome CPF Endereço 0101 João 123456 Recife Tuplas 0035 José 234567 São Paulo... 0987 Pedro 567890 Recife 2 Chave
Leia maisResolução de Problemas de Busca
Resolução de Problemas de Busca 1 Ao final desta aula a gente deve Compreender o que é um problema de busca em IA Ser capaz de formulá-lo Conhecer algumas aplicações Entender como buscar a solução do problema
Leia maisANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS Nível de significância No processo de tomada de decisão sobre uma das hipóteses levantadas num estudo, deve-se antes de tudo definir
Leia maisConceitos básicos Revisão de estatística descritiva
Conceitos básicos Revisão de estatística descritiva Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais Alguns conceitos básicos População: é o conjunto de todos os elementos ou resultados
Leia maisEstatística Aplicada a Negócios
Prof. Dr. Gilberto de Andrade Martins aula 02 1 Estatística Descritiva Aula 2 Ao final desta aula você : - Conhecerá a Estatística Descritiva. - Saberá quais são as principais medidas de dispersão. 2 Medidas
Leia maisInstituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI
1 Sumário 2 Introdução Técnicas de ESDA Matrizes de Proximidade Espacial Média Espacial Móvel (m i ) Indicadores Globais de Autocorrelação Espacial Índices Globais de Moran (I), Geary (C) e Getis e Ord
Leia maisEstatística Descritiva
Estatística Descritiva ESQUEMA DO CAPÍTULO 6.1 IMPORTÂNCIA DO SUMÁRIO E APRESENTAÇÃO DE DADOS 6.2 DIAGRAMA DE RAMO E FOLHAS 6.3 DISTRIBUIÇÕES DE FREQUÊNCIA E HISTOGRAMAS 6.4 DIAGRAMA DE CAIXA 6.5 GRÁFICOS
Leia maisEstatística Descritiva
Estatística Descritiva ESQUEMA DO CAPÍTULO 6.1 IMPORTÂNCIA DO SUMÁRIO E APRESENTAÇÃO DE DADOS 6.2 DIAGRAMA DE RAMO E FOLHAS 6.3 DISTRIBUIÇÕES DE FREQUÊNCIA E HISTOGRAMAS 6.4 DIAGRAMA DE CAIXA 6.5 GRÁFICOS
Leia maisAula 7 Medidas de Distância. Profa. Elaine Faria UFU
Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André
Leia maisSistemas Operacionais
Introdução Sistemas Operacionais Paginação por demanda ção Trabalho sob a Licença Atribuição-SemDerivações-SemDerivados 3. Brasil Creative Commons. Para visualizar uma cópia desta licença, visite http://creativecommons.org/licenses/by-nc-nd/3./br/
Leia maisCentro Universitário Franciscano Curso de Sistemas de Informação Disciplina de algoritmos e programação II. Ponteiros
Centro Universitário Franciscano Curso de Sistemas de Informação Disciplina de algoritmos e programação II Ponteiros Profa.: Simone Ceolin Slides (Prof.Tiago Rios da Rocha) Primeiro Semestre 2011 Sumário
Leia maisBUSCA EM ARRAYS. Prof. André Backes. Ato de procurar por um elemento em um conjunto de dados
BUSCA EM ARRAYS Prof. André Backes Definição 2 Ato de procurar por um elemento em um conjunto de dados Recuperação de dados armazenados em um repositório ou base de dados A operação de busca visa responder
Leia maisMotivação. VA n-dimensional. Distribuições Multivariadas VADB. Em muitas situações precisamos
Motivação Em muitas situações precisamos Prof. Lorí Viali, Dr. viali@pucrs.br lidar com duas ou mais variáveis aleatórias ao mesmo tempo. Por exemplo o comprimento e a largura de uma determinada peça.
Leia maisAmostragem Aleatória e Descrição de Dados - parte I
Amostragem Aleatória e Descrição de Dados - parte I 2012/02 1 Amostra e População 2 3 4 Objetivos Ao final deste capítulo você deve ser capaz de: Calcular e interpretar as seguintes medidas de uma amostra:
Leia maisUm espaço métrico incompleto 1
Universidade Estadual de Maringá - Departamento de Matemática Cálculo Diferencial e Integral: um KIT de Sobrevivência anos c Publicação Eletrônica do KIT http://www.dma.uem.br/kit Um espaço métrico incompleto
Leia maisDetecção de falsas correspondências em pares de imagens estereoscópicas utilizando a transformação projetiva no plano e o algoritmo RANSAC
Detecção de falsas correspondências em pares de imagens estereoscópicas utilizando a transformação projetiva no plano e o algoritmo RANSAC André Caceres Carrilho Mauricio Galo Renato César dos Santos Curitiba,
Leia maisDepartamento de Ciências de Computação SCC Instituto de Ciências Matemáticas e de Computação ICMC Universidade de São Paulo USP
Exercício 1 a) Em PL/SQL, crie uma função chamada converte_data que recebe uma data como parâmetro de entrada e vai retornar como seu resultado essa data no seguinte formato: 22 de abril de 1500. b) Na
Leia maisUnidade III Medidas Descritivas
Unidade III Medidas Descritivas Autor: Anderson Garcia Silveira Anderson Garcia Silveira Na aula anterior... Medidas de Tendência Central 2 Na aula anterior... Medidas de Tendência Central Moda Mediana
Leia maisSeção 2.3 Uma Variável Quantitativa: Medidas de Dispersão
Seção 2.3 Uma Variável Quantitativa: Medidas de Dispersão Sumário Uma variável quantitativa: Desvio padrão Escore z Resumo dos cinco números Amplitude e AIQ Percentis FilmesHollywood2011.xls Desvio Padrão
Leia maisIntrodução à Bioestatística
Instituto Nacional de Cardiologia December 1, 2015 1 As medidas de posição mais utilizadas são: Amplitude Desvio padrão Variância Coeciente de variação Erro padrão da média Intervalo interquartílico Amplitude
Leia maisPARTE 1. Profa. Dra. Alessandra de Ávila Montini
PARTE 1 Programa de Pós-graduação do Departamento de Administração PPGA Agenda 2 14:00 15:30 Fundamentação Teórica 15:30 15:45 Coffee break 15:45 17:00 Fundamentação Teórica 17:00 18:00 Exercícios de Fixação
Leia maisBuscas Informadas ou Heurísticas - Parte II
Buscas Informadas ou Heurísticas - Parte II Prof. Cedric Luiz de Carvalho Instituto de Informática - UFG Graduação em Ciência da Computação / 2006 FUNÇÕES HEURÍSTICAS - 1/7 FUNÇÕES HEURÍSTICAS - 2/7 Solução
Leia maisResolução e Critérios de Correção U.C Sistemas de Gestão de Bases de Dados. 13 de fevereiro de 2014 INSTRUÇÕES
Resolução e Critérios de Correção U.C. 21103 Sistemas de Gestão de Bases de Dados 13 de fevereiro de 2014 Ministério da Educação e Ciência p-fólio INSTRUÇÕES O tempo de duração da prova de p-fólio é de
Leia maisClassificação e Pesquisa de Dados. Aula 23 Organização de Arquivos: Arquivos Indexados, Diretos e Arquivos Invertidos
Classificação e Pesquisa de Dados Aula 23 Organização de Arquivos: Arquivos Indexados, Diretos e Arquivos Invertidos UFRGS INF1124 Arquivo indexado - AI Indicação de uso Baixa freqüência de acessos seqüenciais
Leia maisProcessamento e Otimização de Consultas. Msc. Simone Dominico Orientador: Dr. Eduardo Cunha de Almeida PPGINF - UFPR
Processamento e Otimização de Consultas Msc. Simone Dominico Orientador: Dr. Eduardo Cunha de Almeida PPGINF - UFPR Conteúdo Processamento de consultas; Introdução Etapas no Processamento de Consultas
Leia maisCapítulo 7 Matriz. Roteiro
Capítulo 7 Matriz Licenciatura em Computação Fundamentos de Lógica para Programação Prof. Nícolas Trigo nicolas.trigo@ifsertao-pe.edu.br http://professor.ifsertao-pe.edu.br/nicolas.trigo Roteiro Definição
Leia maisMétodos Empíricos de Pesquisa I. } Elementos Principais do Trabalho } Descrição dos dados: } Medidas de posição, dispersão e assimetria
Métodos Empíricos de Pesquisa I } Elementos Principais do Trabalho } Descrição dos dados: } Medidas de posição, dispersão e assimetria 1 Trabalho: Principais Elementos } Como é de conhecimento geral, espera-se
Leia maisCI208 - Programação de Computadores. Aula 24: Arrays. Prof. MSc. Diego Roberto Antunes
CI208 - Programação de Computadores Aula 24: Arrays Prof. MSc. Diego Roberto Antunes diegor@inf.ufpr.br www.inf.ufpr.br/diegor Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Informática
Leia maisFernando Nogueira Simulação 1
Simulação a Eventos Discretos Fernando Nogueira Simulação Introdução Simulação não é uma técnica de otimização: estima-se medidas de performance de um sistema modelado. Modelos Contínuos X Modelos Discretos
Leia maisMotivação. VA n-dimensional. Distribuições Multivariadas VADB
Motivação Em muitas situações precisamos lidar com duas ou mais variáveis aleatórias ao mesmo tempo. Por exemplo o comprimento e a largura de uma Prof. Lorí Viali, Dr. viali@mat.ufgrs.br http://www.mat.ufrgsbr/~viali/
Leia maisIntrodução à Programação de Computadores Fabricação Mecânica
Introdução à Programação de Computadores Fabricação Mecânica Edilson Hipolito da Silva edilson.hipolito@ifsc.edu.br - http://www.hipolito.info Aula 06 - Introdução a algoritmos Roteiro Algoritmos Formas
Leia maisCCO 016 / COM 110 Fundamentos de Programação
CCO 016 / COM 110 Fundamentos de Programação Prof. Roberto Affonso da Costa Junior Universidade Federal de Itajubá AULA 12 Agregados Homogêneos Variáveis Indexadas matrizes Variáveis Indexadas bi dimensionais
Leia maisde Bases de Dados Exame 1
Ano lectivo 2011/2012 2 o semestre Administração e Optimização de Bases de Dados Exame 1 Regras O exame tem a duração de 2 horas. O exame é individual e com consulta. Poderá consultar o livro, slides da
Leia maisLógica de Programação e Algoritmos
Lógica de Programação e Algoritmos com exemplos na linguagem JAVA Cap. 4 Estruturas de Dados Homogêneas Vetores e Matrizes Conteúdo: 4.1 Variáveis compostas homogêneas... 55 4.2 Vetores... 56 Exercícios
Leia maisIND 1115 Inferência Estatística Aula 7
Conteúdo IND 1115 Inferência Estatística Aula 7 Setembro 2004 Por que a revisão de probabilidades até agora? A importância da distribuição Normal O Mônica Barros mbarros.com 1 mbarros.com 2 Por que uma
Leia maisDistribuição t de Student
Distribuição t de Student Introdução Quando o desvio padrão da população não é conhecido (o que é o caso, geralmente), usase o desvio padrão da amostra como estimativa, substituindo-se σ x por S x nas
Leia maisMétodos de Acesso Métrico
Métodos de Acesso Métrico http://www.icmc.usp.br/img/novafaixa.png Arthur Emanuel de O. Carosia Profa. Dra. Cristina Dutra de Aguiar Ciferri Índice Conceitos Básicos Métodos de Acesso Onion-tree 2 Índice
Leia maisBacharelado em Ciência da Computação UFU Disciplina GBC053 Gerência de Banco de Dados Profa. Sandra de Amo
Bacharelado em Ciência da Computação UFU Disciplina GBC053 Gerência de Banco de Dados Profa. Sandra de Amo Solução dos Exercicios Aula 26 Cálculo de Custos de Planos de Execução de Consultas R(sid,bid,day,rname)
Leia maisAlgoritmos II prof. Daniel Oliveira
Algoritmos II prof. Daniel Oliveira Revisar conceitos abordados na disciplina anterior Abordar conceitos vistos com a linguagem C# Variáveis e listas Expressões Estruturas de controle do tipo condicional
Leia maisPROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano
PROBABILIDADE E ESTATÍSTICA Profa. Dra. Yara de Souza Tadano yaratadano@utfpr.edu.br Aula 4 09/2014 Estatística Descritiva Medidas de Variação Probabilidade e Estatística 3/42 Medidas de Variação Vamos
Leia maisConjuntos Numéricos Aula 6. Conjuntos Numéricos. Armando Caputi
Conjuntos Numéricos Aula 6 Conjuntos Numéricos E-mail: armando.caputi@ufabc.edu.br Página: http://professor.ufabc.edu.br/~armando.caputi Sala 549-2 - Bloco A - Campus Santo André Conjuntos Numéricos Aula
Leia maisconteúdos. bases de dados, SGBD e aplicações. conceitos. modelo relacional (DER) conceitos
conceitos 1 conteúdos A necessidade de processamento de DADOS em tempo útil de forma a recolher INFORMAÇÃO relevante, foi sempre uma necessidade sentida pelo Homem. conceitos modelo relacional (DER) 04-01-2012
Leia maisSistemas de Bases de Dados 1.º teste (com consulta limitada: 2 folhas identificadas) - Duração: 2 horas
DI-FCT/UNL 28 de abril de 2018 Sistemas de Bases de Dados 1.º teste (com consulta limitada: 2 folhas identificadas) - Duração: 2 horas N. º : Nome: Grupo 1 (7 valores) 1 a) Para cada uma das seguintes
Leia maisUniversidade Federal de Sergipe Departamento de Matemática. Imagem* Profª. Maria Andrade. *Parte desta apresentação foi do Prof. Thales Vieira.
Universidade Federal de Sergipe Departamento de Matemática Imagem* Profª. Maria Andrade *Parte desta apresentação foi do Prof. Thales Vieira. 2016 O que é uma imagem digital? Imagem no universo físico
Leia mais2 - Gráfico de Caixa - BoxPlot
3.1 - BOXPLOT 2 - Gráfico de Caixa - BoxPlot O Boxplot é um gráfico utilizado para avaliar a distribuição empírica dos dados. É formado pelo primeiro e terceiro quartil e pela mediana. As hastes inferiores
Leia maisLINGUAGEM C: ARRAY: VETORES E MATRIZES
LINGUAGEM C: ARRAY: VETORES E MATRIZES Prof. André Backes POR QUE USAR ARRAY? As variáveis declaradas até agora são capazes de armazenar um único valor por vez. Sempre que tentamos armazenar um novo valor
Leia maisAlgoritmos e Estruturas de Dados II. Trabalho Prático 4
Algoritmos e Estruturas de Dados II Trabalho Prático 4 Entrega: 23/11/09 Devolução: 10/12/09 (sem possibilidade de entrega com atraso) Trabalho em dupla Prof. Jussara Marques de Almeida Problema 1: Construção
Leia maisTeoria dos Grafos. Árvores Geradoras
Teoria dos Grafos Valeriano A. de Oliveira Socorro Rangel Silvio A. de Araujo Departamento de Matemática Aplicada antunes@ibilce.unesp.br, socorro@ibilce.unesp.br, saraujo@ibilce.unesp.br Preparado a partir
Leia mais