Mineração de Dados em Biologia Molecular

Documentos relacionados
SCC0173 Mineração de Dados Biológicos

Stela Adami Vayego DEST/UFPR

MEDIDAS DESCRITIVAS DE POSIÇÃO, TENDÊNCIA CENTRAL E VARIABILIDADE

População x Amostra. statística descritiva X inferência estatística. Revisão de Estatística e Probabilidade

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

Sumário. 2 Índice Remissivo 19

Métodos de Classificação dos Objetos Segmentados(IAR) Vizinho Próximo Lógica Fuzzy

MEDIDAS DE TENDÊNCIA CENTRAL E MEDIDAS DE DISPERSÃO Í N D I C E

Mestrado Integrado em Engenharia Civil. Disciplina: TRANSPORTES. Sessão Prática 4: Amostragem

Avaliação de Desempenho de Sistemas Discretos

Capítulo 5- Introdução à Inferência estatística.

Distribuições Amostrais

Cap. 4 - Estimação por Intervalo

Estatística Aplicada Medidas Resumo Apostila 4 Prof. Fábio Hipólito Aluno(a):

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

Estudando complexidade de algoritmos

A Inferência Estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra.

Amostras Aleatórias e Distribuições Amostrais. Probabilidade e Estatística: afinal, qual é a diferença?

1 Distribuições Amostrais

10 - Medidas de Variabilidade ou de Dispersão

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPTO. DE ESTATÍSTICA LISTA 1-ESTATÍSTICA II (CE003)

3.4.2 Cálculo da moda para dados tabulados. 3.4 Moda Cálculo da moda para uma lista Cálculo da moda para distribuição de freqüências

SEEC UNIVERSIDADE DO ESTADO DO RIO GRANDE DO NORTE UERN FACULDADE DE CIÊNCIAS EXATAS E NATURAIS FANAT DEPARTAMENTO DE CIÊNCIAS BIOLÓGICAS DECB

Virgílio A. F. Almeida DCC-UFMG 1/2005

Regressão linear simples

DESIGUALDADES, LEIS LIMITE E TEOREMA DO LIMITE CENTRAL. todas as repetições). Então, para todo o número positivo ξ, teremos:

07/11/2015. Conhecendo o SPSS. Conhecendo o SPSS. Desvendando a Estatística e o uso do SPSS. Como obter? Informação

Análise de Algoritmos. Análise de Algoritmos. Análise de Algoritmos. Análise de Algoritmos. Análise de Algoritmos. Análise de Algoritmos

ENGENHARIA DA QUALIDADE A ENG AULA 6 CARTAS DE CONTROLE PARA ATRIBUTOS

Prova Escrita de MATEMÁTICA A - 12o Ano a Fase

CONCEITOS BÁSICOS E PRINCÍPIOS DE ESTATÍSTICA

Fundamentos de Análise Matemática Profª Ana Paula. Números reais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança

1- Resolução de Sistemas Lineares.

Métodos de Amostragem

Emerson Marcos Furtado

PROVA DE ESTATÍSTICA SELEÇÃO MESTRADO/UFMG 2005

Objetivo. Estimar a média µ de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra.

Revisando... Distribuição Amostral da Média

Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança

Estatística Descritiva 1

Métodos Quantitativos Aplicados

CORRELAÇÃO Aqui me tens de regresso

Disciplina: MATEMÁTICA Turma: 3º Ano Professor (a) : CÉSAR LOPES DE ASSIS INTRODUÇÃO A ESTATÍSTICA. Organização de dados

ESTATÍSTICA E PROBABILIDADES

CAP. I ERROS EM CÁLCULO NUMÉRICO

A finalidade de uma equação de regressão seria estimar valores de uma variável, com base em valores conhecidos da outra.

MEDIDAS RESUMO EM TABELAS DE FREQUÊNCIA

Probabilidade e Estatística Ciência da Computação. Objetivos. Problema. Parte 5 Introdução à Estatística

ESTIMAÇÃO DA PROPORÇÃO POPULACIONAL p

3ª Lista de Exercícios de Programação I

Cap. VI Histogramas e Curvas de Distribuição

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Teoria da amostragem

Probabilidade II Aula 9

DETERMINANDO A SIGNIFICÂNCIA ESTATÍSTICA PARA AS DIFERENÇAS ENTRE MÉDIAS

ESTATÍSTICA EXPLORATÓRIA

S É R I E : E s t a t í s t i c a B á s i c a - E n f o q u e : S o c i a i s E S T A T Í S T I C A D E S C R I T I V A GENERALIDADES...

A letra x representa números reais, portanto

Universidade São Judas Tadeu Faculdade de Tecnologia e Ciências Exatas Laboratório de Física e Química

Implementação de Planilha de Cálculos Simplificada

Banco de Dados I Parte II: Abordagem Entidade-Relacionamento

Estimação por Intervalo (Intervalos de Confiança):

MAE Introdução à Probabilidade e Estatística II Resolução Lista 1

b) Fabrico de peças cilíndricas Capítulo 5 - Distribuições conjuntas de probabilidades e complementos X - comprimento da peça Y - diâmetro da peça

AEP FISCAL ESTATÍSTICA

Escola de Engenharia de Lorena EEL USP Departamento de Engenharia Química DEQUI Disciplina: Normalização e Controle da Qualidade NCQ

Probabilidade II Aula 12

ESTIMAÇÃO DE PARÂMETROS

Variáveis Aleatórias e Distribuições de Probabilidade

MODELOS PROBABILÍSTICOS DISCRETOS (BINOMIAL e POISSON)

ESTATÍSTICA. para Psicologia Parte 2. 01/06/2011 Bertolo 1

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Técnicas de Reamostragem

INFERÊNCIA. Fazer inferência (ou inferir) = tirar conclusões

Distribuição Amostral da Média: Exemplos

AMOSTRAGEM ALEATÓRIA DISTRIBUIÇÕES POR AMOSTRAGEM

Intervalos de Confiança

Intervalos Estatísticos para uma única Amostra - parte II

TP010 ENGENHARIA DA QUALIDADE 1. VARIÁVEIS, DESCRIÇÃO E DISTRIBUIÇÕES DE PROBABILIDADE.

Uma amostra aleatória simples de n elementos é selecionada a partir da população. Calcula-se o valor da média a partir da amostra

Revisões de Estatística. Estatística Descritiva. Conceitos básicos. Dados estatísticos. Exemplo 2. Exemplo 1

Capítulo I Séries Numéricas

Exame MACS- Inferência-Intervalos.

Sistematização de dados quantitativos

1.1. Ordem e Precedência dos Cálculos 1) = Capítulo 1

PROVA 1 27/10/ Os dados apresentados na seqüência mostram os resultados de colesterol

4 Teoria da Probabilidade

Uma Proposta de Infra-estrutura de Medições para o Tráfego do Backbone da RNP2

P.M.S. Oliveira, C.S. Munita

DFS Série Discreta de Fourier DFT Transformada Discreta de Fourier Convolução Circular

Capítulo 39: Mais Ondas de Matéria

Sucessão ou Sequência. Sucessão ou seqüência é todo conjunto que consideramos os elementos dispostos em certa ordem. janeiro,fevereiro,...

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Estimação pontual e intervalar

Ordenação. David Menotti Algoritmos e Estruturas de Dados II DInf UFPR

1. Revisão Matemática

1. Revisão Matemática

Estimativa de Parâmetros

AULA Subespaço, Base e Dimensão Subespaço.

Planificação Anual de Matemática

Transcrição:

Mieração de Dados em Biologia Molecular Tópicos Adré C. P. L. F. de Carvalho Moitor: Valéria Carvalho Preparação de dados Dados Caracterização de dados Istâcias e Atributos Tipos de Dados Exploração de dados Dados uivariados Medidas de localidade, espalhameto e distribuição Dados multivariados Visualização Adré C P L F de Carvalho 2 Cojutos de dados Tipos de atributos Exemplos (objetos, padrões) Atributos de etrada (preditivos) Nome Temp. Idade Peso Altura João 7 70 94 90 Saudável Maria 8 65 60 72 Doete José 9 9 70 85 Doete Sílvia 8 25 65 60 Saudável Pedro 7 70 90 68 Doete Atributo alvo Adré C P L F de Carvalho Nomial Ex.: cor, código de idetificação, profissão Ordial Ex.: gosto (ruim, médio, bom), dias da semaa Itervalar Ex.: data, temperatura em Celsius Racioal Ex.: peso, tamaho, idade Adré C P L F de Carvalho 4 Exemplo Tipos de atributos Nome Temp Ejôo Macha Dor Salário Diagóstico João 7.7 sim pequea sim 000 doete Pedro 7.0 ão pequea ão 00 saudável Maria 8.2 sim grade ão 600 saudável José 9.0 ão pequea sim 2000 doete Aa 7. ão grade sim 800 saudável Leila 7.7 ão grade sim 900 doete Nomial (=, ) Valores são apeas omes diferetes Ordial (<, >) Existe uma relação de ordem etre valores Itervalar (+, -) Difereça etre valores faz setido Racioal (*, /) Razão e difereça etre valores fazem setido Nomial Itervalar Ordial Racioal Adré C P L F de Carvalho 5 Adré C P L F de Carvalho 6

Defiir o tipo dos seguites atributos: Reda mesal Número de palavras de um texto Fotografia Número de RG Data de ascimeto Código de disciplia Posição em uma corrida Quatidade de valores Atributos também se distiguem pela quatidade de valores Discretos Número fiito ou ifiito e eumerável de valores Ex.: código postal, quatidade de algum elemeto Caso especial: valores biários Cotíuos Assumem valores cotíuos, como úmeros reais Ex.: temperatura, peso, distâcia Adré C P L F de Carvalho 7 Adré C P L F de Carvalho 8 Exploração de dados Exploração prelimiar dos dados facilita etedimeto de suas características Pricipais motivações: Ajudar a selecioar a melhor técica para pré-processameto ou modelagem Estatística descritiva Visualização Estatística descritiva Descreve dados Produz valores que resumem características de um cojuto de dados Na maioria das vezes por meio de cálculos simples Adré C P L F de Carvalho 9 Adré C P L F de Carvalho 0 Estatística descritiva Pode capturar: Frequêcia Localização ou tedêcia cetral Ex.: Média Dispersão ou espalhameto Ex.: Desvio padrão Distribuição ou formato Frequêcia Proporção de vezes que um atributo assume um dado valor Para um determiado cojuto de dados Muita usada para dados categóricos Ex.: Em um cojuto de dados médicos, 40% dos pacietes moram o iterior Adré C P L F de Carvalho Adré C P L F de Carvalho 2 2

Exemplo Febre Idade Macha Dor Diagóstico sim 2 grade sim doete ão 9 pequea ão saudável sim 6 grade ão saudável sim 2 pequea sim doete sim 2 grade sim saudável ão 48 grade sim doete Medidas de localidade Dados simbólicos ou categóricos Moda Dados uméricos Média Mediaa Percetil 66% das machas são machas grades Adré C P L F de Carvalho Adré C P L F de Carvalho 4 Exemplo Febre Idade Macha Dor Diagóstico sim 2 grade sim doete ão 9 pequea ão saudável sim 6 grade ão saudável sim 2 pequea sim doete sim 2 grade sim saudável ão 48 grade sim doete Média Pode ser calculada facilmete x = i = x i Problema: sesível a outliers Moda para o atributo macha: grade Adré C P L F de Carvalho 5 Adré C P L F de Carvalho 6 Mediaa Meos sesível a outliers que média Necessário ordear valores x (r+ ) se é ímpar ( = 2r + ) mediaa( x) = (x r + x (r+ ) ) se é par ( = 2r) 2 Média versus Mediaa Média é um bom idicador do meio de um cojuto de valores quado os valores estão distribuídos simetricamete Mediaa idica melhor o meio Se distribuição é oblíqua (assimétrica) Skewed Se existem outliers Adré C P L F de Carvalho 7 Adré C P L F de Carvalho 8

Média Podada Trimmed mea Miimiza problema da média descartado exemplos os extremos Defie porcetagem p dos exemplos a serem elimiados Ordea os dados Elimia (p/2)% dos exemplos em cada extremidade Dado o cojuto de dados {, 2,, 4, 5, 80}, calcular: Média Mediaa Média podada com p = % Adré C P L F de Carvalho 9 Adré C P L F de Carvalho 20 Quartis e Percetis Mediaa divide os dados ao meio Outras medidas usam potos de divisão diferetes Quartis dividem um cojuto ordeado de dados em quartos Primeiro quartil, Q, é o valor da observação para a qual 25% do cojuto (amostra) tem valor meor ou igual a ela Também é o valor da amostra 25 o percetil Segudo quartil, Q 2, = mediaa Adré C P L F de Carvalho 2 Percetis Valor da amostra 00p o percetil é uma valor em que: Pelo meos 00p% das observações possuem um valor meor ou igual a ela Pelo meos 00(-p)% das observações tem um valor igual ou acima Mediaa é o 50 o percetil Para cálculo, usar fórmula da mediaa Adré C P L F de Carvalho 22 Cálculo dos Percetis Ordear os valores Posição do p-percetil: p posição = + 00 2 Exemplo Obter os quartis e a 95 o percetil para o cojuto de dados abaixo: 6.2 7.67 8. 9.0 9.4 9.8 0.5 0.7.0 2. Arredoda posição para o valor iteiro mais próximo Retorar o valor essa posição Adré C P L F de Carvalho 2 Adré C P L F de Carvalho 24 4

Exemplo Obter os quartis e a 95 o percetil para o cojuto de dados abaixo: 6.2 7.67 8. 9.0 9.4 9.8 0.5 0.7.0 2. Calcular quartis iferior e superior e o 60º percetil para os valores 6, 25, 4, 8,,, 20, 8, e 9 Q : p = 0.25x0+ 0.5= usar o terceiro valor: Q = 8. Q 2 : p = 0.5x0 + 0.5 = 5.5 para a mediaa, usar a média etre o quito e o sexto valor: Q 2 = 9.6 Q : p = 0.75x0 + 0.5= 8 usar o oitavo valor: Q = 0.7 P 0.95 : p = 0.95x0 + 0.5= 0 usar o décimo valor: P 0.95 = 2. Adré C P L F de Carvalho 25 Adré C P L F de Carvalho 26 Calcular quartis iferior e superior para os valores 6, 25, 4, 8,,, 20, 8, e 9 4, 8, 9,,,, 6, 8, 20, 25 Q = Q = 60º percetil = Dados os úmeros abaixo, calcular a mediaa, o primeiro quartil e o segudo quartil 2, 7, 2, 6, 0 2, 7, 2, 6, 0, 7 Adré C P L F de Carvalho 27 Adré C P L F de Carvalho 28 Obter os quartis, o 0 o percetil e o 95 o percetil para o cojuto de dados: Boxplot Gráfico que resume iformações dos quartis,20,70,64 5,60 5,89 28,44 29,07 7,4 4,8 4,5 4,94 49,5 49,82 5,20 5,4 52,47 5,72 5,92 54,0 56,89 6,80 míimo Q Q 2 Q máximo 66,40 68,64 70,5 70,98 74,52 76,68 77,84 80,9 84,04 85,70 86,48 88,92 89,28 9,6 9,62 98,79 02,9 04,2 24,27 Adré C P L F de Carvalho 29 Adré C P L F de Carvalho 0 5

Medidas de Espalhameto Medem dispersão ou espalhameto de um cojuto de valores Idicam se os dados estão: Amplamete espalhados ou Relativamete cocetrados em toro de um poto (ex. média) Medidas comus Itervalo Variâcia Desvio padrão Adré C P L F de Carvalho Itervalo Medida mais simples, mostra espalhameto máximo Sejam {x,..., x } os valores do atributo x para objetos r( x) = max( x) mi( x) Pode ão ser uma boa medida Se a maioria dos valores forem próximos de um poto, com um pequeo úmero de valores extremos Adré C P L F de Carvalho 2 Variâcia Medida preferida para aalisar espalhameto dos dados var( v) = ( v i v) Deomiador m-: correção de Bessel, usada para uma melhor estimativa da variâcia verdadeira Desvio padrão: raiz quadrada da variâcia 2 Mometo Estima parâmetros de uma população de valores mom k ( xi x) k k = ou µ k = ( x i µ ) p( xi ) ( ) p ( x i ) = f i Valor de k defie a medida de mometo Adré C P L F de Carvalho Adré C P L F de Carvalho 4 Mometo K-ésimo mometo cetral ou cetrado K=: 0 (primeiro mometo em toro da origem primeiro mometo cetral) K=2: variâcia (segudo mometo cetral) K=: obliquidade (terceiro mometo cetral) K=4: curtose (quarto mometo cetral) Adré C P L F de Carvalho 5 Obliquidade Terceiro mometo (Skewess) Mede a simetria da distribuição dos dados em toro da média Distribuição simétrica tem a mesma aparêcia à direita e à esquerda do poto cetral ( xi x) Obl = ( ) σ µ = ( x i µ ) p( xi ) σ Dividido por σ para torar a medida idepedete de escala Adré C P L F de Carvalho 6 6

Curtose Quarto mometo (Kurtosis) Medida de dispersão que captura o achatameto da fução de distribuição Verifica se os dados apresetam um pico ou são achatados em relação a uma distribuição ormal 4 ( xi x) Curt = 4 ( ) σ Curtose Para uma distribuição ormal padrão, Curt = Média = 0 e desvio padrão = Para que a distribuição ormal padrão teha curtose = 0, usa-se 4 ( xi x) Curt = 4 ( ) σ Adré C P L F de Carvalho 7 Adré C P L F de Carvalho 8 Histograma Melhor forma para verificar graficamete curtose e obliquidade Obliquidade Obter o valor dos 4 primeiros mometos cetrais para os dados:,20,70,64 5,60 5,89 28,44 29,07 Positiva Simétrica Negativa Curtose Positiva Normal Negativa Adré C P L F de Carvalho 9 Adré C P L F de Carvalho 40 Dados Multivariados Aqueles que possuem vários atributos Medidas de localização Podem ser obtidas calculado medida de localização de cada atributo separadamete Ex.: média, mediaa,... Média dos objetos de um cojuto de dados com m atributos é dada por: x = x,..., x ) ( m Dados Multivariados Medidas de espalhameto Podem ser calculadas para cada atributo idepedetemete dos demais Usado qualquer medida de espalhameto Variáveis cotíuas Espalhameto de um cojuto de dados é melhor capturado por uma matriz de covariâcia Cada elemeto é a covariâcia etre dois atributos Adré C P L F de Carvalho 4 Adré C P L F de Carvalho 42 7

Dados Multivariados Matriz de covariâcia S para um cojuto de dados com objetos s ij = covariâcia( xi, x j ) s = ij ( xki xi )( xkj x j ) k = Ode: x: i Valor médio do i-ésimo atributo x ki : Valor do i-ésimo atributo para o k-ésimo objeto Obs: covariâcia (x i, x i ) = variâcia (x i ) Matriz de covariâcia tem em sua diagoal as variâcias dos atributos Adré C P L F de Carvalho 4 Calcular a matriz de covariâcia para o cojuto de dados: Peso Altura Temperatura 7,2 70 7,5 67,5 65 8 90 90 7,2 49 52 7,8 Adré C P L F de Carvalho 44 Dados Multivariados Exemplo Covariâcia de dois atributos Mede o grau com que os atributos variam jutos Depede da magitude dos atributos Valor próximo de 0: Atributos ão têm um relacioameto liear Valor positivo: Atributos diretamete relacioados Quado o valor de um atributo aumeta, o do outro também aumeta Peso Altura 60 70 70 80 80 90 Altura Peso Peso Altura 60 90 70 80 80 70 Altura Peso Peso Altura 60 70 70 90 80 80 Altura Peso Adré C P L F de Carvalho 45 Adré C P L F de Carvalho 46 Dados Multivariados Covariâcia de dois atributos Não é possível avaliar o relacioameto etre dois atributos olhado apeas a covariâcia Correlação etre dois atributos dá uma idicação mais clara da força da relação liear etre eles Mais popular que covariâcia Dados Multivariados Correlação Idica força da relação etre dois atributos Matriz de correlação R covariâcia( xi, x r = correlação ( x, x ) = ij Ode: x i : i-ésimo atributo s i : Variâcia do atributo x i i j s s i j j ) Obs: correlação (x i, x i ) = Elemetos da diagoal tem valor Demais elemetos têm valor etre e + Adré C P L F de Carvalho 47 Adré C P L F de Carvalho 48 8

Calcular a matriz de correlação para o cojuto de dados: Peso Altura Temperatura 7,2 70 7,5 67,5 65 8 90 90 7,2 49 52 7,8 Outras formas de sumarizar dados Visualização gráfica Em vários casos, facilita compreesão de aspectos mais complicados dos dados Ex.: Histogramas Adré C P L F de Carvalho 49 Adré C P L F de Carvalho 50 Diagrama de torta Frequêcias relativas podem ser vistas o diagrama circular Diagrama de torta (pizza) Scatter Plot Usado para ilustrar correlação liear Cada objeto é associado a uma posição em um gráfico Valores dos atributos defiem sua posição Os valores podem ser iteiros ou reais Matrizes de scatter plot resumem relação etre vários pares de atributos Adré C P L F de Carvalho 5 Adré C P L F de Carvalho 52 Scatter Plot Matriz para atributos do cojuto iris Diferetes classes são idicadas por cores diferetes Faces de Cheroff Criado por Herma Cheroff Mapeia os valores dos atributos para images mais familiares: faces Cada objeto é represetado por uma face Cada atributo é associado a uma característica específica de uma face Baseia-se a habilidade humaa de distiguir faces Adré C P L F de Carvalho 5 Adré C P L F de Carvalho 54 9

Faces de Cheroff Setosa Versicolour Virgiica Adré C P L F de Carvalho 55 Represetar os dados a seguir usado faces de Cheroff Febre Idade Macha Dor Diagóstico sim 2 grade sim doete ão 9 pequea ão saudável sim 6 grade ão saudável sim 2 pequea sim doete sim 2 grade sim saudável ão 48 grade sim doete Adré C P L F de Carvalho 56 Cosiderações Fiais Pergutas Dados Caracterização de dados Istâcias e Atributos Tipos de Dados Exploração de dados Dados uivariados Medidas de localidade, espalhameto e distribuição Dados multivariados Visualização Adré C P L F de Carvalho 57 Adré C P L F de Carvalho 58 0