Mieração de Dados em Biologia Molecular Tópicos Adré C. P. L. F. de Carvalho Moitor: Valéria Carvalho Preparação de dados Dados Caracterização de dados Istâcias e Atributos Tipos de Dados Exploração de dados Dados uivariados Medidas de localidade, espalhameto e distribuição Dados multivariados Visualização Adré C P L F de Carvalho 2 Cojutos de dados Tipos de atributos Exemplos (objetos, padrões) Atributos de etrada (preditivos) Nome Temp. Idade Peso Altura João 7 70 94 90 Saudável Maria 8 65 60 72 Doete José 9 9 70 85 Doete Sílvia 8 25 65 60 Saudável Pedro 7 70 90 68 Doete Atributo alvo Adré C P L F de Carvalho Nomial Ex.: cor, código de idetificação, profissão Ordial Ex.: gosto (ruim, médio, bom), dias da semaa Itervalar Ex.: data, temperatura em Celsius Racioal Ex.: peso, tamaho, idade Adré C P L F de Carvalho 4 Exemplo Tipos de atributos Nome Temp Ejôo Macha Dor Salário Diagóstico João 7.7 sim pequea sim 000 doete Pedro 7.0 ão pequea ão 00 saudável Maria 8.2 sim grade ão 600 saudável José 9.0 ão pequea sim 2000 doete Aa 7. ão grade sim 800 saudável Leila 7.7 ão grade sim 900 doete Nomial (=, ) Valores são apeas omes diferetes Ordial (<, >) Existe uma relação de ordem etre valores Itervalar (+, -) Difereça etre valores faz setido Racioal (*, /) Razão e difereça etre valores fazem setido Nomial Itervalar Ordial Racioal Adré C P L F de Carvalho 5 Adré C P L F de Carvalho 6
Defiir o tipo dos seguites atributos: Reda mesal Número de palavras de um texto Fotografia Número de RG Data de ascimeto Código de disciplia Posição em uma corrida Quatidade de valores Atributos também se distiguem pela quatidade de valores Discretos Número fiito ou ifiito e eumerável de valores Ex.: código postal, quatidade de algum elemeto Caso especial: valores biários Cotíuos Assumem valores cotíuos, como úmeros reais Ex.: temperatura, peso, distâcia Adré C P L F de Carvalho 7 Adré C P L F de Carvalho 8 Exploração de dados Exploração prelimiar dos dados facilita etedimeto de suas características Pricipais motivações: Ajudar a selecioar a melhor técica para pré-processameto ou modelagem Estatística descritiva Visualização Estatística descritiva Descreve dados Produz valores que resumem características de um cojuto de dados Na maioria das vezes por meio de cálculos simples Adré C P L F de Carvalho 9 Adré C P L F de Carvalho 0 Estatística descritiva Pode capturar: Frequêcia Localização ou tedêcia cetral Ex.: Média Dispersão ou espalhameto Ex.: Desvio padrão Distribuição ou formato Frequêcia Proporção de vezes que um atributo assume um dado valor Para um determiado cojuto de dados Muita usada para dados categóricos Ex.: Em um cojuto de dados médicos, 40% dos pacietes moram o iterior Adré C P L F de Carvalho Adré C P L F de Carvalho 2 2
Exemplo Febre Idade Macha Dor Diagóstico sim 2 grade sim doete ão 9 pequea ão saudável sim 6 grade ão saudável sim 2 pequea sim doete sim 2 grade sim saudável ão 48 grade sim doete Medidas de localidade Dados simbólicos ou categóricos Moda Dados uméricos Média Mediaa Percetil 66% das machas são machas grades Adré C P L F de Carvalho Adré C P L F de Carvalho 4 Exemplo Febre Idade Macha Dor Diagóstico sim 2 grade sim doete ão 9 pequea ão saudável sim 6 grade ão saudável sim 2 pequea sim doete sim 2 grade sim saudável ão 48 grade sim doete Média Pode ser calculada facilmete x = i = x i Problema: sesível a outliers Moda para o atributo macha: grade Adré C P L F de Carvalho 5 Adré C P L F de Carvalho 6 Mediaa Meos sesível a outliers que média Necessário ordear valores x (r+ ) se é ímpar ( = 2r + ) mediaa( x) = (x r + x (r+ ) ) se é par ( = 2r) 2 Média versus Mediaa Média é um bom idicador do meio de um cojuto de valores quado os valores estão distribuídos simetricamete Mediaa idica melhor o meio Se distribuição é oblíqua (assimétrica) Skewed Se existem outliers Adré C P L F de Carvalho 7 Adré C P L F de Carvalho 8
Média Podada Trimmed mea Miimiza problema da média descartado exemplos os extremos Defie porcetagem p dos exemplos a serem elimiados Ordea os dados Elimia (p/2)% dos exemplos em cada extremidade Dado o cojuto de dados {, 2,, 4, 5, 80}, calcular: Média Mediaa Média podada com p = % Adré C P L F de Carvalho 9 Adré C P L F de Carvalho 20 Quartis e Percetis Mediaa divide os dados ao meio Outras medidas usam potos de divisão diferetes Quartis dividem um cojuto ordeado de dados em quartos Primeiro quartil, Q, é o valor da observação para a qual 25% do cojuto (amostra) tem valor meor ou igual a ela Também é o valor da amostra 25 o percetil Segudo quartil, Q 2, = mediaa Adré C P L F de Carvalho 2 Percetis Valor da amostra 00p o percetil é uma valor em que: Pelo meos 00p% das observações possuem um valor meor ou igual a ela Pelo meos 00(-p)% das observações tem um valor igual ou acima Mediaa é o 50 o percetil Para cálculo, usar fórmula da mediaa Adré C P L F de Carvalho 22 Cálculo dos Percetis Ordear os valores Posição do p-percetil: p posição = + 00 2 Exemplo Obter os quartis e a 95 o percetil para o cojuto de dados abaixo: 6.2 7.67 8. 9.0 9.4 9.8 0.5 0.7.0 2. Arredoda posição para o valor iteiro mais próximo Retorar o valor essa posição Adré C P L F de Carvalho 2 Adré C P L F de Carvalho 24 4
Exemplo Obter os quartis e a 95 o percetil para o cojuto de dados abaixo: 6.2 7.67 8. 9.0 9.4 9.8 0.5 0.7.0 2. Calcular quartis iferior e superior e o 60º percetil para os valores 6, 25, 4, 8,,, 20, 8, e 9 Q : p = 0.25x0+ 0.5= usar o terceiro valor: Q = 8. Q 2 : p = 0.5x0 + 0.5 = 5.5 para a mediaa, usar a média etre o quito e o sexto valor: Q 2 = 9.6 Q : p = 0.75x0 + 0.5= 8 usar o oitavo valor: Q = 0.7 P 0.95 : p = 0.95x0 + 0.5= 0 usar o décimo valor: P 0.95 = 2. Adré C P L F de Carvalho 25 Adré C P L F de Carvalho 26 Calcular quartis iferior e superior para os valores 6, 25, 4, 8,,, 20, 8, e 9 4, 8, 9,,,, 6, 8, 20, 25 Q = Q = 60º percetil = Dados os úmeros abaixo, calcular a mediaa, o primeiro quartil e o segudo quartil 2, 7, 2, 6, 0 2, 7, 2, 6, 0, 7 Adré C P L F de Carvalho 27 Adré C P L F de Carvalho 28 Obter os quartis, o 0 o percetil e o 95 o percetil para o cojuto de dados: Boxplot Gráfico que resume iformações dos quartis,20,70,64 5,60 5,89 28,44 29,07 7,4 4,8 4,5 4,94 49,5 49,82 5,20 5,4 52,47 5,72 5,92 54,0 56,89 6,80 míimo Q Q 2 Q máximo 66,40 68,64 70,5 70,98 74,52 76,68 77,84 80,9 84,04 85,70 86,48 88,92 89,28 9,6 9,62 98,79 02,9 04,2 24,27 Adré C P L F de Carvalho 29 Adré C P L F de Carvalho 0 5
Medidas de Espalhameto Medem dispersão ou espalhameto de um cojuto de valores Idicam se os dados estão: Amplamete espalhados ou Relativamete cocetrados em toro de um poto (ex. média) Medidas comus Itervalo Variâcia Desvio padrão Adré C P L F de Carvalho Itervalo Medida mais simples, mostra espalhameto máximo Sejam {x,..., x } os valores do atributo x para objetos r( x) = max( x) mi( x) Pode ão ser uma boa medida Se a maioria dos valores forem próximos de um poto, com um pequeo úmero de valores extremos Adré C P L F de Carvalho 2 Variâcia Medida preferida para aalisar espalhameto dos dados var( v) = ( v i v) Deomiador m-: correção de Bessel, usada para uma melhor estimativa da variâcia verdadeira Desvio padrão: raiz quadrada da variâcia 2 Mometo Estima parâmetros de uma população de valores mom k ( xi x) k k = ou µ k = ( x i µ ) p( xi ) ( ) p ( x i ) = f i Valor de k defie a medida de mometo Adré C P L F de Carvalho Adré C P L F de Carvalho 4 Mometo K-ésimo mometo cetral ou cetrado K=: 0 (primeiro mometo em toro da origem primeiro mometo cetral) K=2: variâcia (segudo mometo cetral) K=: obliquidade (terceiro mometo cetral) K=4: curtose (quarto mometo cetral) Adré C P L F de Carvalho 5 Obliquidade Terceiro mometo (Skewess) Mede a simetria da distribuição dos dados em toro da média Distribuição simétrica tem a mesma aparêcia à direita e à esquerda do poto cetral ( xi x) Obl = ( ) σ µ = ( x i µ ) p( xi ) σ Dividido por σ para torar a medida idepedete de escala Adré C P L F de Carvalho 6 6
Curtose Quarto mometo (Kurtosis) Medida de dispersão que captura o achatameto da fução de distribuição Verifica se os dados apresetam um pico ou são achatados em relação a uma distribuição ormal 4 ( xi x) Curt = 4 ( ) σ Curtose Para uma distribuição ormal padrão, Curt = Média = 0 e desvio padrão = Para que a distribuição ormal padrão teha curtose = 0, usa-se 4 ( xi x) Curt = 4 ( ) σ Adré C P L F de Carvalho 7 Adré C P L F de Carvalho 8 Histograma Melhor forma para verificar graficamete curtose e obliquidade Obliquidade Obter o valor dos 4 primeiros mometos cetrais para os dados:,20,70,64 5,60 5,89 28,44 29,07 Positiva Simétrica Negativa Curtose Positiva Normal Negativa Adré C P L F de Carvalho 9 Adré C P L F de Carvalho 40 Dados Multivariados Aqueles que possuem vários atributos Medidas de localização Podem ser obtidas calculado medida de localização de cada atributo separadamete Ex.: média, mediaa,... Média dos objetos de um cojuto de dados com m atributos é dada por: x = x,..., x ) ( m Dados Multivariados Medidas de espalhameto Podem ser calculadas para cada atributo idepedetemete dos demais Usado qualquer medida de espalhameto Variáveis cotíuas Espalhameto de um cojuto de dados é melhor capturado por uma matriz de covariâcia Cada elemeto é a covariâcia etre dois atributos Adré C P L F de Carvalho 4 Adré C P L F de Carvalho 42 7
Dados Multivariados Matriz de covariâcia S para um cojuto de dados com objetos s ij = covariâcia( xi, x j ) s = ij ( xki xi )( xkj x j ) k = Ode: x: i Valor médio do i-ésimo atributo x ki : Valor do i-ésimo atributo para o k-ésimo objeto Obs: covariâcia (x i, x i ) = variâcia (x i ) Matriz de covariâcia tem em sua diagoal as variâcias dos atributos Adré C P L F de Carvalho 4 Calcular a matriz de covariâcia para o cojuto de dados: Peso Altura Temperatura 7,2 70 7,5 67,5 65 8 90 90 7,2 49 52 7,8 Adré C P L F de Carvalho 44 Dados Multivariados Exemplo Covariâcia de dois atributos Mede o grau com que os atributos variam jutos Depede da magitude dos atributos Valor próximo de 0: Atributos ão têm um relacioameto liear Valor positivo: Atributos diretamete relacioados Quado o valor de um atributo aumeta, o do outro também aumeta Peso Altura 60 70 70 80 80 90 Altura Peso Peso Altura 60 90 70 80 80 70 Altura Peso Peso Altura 60 70 70 90 80 80 Altura Peso Adré C P L F de Carvalho 45 Adré C P L F de Carvalho 46 Dados Multivariados Covariâcia de dois atributos Não é possível avaliar o relacioameto etre dois atributos olhado apeas a covariâcia Correlação etre dois atributos dá uma idicação mais clara da força da relação liear etre eles Mais popular que covariâcia Dados Multivariados Correlação Idica força da relação etre dois atributos Matriz de correlação R covariâcia( xi, x r = correlação ( x, x ) = ij Ode: x i : i-ésimo atributo s i : Variâcia do atributo x i i j s s i j j ) Obs: correlação (x i, x i ) = Elemetos da diagoal tem valor Demais elemetos têm valor etre e + Adré C P L F de Carvalho 47 Adré C P L F de Carvalho 48 8
Calcular a matriz de correlação para o cojuto de dados: Peso Altura Temperatura 7,2 70 7,5 67,5 65 8 90 90 7,2 49 52 7,8 Outras formas de sumarizar dados Visualização gráfica Em vários casos, facilita compreesão de aspectos mais complicados dos dados Ex.: Histogramas Adré C P L F de Carvalho 49 Adré C P L F de Carvalho 50 Diagrama de torta Frequêcias relativas podem ser vistas o diagrama circular Diagrama de torta (pizza) Scatter Plot Usado para ilustrar correlação liear Cada objeto é associado a uma posição em um gráfico Valores dos atributos defiem sua posição Os valores podem ser iteiros ou reais Matrizes de scatter plot resumem relação etre vários pares de atributos Adré C P L F de Carvalho 5 Adré C P L F de Carvalho 52 Scatter Plot Matriz para atributos do cojuto iris Diferetes classes são idicadas por cores diferetes Faces de Cheroff Criado por Herma Cheroff Mapeia os valores dos atributos para images mais familiares: faces Cada objeto é represetado por uma face Cada atributo é associado a uma característica específica de uma face Baseia-se a habilidade humaa de distiguir faces Adré C P L F de Carvalho 5 Adré C P L F de Carvalho 54 9
Faces de Cheroff Setosa Versicolour Virgiica Adré C P L F de Carvalho 55 Represetar os dados a seguir usado faces de Cheroff Febre Idade Macha Dor Diagóstico sim 2 grade sim doete ão 9 pequea ão saudável sim 6 grade ão saudável sim 2 pequea sim doete sim 2 grade sim saudável ão 48 grade sim doete Adré C P L F de Carvalho 56 Cosiderações Fiais Pergutas Dados Caracterização de dados Istâcias e Atributos Tipos de Dados Exploração de dados Dados uivariados Medidas de localidade, espalhameto e distribuição Dados multivariados Visualização Adré C P L F de Carvalho 57 Adré C P L F de Carvalho 58 0