Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes 1 de 29
Tipos de Conjuntos de dados Registro Tabela do BD Matriz de dados Document 1 Document 2 team coach pla y ball score game wi n lost timeout 3 0 5 0 2 6 0 2 0 2 0 7 0 2 1 0 0 3 0 0 season Dados transacionais Document 3 0 1 0 0 1 2 2 0 3 0 Grafos e Redes WWW Estruturas moleculares TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk 2 de 29
Ordenados Tipos de Conjuntos de dados Sequencia de imagens Séries temporais Dados sequenciais Dados genéticos Espacial, Imagem e multimedia Mapas Imagens 3 de 29
Características importantes de dados estruturados Dimensionalidade Maldição da dimensionalidade Dispersão (dados esparsos) Somente interessa a presença de valor Resolução Padrões dependem da escala Distribuição Central ou dispersão 4 de 29
10 Mineração de dados Objetos de dados Um atributo é uma propriedade ou característica de um objeto. Examples: cor dos olhos, temperatura, etc. Outros nomes: variável, campo, característica, recurso ou dimensão Uma coleção de atributos descreve um objeto Outros nomes: registros, vetores, eventos, casos, exemplos, entidade ou observações Objetos Atributos Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 de 29 Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes
Nominal Tipos de atributos qualitativos Categoria, estados ou nomes de objetos Ex: estado civil, ocupação, identificadores, CEP, Cor do cabelo Binário Atributo nominal com apenas dois estados (O ou 1) Binário simétrico: ambos resultados são igualmente importantes. (Ex: gênero) Binário assimétrico: resultados não são igualmente importante. Ex: teste médico (positivo vocês negativo) 6 de 29
Ordinal Tipos de atributos qualitativos Valores obedece um ranking mas magnitude entre valores sucessivos não é conhecida Ex: {pequeno, médio, grande}, grau de satisfação 7 de 29
Tipos de atributos quantitativos Intervalar Valores medidos numa escala de tamanho fixa Valores têm ordem Ex: temperatura em ºC ou ºF, data do calendário Proporcional O valores possuem um ordem de magnitude maior que a unidade de medida (10ºK = 2*5ºK) Temperatura em Kelvin, tamanho, contadores, quantidades monetárias 8 de 29
Atributos Discretos vs Contínuos Atributo discreto Possui apenas uma quantidade finita de valores ou um conjunto de valores contáveis Ex: CEP, profissão, conjunto de palavras numa coleção de documentos Algumas vezes é representada por variáveis inteiras Nota: Atributo binário é um caso especial de atributo discreto 9 de 29
Atributos Discretos vs Contínuos Atributo Contínuo Valores representados por números reais Ex: temperatura, altura, pesa Na prática, valores reais apenas podem ser medidos e representados usando um número finito de dígitos Atributos contínuos são tipicamente representados como variáveis em ponto flutuante 10 de 29
Estatística básica para descrever os dados Motivação Por que é importante conhecer os dados? 11 de 29
Medidas de tendência central Média (medida algébrica) x = 1 n n i = 1 x i Média aritmética com peso x n i = 1 = n i = 1 w x i w i i Sensitiva aos extremos 12 de 29
Medidas de tendência central Mediana Com os dados ordenados, divide os valores ao meio Se n é ímpar, é o valor central Se n é par, é a média dos dois valores centrais Para dados agrupados median = L 1 + n / ( 2 ( freq median freq) l ) width 13 de 29
Medidas de tendência central Moda Valores que ocorrem mais frequentemente nos dados Atributos quantitativos ou qualitativos Unimodal, bimodal, trimodal Para conjuntos unimodais mean mode = 3 ( mean median) 14 de 29
Distribuição simétrica vs assimétrica symmetric positively skewed negatively skewed 15 de 29
Medidas de dispersão dos dados Amplitude Max - Min Quartil Q 1 (25º percentil) e Q 3 (75º percentil) Intervalo interquartil IQR = Q 3 - Q 1 16 de 29
Outliers Medidas de dispersão dos dados Objetos de dados que tem características que sejam diferentes da maioria de outros objetos ou Valores de um atributo que sejam incomum com relação aos valores típicos Podem fornecer informações importantes Normalmente, um valor maior ou menor que 1.5*IQR 17 de 29
Medidas de dispersão dos dados Diagrama em caixa Dados são representados numa caixa Os limites da caixa estão em Q 1 e Q 3 A mediana é marcada por uma linha Entre os quartis e os extremos são traçadas linhas Valores discrepantes (outliers) são indicados por pontos 18 de 29
Medidas de dispersão dos dados 19 de 29
Medidas de dispersão dos dados 20 de 29
21 de 29 Medidas de dispersão dos dados Avaliam a dispersão dos dados Desvio padrão baixo dados próximos a média Desvio padrão alto dados dispersos Variância (sample: s, population: σ) Desvio padrão Raiz quadrada da variância = = = = = n i n i i i n i i x n x n x x n s 1 1 2 2 1 2 2 ] ) ( 1 [ 1 1 ) ( 1 1 = = = = n i i n i i x N x N 1 2 2 1 2 2 1 ) ( 1 µ µ σ
Propriedade de uma curva de distribuição normal De μ σ a μ+σ : contém cerca de 68% dos valores De μ 2σ a μ+2σ : contém cerca de 95% dos valores De μ 3σ a μ+3σ : contém cerca de 99,7% dos valores 22 de 29
Histograma Quantile plot Diagrama de dispersão Outros gráficos 23 de 29
Apresenta a distribuição de frequência São retângulos justapostos, feitos sobre as classes de variáveis em estudo Histograma A área de cada retângulo é 10 igual (ou proporcional) à 5 frequência observada da classe correspondente 0 40 35 30 25 20 15 10000 30000 50000 70000 90000 24 de 29
Os dois histogramas ao lado tem a mesma representação em caixas Histograma Os mesmo valores valores de min, Q1, mediana, Q3, max Mas possuem distribuições de dados diferentes 25 de 29
Quantile Plot Para cada x i classificado em ordem crescente, f i indica que aproximadamente f i % dos dados são menores ou iguais a x i 26 de 29
Diagrama de dispersão Permite observar a relação entre duas variáveis 27 de 29
Dados correlacionados positivamente e negativamente The left half fragment is positively correlated The right half is negative correlated 28 de 29
Dados não correlacionados 29 de 29