Conjunto de Dados. Existe uma estimativa de que a cada 20 meses dobra a quantidade de dados armazenada nos bancos de dados do mundo.

Documentos relacionados
Fundamentos de Inteligência Artificial [5COP099]

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Análise de Dados. Sylvio Barbon Junior 29 de julho de 2016 DC-UEL Sylvio Barbon Jr 1

SCC0173 Mineração de Dados Biológicos

Metodologia Aplicada a Computação.

Medidas resumo numéricas

Cap. 6 Medidas descritivas

Estatística Descritiva

Prof. Dr. Engenharia Ambiental, UNESP

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Análise de dados em Geociências

Elementos de Estatística

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

Estatística descritiva

2. Estatística Descritiva

Autores: Fernando Sebastião e Helena Silva

Estatística Descritiva

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr.

Estatística Descritiva

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Prof. Lorí Viali, Dr. PUCRS Prof. Titular da FAMAT - Departamento de Estatística. Curso: Engenharia de Produção

METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA

Conceitos básicos Revisão de estatística descritiva

Estatística Descritiva

Métodos Experimentais em Ciências Mecânicas

Estatística Descritiva (I)

n = 25) e o elemento (pois = 19) e terá o valor 8. Verifique que antes e depois do 19 o elemento, teremos 18 elementos.

ESTATÍSTICA DESCRITIVA

* Descrição: organização, resumo, apresentação e interpretação de dados (tabelas, gráficos e sumários estatísticos, de posição e de dispersão)

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

Apontamentos de Introdução às Probabilidades e à Estatística

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

UAlg esght MEDIDAS DE LOCALIZAÇÃO E DISPERSÃO. Paulo Batista Basílio ( )

Estatística Aplicada

Bioestatística. October 28, UFOP October 28, / 57

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

(tabelas, gráficos e sumários estatísticos, de posição e de dispersão)

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Estatística 1. Resumo Teórico

Medidas de localização (ou de tendência central) Média: definida como o centro de massa (ou ponto de equilíbrio) do conjunto.

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Estatística Descritiva (I)

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Estatística Descritiva

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Estatística Aplicada a Negócios

Medidas de dispersão. 23 de agosto de 2018

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

Estatística para Cursos de Engenharia e Informática

Importância da estatística 17. O que é a Estatística? 18

Distribuição de frequências:

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Revisão de estatística descritiva

MEDIDAS DE TENDÊNCIA CENTRAL

Medidas de Posição ou Tendência Central

Introdução à Estatística Estatística Descritiva 22

Stela Adami Vayego DEST/UFPR

Probabilidade e Estatística

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PONTA GROSSA METROLOGIA II

INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão. Prof. Dr. Guanis de Barros Vilela Junior

Aula 4: Medidas Resumo

Estatística Descritiva II

Filho, não é um bicho: chama-se Estatística!

Estatística Descritiva (I)

ESTATÍSTICA DESCRITIVA APLICADA NA SAÚDE. Hospital Universitário Prof. Edgard Santos UFBA Unidade de Planejamento Julho de 2016

Amostragem Aleatória e Descrição de Dados - parte I

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Variáveis Aleatórias

Unidade III Medidas Descritivas

Unidade III Medidas Descritivas

Estatística Computacional Profª Karine Sato da Silva

Revisão de estatística descritiva

ASSIMETRIA E CURTOSE

Representação de dados

ESTATÍSTICA Medidas de Síntese

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Capítulo 1. Análise Exploratória de Dados

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PONTA GROSSA METROLOGIA II

Aula 2 Planejamento e Análise de Experimentos

Introdução à probabilidade e estatística I

Grupo A - 1 semestre de 2012 Lista de exercícios 2 - Estatística Descritiva II C A S A (gabarito)

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

ESTATÍSTICA DESCRITIVA E PREVISÃO INDICE

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

Transcrição:

Conjunto de Dados Existe uma estimativa de que a cada 20 meses dobra a quantidade de dados armazenada nos bancos de dados do mundo. No entanto, tem aumentando também a distância entre a quantidade de dados existente e a porção deles que é analisada e compreendida.

Conjunto de Dados Objetos que representam objetos físicos ou uma noção abstrata (como sintomas). Cada objeto é descrito por um conjunto de atributos de entrada ou vetor de características. Cada objeto corresponde a uma ocorrência dos dados. Cada atributo está associado a uma propriedade do objeto.

Conjunto de Dados Os dados podem ser representados por uma matriz de objetos X nxd, em que n é o número de objetos e d é o número de atributos de entrada de cada objeto. O valor de d define a dimensionalidade dos objetos ou do espaço dos objetos.

Pré-processamento Eliminação manual de atributos Integração de dados Amostragem de dados Balanceamento de dados Limpeza de dados Redução de dimensionalidade Transformação de dados

Análise de Dados Conjunto: hospital; objeto: paciente; valores de atributos de entrada (atributos preditivos): características do paciente. Além disso, a tabela apresenta um atributo alvo (atributo meta ou de saída): representa o fenômeno de interesse sobre o qual se deseja fazer previsões.

Caracterização de Dados Tabela atributo-valor Id. Nome Idade Sexo Peso Manchas Temp. #Int. Est. Diagnóstico 4201 João 28 M 79 Concentradas 38,0 2 SP Doente 3217 Maria 18 F 67 Inexistentes 39,5 4 MG Doente 4039 Luiz 49 M 92 Espalhadas 38,0 2 RS Saudável 1920 José 18 M 43 Inexistentes 38,5 8 MG Doente 4340 Cláudia 21 F 52 Uniformes 37,6 1 PE Saudável 2301 Ana 22 F 72 Inexistentes 38,0 3 RJ Doente 1322 Marta 19 F 87 Espalhadas 39,0 6 AM Doente 3027 Paulo 34 M 67 Uniformes 38,4 2 GO Saudável Número de Internações

Tipo O tipo define se o atributo representa quantidades: quantitativo ou número; ou qualidades: qualitativo. Qualitativo (pequeno, médio, grande). Uma medida quantitativa possui uma unidade. Id. Nome Idade Sexo Peso Manchas Temp. #Int. Est. Diagnóstico 4201 João 28 M 79 Concentradas 38,0 2 SP Doente

Escala A escala define as operações que podem ser realizadas sobre os valores do atributo. Nominais (nomes diferentes, não existe relação de ordem) Ordinais (ordem das categorias representadas) Intervalares (números variam dentro de um intervalo) Racionais (os números tem um valor absoluto) Id. Nome Idade Sexo Peso Manchas Temp. #Int. Est. Diagnóstico 4201 João 28 M 79 Concentradas 38,0 2 SP Doente

Exploração de Dados Estatística Descritiva: resume de forma quantitativa as principais características de um conjunto de dados. Exemplos: idade média dos pacientes porcentagem de pacientes do sexo masculino

Exploração de Dados Distribuição normal com média 0 e variância 1. Frequência Localização ou tendência central (média) Dispersão ou espalhamento (desvio padrão) Distribuição ou formato

Frequência Mede a proporção de vezes que um atributo assume um dado valor em um determinado conjunto de dados. Manchas Concentradas Inexistentes Espalhadas Inexistentes Uniformes Inexistentes Espalhadas Uniformes

Dados Univariados Um objeto possui apenas um atributo. O mesmo valor pode aparecer mais de uma vez em um atributo.

Medidas de Localidade Definem pontos de referência nos dados e variam para dados numéricos e simbólicos. Manchas Concentradas Inexistentes Espalhadas Inexistentes Moda: Dados simbólicos: valor encontrado com maior frequência para um atributo. Uniformes Inexistentes Espalhadas Uniformes

Moda Para atributos numéricos: Média Mediana Percentil Média: x j = 1 n n i=1 x i

Mediana Menos sensível a outliers Ordenar de forma crescente o conjunto de valores. Se o número de valores, n, é ímpar, a mediana é igual ao valor do meio do conjunto ordenado. Caso contrário, é dado pela média dos dois valores do meio.

Exemplos {17, 4, 8, 21, 4} {17, 4, 8, 21, 4, 15, 13, 9} O uso da mediana torna mais fácil observar se a distribuição é assimétrica ou se existem outliers.

Outras medidas Média truncada: descarta os exemplos nos extremos da sequência ordenada dos dados. Quartis: dividem os valores ordenados em quartos Percentil: valor para o qual x% dos demais valores são menores ou iguais a ele.

Boxplot

Boxplot primeiro quartil (designado por Q1/4) = quartil inferior = é o valor aos 25% da amostra ordenada = 25º percentil segundo quartil (designado por Q2/4) = mediana = é o valor até ao qual se encontra 50% da amostra ordenada = 50º percentil, ou 5º decil. terceiro quartil (designado por Q3/4) = quartil superior = valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da amostra ordenada = 75º percentil 19

Medidas de Espalhamento Medem a dispersão ou espalhamento de um conjunto de valores. Intervalo Variância Desvio Padrão

Medidas de Espalhamento Intervalo Intervalo(x j ) = max(x i )-min(x i ) Variância var(x j ) = 1 n 1 n i=1 (x i x j ) 2

Medias de Espalhamento Desvio padrão: raiz quadrada da variância. Desvio médio absoluto (AAD, absolute average deviation) n AAD(x j ) = 1 n Desvio mediano absoluto (MAD, i=1 median absolute deviation) x i x j MAD(x j ) = mediana({ x 1 x j,..., x n x j }) Intervalo interquartil (IQR, interquartil range) IQR(x j ) = P 75% P 25%

Medidas de Distribuição momento k (x j ) = n i=1 (x i x j ) k (n 1) Quando k = 1, tem-se o valor 0 (medida de localidade) Quando k = 2, tem-se a variância (medida de espalhamento) Quando k = 3, tem-se a obliquidade (medida de distribuição) Quando k = 4, tem-se a curtose (medida de distribuição)

Obliquidade Mede a simetria da distribuição dos dados em torno da média. obliquidade(x j ) = momento 3(x j ) s 3 = n i=1 (x i x j ) 3 (n 1)s 3 Obliquidade = 0 (simétrica) distribuição normal Obliquidade > 0 (positiva) concentração do lado esquerdo Obliquidade < 0 (negativa) concentração do lado direito

Obliquidade

Curtose Captura o achatamento da função de distribuição. curtose(x j ) = momento 4 (x j ) s 4 3 = (x i x j ) 4 Curtose = 0 (normal) distribuição normal Curtose > 0 (positiva) mais alta e concentrada que a distribuição normal Curtose < 0 (negativa) mais achatada que a distribuição normal n i=1 (n 1)s 4 3

Curtose

Dados Multivariados Permitem ainda análises da relação entre dois ou mais atributos. Covariância = mede o grau com que os atributos variam juntos. cov(x i, x j ) = 1 n 1 n k=1 (x k i x i ) 2 (x k j x j ) 2

Correlação correlação(x i, x j ) = cov(xi, x j ) s i s j

Scatterplot

Bagplot

Diagramas de Chernoff

Starplot

Heatmap Coluna = paciente; Linha = gene Vermelho = expressão gênica; Verde = não expressão