Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

Documentos relacionados
Os Dados. Mineração de Dados 2011

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Seção 2.3 Uma Variável Quantitativa: Medidas de Dispersão

Estatística Descritiva

CAD. 8 SETOR A AULAS 45-48

Estatística Descritiva

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Elementos de Estatística

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

SCC0173 Mineração de Dados Biológicos

Estatística Descritiva

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Estatística descritiva

Aula 20: Regras de Associação

Estatística Descritiva (I)

Tutorial para o desenvolvimento das Oficinas

Análise de dados em Geociências

Estatísticas Descritivas. Estatística

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Medidas de Posição ou Tendência Central

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Unidade III Medidas Descritivas

Prof. Dr. Engenharia Ambiental, UNESP

2. Estatística Descritiva

Fernando de Pol Mayer

Estatística Descritiva

Conceito de Estatística

Medidas de dispersão. 23 de agosto de 2018

Medidas Estatísticas NILO FERNANDES VARELA

Introdução à probabilidade e estatística I

Estatística e Probabilidade

Estatística Descritiva (I)

Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Conjunto de Dados. Existe uma estimativa de que a cada 20 meses dobra a quantidade de dados armazenada nos bancos de dados do mundo.

Estatística Descritiva

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

Aprendizado de Máquina (Machine Learning)

25/08/2016. Estatística. Estatística. Medidas Estatísticas Medidas de Posição. Mariele Bernardes. Mariele Bernardes

PARTE II ANÁLISE INICIAL DE DADOS

Revisão de estatística descritiva

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

Revisão de estatística descritiva

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

Conceitos básicos Revisão de estatística descritiva

Estatística Descritiva (I)

Bioestatística Aula 2

Estatística Descritiva

BIOESTATÍSTICA AULA 2. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

SS714 - Bioestatística

Estatística para Cursos de Engenharia e Informática

Bioestatística Básica

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Variáveis Aleatórias

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Capítulo 1. Análise Exploratória de Dados

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana Análise de Assimetria Separatrizes

AULA DO CPOG. Estatística básica

Distribuição de frequências:

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

ESTATÍSTICA Medidas de Síntese

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Descrevendo Distribuições com Números TADI

Mapas e Estatística. Professores Ligia Vizeu Barrozo Reinaldo Paul Pérez Machado

Introdução à Probabilidade e Estatística I

Autores: Fernando Sebastião e Helena Silva

Estatística Computacional Profª Karine Sato da Silva

Análise Exploratória e Estatistica Descritiva

Importância da estatística 17. O que é a Estatística? 18

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

Estatística Descritiva

INTRODUÇÃO À ESTATÍSTICA

MAE116 Farmácia Estatística Descritiva (I)

Unidade III Medidas Descritivas

Estatística Descritiva II

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Fundamentos de Inteligência Artificial [5COP099]

Análise Descritiva de Dados

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Introdução à Bioestatística

Prof. Lorí Viali, Dr.

Estatística Descritiva

Cap. 6 Medidas descritivas

Medidas resumo numéricas

CC-226 Introdução à Análise de Padrões

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central


Estatística Descritiva

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Métodos Estatísticos Básicos

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Transcrição:

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes 1 de 29

Tipos de Conjuntos de dados Registro Tabela do BD Matriz de dados Document 1 Document 2 team coach pla y ball score game wi n lost timeout 3 0 5 0 2 6 0 2 0 2 0 7 0 2 1 0 0 3 0 0 season Dados transacionais Document 3 0 1 0 0 1 2 2 0 3 0 Grafos e Redes WWW Estruturas moleculares TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk 2 de 29

Ordenados Tipos de Conjuntos de dados Sequencia de imagens Séries temporais Dados sequenciais Dados genéticos Espacial, Imagem e multimedia Mapas Imagens 3 de 29

Características importantes de dados estruturados Dimensionalidade Maldição da dimensionalidade Dispersão (dados esparsos) Somente interessa a presença de valor Resolução Padrões dependem da escala Distribuição Central ou dispersão 4 de 29

10 Mineração de dados Objetos de dados Um atributo é uma propriedade ou característica de um objeto. Examples: cor dos olhos, temperatura, etc. Outros nomes: variável, campo, característica, recurso ou dimensão Uma coleção de atributos descreve um objeto Outros nomes: registros, vetores, eventos, casos, exemplos, entidade ou observações Objetos Atributos Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 de 29 Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes

Nominal Tipos de atributos qualitativos Categoria, estados ou nomes de objetos Ex: estado civil, ocupação, identificadores, CEP, Cor do cabelo Binário Atributo nominal com apenas dois estados (O ou 1) Binário simétrico: ambos resultados são igualmente importantes. (Ex: gênero) Binário assimétrico: resultados não são igualmente importante. Ex: teste médico (positivo vocês negativo) 6 de 29

Ordinal Tipos de atributos qualitativos Valores obedece um ranking mas magnitude entre valores sucessivos não é conhecida Ex: {pequeno, médio, grande}, grau de satisfação 7 de 29

Tipos de atributos quantitativos Intervalar Valores medidos numa escala de tamanho fixa Valores têm ordem Ex: temperatura em ºC ou ºF, data do calendário Proporcional O valores possuem um ordem de magnitude maior que a unidade de medida (10ºK = 2*5ºK) Temperatura em Kelvin, tamanho, contadores, quantidades monetárias 8 de 29

Atributos Discretos vs Contínuos Atributo discreto Possui apenas uma quantidade finita de valores ou um conjunto de valores contáveis Ex: CEP, profissão, conjunto de palavras numa coleção de documentos Algumas vezes é representada por variáveis inteiras Nota: Atributo binário é um caso especial de atributo discreto 9 de 29

Atributos Discretos vs Contínuos Atributo Contínuo Valores representados por números reais Ex: temperatura, altura, pesa Na prática, valores reais apenas podem ser medidos e representados usando um número finito de dígitos Atributos contínuos são tipicamente representados como variáveis em ponto flutuante 10 de 29

Estatística básica para descrever os dados Motivação Por que é importante conhecer os dados? 11 de 29

Medidas de tendência central Média (medida algébrica) x = 1 n n i = 1 x i Média aritmética com peso x n i = 1 = n i = 1 w x i w i i Sensitiva aos extremos 12 de 29

Medidas de tendência central Mediana Com os dados ordenados, divide os valores ao meio Se n é ímpar, é o valor central Se n é par, é a média dos dois valores centrais Para dados agrupados median = L 1 + n / ( 2 ( freq median freq) l ) width 13 de 29

Medidas de tendência central Moda Valores que ocorrem mais frequentemente nos dados Atributos quantitativos ou qualitativos Unimodal, bimodal, trimodal Para conjuntos unimodais mean mode = 3 ( mean median) 14 de 29

Distribuição simétrica vs assimétrica symmetric positively skewed negatively skewed 15 de 29

Medidas de dispersão dos dados Amplitude Max - Min Quartil Q 1 (25º percentil) e Q 3 (75º percentil) Intervalo interquartil IQR = Q 3 - Q 1 16 de 29

Outliers Medidas de dispersão dos dados Objetos de dados que tem características que sejam diferentes da maioria de outros objetos ou Valores de um atributo que sejam incomum com relação aos valores típicos Podem fornecer informações importantes Normalmente, um valor maior ou menor que 1.5*IQR 17 de 29

Medidas de dispersão dos dados Diagrama em caixa Dados são representados numa caixa Os limites da caixa estão em Q 1 e Q 3 A mediana é marcada por uma linha Entre os quartis e os extremos são traçadas linhas Valores discrepantes (outliers) são indicados por pontos 18 de 29

Medidas de dispersão dos dados 19 de 29

Medidas de dispersão dos dados 20 de 29

21 de 29 Medidas de dispersão dos dados Avaliam a dispersão dos dados Desvio padrão baixo dados próximos a média Desvio padrão alto dados dispersos Variância (sample: s, population: σ) Desvio padrão Raiz quadrada da variância = = = = = n i n i i i n i i x n x n x x n s 1 1 2 2 1 2 2 ] ) ( 1 [ 1 1 ) ( 1 1 = = = = n i i n i i x N x N 1 2 2 1 2 2 1 ) ( 1 µ µ σ

Propriedade de uma curva de distribuição normal De μ σ a μ+σ : contém cerca de 68% dos valores De μ 2σ a μ+2σ : contém cerca de 95% dos valores De μ 3σ a μ+3σ : contém cerca de 99,7% dos valores 22 de 29

Histograma Quantile plot Diagrama de dispersão Outros gráficos 23 de 29

Apresenta a distribuição de frequência São retângulos justapostos, feitos sobre as classes de variáveis em estudo Histograma A área de cada retângulo é 10 igual (ou proporcional) à 5 frequência observada da classe correspondente 0 40 35 30 25 20 15 10000 30000 50000 70000 90000 24 de 29

Os dois histogramas ao lado tem a mesma representação em caixas Histograma Os mesmo valores valores de min, Q1, mediana, Q3, max Mas possuem distribuições de dados diferentes 25 de 29

Quantile Plot Para cada x i classificado em ordem crescente, f i indica que aproximadamente f i % dos dados são menores ou iguais a x i 26 de 29

Diagrama de dispersão Permite observar a relação entre duas variáveis 27 de 29

Dados correlacionados positivamente e negativamente The left half fragment is positively correlated The right half is negative correlated 28 de 29

Dados não correlacionados 29 de 29