DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

Documentos relacionados
Física Geral - Laboratório (2013/1) Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Física Geral - Laboratório. Organização e descrição de dados

Física Geral (2013/1) Aula 3: Estimativas e erros em medidas diretas (I)

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Física Geral LABORATÓRIO. Primeiro Semestre de 2019 Turma 4

Laboratório Física Geral

Física Geral - Laboratório (2016/2) Organização e descrição de dados

Física Geral - Laboratório. Organização e descrição de dados

Física Geral - Laboratório (2015/2) Organização e descrição de dados...continuação

MEDIDAS DE DISPERSÃO. Os dados a seguir referem-se ao índice pluviométrico de três cidades no Estado de São Paulo, em 3 diferentes ocasiões

Para caracterizar um conjunto de dados é importante não só a média, mas também a dispersão dos valores em torno da média

Física Geral - Laboratório. Aula 3: Estimativas e erros em medidas diretas (I)

Unidade III Medidas Descritivas

Medidas de tendência central,dispersão, posição, associação e boxplot

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

Medidas Estatísticas NILO FERNANDES VARELA

Estatística Descritiva

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

MEDIDAS DE POSIÇÃO. Lucas Santana da Cunha Universidade Estadual de Londrina. 26 de abril de 2017

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Medidas de Centralidade

Aula 02 mtm B MATEMÁTICA BÁSICA

MEDIDAS DE DISPERSÃO

Exemplo 1. Conjunto de dados de uma amostra de 12 meninas da escola: y i x i

Bioestatística Medidas de tendência central, posição e dispersão PARTE II Roberta de Vargas Zanini 11/05/2017

Prof. Dr. Lucas Santana da Cunha de abril de 2018 Londrina

Medidas de Dispersão. Prof.: Joni Fusinato

Módulo 1 FUNDAMENTOS DE ESTATÍSTICA

2) Dados os valores a seguir, , determinar a moda dos mesmos.

Física Geral - Laboratório (2015/2) Estimativas e erros em medidas diretas (I)

Aula 2 Regressão e Correlação Linear

Métodos Quantitativos II

Física Geral - Laboratório. Aula 8: Estimativas e erros em medidas indiretas: Ajuste de funções

Preparatório CEA. Módulo 6 Fundamentos de Estatística

Modelos de Regressão Linear Simples parte I

DISCIPLINA: ESTATÍSTICA I (CÓD. ENEC60015) PERÍODO: 3º PERÍODO

Estatística Descritiva

Variáveis bidimensionais

Universidade Federal de Alfenas Programa de Pós-graduação em Estatística Aplicada e Biometria-PPGEAB Prova de Conhecimentos Específicos

Estatísticas Descritivas. Estatística

Estimativas e Erros. Propagação de erros e Ajuste de funções

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

Análise de regressão linear simples. Diagrama de dispersão

Definição Há correlação entre duas variáveis quando os valores de uma variável estão relacionados, de alguma maneira, com os valores da outra variável

Estatística. Correlação e Regressão

P x. 2 i = P y. 2 i = Analise os dados e comente a possibilidade de existir uma relação linear entreasvariáveisemestudo.

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

Estatística Aplicada Professor: André Luiz Araújo Cunha. Moda. Media

Análise Descritiva de Dados

Revisões de Matemática e Estatística

Medidas de dispersão. 23 de agosto de 2018

Introdução ao modelo de Regressão Linear

Análise Exploratória e Estimação PARA COMPUTAÇÃO

UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS

Estatística Aplicada

VERIFICAÇÃO DOS RECURSOS NECESSÁRIOS. Capítulo 1 VARIÁVEIS E AMOSTRAS 1


Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Estatística para Cursos de Engenharia e Informática

Aula 03 Estatística, Correlação e Regressão

Estatística Aplicada a Negócios

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Estatística Aplicada II. } Correlação e Regressão

Medidas de dispersão. Dr. Nielsen Castelo Damasceno Dantas. Slide 8

Medidas de Dispersão para uma Amostra. Conteúdo: AMPLITUDE VARIÂNCIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Probabilidade e Estatística

3 3. Variáveis Aleatórias

EXAME DE ESTATÍSTICA / ESTATÍSTICA I

- 1 - EDITAL ANTERIOR PRF 2013 Matemática Noções de estatística. MÉDIA ARITMÉTICA (x )

Estatística

Análise de Regressão Linear Simples e

MEDIDAS DE POSIÇÃO. Lucas Santana da Cunha 10 de maio de Universidade Estadual de Londrina

Métodos Quantitativos II

Unidade I ESTATÍSTICA DESCRITIVA. Profa. Isabel Espinosa

Medidas de Tendência Central

Inferência. 1 Correlação Linear 2 Regressão linear. Renata Souza

Amostragem Aleatória e Descrição de Dados - parte I

Variáveis bidimensionais

INSTITUTO POLITÉCNICO DE SETÚBAL ESCOLA SUPERIOR DE SAÚDE ESTATÍSTICA

Medidas de Centralidade

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

Correlação e Regressão

EXAME DE ESTATÍSTICA / ESTATÍSTICA I

Faculdade de Economia da Universidade Nova de Lisboa 1304 Análise de Dados e Probabilidade 2º Semestre 2007/2008 Fernando Brito Soares Erica Marujo

n = 25) e o elemento (pois = 19) e terá o valor 8. Verifique que antes e depois do 19 o elemento, teremos 18 elementos.

Variável Aleatória Contínua (v.a.c)

Medidas de Posição. Tendência Central. É um valor que representa uma entrada típica, ou central, de um conjunto de dados. média. mediana.

Estatística CORRELAÇÃO E REGRESSÃO LINEAR. Prof. Walter Sousa

Estatística. Guia de Estudos P1

X = j=1 X j n. X j. Número de abortos Local TOTAL Rio Vermelho Costa da Lagoa TOTAL

PESQUISA EM MERCADO DE CAPITAIS. Prof. Patricia Maria Bortolon, D. Sc.

BIOESTATÍSTICA. Unidade III - Medidas de Tendência Central e de Dispersão

Estatística. O que é Estatística? Estatística pode ser: Estatística Descritiva. Ivonete Melo de Carvalho. Conteúdo

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

Universidade de São Paulo

MEDIDAS DE DISPERSÃO

Transcrição:

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

Média xi N É influenciada por valores extremos.

Moda É valor mais freqüente. Não é muito informativa quando a distribuição é multimodal.

Mediana É valor que divide a distribuição em duas metades. Não é muito informativa quando a distribuição é bimodal.

Variância (amostral) s 2 = (xi x) 2 n 1

Desvio-padrão (amostral) (xi x) 2 s = n 1 Vantagem: está na mesma unidade da variável.

como medir a associação entre duas variáveis? Como medir o quanto duas variáveis andam juntas?

como medir a associação entre duas variáveis? Como medir o quanto duas variáveis andam juntas? Exemplos:

como medir a associação entre duas variáveis? Como medir o quanto duas variáveis andam juntas? Exemplos: Anos de estudo X salário.

como medir a associação entre duas variáveis? Como medir o quanto duas variáveis andam juntas? Exemplos: Anos de estudo X salário. Horas de estudo por semana X nota na disciplina.

como medir a associação entre duas variáveis? Como medir o quanto duas variáveis andam juntas? Exemplos: Anos de estudo X salário. Horas de estudo por semana X nota na disciplina. Emissões de CO2 X temperatura.

como medir a associação entre duas variáveis? Como medir o quanto duas variáveis andam juntas? Exemplos: Anos de estudo X salário. Horas de estudo por semana X nota na disciplina. Emissões de CO2 X temperatura. Idade X acidentes de carro.

como medir a associação entre duas variáveis? Como medir o quanto duas variáveis andam juntas? Exemplos: Anos de estudo X salário. Horas de estudo por semana X nota na disciplina. Emissões de CO2 X temperatura. Idade X acidentes de carro. Consumo de carne vermelha X longevidade.

como medir a associação entre duas variáveis? Como medir o quanto duas variáveis andam juntas? Exemplos: Anos de estudo X salário. Horas de estudo por semana X nota na disciplina. Emissões de CO2 X temperatura. Idade X acidentes de carro. Consumo de carne vermelha X longevidade. Horas de academia por semana X peso.

Solução #1: gráfico de dispersão. velocidade vs parada parada 0 50 100 150 200 250 300 10 15 20 25 30 35 40 velocidade

Solução #1: gráfico de dispersão. altura vs peso peso 55 60 65 70 75 150 155 160 165 170 175 180 altura

Solução #2: covariância. Breve revisão: variância (amostral). s 2 (yi ȳ) 2 = n 1

Solução #2: covariância. Covariância (amostral): (xi x)(y i ȳ) s xy = n 1 s xy nos diz o quanto as variáveis x e y andam juntas... ou seja, o quanto x e y co-variam

Solução #2: covariância. altura:

Solução #2: covariância. altura: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88

Solução #2: covariância. altura: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 altura média: x = 165.1

Solução #2: covariância. altura: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 altura média: x = 165.1 peso:

Solução #2: covariância. altura: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 altura média: x = 165.1 peso: 52.095, 53.001, 54.360, 55.719, 57.078, 58.437, 59.796, 61.155, 62.967, 64.326, 66.138, 67.950, 69.762, 72.027, 74.292

Solução #2: covariância. altura: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 altura média: x = 165.1 peso: 52.095, 53.001, 54.360, 55.719, 57.078, 58.437, 59.796, 61.155, 62.967, 64.326, 66.138, 67.950, 69.762, 72.027, 74.292 peso médio: ȳ = 61.94

Solução #2: covariância. altura: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 altura média: x = 165.1 peso: 52.095, 53.001, 54.360, 55.719, 57.078, 58.437, 59.796, 61.155, 62.967, 64.326, 66.138, 67.950, 69.762, 72.027, 74.292 peso médio: ȳ = 61.94 (fazer tabela no quadro: x i, y i, (x i x), (y i ȳ), (x i x)(y i ȳ))

Solução #2: covariância. Problema: como saber se uma dada covariância é grande ou pequena? Covariância depende da escala das duas variáveis. Como comparar duas covariâncias quando as escalas são diferentes?

Solução #3: correlação. r xy = s xy s x s y r xy = coeficiente de correlação amostral s xy = covariância (amostral) s x = desvio-padrão amostral de x s y = desvio-padrão amostral de y r xy varia sempre entre -1 e 1, não importa a escala das duas variáveis r xy = 1: correlação negativa perfeita r xy = +1: correlação positiva perfeita

Solução #3: correlação. Voltando ao exemplo do peso X altura:

Solução #3: correlação. Voltando ao exemplo do peso X altura: x: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88

Solução #3: correlação. Voltando ao exemplo do peso X altura: x: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 y: 52.095, 53.001, 54.360, 55.719, 57.078, 58.437, 59.796, 61.155, 62.967, 64.326, 66.138, 67.950, 69.762, 72.027, 74.292

Solução #3: correlação. Voltando ao exemplo do peso X altura: x: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 y: 52.095, 53.001, 54.360, 55.719, 57.078, 58.437, 59.796, 61.155, 62.967, 64.326, 66.138, 67.950, 69.762, 72.027, 74.292 Já calculamos a covariância: 79.39

Solução #3: correlação. Voltando ao exemplo do peso X altura: x: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 y: 52.095, 53.001, 54.360, 55.719, 57.078, 58.437, 59.796, 61.155, 62.967, 64.326, 66.138, 67.950, 69.762, 72.027, 74.292 Já calculamos a covariância: 79.39 Falta calcular s x e s y

Solução #3: correlação. Voltando ao exemplo do peso X altura: x: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 y: 52.095, 53.001, 54.360, 55.719, 57.078, 58.437, 59.796, 61.155, 62.967, 64.326, 66.138, 67.950, 69.762, 72.027, 74.292 Já calculamos a covariância: 79.39 Falta calcular s x e s y (xi x) 2 s x = n 1

Solução #3: correlação. Voltando ao exemplo do peso X altura: x: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 y: 52.095, 53.001, 54.360, 55.719, 57.078, 58.437, 59.796, 61.155, 62.967, 64.326, 66.138, 67.950, 69.762, 72.027, 74.292 Já calculamos a covariância: 79.39 Falta calcular s x e s y (xi x) 2 s x = n 1 (yi ȳ) 2 s y = n 1

Solução #3: correlação. Voltando ao exemplo do peso X altura: x: 147.32, 149.86, 152.40, 154.94, 157.48, 160.02, 162.56, 165.10, 167.64, 170.18, 172.72, 175.26, 177.80, 180.34, 182.88 y: 52.095, 53.001, 54.360, 55.719, 57.078, 58.437, 59.796, 61.155, 62.967, 64.326, 66.138, 67.950, 69.762, 72.027, 74.292 Já calculamos a covariância: 79.39 Falta calcular s x e s y (xi x) 2 s x = n 1 (yi ȳ) 2 s y = n 1 r xy = s xy s x s y = 79.39 (11.35)(7.02) = 0.99

Como assim amostral? Se os dados são da população e não de uma amostra, é só substituir n 1 por N nas fórmulas da covariância e do desvio-padrão. (xi x)(y i ȳ) σ xy = N (xi x) 2 σ x = N (yi ȳ) 2 σ y = N

Cuidado! Correlação!= causação. Correlação pode não ser linear.