GPDI Grupo de Profissionais de Dados e Inteligência

Documentos relacionados
Sensoriamento Remoto II

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações

NOTAS DE AULA DA DISCIPLINA CE076

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Componentes Principais

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões PCA. Luiz Eduardo S. Oliveira, Ph.D.

Inferência Estatística. Medidas de Tendência Central Medidas de Variação Medidas de Posição

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

Tutorial para o desenvolvimento das Oficinas

Estudo dirigido de Análise Multivariada

Estatística Computacional Profª Karine Sato da Silva

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

6EMA Lucas Santana da Cunha 19 de abril de Universidade Estadual de Londrina

Análise de Componentes Principais (PCA)

6EMA Lucas Santana da Cunha 17 e 19 de abril de Universidade Estadual de Londrina

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

CSE-020 Revisão de Métodos Matemáticos para Engenharia

Estatística Descritiva

29 e 30 de julho de 2013

Estatística 1. Resumo Teórico

Revisões de Matemática e Estatística

Exemplo 1: Variáveis padronizadas Z t = ( Z 1 (1), Z 2 (1), Z 1 (2), Z 2 Z 1 (1) Z (1) = Z (2) = Z 2. Matriz de correlações:

Processamento Digital de Imagem

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

RECONHECIMENTO DE PADRÕES - RP

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Reconhecimento de Padrões. Principal Component Analysis (PCA) Análise dos Componentes Principais

ESTATÍSTICA ECONÔMICA A 6EMA

GET00116 Fundamentos de Estatística Aplicada Gabarito da Lista de exercícios Estatística Descritiva Profa. Ana Maria Lima de Farias

Medidas de Dispersão ou variabilidade

Estatística Aplicada I. } Análise Bidimensional

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

Conceito de Estatística

Formas Quádricas Cônicas hlcs

Álgebra Linear I - Aula Matrizes simultaneamente ortogonais e simétricas

1 Introdução aos Métodos Estatísticos para Geografia 1

Fundamentos de Inteligência Artificial [5COP099]

Autovalores e Autovetores

Joaquim Neto Versão 1.0

Mineração de Dados. Análise e Seleção de Variáveis

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Análise de Dados. Sylvio Barbon Junior 29 de julho de 2016 DC-UEL Sylvio Barbon Jr 1

Análise Descritiva de Dados

Estatísticas Descritivas. Estatística

Cap. 8 Distribuições contínuas e modelo normal

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA UNIVERSIDADE DE SÃO PAULO

Métodos Empíricos de Pesquisa I. } Análise Bidimensional

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

CONHECIMENTOS ESPECÍFICOS

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

6- Probabilidade e amostras: A distribuição das médias amostrais

GAAL - Terceira Prova - 15/junho/2013. Questão 1: Analise se a afirmação abaixo é falsa ou verdadeira:

Prof. Dr. Engenharia Ambiental, UNESP

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

ESTATÍSTICA PROFESSOR: ALEXSANDRO DE SOUSA

Análise Multivariada Aplicada à Contabilidade

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

Estatística Descritiva e Exploratória

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Probabilidade e Estatística

3 3. Variáveis Aleatórias

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

CAPÍTULO 4 CONCEITOS BÁSICOS DE ESTATÍSTICA E PROBABILIDADES

Métodos Estatísticos

Redes de Computadores sem Fio

Distância Estatística

Estatística Aplicada II. } Correlação e Regressão

DISCIPLINA: EPIDEMIOLOGIA E BIOESTATÍSTICA LICENCIATURA: ENFERMAGEM; FISIOTERAPIA

ANÁLISE ESTATÍSTICA NO RECONHECIMENTO AUTOMÁTICO DE FACES UTILIZANDO PCA EIGENFACES

G3 de Álgebra Linear I

Medidas-Resumo. Tipos de Variáveis

Simulação Monte Carlo

Ralph S. Silva

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Álgebra Linear I - Aula Forma diagonal de uma matriz diagonalizável

Bioestatística e Computação I

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3

Unidade I ESTATÍSTICA APLICADA. Prof. Luiz Felix

Medidas de Posição. Tendência Central. É um valor que representa uma entrada típica, ou central, de um conjunto de dados. média. mediana.

Medidas de tendência central,dispersão, posição, associação e boxplot

Módulo IV Medidas de Variabilidade ESTATÍSTICA

ESTATÍSTICA ECONÔMICA A 6EMA

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Ralph S. Silva

ESTATÍSTICA Medidas de Síntese

CURRICULUM SIMPLIFICADO

Resolução da Questão 1 Item I (Texto Definitivo)

Medidas de Tendência Central e Medidas de Dispersão

Distribuição de frequências:

Lucas Santana da Cunha 12 de julho de 2017

2. Estatística Descritiva

Medidas de localização (ou de tendência central) Média: definida como o centro de massa (ou ponto de equilíbrio) do conjunto.

BIOESTATÍSTICA. Unidade III - Medidas de Tendência Central e de Dispersão

INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGENS SENSORIAMENTO REMOTO

Transcrição:

GPDI Grupo de Profissionais de Dados e Inteligência Estatística e sua relação de dados Uma aplicação na redução da dimensionalidade em matrizes de dados

Grupo de Profissionais de Dados e Inteligência

Quem sou? JOSÉ BELO ARAGÃO JÚIOR Professor, pesquisador, empresário. Formação Acadêmica Telemática pelo IFCE; Matemática pela UECE; MBA em Gerenciamento de Projetos pela FGV; Mestre em Engenharia de Teleinformática pela UFC; Certificado PMP e CSM.

Introdução O que é Estatística? Estatística pode ser entendida como a ciência dos dados. Por que estudar Estatística? Para melhor entendermos os fenômenos que nos cercam.

Introdução Estatística é a arte de torturar os números até que eles digam a verdade.

Áreas de Aplicação Finanças Estudo de tendências. Previsões do mercado. Análise de risco. Decisões sobre investimento. Contabilidade Auditoria. Custos.

Áreas de Aplicação Mercadologia Perfil dos consumidores. Campanhas publicitárias. Pesquisas de mercado. Segmentação de mercado. Operações Controle de qualidade. Previsão de Produção.

Áreas de Aplicação Administração de Empresas Pesquisas de Salários. Controle de qualidade. Logística. Clima organizacional. Administração Pública Avaliações de políticas públicas. Instrumentos de controle.

Áreas da Estatística Estatística Estatística Descritiva Envolve as técnicas que permitem representar, mensurar e analisar um conjunto de dados. Estatística Inferencial Envolve as técnicas que permitem utilizar dados de uma amostra para generalizações sobre a população.

Medidas Estatísticas Medidas Estatísticas Posição Variação Média Mediana Variância Desvio Padrão Moda Covariância Correlação

Média Reflete um ponto de equilíbrio. É influenciada por valores etremos. i i 2 3...

Mediana Valor que divide a distribuição em duas partes iguais Se n for ímpar, a mediana será a observação que ocupa a posição central. Se n for par, a mediana será a média dos dois valores centrais. ão é influenciada por valores etremos, mas sim pelas frequências.

Variância e Desvio Padrão Indicam como os dados estão dispersos em torno da média Consideram todos os valores da série de dados 2 i 2 2 i 2... σ 2 2 µ 4 6 7,5 8,5 0 2 8

Covariância É uma medida do grau de interdependência numérica entre duas variáveis aleatórias. Y Cov i i i ), ( Y Cov... ), (

Correlação Utilizado principalmente para avaliar o grau da relação LIEAR entre 2 variáveis. É uma medida adimensional. Varia entre - e, inclusive. Y Cov Y ), ( ), ( Y... ), ( i i i Y ), (

Correlação Y... ), ( Y... ), ( A correlação deve ser entendida como o produto escalar de vetores com dados padronizados, dividido pela dimensão dos vetores.

Curiosidade!!! Y 2 2 2 2.......... ), ( 2 2 2 2.......... ), ( Y v u v u.. cos cos

Correlação Correlação egativa Perfeita Sem Correlação Linear Correlação Positiva Perfeita - -0,5 0 +0,5 + Aumenta o grau de correlação negativa Aumenta o grau de correlação positiva

Correlação Y Y r = r = - Correlação perfeita e direta (positiva) Correlação perfeita e inversa (negativa)

Correlação Y r = 0,95 Correlação alta e direta Y r = 0 Correlação nula: não há relação linear

Eemplo Considere os escores de 5 alunos nas provas de Português e Matemática. ote que as notas estão em escalas diferentes. Aluno Prova 2 3 4 5 Português 37 36 46 39 42 Matemática 8 6 4 7 5 Há alguma correlação entre as notas das duas disciplinas?

Eemplo Média em Português µ P = 40 Média em Matemática µ M = 6 Escores com a mudança de origem. ( i = i µ) Aluno Prova 2 3 4 5 Português -3-4 6-2 Matemática 2 0-2 - As unidades ainda estão epressas na escala original de cada prova. ( 3).2 ( 4).0 6.( 2) ( ). 2.( ) Cov( P, M ) 2 5

Eemplo Ao dividir o valor de cada afastamento em relação à média pelo desvio padrão, a nova variável, Z, fica epressa em número de desvios padrão em torno da média. Z i A esse procedimento chamamos PADROIZAÇÃO. A média e o desvio padrão das distribuições na forma padronizada são 0 e, respectivamente. i

Eemplo Aluno Prova 2 3 4 5 Português ( p ) -3-4 6-2 Matemática ( m ) 2 0-2 - µ P = 40 σ P = 3,633 Z i i µ M = 6 σ M =,44 Aluno Prova 2 3 4 5 Português (z p ) -0,825 -,,65-0,275 0,55 Matemática (z m ),44 0 -,44 0,707-0,707

Eemplo Aluno Prova 2 3 4 5 Português (z p ) -0,825 -,,65-0,275 0,55 Matemática (z m ),44 0 -,44 0,707-0,707 ( P, M ) (, Y )... 0,825.,44 (,).0,65.(,44) (0,275).0,707 0,55.( 0,707) 5 ( P, M ) 0,87

Matriz de Covariância É uma matriz simétrica que eibe as covariâncias entre variáveis. Sejam as variáveis: [, 2,..., ]

PCA A análise dos componentes principais é um método que tem por finalidade básica, a análise dos dados usados visando sua redução, eliminação de sobreposições e a escolha das formas mais representativas de dados a partir de combinações lineares das variáveis originais. É também chamado de Transformada Discreta de Karhunen-Loève (KLT).

PCA Seja o conjunto de dados formado pelo vetores [, 2,..., ]. PCA realiza uma combinação desses vetores que, geometricamente, representam um novo sistema de coordenadas [Y, Y 2,..., Y ], formado por vetores nãocorrelacionados e obtidos a partir da rotação do sistema original. O novo sistema de coordenadas representa as direções de maior variabilidade de dados. este novo sistema de coordenadas a variância ao longo do eio Y i é dada pelo autovalor λ i, calculado a partir da matriz de covariância dos dados originais.

Seja a seguinte matriz de covariância: PCA - Eemplo

Os Autovalores e Autovetores de C são: PCA - Eemplo

PCA - Eemplo As componentes principais são dadas por:

PCA - Eemplo A variância devido a cada uma das componentes Y i, é dada por:

PCA - Eemplo Conclusão: Aproimadamente 98% da variabilidade dos dados é contabilizada usando apenas as duas primeiras componentes. Desta maneira, para fins práticos, pode-se desprezar a terceira variável.

Obrigado! José Belo Aragão Júnior, MsC, PMP aragao@pecta.com.br

Grupo de Profissionais de Dados e Inteligência