GPDI Grupo de Profissionais de Dados e Inteligência Estatística e sua relação de dados Uma aplicação na redução da dimensionalidade em matrizes de dados
Grupo de Profissionais de Dados e Inteligência
Quem sou? JOSÉ BELO ARAGÃO JÚIOR Professor, pesquisador, empresário. Formação Acadêmica Telemática pelo IFCE; Matemática pela UECE; MBA em Gerenciamento de Projetos pela FGV; Mestre em Engenharia de Teleinformática pela UFC; Certificado PMP e CSM.
Introdução O que é Estatística? Estatística pode ser entendida como a ciência dos dados. Por que estudar Estatística? Para melhor entendermos os fenômenos que nos cercam.
Introdução Estatística é a arte de torturar os números até que eles digam a verdade.
Áreas de Aplicação Finanças Estudo de tendências. Previsões do mercado. Análise de risco. Decisões sobre investimento. Contabilidade Auditoria. Custos.
Áreas de Aplicação Mercadologia Perfil dos consumidores. Campanhas publicitárias. Pesquisas de mercado. Segmentação de mercado. Operações Controle de qualidade. Previsão de Produção.
Áreas de Aplicação Administração de Empresas Pesquisas de Salários. Controle de qualidade. Logística. Clima organizacional. Administração Pública Avaliações de políticas públicas. Instrumentos de controle.
Áreas da Estatística Estatística Estatística Descritiva Envolve as técnicas que permitem representar, mensurar e analisar um conjunto de dados. Estatística Inferencial Envolve as técnicas que permitem utilizar dados de uma amostra para generalizações sobre a população.
Medidas Estatísticas Medidas Estatísticas Posição Variação Média Mediana Variância Desvio Padrão Moda Covariância Correlação
Média Reflete um ponto de equilíbrio. É influenciada por valores etremos. i i 2 3...
Mediana Valor que divide a distribuição em duas partes iguais Se n for ímpar, a mediana será a observação que ocupa a posição central. Se n for par, a mediana será a média dos dois valores centrais. ão é influenciada por valores etremos, mas sim pelas frequências.
Variância e Desvio Padrão Indicam como os dados estão dispersos em torno da média Consideram todos os valores da série de dados 2 i 2 2 i 2... σ 2 2 µ 4 6 7,5 8,5 0 2 8
Covariância É uma medida do grau de interdependência numérica entre duas variáveis aleatórias. Y Cov i i i ), ( Y Cov... ), (
Correlação Utilizado principalmente para avaliar o grau da relação LIEAR entre 2 variáveis. É uma medida adimensional. Varia entre - e, inclusive. Y Cov Y ), ( ), ( Y... ), ( i i i Y ), (
Correlação Y... ), ( Y... ), ( A correlação deve ser entendida como o produto escalar de vetores com dados padronizados, dividido pela dimensão dos vetores.
Curiosidade!!! Y 2 2 2 2.......... ), ( 2 2 2 2.......... ), ( Y v u v u.. cos cos
Correlação Correlação egativa Perfeita Sem Correlação Linear Correlação Positiva Perfeita - -0,5 0 +0,5 + Aumenta o grau de correlação negativa Aumenta o grau de correlação positiva
Correlação Y Y r = r = - Correlação perfeita e direta (positiva) Correlação perfeita e inversa (negativa)
Correlação Y r = 0,95 Correlação alta e direta Y r = 0 Correlação nula: não há relação linear
Eemplo Considere os escores de 5 alunos nas provas de Português e Matemática. ote que as notas estão em escalas diferentes. Aluno Prova 2 3 4 5 Português 37 36 46 39 42 Matemática 8 6 4 7 5 Há alguma correlação entre as notas das duas disciplinas?
Eemplo Média em Português µ P = 40 Média em Matemática µ M = 6 Escores com a mudança de origem. ( i = i µ) Aluno Prova 2 3 4 5 Português -3-4 6-2 Matemática 2 0-2 - As unidades ainda estão epressas na escala original de cada prova. ( 3).2 ( 4).0 6.( 2) ( ). 2.( ) Cov( P, M ) 2 5
Eemplo Ao dividir o valor de cada afastamento em relação à média pelo desvio padrão, a nova variável, Z, fica epressa em número de desvios padrão em torno da média. Z i A esse procedimento chamamos PADROIZAÇÃO. A média e o desvio padrão das distribuições na forma padronizada são 0 e, respectivamente. i
Eemplo Aluno Prova 2 3 4 5 Português ( p ) -3-4 6-2 Matemática ( m ) 2 0-2 - µ P = 40 σ P = 3,633 Z i i µ M = 6 σ M =,44 Aluno Prova 2 3 4 5 Português (z p ) -0,825 -,,65-0,275 0,55 Matemática (z m ),44 0 -,44 0,707-0,707
Eemplo Aluno Prova 2 3 4 5 Português (z p ) -0,825 -,,65-0,275 0,55 Matemática (z m ),44 0 -,44 0,707-0,707 ( P, M ) (, Y )... 0,825.,44 (,).0,65.(,44) (0,275).0,707 0,55.( 0,707) 5 ( P, M ) 0,87
Matriz de Covariância É uma matriz simétrica que eibe as covariâncias entre variáveis. Sejam as variáveis: [, 2,..., ]
PCA A análise dos componentes principais é um método que tem por finalidade básica, a análise dos dados usados visando sua redução, eliminação de sobreposições e a escolha das formas mais representativas de dados a partir de combinações lineares das variáveis originais. É também chamado de Transformada Discreta de Karhunen-Loève (KLT).
PCA Seja o conjunto de dados formado pelo vetores [, 2,..., ]. PCA realiza uma combinação desses vetores que, geometricamente, representam um novo sistema de coordenadas [Y, Y 2,..., Y ], formado por vetores nãocorrelacionados e obtidos a partir da rotação do sistema original. O novo sistema de coordenadas representa as direções de maior variabilidade de dados. este novo sistema de coordenadas a variância ao longo do eio Y i é dada pelo autovalor λ i, calculado a partir da matriz de covariância dos dados originais.
Seja a seguinte matriz de covariância: PCA - Eemplo
Os Autovalores e Autovetores de C são: PCA - Eemplo
PCA - Eemplo As componentes principais são dadas por:
PCA - Eemplo A variância devido a cada uma das componentes Y i, é dada por:
PCA - Eemplo Conclusão: Aproimadamente 98% da variabilidade dos dados é contabilizada usando apenas as duas primeiras componentes. Desta maneira, para fins práticos, pode-se desprezar a terceira variável.
Obrigado! José Belo Aragão Júnior, MsC, PMP aragao@pecta.com.br
Grupo de Profissionais de Dados e Inteligência