Fundamentos de Inteligência Artificial [5COP099]

Documentos relacionados
Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Análise de Dados. Sylvio Barbon Junior 29 de julho de 2016 DC-UEL Sylvio Barbon Jr 1

SCC0173 Mineração de Dados Biológicos

Fundamentos de Inteligência Artificial [5COP099]

Fundamentos de Inteligência Artificial [5COP099]

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Estatística Descritiva

Fundamentos de Inteligência Artificial [5COP099]

Prof. Dr. Engenharia Ambiental, UNESP

Fundamentos de Inteligência Artificial [5COP099]

Apontamentos de Introdução às Probabilidades e à Estatística

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2014/2015

Redes Neurais e Sistemas Fuzzy

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2017/2018

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE DE DADOS Ano Lectivo 2017/2018

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE E TRATAMENTO DE DADOS Ano Lectivo 2013/2014

Filho, não é um bicho: chama-se Estatística!

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Técnicas Multivariadas em Saúde. Representação de Dados Multivariados. Métodos Multivariados em Saúde Roteiro. Análise Exploratória de Dados

RECONHECIMENTO DE PADRÕES - RP

(tabelas, gráficos e sumários estatísticos, de posição e de dispersão)

UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

Unidade III Medidas Descritivas

Autores: Fernando Sebastião e Helena Silva

ESTATÍSTICA DESCRITIVA E PREVISÃO INDICE

Estatística Descritiva (I)

Aprendizado de Máquina (Machine Learning)

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

ESTATÍSTICA DESCRITIVA

Metodologia Aplicada a Computação.

DISCIPLINA: ESTATÍSTICA I (CÓD. ENEC60015) PERÍODO: 3º PERÍODO

Estatística Descritiva

PLANO DE ENSINO. Disciplina: Estatística e Probabilidade Carga Horária: 40h Período: 1º. Ementa

Estatística descritiva

Estatística Computacional Profª Karine Sato da Silva

Elementos de Estatística

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Aula 2 Planejamento e Análise de Experimentos

Medidas resumo numéricas

Processamento digital de imagens

Tratamento estatístico de observações

Métodos Experimentais em Ciências Mecânicas

DISCIPLINA: EPIDEMIOLOGIA E BIOESTATÍSTICA LICENCIATURA: ENFERMAGEM; FISIOTERAPIA

Estatística. Professor Jair Vieira Silva Júnior.

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Representação de dados

Introdução. Amostragem, amostra aleatória simples, tabela de números aleatórios, erros

Estatística 1. Resumo Teórico

AULA DO CPOG. Estatística básica

INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão. Prof. Dr. Guanis de Barros Vilela Junior

IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL

Introdução à Estatística Estatística Descritiva 22

Amostragem Aleatória e Descrição de Dados - parte II

Tratamento estatístico de observações

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Análise Descritiva de Dados

Bioestatística Básica

Capítulo 1. Análise Exploratória de Dados

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE E TRATAMENTO DE DADOS Ano Lectivo 2013/2014

ASSIMETRIA E CURTOSE

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Stela Adami Vayego DEST/UFPR

MAE116 Farmácia Estatística Descritiva (I)

Casos. Índice. Parte I. Caso 1 Vendas da empresa Platox. Caso 2 Importação de matéria-prima. Caso 3 Carteira de acções. Caso 4 Lançamento de produto

17/04/2017. Tipos de dados. Primários. Secundários

Estatística Descritiva (I)

MATRIZ DE REFERÊNCIA PARA O ENEM 2009

A ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS: breve introdução José Irineu Rangel Rigotti

Estatística. Professor Jair Vieira Silva Júnior.

Aprendizado de Máquina (Machine Learning)

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

índice 2. Vetores e Tipos Primitivos PARTE 1- O Sistema R 1. Introdução ao Sistema R

Medidas de Posição ou Tendência Central

à Análise de Padrões

Distribuição de frequências:

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

Construção da base de dados

CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos

AULA 01 Estatísticas Descritivas

SPSS Aplicado à Pesquisa Acadêmica

Sumário. Prefácio... xi. Probabilidade e Estatística... 1

Reconhecimento de Padrões

CURSO DE ENFERMAGEM Reconhecido pela Portaria nº 270 de 13/12/12 DOU Nº 242 de 17/12/12 Seção 1. Pág. 20

ESTATÍSTICA DESCRITIVA APLICADA NA SAÚDE. Hospital Universitário Prof. Edgard Santos UFBA Unidade de Planejamento Julho de 2016

Conceito de Estatística

MEDIDAS DE TENDÊNCIA CENTRAL

Princípios de Bioestatística

Coeficiente de Assimetria

ORGANIZAÇÃO E DESCRIÇÃO DE DADOS

Revisão de estatística descritiva

Adilson Cunha Rusteiko

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

MAE116 Noções de Estatística

Transcrição:

Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre

Assunto Aula 8 Análise de Dados 2 de 23

Sumário Introdução Caracterização de Dados Exploração de Dados 3 de 23

Introdução A análise da características presentes em um conjunto de dados permite a descoberta de padrões e tendências que podem fornecer informações sobre os processos que os gerou. Muitas informações podem ser obtidas por estatística simples. Outras por meio de técnicas de visualização. No entanto, muitos padrões e conhecimento são obtidos com uso de técnicas mais sofisticadas como o Aprendizado de Máquina. 4 de 23

Caracterização dos Dados Um conjunto de dados são representados por objetos; Objetos podem representar objetos físicos ou noções abstratas; Os objetos são representados por descritores, também denominados como atributos, campos ou variáveis; Cada propriedade está associada a uma propriedade do objeto; Formalmente os dados podem ser representados como uma matriz X n d, onde n é o número de objetos e d o número de atributos. O valor de d define a dimensionalidade do problema. 5 de 23

Caracterização dos Dados Considere o conjunto de dados hospital: 6 de 23

Caracterização dos Dados Objetivo do Aprendizado de Máquina: 7 de 23

Caracterização dos Dados Atributo alvo: Chamado de atributo meta ou saída, representa o fenômeno de interesse sobre o qual se deseja fazer as previsões. Alguns problemas não apresentam um atributo alvo, neste caso a linha de atuação é chamada classificação não supervisionada. Quando existem vários atributos alvo, chamamos o problema de multi-rótulo. Quando temos a presentaça de um atributo alvo, podemos ter problemas de natureza: Classificação, quando o atributo alvo apresenta um rótulo ou classe com valores discretos. Exemplo: 1, 2,..., k ou Saudável, Doente. Estes problemas podem apresentar classes com maior (majoritária) ou menor (minoritária) na descrição do problema. Regressão, quando o atributo alvo são valores numéricos contínuos. Exemplo: Prever a temperatura ou tempo ideal para colheita. 8 de 23

Caracterização dos Dados Os valores podem assumir diferentes formas. Podemos avaliá-los quanto ao: Tipo: diz respeito ao grau de quantização dos dados; Escala: está relacionada a significância relativa dos dados. Com relação ao tipo, podemos assumir os seguintes: Qualitativo (simbólico): quando o atributo está associado a uma categoria. Exemplo, pequeno, médio, grande. Quantitativos (numéricos): quando o atributo é numérico e pertence a um conjunto de valores, podendo ser contínuos ou discretos. Estes valores podem ser inteiros, reais ou binários. 9 de 23

Caracterização dos Dados Com relação à escala, podemos assumir os seguintes: Nominal: são apenas nomes diferentes, sem carregar qualquer informação associada, não existindo relação de ordem. Exemplo: CPF Ordinal: apresentam valores que podem ser manipulados pelos operadores de grandeza (exemplo > e <). Exemplo: frio, morno e quente. Intervalar: quando os números variam dentro de uma escala e a ordem representa a magnitude entre os valores. Exemplo: temperatura; Racional: são os atributos que agregam mais valores, com um significado absoluto. Exemplo, visitas ao hospital, onde 0 significa ausência do atributo. 10 de 23

Exploração dos Dados As técnicas de exploração dos dados podem auxiliar na seleção de técnicas posteriores como pré-processamento e aprendizado. O mais tradicional é utilizar a estatística descritiva, que permitem capturar informações como: Frequência; Localização e tendência central; Dispersão ou espalhamento; Distribuição e formato; A medida de frequência mede a proporção de vezes que um atributo assume um dado valor em determinado conjunto de dados. Pode ser aplicada a qualquer natureza de tipo de dado. 11 de 23

Exploração dos Dados As técnicas de exploração dos dados podem auxiliar na seleção de técnicas posteriores como pré-processamento e aprendizado. O mais tradicional é utilizar a estatística descritiva, que permitem capturar informações como: Frequência; Localização e tendência central; Dispersão ou espalhamento; Distribuição e formato; A medida de frequência mede a proporção de vezes que um atributo assume um dado valor em determinado conjunto de dados. Pode ser aplicada a qualquer natureza de tipo de dado. 12 de 23

Exploração dos Dados Dados Univariados: São objetos que apresentam somente um atributo. Medidas de Localidade: Pode-se utilizar a moda (para dados simbólicos). Para atributos numéricos, pode-se utilizar média, mediana e percentil. A média é um atributo importante quando os dados não apresentam outliers ou distribuições não simétricas. Quando há a presença de outliers o ideal seria utilizar a mediana. O uso do Boxplot é uma ferramenta importante para a identificação de medidas de localidade. 13 de 23

Caracterização dos Dados Problema de classificação de iris (flor): 14 de 23

Caracterização dos Dados Base de dados iris 150 objetos: 50 de cada classe 4 atributos: comprimento pétala, largura da pétala, comprimento da sépala, largura da sépala 3 classes: setosa, versicolor, virginica 15 de 23

Caracterização dos Dados Boxplot e Boxplot modificado para caracterização dos dados. 16 de 23

Exploração dos Dados Dados Univariados: São objetos que apresentam somente um atributo. Medidas de Espalhamento:Permitem observar se os valores estão amplamente espalhados ou concentrados. Normalmente utiliza-se: Intervalo, Variância e Desvio Padrão (AAD, MAD e IQR - Absolute Average Deviation, Median Absolute Deviation e Interquartil Range). Medidas de Distribuição:Baseia-se no momento, sendo divido em: Valor 0 (k=1): quando é o primeiro momento em torno da origem (média); Variância (k=2): segundo momento central; Obliquidade (k=3) (skewness): terceiro momento central, mede a simetria. Obliquidade = 0 é simétrica, Obliquidade > 0 concentração do lado esquerdo e Obliquidade < 0 concentração do lado direito. Curtose (k=4) (kustosis): quarto momento central, é a medida de dispersão (achatamento da distribuição). Curtose = 0 (normal), Curtose 17 de 23 > 0 (concentrado) e Curtose < 0 (mais achatado que a normal)

Exploração dos Dados Gráficos comparando Skewness: 18 de 23

Exploração dos Dados Gráficos comparando Kustosis: 19 de 23

Exploração dos Dados Dados Multivariados: São aqueles que mais de um atributo descreve um objeto. Neste tipo de caso procura-se realizar a análise univariada para cada item e compreender qual atributo teria um comportamento desejado. Uma importante análise é a relação entre os atributos, para isso usamos: Covariância: mede o grau com que cada atributo varia junto. Seu valor depende da magnitude dos atributos. A covariância negativa indicada que quando um atributo aumenta, outro diminui. correlação: indica a relação linear entre dois atributos independente da dimensão. 20 de 23

Exploração dos Dados O mais utilizado para análise multivariada é o Scatterplot 21 de 23

Exploração dos Dados Heatmap permite analises com mais dimensões. 22 de 23

Fundamentos de Inteligência Artificial Referências 1. Coppin, B. Inteligência Artificial. LTC. 2010. 2. Russell, S.; Norvig, P. Artificial Intelligence: a modern approach. Prentice Hall. 2010. Localização: BC Número de Chamada: 519.683 R967a 3.ed. 3. Luger, G. F. Inteligência Artificial: estruturas e estratégias para a resolução de problemas complexos.bookman. 2004. Localização: BC Número de Chamada: 519.683 L951a 4.ed. 4. Carvalho, André, et al. Inteligência Artificial uma abordagem de aprendizado de máquina. Rio de Janeiro: LTC (2011). 23 de 23