Trabalho 1 - Relatório Técnico

Documentos relacionados
Silva (2014) faz a classificação dos elementos no trabalho Data Mining sobre um dataset de Câncer de Mama:

Estatística Descritiva (II)

SCC0173 Mineração de Dados Biológicos

Estatística Descritiva (II)

Lista de Exercícios Cap. 2

Relatório Técnico - SVM na base Breast Cancer Wisconsin

PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados -- Profs. Celso Kaestner e Heitor Lopes Trabalho #2 Regras de Associação

Estudando com o MATLAB

MAE116 Noções de Estatística

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

Grupo A - 1 semestre de 2012 Lista de exercícios 2 - Estatística Descritiva II C A S A (gabarito)

Trabalho de Modelos Lineares Generalizados

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3

Módulo VII: Estatística elementar

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

Apostila de estatística básica Minitab Organizador: Daniel Magalhães Lima. Autores:

Grupo A - I semestre de 2014 Lista de exercícios 2 - Introdução à Estatística Descritiva C A S A (gabarito)

Software para detecção de melanoma para ios

Usar minigráficos para mostrar tendências de dados

Capítulo 1. Análise Exploratória de Dados

Aprendizado de Máquina (Machine Learning)

Estatística Aplicada à Administração com o software KNIME. Prof. Dr. Evandro Marcos Saidel Ribeiro

USO DE TÉCNICAS DE SEGMENTAÇÃO NA ANÁLISE DE IMAGENS DE TOMOGRAFIA COMPUTADORIZADA DE PULMÕES COM DPOC

Prof. Heitor Silvério Lopes

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Descrevendo Distribuições com Números TADI

Estatística I Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Elementos de Estatística

Bio Estatística Aula 4

Tipos de gráficos disponíveis

Tutorial para o desenvolvimento das Oficinas

DISCIPLINA: ESTATÍSTICA I (CÓD. ENEC60015) PERÍODO: 3º PERÍODO

Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Informática. Fundamentos de Computação Gráfica

APONTAMENTOS DE SPSS

CURSO RÁPIDO. E l a b o r a ç ã o : W a n d e r s o n K l e b e r d e O l i v e i r a W i l d o N a v e g a n t e s d e A r a u j o

Estatística Descritiva

Conceito de Estatística

Relatório de estatística - Análise dos registros de alunos no Prouni no ano de 2016

Medidas de Posição. Tendência Central. É um valor que representa uma entrada típica, ou central, de um conjunto de dados. média. mediana.

DESENVOLVIMENTO DE UM ALGORITMO PARA REDUÇÃO DE ERROS EM MAPAS DE RENDIMENTO OBTIDOS EM AGRICULTURA DE PRECISÃO

Material Teórico - Módulo Matrizes e Sistemas Lineares. Sistemas Lineares - Parte 2. Terceiro Ano do Ensino Médio

Data Mining sobre um dataset de Câncer de Mama

Estatística Descritiva (II)

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Análise de Dados. Sylvio Barbon Junior 29 de julho de 2016 DC-UEL Sylvio Barbon Jr 1

Medidas de localização (ou de tendência central) Média: definida como o centro de massa (ou ponto de equilíbrio) do conjunto.

Instituições de Ensino Superior Docentes Pertencentes a Unidades FCT. Indicadores Bibliométricos Física e Astronomia

Distribuição Normal. Prof a Dr a Alcione Miranda dos Santos. Abril, 2011

Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine)

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

8 JÚLIO CESAR R. PEREIRA

AULA 8 Experimentos multinomiais e tabelas de contingência

Estatística: Objetivos e fundamentos

METODOLOGIA DE INVESTIGAÇÃO CIENTÍFICA

Estatísticas Descritivas. Estatística

Estatística Descritiva

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Transcrição:

Trabalho 1 - Relatório Técnico Aluno: Adenir Pedro da Silva Junior Orientador: Heitor Silvério Lopes Co-orientador: Celso Antonio Alves Kaestner Disciplina: Mineração de Dados - PPGCA fase 3 / 2016 1. Objetivo O presente relatório tem o objetivo de exercitar o conteúdo ministrado na primeira e segunda aula da disciplina Mineração de Dados. O exercício consiste em aplicar a mesma sistemática dos capítulos 1, 2 e 3 de "R and Data Mining: Examples and Case Studies" sobre o dataset Breast Cancer Wisconsin. 2. Base de Dados Este relatório utilizará os dados do repositório UCI - Machine Learning Repository, Breast Cancer Wisconsin (Diagnostic) Data Set [2]. Trata-se de uma base de dados de câncer de mama obtido na University of Wisconsin Hospitals, Madison e mantidos por Dr. William H. Wolberg. As instâncias possuem características (atributos) do núcleo celular extraídas de imagens digitalidas a partir de nódulos na mama submetidos ao procedimento de biópsia conhecido como FNA (Fine-needle aspiration). Cada instância possui dois possíveis diagnósticos: câncer maligno ou benigno. A Tabela 1 apresenta o resumo dos dados. Base de Dados Número de instâncias 699 Número de atributos Fonte Breast Cancer Wisconsin (Diagnostic) 10 + 1 atributo classe http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+%28d iagnostic%29 Tabela 1 2.1 Pré-Processamento Antes de importar o dataset no RStudio, a extensão do arquivo foi alterada para.r, os nomes dos atributos foram adicionados na primeira linha e as instâncias com atributos indefinidos foram removidas (um total de 16). Reduzindo assim, o número de instâncias para 683.

3. Exploração dos Dados 3.1 Observando os Dados A dimensão dos dados é verificada pelo comando dim(breast.cancer.wisconsin): que é interpretado como sendo uma base de dados de 683 instâncias e 11 colunas (attributos). Os nomes das variáveis, adicionadas na primeira linha do arquivo, são retornados pela função names() 3.2 Explorando Variáveis Individualmente O comando summary() retorna um relatório da distribuição dos dados. Pode-se comprovar o domínio dos atributos (através de Min e Max) com valores normalizados entre 1 e 10, com exceção da classe que assume valores 2 e 4. Quantitativamente avaliandos as informações acima é possível observar, por exemplo, a uniformidade do tamanho da célula (Uniformity of Cell Size) possui metade de suas ocorrências com valores iguais a 1 e 75% são menores que 5. Dai uma média relativamente baixa, de 3,151. Para uma melhor visualização dos dados deste atributo, a função abaixo ajuda a entender que valores maiores que 5 somente acontecem para em 20% das ocorrências: Ainda sobre o mesmo atributo, calculado-se a variância temos:

o que significa que os valores em geral estão distantes da média (3,151). Por outro lado, a mitose (Mitoses) possui uma distribuição mais concentrada ao redor da média: fica fácil chegar a esta conclusão ao observar os quartis desta variável e a sua média (1.603): Através de um histograma podemos observar a distribuição dos dados da espessura da célula (Clump Thickness): Pode-se observar que o histograma reflete o cálculo do terceiro quartil (6,00), mostrando que valores menores que 6 são mais frequêntes na população. A função table() retorna o número de ocorrências para cada valor de um atributo específico. Executando esta função para o atributo classe: vemos que 444 instâncias são classificadas como câncer benigno e 239 maligno. Da mesma forma, podemos verificar a frenquência dos valores para o atributo Uniformity of Cell Size: A visualização fica mais fácil se utilizarmos a saída da função table() como entrada para geração de gráficos (pie e barplot). Resultados podem ser vistos na Tabela 2.

Class Uniformity of Cell Size Tabela 2 3.3 Explorando Multiplas Variáveis A partir deste ponto podemos iniciar uma análise qualitativa dos dados visto a relação entre os atributos refletem comportamento e padrões de um dataset. A covariância e correlação são valores que mostram quão forte é o relacionamento entre duas variáveis. A imagem abaixo mostra a covariância entre os 10 atributos. Vale a pena destacar a forte relação entre o tamanho e formato das células (Uniformity of Cell Size e Uniformity of Cell Shape) destacado em vermelho. Em azul são destacados os atributos que variam de maneira independente entre si.

A imagem abaixo mostra o calculo da correlação. A correlação nada mais é que a medida padronizada da relação entre duas variáveis. Quando próximo de 1 ou -1 os atributos variam juntos através do tempo. Quando próximo de zero, a relação é menor. Podemos então concluir que o tamanho e formato das células variam juntos positivamente, ou seja, quando um cresce o outro também aumenta. Já a mitose (Mitoses) quase não tem relação com a textura da célula (Bland Chromatin). Ao agrupar dois atributos e plotar os dados dos quartis em um gráfico boxplot temos alguns resultados interessantes. No gráfico abaixo, por exemplo, é possível dizer que núcleos de células (Bland. Chromatin) com texturas mais grossas ( > 6 ), acontecem em instâncias onde a classe de câncer é maligna. Nos gráficos abaixo ficam ainda mais evidente o diagnóstico de câncer maligno para valores maiores de tamanho e forma das células. Da mesma forma, o gráfico abaixo nos apresenta as mesmas evidências encontradas acima. Para valores menores de tamanho e formato das células (Uniformity of Cell Size e Uniformity of Cell

Shape), temos instâncias classificadas como câncer benigno (triangulo vermelho). Para valores maiores dos mesmos atributos vemos a predominância de instâncias diagnosticadas como câncer maligno (X azul). O resultado acima esta simplificado e as instâncias com resultados próximos estão sobrepostas. A imagem abaixo apresenta uma melhor visualização da distribuição destes dados. Agora, avaliando diferentes atributos com um gráfico de densidade:

Notamos que a mitose (Mitoses) é mais frequênte com valores menores que 2 (já apresentado anteriormente através de sua mediana que é 1). Quanto à espessura das células (Clump Thickness), os dados estão mais dispersos, como pode ser observado também no gráfico abaixo: 3.4 Outras Formas de Visualização Por fim, a vizualização de todos os atributos em um gráfico de coordenadas paralelas. A cor vermelha representação a classe de câncer benigno e a azul maligno. Na primeira imagem, os atributos Clump Thickness, Uniformity of Cell Size, Uniformity of Cell Shape, Marginal Adhesion apresentam clara tendência a produzirem um diagnóstico de câncer maligno quando os seu valores são elevados. Na segunda image, os atributos são menos homogêneos, porém para valores acima de 9 todos eles diagnoticaram a mesma classe.

4. Conclusão A dase de dados de câncer de mama analisada apresenta atributos que tendem a ser dependentes entre si, com exceção do atributo Mitoses. Dessa forma, a presença de valor elevado em um atributo eleva a probabilidade de outro atributo também seguir a mesma tendência. Isso pôde ser visualizado no cálculo da covariância dos atributos. É evidente que para todos os atributos (exceto Mitoses), o aumento de seus valores caracteriza uma maior chance de diagnóstico do câncer ser maligno. Alguns atributos analisados separadamente exibem clara influência (homogeneidade) na classificação das instâncias, por exemplo, os atributos Uniformity of Cell Size, Uniformity of Cell Shape, como foi mostrados no decorrer do relatório.

Por todos esses aspectos, pode-se dizer que a biópsia por FNA (Fine-needle aspiration) fornece um resultado decisivo nos casos em que os parametros extraidos apresentam os valores elevados ou baixos, próximo de valor máximo ou mínimo. O exame pode exibir dados não conclusivos caso os valores dos atributos estejam próximos às médias aritméticas aqui encontradas. Nestes casos o diagnóstico não é exato e necessitaria a análise de outras características não presente nesta base.