Trabalho 1 - Relatório Técnico Aluno: Adenir Pedro da Silva Junior Orientador: Heitor Silvério Lopes Co-orientador: Celso Antonio Alves Kaestner Disciplina: Mineração de Dados - PPGCA fase 3 / 2016 1. Objetivo O presente relatório tem o objetivo de exercitar o conteúdo ministrado na primeira e segunda aula da disciplina Mineração de Dados. O exercício consiste em aplicar a mesma sistemática dos capítulos 1, 2 e 3 de "R and Data Mining: Examples and Case Studies" sobre o dataset Breast Cancer Wisconsin. 2. Base de Dados Este relatório utilizará os dados do repositório UCI - Machine Learning Repository, Breast Cancer Wisconsin (Diagnostic) Data Set [2]. Trata-se de uma base de dados de câncer de mama obtido na University of Wisconsin Hospitals, Madison e mantidos por Dr. William H. Wolberg. As instâncias possuem características (atributos) do núcleo celular extraídas de imagens digitalidas a partir de nódulos na mama submetidos ao procedimento de biópsia conhecido como FNA (Fine-needle aspiration). Cada instância possui dois possíveis diagnósticos: câncer maligno ou benigno. A Tabela 1 apresenta o resumo dos dados. Base de Dados Número de instâncias 699 Número de atributos Fonte Breast Cancer Wisconsin (Diagnostic) 10 + 1 atributo classe http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+%28d iagnostic%29 Tabela 1 2.1 Pré-Processamento Antes de importar o dataset no RStudio, a extensão do arquivo foi alterada para.r, os nomes dos atributos foram adicionados na primeira linha e as instâncias com atributos indefinidos foram removidas (um total de 16). Reduzindo assim, o número de instâncias para 683.
3. Exploração dos Dados 3.1 Observando os Dados A dimensão dos dados é verificada pelo comando dim(breast.cancer.wisconsin): que é interpretado como sendo uma base de dados de 683 instâncias e 11 colunas (attributos). Os nomes das variáveis, adicionadas na primeira linha do arquivo, são retornados pela função names() 3.2 Explorando Variáveis Individualmente O comando summary() retorna um relatório da distribuição dos dados. Pode-se comprovar o domínio dos atributos (através de Min e Max) com valores normalizados entre 1 e 10, com exceção da classe que assume valores 2 e 4. Quantitativamente avaliandos as informações acima é possível observar, por exemplo, a uniformidade do tamanho da célula (Uniformity of Cell Size) possui metade de suas ocorrências com valores iguais a 1 e 75% são menores que 5. Dai uma média relativamente baixa, de 3,151. Para uma melhor visualização dos dados deste atributo, a função abaixo ajuda a entender que valores maiores que 5 somente acontecem para em 20% das ocorrências: Ainda sobre o mesmo atributo, calculado-se a variância temos:
o que significa que os valores em geral estão distantes da média (3,151). Por outro lado, a mitose (Mitoses) possui uma distribuição mais concentrada ao redor da média: fica fácil chegar a esta conclusão ao observar os quartis desta variável e a sua média (1.603): Através de um histograma podemos observar a distribuição dos dados da espessura da célula (Clump Thickness): Pode-se observar que o histograma reflete o cálculo do terceiro quartil (6,00), mostrando que valores menores que 6 são mais frequêntes na população. A função table() retorna o número de ocorrências para cada valor de um atributo específico. Executando esta função para o atributo classe: vemos que 444 instâncias são classificadas como câncer benigno e 239 maligno. Da mesma forma, podemos verificar a frenquência dos valores para o atributo Uniformity of Cell Size: A visualização fica mais fácil se utilizarmos a saída da função table() como entrada para geração de gráficos (pie e barplot). Resultados podem ser vistos na Tabela 2.
Class Uniformity of Cell Size Tabela 2 3.3 Explorando Multiplas Variáveis A partir deste ponto podemos iniciar uma análise qualitativa dos dados visto a relação entre os atributos refletem comportamento e padrões de um dataset. A covariância e correlação são valores que mostram quão forte é o relacionamento entre duas variáveis. A imagem abaixo mostra a covariância entre os 10 atributos. Vale a pena destacar a forte relação entre o tamanho e formato das células (Uniformity of Cell Size e Uniformity of Cell Shape) destacado em vermelho. Em azul são destacados os atributos que variam de maneira independente entre si.
A imagem abaixo mostra o calculo da correlação. A correlação nada mais é que a medida padronizada da relação entre duas variáveis. Quando próximo de 1 ou -1 os atributos variam juntos através do tempo. Quando próximo de zero, a relação é menor. Podemos então concluir que o tamanho e formato das células variam juntos positivamente, ou seja, quando um cresce o outro também aumenta. Já a mitose (Mitoses) quase não tem relação com a textura da célula (Bland Chromatin). Ao agrupar dois atributos e plotar os dados dos quartis em um gráfico boxplot temos alguns resultados interessantes. No gráfico abaixo, por exemplo, é possível dizer que núcleos de células (Bland. Chromatin) com texturas mais grossas ( > 6 ), acontecem em instâncias onde a classe de câncer é maligna. Nos gráficos abaixo ficam ainda mais evidente o diagnóstico de câncer maligno para valores maiores de tamanho e forma das células. Da mesma forma, o gráfico abaixo nos apresenta as mesmas evidências encontradas acima. Para valores menores de tamanho e formato das células (Uniformity of Cell Size e Uniformity of Cell
Shape), temos instâncias classificadas como câncer benigno (triangulo vermelho). Para valores maiores dos mesmos atributos vemos a predominância de instâncias diagnosticadas como câncer maligno (X azul). O resultado acima esta simplificado e as instâncias com resultados próximos estão sobrepostas. A imagem abaixo apresenta uma melhor visualização da distribuição destes dados. Agora, avaliando diferentes atributos com um gráfico de densidade:
Notamos que a mitose (Mitoses) é mais frequênte com valores menores que 2 (já apresentado anteriormente através de sua mediana que é 1). Quanto à espessura das células (Clump Thickness), os dados estão mais dispersos, como pode ser observado também no gráfico abaixo: 3.4 Outras Formas de Visualização Por fim, a vizualização de todos os atributos em um gráfico de coordenadas paralelas. A cor vermelha representação a classe de câncer benigno e a azul maligno. Na primeira imagem, os atributos Clump Thickness, Uniformity of Cell Size, Uniformity of Cell Shape, Marginal Adhesion apresentam clara tendência a produzirem um diagnóstico de câncer maligno quando os seu valores são elevados. Na segunda image, os atributos são menos homogêneos, porém para valores acima de 9 todos eles diagnoticaram a mesma classe.
4. Conclusão A dase de dados de câncer de mama analisada apresenta atributos que tendem a ser dependentes entre si, com exceção do atributo Mitoses. Dessa forma, a presença de valor elevado em um atributo eleva a probabilidade de outro atributo também seguir a mesma tendência. Isso pôde ser visualizado no cálculo da covariância dos atributos. É evidente que para todos os atributos (exceto Mitoses), o aumento de seus valores caracteriza uma maior chance de diagnóstico do câncer ser maligno. Alguns atributos analisados separadamente exibem clara influência (homogeneidade) na classificação das instâncias, por exemplo, os atributos Uniformity of Cell Size, Uniformity of Cell Shape, como foi mostrados no decorrer do relatório.
Por todos esses aspectos, pode-se dizer que a biópsia por FNA (Fine-needle aspiration) fornece um resultado decisivo nos casos em que os parametros extraidos apresentam os valores elevados ou baixos, próximo de valor máximo ou mínimo. O exame pode exibir dados não conclusivos caso os valores dos atributos estejam próximos às médias aritméticas aqui encontradas. Nestes casos o diagnóstico não é exato e necessitaria a análise de outras características não presente nesta base.