UM ESTUDO DAS TÉCNICAS DE SELECÇÃO DE ATRIBUTOS EM BIOINFORMÁTICA

Transcrição

1 UM ESTUDO DAS TÉCNICAS DE SELECÇÃO DE ATRIBUTOS EM BIOINFORMÁTICA Artigo dos Yvan Saeys, Inãki Inza e Pedro Larrañaga A review of feature selection techniques in bioinformatics Vol. 23 no , páginas RELATÓRIO Gabriel de Jesus Bioinformática MCC DCC 11/12

2 Índice Índice Resumo Inovação Técnica de Filtragem Técnica Wrapper Técnica Incorporada Aplicação na Bioinformática Análise de sequências Análise de Microarrays Análise dos espectros de massa Abordagens dos algoritmos Conclusões e ideias críticas Conclusões Ideias críticas... 8 Página 1

3 1. Resumo Um estudo das técnicas de selecção de atributos em Bioinformática foca em aplicação das técnicas de selecção de atributos. Estas técnicas não alteram as representações das variáves originais mas apenas utilizam os seus subconjuntos, assim, elas preservam a simântica originais das variáveis, portanto, oferecendo a vantagem de interpretabilidade. Existem vários objectivos das técnicas de selecção de atributos, os mais importantes são: 1) Evitar o overfitting e melhora o desempenho do modelo, isto é, desempenho da previsão no caso de classificação supervisionada e detecção do melhor agrupamento do caso de clustering; 2) Fornecer modelos rápidos com custo efectivo; 3) Adquirir uma melhor compreensão dos processos subjacentes que geram os dados. Selecção de atributos pode aplicar estudos de supervisionado ou não supervisionado. No caso de supervisionado ou classificação, as técnicas selecção de atributos foram dividas em 3 partes de métodos: 1) Filtragem, que consiste por univariada e multivariada. 2) Wrapper, que consiste por deterministico e aleatório. 3) Incorporado. A aplicação de selecção de atributos na bioinformática consiste por: 1) Análise de sequências. 2) Análise de microarrays. 3) Análise dos espectros de massa. Selecção de atributos para análise de Microarrays, colocam dados de microarrays como um grande desafio para as técnicas computacionais, porque: 1) Grande dimensão de dados 2) Pequeno tamanho de amostra 3) Dados ruídos 4) Renderização de variabilidade Para resolver esta questão, precisa uma técnica de redução da dimensão, e assim aplica as paradigmas de selecção de atributo. Página 2

4 No caso de análise espectro de massa, foi notado o algoritmo SVM como a técnica mais sucesso, por outro lado considera o Random Forest e outra árvore de decisão como as estrategias alternativas. Para lidar com a especificidade do domínio da amostra pequena, foi surgido a estivativa de erro reforçado. Podem ser utlizados de forma ensembles os métodos baseados em colecção da árvore de decisão como Random Forest da selecção de atributos para avaliar a importância de cada atributo nos domínios de espectrometria de massa e microarrays. A análise do polimosfismo dum único nucleotídeo e mineração de textos e literaturas são considerados como a selecção de atributos do próximo domínio. Finalmente, oferece uma visão geral das diferentes técnicas selecção de atributos para a classificação que ilustrá-los, analisando os campos da aplicação mais importante no domínio de bioinformática, destacando os esforços feito pela comunidade de bioinformática no desenvolvimento de novos procedimentos adaptados. Também apontam algum Data Mining útil e interessado e os pacotes de software de bioinformática que podem ser utilizados para selecção de atributos. 2. Inovação Existem três principais técnicas selecção de atributos que podem orientar a escolha de uma técnica adequada para os seus objetivos: 2.1 Técnica de Filtragem Esta técnica avalia a relevância dos atributos olhando somente para as propriedades intrínsecas dos dados. Na maioria dos casos, um ponto relevância de atributo é calculado, e atributos de baixa pontuação são removidos. Depois, este subconjunto de atributos é apresentado como entrada para o algoritmo de classificação Univariada As vantagens da técnica de Filtragem Univariada são: 1) Facilmente escalar os conjuntos de dados para muito alto dimensional; 2) Computacionalmente simples e rápidos; 3) Independentes do algoritmo de classificação. Página 3

5 As suas desvantagens são: 1) Ingorar a interacção com os classificadores, isto é, a pesquisa do espaço no subconjunto de atributo é separado a partir da pesquisa no espaço de hipótese. 2) Cada atributo é considerado separado, assim ignora a dependência dos atributos que pode levar para um pior resultado da classificação quando compara com outras técnicas Multivariada Para resolver o problema de ignorar a depedência dos recursos, foi intruduzida técnica de filtragem multivariada com objectivo incorpora a dependência dos recursos para algum grau. 2.2 Técnica Wrapper Enquanto que a técnica filtragem tratasse o problema de encontrar o bom subconjunto independentemente do passo de selecção do modelo, o método wrapper incorpora busca da hipótese do modelo dentro da busca do subconjunto de recurso, isto é: 1) Um procedimento de busca no espaço de possível subconjuntos dos recursos é definido e vários subconjuntos de recursos são gerados e avaliados; 2) A avaliação de subconjuntos específicos dos recursos é obtida por treinar e testar um modelo de classificação específica; 3) Para pesquisar o espaço de todos os subconjuntos de recursos, um algoritmo de busca é então "wrapped" em volta do modelo de classificação. Como o espaço de todos os subconjuntos dos atributos são aumentados exponencialmente com o número de recursos, utilizou-se busca heurística para um subconjunto ideal. As vantagens de abordagens do Wrapper são: 1) Interacções entre a busca de subconjuntos dos recursos e selecção do modelo; 2) A capacidade de levar em contas as dependências de recursos. As desvantagens de abordagens do Wrapper são: 1) Havia risco alto de overfitting compara com a técnica de filtragem; 2) Computacionalmente é intensivo. Página 4

6 2.3 Técnica Incorporada Nesta técnica busca de um subconjunto óptima de atributos é incorporada na construção do classificador, e pode ser visto como uma busca no espaço combinado de subconjuntos de atributos e hipóteses. É mesma como o Wrapper mas com vantagens de: 1) Incluir a interacção com modelo de classificador; 2) Computacionalmente menos intensivo. 3. Aplicação na Bioinformática Como muitos atributos serão irrelevantes ou redundantes, as técnicas de selecção de atributos são então aplicados a concentrar-se no subconjunto de variáveis relevantes. A aplicação de selecção de atributos na bioinformática consiste por: 3.1 Análise de sequências Selecção de atributos para análise de sequências constituída pelas duas partes: 1) Análise de conteúdo, que concentra-se sobre as características gerais de uma sequência, tal como a tendência para codificar proteínas ou realização de um certo função biológica; e previsão da função da proteína a partir da sequência. 2) Análise de sinal, que concentra-se relativa à identificação de motivos importantes na sequência, tais como elementos de genes estruturais ou elementos reguladores. Alguns exemplos das técnicas de selecção atributos em análise de conteúdo são: 1) Modelo de Markov Interpolado: a. Usou interpolação entre diferentes ordens do modelo de Markov para lidar com pequenos tamanhos de amostra; b. Usou um método de filtragem para selecionar apenas os atributos relevantes. 2) Kernel selectivo para SVM: a. Utliza o seu dimensionamento como uma forma de acesso aos pesos de recursos; b. Em seguida remover recursos com baixo peso. Página 5

7 3.2 Análise de Microarrays No domínio de microarrays, devido a alta dimensão de dados em análise de microarrays, a paradigma do filtragem univariada que é rápida e eficiente tinha atraida muita atenção com seguintes razões: 1) A saída fornecida pelos rankings atributos univariadas é intuitiva e fácil de entender; 2) A saída do ranking de gene poderia cumprir os objectivos e expectativas que as especialistas do bio-domínio tinham esperados depois de validar o resultado por técnicas laboratoriais ou por explorar pesquisas bibliográficas. Os peritos não sentiam a necessidade de técnicas de selecção que levam em conta interacções entre genes; 3) A falta de conhecimento possível de subgrupos da expressão gênica de domínio peritos sobre a existência de técnicas de análise dos dados para selecionar genes de uma forma multivariada; 4) O tempo de computação adicional necessário por meio de técnicas de selecção genética multivariadas. A técnica de filtragem univariada foi dividida em duas partes: 1) Método Paramétrico a. Assumem uma dada distribuição a partir do qual as amostras(observações) foram gerados. b. Os dois amostras t-test e ANOVA são as técnicas mais utilizados em estudos de microarrays. 2) Método modelos livre (não paramétrico) a. Tinham sidos propostos como uma alternativa atraente para fazer menos rigorosos pressupostos. b. Tinham demonstrados as suas utilidades de muitas expressão em estudos de genes. Método de filtragem univariada tem as suas certas restrições e pode conduzir a classificadores menos fiáveis, por exemplo não tendo em conta as interações gene-gene, neste caso, aplicouse método de filtragem multivariados para soluções mais avançadas explorando interações de ordem superior, tais como a correlação com base em seleção de atributos. Exemplos de alguns algoritmos para classificador dos genes: 1) Random Forest: usa de uma forma integrada para calcular a importância de cada gene. Página 6

8 2) SVM: usa os pesos de cada característica em classificadores lineares. Estes pesos são usados para reflectir a relevância de cada gene de uma forma multivariada, e assim, permitir a remoção de genes com pesos muito pequenas. 3.3 Análise dos espectros de massa Tecnologia de espectometria de massa: 1) Está surgindo como um quadro novo e atraente para o diagnóstico da doença e a base de proteínas de perfil biomarcador. 2) Uma amostra de espectro de massa é caracterizada por milhares de diferentes massa / carga (m / z) rácios sobre o eixo x, cada um com a sua valor de intensidade correspondente do sinal no eixo y. 3) Um típico MALDI-TOF perfil proteômico de baixa resolução pode conter até pontos de dados no espectro de entre 500 e m / z. 4) O número de pontos mesmo cresceu tilizando instrumentos de alta resolução. 5) Para fins de data mining e bioinformática, pode inicialmente ser assumido que cada rácio m / z representa uma variável distinta cujo valor é a intensidade. 6) Abordagens wrapper demonstraram a sua utilidade dos seus estudos por um grupo de obras influentes. 4. Abordagens dos algoritmos Conforme os objectivos das técnicas selecção de recursos mencionados no artigo onde cujos objectivos para evitar overfitting e melhora o desempenho do modelo, existem alguns algoritmos e estrategias mencionados que vão ser abordados nos seguintes: 1) Para evitar o overfitting utiliza-se: a. O método Principal Component Analisys (PCA) para reduzir o número das variáveis, isto é, substitui o conjunto de variáveis por um novo conjunto com tamanho mais pequeno onde a maioria da "informação" sobre o problema ainda está expresso. b. O método Incremental Sampling para reduzir o número de casos onde compara o information gain do desempenho de cada subconjunto dos casos começando por 10% dos casos, aumentando incrementalmente para 20%,... Página 7

9 assim sucessivamento até 100% dos casos depois escolher os subconjuntos com bom desempenho. 2) Para detectar o melhor agrupamento no caso de Clustering, utiliza-se a distância de Euclidiana, isto é, identifica a semelhança dos objectos e agrupa com o grupo mais próximo cujo a dintância mínima do objecto ao este grupo. 3) Para melhor desempenho da classificação utiliza-se: a. Support Vector Machine (SVM) onde mapeia-se os dados originais dentro dum novo espaço das variáveis com alta dimensão e utiliza uma aproximação linear para separar as duas classes. b. Árvore de decisão onde fornece o resultado do modelo baseia-se dos testes lógicas das variáveis entradas. 5. Conclusões e ideias críticas 5.1 Conclusões Duas questões principais emergem como problemas comuns no domínio bioinformática são: 1) A dimensionalidade de entrada grande; 2) Os pequenos tamanhos de amostra. Para lidar com esses problemas, uma riqueza de técnicas de selecção de atributos foi concebida por pesquisadores em bioinformática, Machine Learning e Data Mining. Entre as as técnicas de selecção de atributos, apesar da técnica filtragem univariada tem as certas restrições, contudo, na implementação prática da bioinformática ainda contínua a ser uma técnica mais utilizada devido às suas escabilidade, interpretabilidade e rapidez. Não só ela, como também há necessidades de utilizar as técnicas de wrapper e incorporado. Ou seja, geralmente as técnicas de selecção de atributos continuarão a ser prática comum na análise de dados em Bioinformática. Os métodos de análise do polimorfismo um único nucleotídeo, mineração de textos e literaturas são considerados como o domínio das técnicas de selecção de atributos futuras. 5.2 Ideias críticas Está de acordo com as estrategias como Principal Component Analisys (PCA) e Information Gain que são utilizados como as técnicas de filtragem de dados para resolver a dimensão de Página 8

10 dados e desempenho porque também são as estratégias recomendadas na área de data mining. O domínio das técnicas de selecção futuras como mineração de textos e literaturas é um domínio aceitável porque as genes são representadas em textos e com estas técnicas seriam fáceis de classificá-las. Os algoritmos recomendados no artigo como SVM, random forest e árvore de classificação são os algoritmos que normalmente utilizam para estudo supervisionado ou classificação porque resultam os bons resultados. Finalmente, o artigo é muito útil e especialmente também para os pesquisadores de data mining que têm a contribuição na área de bioinformática. Página 9