REDUÇÃO DE DIMENSIONALIDADE EM BASES DE DADOS

Categorias: Pesquisa

Início: 07/2017 Fim: 0/0

Um dos problemas enfrentados por pesquisadores da área de mineração é que as bases de dados são formadas por uma grande quantidade de atributos, e que muitas vezes acabam atrapalhando o processo de aprendizagem dos algoritmos. Técnicas de redução de dimensionalidade, tais como a seleção e a extração de atributos, são usadas para diminuir a dimensão desses dados, removendo atributos irrelevantes ou irredundantes e que podem atrapalhar o processo de mineração. A finalidade desse projeto consiste em aplicar técnicas de redução de dimensionalidade em bases de dados.

Coordenadores

Helyane Bronoski Borges

Acessar currículo

Colaboradores

Douglas Baldon Correa

Ex-integrantes

Raimundo Osvaldo Vieira

Rafael Tasaka

Produtos gerados

SELEÇÃO DE ATRIBUTOS USANDO A ABORDAGEM WRAPPER PARA CLASSIFICAÇÃO HIERÁRQUICA MULTIRRÓTULO

O avanço tecnológico traz como consequência um grande desafio, que é o de encontrar uma forma de armazenar e extrair conhecimento útil de uma massa de dados. Uma alternativa para esse cenário é a utilização de ferramentas da Mineração de Dados, sendo uma das técnicas empregadas, a Seleção de Atributos. A Seleção de Atributos é uma das técnicas que podem ser utilizadas para a redução de dimensionalidade de base de dados, tendo como objetivo principal identificar os atributos relevantes aumentando assim o poder preditivo do classificador. Basicamente, são três as abordagens para a Seleção de Atributos: Embutida, Filtro e Wrapper. No contexto de classificação hierárquica multirrótulo, onde as classes a serem preditas estão estruturadas de acordo com uma hierarquia, poucos trabalhos na literatura apresentam propostas de técnicas de seleção de atributos. Desse modo, neste trabalho propõe-se um novo método de seleção de atributos baseado na abordagem Wrapper para classificação hierárquica multirrótulo global. Para a realização dos experimentos são utilizados dados biológicos de 10 bases de dados da Ontologia Gênica, sendo que as classes das mesmas estão estruturadas em uma hierarquia no formato de um Grafo Acíclico Direcionado (DAG). A análise estatística demonstrou que o método proposto conseguiu encontrar um subconjunto que representa a base de dados hierárquica com uma medida de avaliação preditiva igual ou superior em todos os conjuntos de dados.


REDUÇÃO DE DIMENSIONALIDADE EM BASES DE DADOS DE CLASSIFICAÇÃO HIERÁRQUICA MULTIRRÓTULO USANDO AUTOENCODERS

A predição de proteínas em dados de bioinformática é um exemplo de problema de Classificação Hierárquica Multirrótulo no qual cada instância pode estar associada a múltiplas classes, e estas por sua vez, estão organizadas em uma hierarquia. A alta dimensionalidade dos atributos e das classes influencia no desempenho dos classificadores, tanto no custo computacional quanto na capacidade preditiva, pois prejudica a busca por padrões e descoberta de conhecimento útil. A extração de atributos é uma das técnicas utilizadas para alcançar a redução de dimensionalidade em base de dados, e assim eliminar atributos irrelevantes e/ou redundantes que tendem a confundir um algoritmo de aprendizagem. Nessa técnica, por meio de combinações e/ou transformações dos atributos originais, geram-se novos atributos, mais significativos e que melhor representam a base de dados, em um espaço de menor dimensão. Desse modo, neste trabalho propõe-se um novo método de extração de atributos, FEAE-HMC, para classificação hierárquica multirrótulo, baseado em conceitos e técnicas de Deep Learning, por meio de adaptações em uma rede Autoencoder clássica. O método FEAE-HMC é dividido em duas etapas principais: a extração de atributos e a avaliação do conjunto de dados reduzido por meio de um classificador hierárquico multirrótulo (Clus-HMC e MHC-CNN) e sua medida de desempenho (AUPRC). Para a realização dos experimentos são utilizados dados biológicos de 10 bases de dados da Ontologia Gênica, sendo que as classes das mesmas estão estruturadas em uma hierarquia no formato de um Grafo Acíclico Dirigido (DAG). Conforme os resultados experimentais, o método FEAE-HMC se mostrou capaz de extrair representações de menor dimensão, que podem agregar correlações entre os atributos e rótulos. Essas representações, quando submetidas a um Classificador Hierárquico Multirrótulo, geram modelos nos quais se obtêm o desempenho preditivo equivalente e até mesmo superior ao desempenho da base original. A diferença obtida entre a medida AUPRC da base completa e uma base reduzida, com uma redução de até 90% da dimensionalidade original, é inferior a 0,047 em ambos classificadores. Testes estatísticos demonstram que as bases reduzidas extraídas pelo FEAE-HMC, são no mínimo estatisticamente equivalentes as bases originais.


REDUÇÃO DE DIMENSIONALIDADE EM BASES DE DADOS DE MICROARRANJOS UTILIZANDO AUTOCODIFCADORES

Algoritmos de Aprendizagem de Maquina vem sendo cada vez mais utilizados pela sua capacidade de aprender a partir de grandes volumes de dados como, por exemplo, dados de expressão gênica obtidos pela técnica de microarranjo. Uma característica das bases de dados de microarranjos é que, geralmente, ela é formada por grande quantidade de atributos e um pequeno número de amostras. Sabe-se que dados com alta dimensionalidade podem possuir atributos redundantes e muitas vezes irrelevantes, podendo atrapalhar o processo de aprendizagem e o desempenho das predições. Métodos de redução de dimensionalidade são utilizados para reduzir a quantidade de atributos das bases de dados. Redes Neurais Autocodificadoras podem ser adaptadas e utilizadas para a extração de atributos e, consequentemente, a redução da dimensionalidade. Esta pesquisa tem como objetivo utilizar uma rede neural autocodificadora para ser utilizada na extração de atributos em bases de dados de microarranjo. Para isso, serão realizados experimentos em cinco bases de dados. Os resultados foram avaliados por meio da taxa de acerto de classificadores.


APLICAÇÃO DE ALGORITMOS DE APRENDIZAGEM DE MÁQUINA PARA A REDUÇÃO DE DIMENSIONALIDADE EM BASES DE DADOS

Muitos problemas de Aprendizagem de Máquina (AM) utilizam milhares de atributos para o treinamento do algoritmo. Utilizar essa quantidade de atributos faz com que, além de deixar os treinos lentos, fique difícil encontrar um padrão entre os dados para realizar uma possível classificação deles. Algumas dessas bases possuem, também, a característica de muitos atributos e poucos exemplares. Muitas vezes, isso se deve pela dificuldade em coletar amostras em largas quantidades. Esse problema é conhecido como "Maldição da Dimensionalidade". Por conta dessa característica muitos dos métodos de AM não conseguem criar um modelo de classificação eficiente o suficiente para prever exemplares futuros por conta da dificuldade em generalizar tamanha quantidade de atributos. Visando diminuir o problema da maldição da dimensionalidade e outros problemas gerados pela alta dimensionalidade, técnicas de redução de dimensionalidade podem ser aplicadas para retirar da base de dados atributos irrelevantes e/ou redundantes. Além disso, representar uma grande quantidade de atributos em um número reduzido de dados pode ajudar a biólogos a identificarem quais genes estão diretamente ligados aos problemas neles identificados. As técnicas de redução de dimensionalidade podem ser divididas em duas abordagens: extração de atributos e seleção de atributos. Métodos de seleção de atributos selecionam os atributos mais relevantes sem alterar a base de dados, enquanto que os métodos de extração de atributos modificam a base de dados para representar os dados. Contudo, a projeção feita por esses métodos não se importa com as relações entre as bases originais e as bases reduzidas, fazendo com que uma futura representação não represente bem seus dados originais. Como alternativa para a tarefa de redução, pode-se utilizar a Aprendizagem Profunda por meio de uma rede autocodificadora que pode realizar a extração de atributos em suas camadas ocultas. Utilizar redes autocodificadoras por si só pode apresentar problemas, uma vez em que ela foca em reduzir dados e, depois, reconstrui-los, criando-se assim uma relação mais profunda entre entrada e saída, e não entrada e redução. O método proposto busca reduzir a dimensionalidade da base através da extração de atributos onde, dado um conjunto de atributos X, busca-se a criação de um novo conjunto de atributos Y, que são mais expressivos e melhor representem a variedade dos atributos originais. A estrutura responsável por essa redução se chama codificador. O codificador é uma estrutura interna da autocodificadora que consiste nas camadas internas entre a camada de entrada, composta pelo número total de atributos a serem reduzidos, e a menor camada da rede (também chamada de bottleneck), composta pelo número desejado de redução. Devido da importância da estrutura codificadora para a redução da base, criando assim a base reduzida na rede autocodificadora, o método proposto realiza um pré0treinamento no codificador utilizando uma Rede Neural Multicamadas (MLP) para classificação e, com os pesos utilizados nesse treinamento, é realizado um novo treinamento com o decodificador, criando assim a autocodificadora. Esse pré-treinamento faz com que o codificador crie uma relação entre base a original e sua classe bem como com o decodificador, para que esse também esteja otimizado para uma possível reconstrução dos atributos. Este projeto tem como objetivo propor o método FEA-PTC (Feature Extraction using Autoencoder: Pre-Training with Classification) utilizando bases de dados de microarranjo para a realização dos experimentos.


Dimensionality Reduction Approach using Attributes Extraction and Attributes Selection in Gene Expression Databases

The gene expression databases are formed by a high number of attributes. To deal with this amount, data dimensionality reduction is used in order to minimize the volume of data to be treated regarding the number of attributes, and to increase the generalization capability of learning methods by eliminating irrelevant and/or redundant data. This paper proposes an approach to means of dimensionality reduction, which joins attribute extraction and attributes selection. For this, we used the Random Projection method and the filter and wrapper approaches for the attribute selection. The experiments are realized in five gene expression microarray databases. The results of the experiments showed that join of those approaches can provide promising results.


UM MÉTODO PARA SELEÇÃO DE ATRIBUTOS EM BASES DE DADOS DE CLASSIFICAÇÃO HIERÁRQUICA MULTIRRÓTULO

Problemas de classificação hierárquica multirrótulo normalmente precisam lidar com conjuntos de dados que possuem grande número de atributos e rótulos, o que pode interferir de forma negativa no desempenho do classificador. A aplicação de métodos de redução de dimensionalidade pode prover uma melhora significativa no desempenho dos classificadores. A seleção de atributos é um dos métodos de redução de dimensionalidade em bases de dados e compreende a escolha dos atributos mais relevantes a partir dos originais. Três abordagens principais para a seleção de atributos podem ser utilizadas: filtro, wrapper e embutida. De modo particular, a abordagem filtro faz a seleção baseado apenas nas características dos próprios dados e de maneira independente do algoritmo de treinamento. No contexto da classificação hierárquica multirrótulo, alguns métodos de seleção de atributos têm sido propostos. Estes métodos fazem uso de técnicas consolidadas em contextos de classificação plana e classificação monorrótulo, apresentando bons resultados. Neste sentido, este trabalho verificou a aplicabilidade da medida Fisher Score para a seleção de atributos em cenários de classificação hierárquica multirrótulo e propôs um método para esta tarefa utilizando a abordagem filtro. O método FSF-HMC consiste em avaliar os atributos a partir do cálculo individual do Fisher Score. Este cálculo foi adaptado para considerar a hierarquia de classes. Os atributos avaliados com pontuação acima do valor médio de Fisher Score apurado para todos os atributos são selecionados para compor o conjunto de dados reduzido que será utilizado para avaliação do classificador. Para validação do método proposto foram realizados experimentos com 10 bases de dados da Gene Ontology. Tais experimentos consistiram em avaliar o desempenho de dois classificadores hierárquicos multirrótulo, Clus-HMC e MHC-CNN, em termos da medida AUPRC, sendo realizada uma comparação dos resultados produzidos a partir dos conjuntos de dados originais e dos conjuntos de dados reduzidos. Os resultados dos experimentos demonstram que houve um ganho em termos do percentual de redução do número de atributos sobre os dados originais e que o desempenho dos classificadores foi estatisticamente equivalente para os conjuntos de dados originais e reduzidos.


Dimensionality Reduction for Hierarchical Multi-Label Classification: A Systematic Mapping Study

Hierarchical multi-label classification problems typically deal with datasets with many attributes and labels, which can negatively impact the classifier performance. The application of dimensionality reduction methods can significantly improve the performance of classifiers. Dimensionality reduction can be performed by feature extraction or feature selection, according to the problem domain and datasets characteristics. This work carried out a systematic literature mapping to identify the approaches and techniques of dimensionality reduction that have been used in hierarchical multi-label classification tasks. Searches were performed on 7 important databases for the Computer Science field. From a list of 184 retrieved papers, 12 were selected for analysis, from which it was possible to determine a general overview of studies conducted from 2010 to 2022. It was identified that feature selection was the most frequent reduction method, with filter approach standing out. In addition, it was detected that most of the works used tree hierarchical structure. As its main outcome, this paper presents the state of the art of dimensionality reduction problem for hierarchical multi-label classification, indicating trends and research issues in the field.


Laboratório de Engenharia de Software e Inteligência Computacional

Siga-nos