Produtos gerados: Iniciação Científica ou Extensão - 2020

APLICAÇÃO DE ALGORITMOS DE APRENDIZAGEM DE MÁQUINA PARA A REDUÇÃO DE DIMENSIONALIDADE EM BASES DE DADOS

Muitos problemas de Aprendizagem de Máquina (AM) utilizam milhares de atributos para o treinamento do algoritmo. Utilizar essa quantidade de atributos faz com que, além de deixar os treinos lentos, fique difícil encontrar um padrão entre os dados para realizar uma possível classificação deles. Algumas dessas bases possuem, também, a característica de muitos atributos e poucos exemplares. Muitas vezes, isso se deve pela dificuldade em coletar amostras em largas quantidades. Esse problema é conhecido como "Maldição da Dimensionalidade". Por conta dessa característica muitos dos métodos de AM não conseguem criar um modelo de classificação eficiente o suficiente para prever exemplares futuros por conta da dificuldade em generalizar tamanha quantidade de atributos. Visando diminuir o problema da maldição da dimensionalidade e outros problemas gerados pela alta dimensionalidade, técnicas de redução de dimensionalidade podem ser aplicadas para retirar da base de dados atributos irrelevantes e/ou redundantes. Além disso, representar uma grande quantidade de atributos em um número reduzido de dados pode ajudar a biólogos a identificarem quais genes estão diretamente ligados aos problemas neles identificados. As técnicas de redução de dimensionalidade podem ser divididas em duas abordagens: extração de atributos e seleção de atributos. Métodos de seleção de atributos selecionam os atributos mais relevantes sem alterar a base de dados, enquanto que os métodos de extração de atributos modificam a base de dados para representar os dados. Contudo, a projeção feita por esses métodos não se importa com as relações entre as bases originais e as bases reduzidas, fazendo com que uma futura representação não represente bem seus dados originais. Como alternativa para a tarefa de redução, pode-se utilizar a Aprendizagem Profunda por meio de uma rede autocodificadora que pode realizar a extração de atributos em suas camadas ocultas. Utilizar redes autocodificadoras por si só pode apresentar problemas, uma vez em que ela foca em reduzir dados e, depois, reconstrui-los, criando-se assim uma relação mais profunda entre entrada e saída, e não entrada e redução. O método proposto busca reduzir a dimensionalidade da base através da extração de atributos onde, dado um conjunto de atributos X, busca-se a criação de um novo conjunto de atributos Y, que são mais expressivos e melhor representem a variedade dos atributos originais. A estrutura responsável por essa redução se chama codificador. O codificador é uma estrutura interna da autocodificadora que consiste nas camadas internas entre a camada de entrada, composta pelo número total de atributos a serem reduzidos, e a menor camada da rede (também chamada de bottleneck), composta pelo número desejado de redução. Devido da importância da estrutura codificadora para a redução da base, criando assim a base reduzida na rede autocodificadora, o método proposto realiza um pré0treinamento no codificador utilizando uma Rede Neural Multicamadas (MLP) para classificação e, com os pesos utilizados nesse treinamento, é realizado um novo treinamento com o decodificador, criando assim a autocodificadora. Esse pré-treinamento faz com que o codificador crie uma relação entre base a original e sua classe bem como com o decodificador, para que esse também esteja otimizado para uma possível reconstrução dos atributos. Este projeto tem como objetivo propor o método FEA-PTC (Feature Extraction using Autoencoder: Pre-Training with Classification) utilizando bases de dados de microarranjo para a realização dos experimentos.

Laboratório de Engenharia de Software e Inteligência Computacional

Siga-nos