IMPUTAÇÃO DE VALORES FALTANTES EM BASES DE DADOS

Categorias: Pesquisa

Início: 07/2019 Fim: 0/0

A falta de dados é um processo que dificulta a extração de informações importantes presentes em bases de dados. Esse problema pode ocorrer por diversos motivos, como: falhas de digitação, falha nos instrumentos de coleta de dados, erros no preenchimento, perda de dados ao longo dos anos, entre outros. Determinar valores para um conjunto de dados omissos não é uma tarefa simples, pois valores atribuídos a esses dados podem ser inadequados, causar a discrepância das estimativas, e se isto acontecer o resultado pode ser afetado, já que os valores substituídos são diferentes do conjunto de dados original. Dessa forma, a imputação de dados tem sido para resolver ou amenizar esse problema, visto que muitos algoritmos de aprendizagem de máquina não trabalham com dados faltantes. A imputações de valores são procedimentos de tratamento de dados que substituem os valores omissos de uma base de dados por valores obtidos específicos por diferentes técnicas matemáticas, estatísticas e até mesmos alguns algoritmos de aprendizagem de máquina. O objetivo deste projeto é estudar e aplicar técnicas de imputação de valores faltantes em bases de dados.

Coordenadores

Helyane Bronoski Borges

Acessar currículo

Ex-integrantes

Alvaro Mateus Santana

Produtos gerados

BASES DE DADOS DE CLASSIFICAÇÃO HIERÁRQUICA MULTIRRÓTULO COM VALORES IMPUTADOS

A imputação de valores pode permitir uma melhor eficiência do algoritmo. Porém, uma imputação errada pode gerar mais problemas do que os resolver. Para isso, existem várias técnicas que podem ser usadas nesse processo, tais como: substituir os valores faltantes por uma constante, substituir os valores faltantes pela média, pelo valor mais comum, entre vários outros. O critério usado para imputar os valores ausentes foi calcular a média aritmética de todos os ancestrais mais próximos da classe à qual pertence a amostra. Nas amostras multirrótulos é feita a média aritmética também sobre a quantidade de rótulos da amostra.


CÓDIGO FONTE DO MÉTODO DE IMPUTAÇÃO BASEADO EM REGRESSÃO

Código fonte em Python do método de imputação de dados faltantes para bases de dados com classificação hierárquica, que utiliza a regressão linear, polinomial e múltipla. No arquivo também constam as bases de dados do projeto Gene Ontology para uso.


UMA ABORDAGEM PARA IMPUTAÇÃO DE VALORES FALTANTES EM PROBLEMAS DE CLASSIFICAÇÃO HIERÁRQUICA MULTIRRÓTULO

Dados faltantes são problemas comumente enfrentados por algoritmos de aprendizagem de máquina (AM) devido a diversos motivos, como por exemplo falha na inserção manual, medições incorretas de determinado sensor entre outros. Considerando isso, se torna importante usar métodos adequados para imputar dados ausentes em conjuntos de dados para tornar a aprendizagem do algoritmo mais eficiente. O problema de dados faltantes é mais desafiador quando se trata de bases de dados com classificação hierárquica multirrótulo com hierarquia estruturadas por um Grafo Acíclico Direcionado ou DAG. Este trabalho está inserido neste cenário, onde as classes estão dispostas em uma hierarquia podendo cada instância possuir mais de uma classe. Para resolver o este problema, foi criado um método de imputação de dados faltantes usando uma abordagem baseada em três tipos de regressão: linear, polinomial e múltipla. O algoritmo inicialmente verifica se há correlação entre os dados, utilizando a regressão somente caso esta correlação exista, caso contrário a abordagem de média dos valores observados é adotada. O método proposto é dividido em três etapas: verificação hierárquica multirrótulo, cálculo de correlação e aplicação do modelo. Para realização dos experimentos foram utilizadas 7 bases de dados da Ontologia Gênica com hierarquia estruturadas em formato de DAG. Os resultados mostraram que o uso da regressão apresentou a métrica baseada na área sob a curva de previsão e revocação (AUPRC) superior em 3 das bases de dados testadas quando comparadas as abordagens de não imputação de dados faltantes e média dos valores observados. Além disso, foram realizados os testes estatísticos de Friedman e Wilcoxon buscando comparar os resultados de todos os algoritmos. Os testes expõem certa diferença entre os resultados, porém mostraram que estatisticamente a diferença não é significativa.


Laboratório de Engenharia de Software e Inteligência Computacional

Siga-nos