Título: SELEÇÃO INTELIGENTE DE DADOS PARA TREINAMENTO DE MÁQUINA UTILIZANDO CURVAS PRINCIPAIS
Título alternativo: SMART DATA SELECTION FOR MACHINE TRAINING USING PRINCIPAL CURVES
Autoria de: Fernando Elias de Melo Borges
Orientação de: Danton Diego Ferreira
Presidente da banca: Danton Diego Ferreira
Primeiro membro da banca: Wilian Soares Lacerda
Palavras-chaves: Curvas Principais, Seleção de Dados, Big-Data, Aprendizagem de Máquina, Redes Neurais.
Data da defesa: 24/08/2020
Semestre letivo da defesa: 2020-1
Data da versão final: 10/09/2020
Data da publicação: 10/09/2020
Referência: Borges, F. E. d. M. SELEÇÃO INTELIGENTE DE DADOS PARA TREINAMENTO DE MÁQUINA UTILIZANDO CURVAS PRINCIPAIS. 2020. 61 p. Trabalho de Conclusão de Curso (Graduação em Engenharia de Controle e Automação Bacharelado)-Universidade Federal de Lavras, Lavras, 2020.
Resumo: Nos tempos atuais, sistemas inteligentes aplicados a ambientes envolvendo grande volume de dados em altas taxas de aquisição, vêm tendo sua importância e uso aumentados. Tais sistemas geram eventos com elevada dimensionalidade e complexidade e necessitam de processamento eficaz com elevados requisitos de tempo de processamento e consumo de memória. A fim de processar grandes volumes de dados, ferramentas de aprendizagem de máquina de alta complexidade vem sendo aplicadas nos ambientes de Big-Data. De maneira a reduzir a carga dos algoritmos de aprendizagem, mantendo os parâmetros de desempenho com redução no tempo de desenvolvimento do modelo, torna-se viável a proposta de métodos de redução no volume dados a serem utilizados no treinamento dos modelos. Neste trabalho é proposto um método de seleção inteligente de dados utilizando Curvas Principais que explora correlações não lineares nos dados por meio destas. Para a execução desta tarefa, é realizado o mapeamento das distâncias dos dados à sua respectiva Curva Principal e são propostas abordagens de seleção. Para o teste do método, foi utilizada uma base de dados real do sistema de filtragem online de elétrons do experimento ATLAS do CERN (Centro Europeu para a Pesquisa Nuclear). Realizada a seleção de dados, os conjuntos de dados reduzidos foram testados em uma Rede Neural objetivando simular o processo real do sistema. Resultados de testes preliminares mostraram um potencial do método, gerando resultados similares de desempenho com redução significativa de tempo de processamento em estudos comparativos entre todo o conjunto de dados e os conjuntos de dados reduzidos.
Abstract: Nowadays, smart systems applied to environments involving a large volume of data at high acquisition rates have increased in importance and use. Such systems generate events with high dimensionality and complexity and require efficient processing with high requirements for processing time and memory consumption. To processing big data, machine learning tools with high complexity have been applied. In order to reduce the processing cost of the learning algorithms, maintaining the performance parameters with reduction in the development time of the model, it is feasible to propose methods to reduce the volume of data to be used for training. In this work, a method of smart data selection using Principal Curves is proposed, which exploits non-linear correlations in the data through them. To do this, the mapping of the data distances to their respective Principal Curve is realized and selection approaches are proposed. For the test of the method, a real dataset from the online electron trigger system of the ATLAS experiment at CERN (European Center for Nuclear Research) was used. After data selection, the reduced datasets were tested in a Neural Network in order to simulate the real process of the system. The results showed the potential of the method, generating similar performance results with significant reduction of processing time in comparison with studies including the complete data set.
URI: sip.prg.ufla.br/publico/trabalhos_conclusao_curso/acessar_tcc_por_curso/
engenharia_de_controle_e_automacao/20201201420606
URI alternaviva: repositorio.ufla.br/handle/1/45038
Curso: G022 - ENGENHARIA DE CONTROLE E AUTOMAÇÃO (BACHARELADO)
Nome da editora: Universidade Federal de Lavras
Sigla da editora: UFLA
País da editora: Brasil
Gênero textual: Trabalho de Conclusão de Curso
Nome da língua do conteúdo: Português
Código da língua do conteúdo: por
Licença de acesso: Acesso aberto
Nome da licença: Licença do Repositório Institucional da Universidade Federal de Lavras
URI da licença: repositorio.ufla.br
Termos da licença: Acesso aos termos da licença em repositorio.ufla.br
Detentores dos direitos autorais: Fernando Elias de Melo Borges e Universidade Federal de Lavras
Baixar arquivo