Título: IMPACTO DA IMPUTAÇÃO DE DADOS NO MAPEAMENTO DE REGIÕES EM ESTUDOS DE ASSOCIAÇÃO GENÔMICA UMA ABORDAGEM COM DADOS SIMULADOS
Título alternativo: IMPACT OF DATA IMPUTATION ON REGION MAPPING IN GENOMIC ASSOCIATION STUDIES AN APPROACH WITH SIMULATED DATA
Autoria de: Isabela Fraga Pacheco
Orientação de: Sarah Laguna Conceicao Meirelles
Coorientação de: Fabrício Pilonetto
Presidente da banca: Sarah Laguna Conceição Meirelles
Primeiro membro da banca: Brennda Paula Gonçalves Araujo
Segundo membro da banca: Fabrício Pilonetto
Terceiro membro da banca: Marcos Vinícius Gualberto Barbosa da Silva
Palavras-chaves: Dados imputados, falsos-positivos, GWAS, simulação, SNP
Data da defesa: 30/01/2025
Semestre letivo da defesa: 2024-2
Data da versão final: 05/02/2025
Data da publicação: 05/02/2025
Referência: Pacheco, I. F. IMPACTO DA IMPUTAÇÃO DE DADOS NO MAPEAMENTO DE REGIÕES EM ESTUDOS DE ASSOCIAÇÃO GENÔMICA UMA ABORDAGEM COM DADOS SIMULADOS. 2025. 29 p. Trabalho de Conclusão de Curso (Graduação em Zootecnia Bacharelado)-Universidade Federal de Lavras, Lavras, 2025.
Resumo: Os marcadores moleculares, especialmente os polimorfismos de nucleotídeo único ( SNPs ), são amplamente utilizados para estudar a variabilidade genética e identificar regiões genômicas associadas a características de interesse econômico. Em estudos de Genome-Wide Association Studies ( GWAS ), os SNPs em desequilíbrio de ligação são usados para associar variações genéticas a fenótipos, como a produção de leite em gado leiteiro. Métodos como a simulação de dados e a imputação de genótipos oferecem alternativas econômicas, permitindo genotipar apenas animais estratégicos e estimar genótipos de alta densidade para os demais. Contudo, essas abordagens apresentam desafios, como a ocorrência de falsos positivos e falsos negativos, que podem comprometer a identificação de SNPs realmente associados às características estudadas. O objetivo com este estudo foi aplicar a estratégia de GWAS em dados simulados e imputados para analisar dois cenários com densidades distintas de SNPs (44K e 420K) e verificar se teriam regiões associadas ao fenótipo coincidentes em ambos os cenários. Neste estudo, para a simulação do genoma e da estrutura populacional, foi utilizado o software QMSim, considerando uma herdabilidade de 0,3 e variância fenotípica 1,0 para característica produção de leite e foram gerados 57.720 animais genotipados para alta e média densidades. Para a imputação de genótipos foi empregado o software FImpute e as avaliações genômicas foram obtidas pelo software BLUPF90, da família de programas do BLUPF90. Foram utilizados gráficos de Manhattan para comparar os marcadores significativos e foi possível observar algumas regiões genômicas que coincidiram entre os dois cenários, como na replicata 1 em que os cromossomos 5,10,18,20,29 obtiveram SNPs próximos a QTLs, indicando que dentro dessas regiões existem genes que de fato estão relacionados com a característica, demonstrando que a imputação pode ser uma ferramenta promissora para detectar associações genômicas, mesmo com densidades reduzidas de SNPs.
Abstract: Molecular markers, especially single nucleotide polymorphisms (SNPs), are widely used to study genetic variability and identify genomic regions associated with traits of economic interest. In Genome-Wide Association Studies (GWAS), SNPs in linkage disequilibrium are used to associate genetic variations with phenotypes, such as milk production in dairy cattle. Methods such as data simulation and genotype imputation offer cost-effective alternatives, allowing genotyping only strategic animals and estimating high-density genotypes for the others. However, these approaches present challenges, such as the occurrence of false positives and false negatives, which can compromise the identification of SNPs truly associated with scientific traits. The objective of this study was to apply a GWAS strategy on simulated and imputed data to analyze two scenarios with distinct SNP densities (44K and 420K) and verify whether there are regions associated with the phenotype that coincide in both scenarios. In this study, the QMSim software was used to simulate the genome and population structure, considering a heritability of 0.3 and phenotypic variance of 1.0 for the milk production trait, and 57,720 genotyped animals were generated for high and medium densities. The FImpute software was used for genotype imputation, and the genomic evaluations were obtained by the BLUPF90 software, from the BLUPF90 family of programs. Manhattan plots were used to compare the characteristic markers, and it was possible to observe some genomic regions that coincided between the two scenarios, such as in replicate 1, where chromosomes 5, 10, 18, 20, 29 obtained SNPs close to QTLs, references that within these regions there are genes that are in fact related to the trait, demonstrating that imputation can be a promising tool to detect genomic associations, even with reduced SNP densities.
URI alternaviva: sem URI do Repositório Institucional da UFLA até o momento.
Curso: G002 - ZOOTECNIA (BACHARELADO)
Nome da editora: Universidade Federal de Lavras
Sigla da editora: UFLA
País da editora: Brasil
Gênero textual: Trabalho de Conclusão de Curso
Nome da língua do conteúdo: Português
Código da língua do conteúdo: por
Licença de acesso: Acesso aberto
Nome da licença: Licença do Repositório Institucional da Universidade Federal de Lavras
URI da licença: repositorio.ufla.br
Termos da licença: Acesso aos termos da licença em repositorio.ufla.br
Detentores dos direitos autorais: Isabela Fraga Pacheco e Universidade Federal de Lavras
Baixar arquivo