SIP - TCCs de Ciência da Computação

Menu: TCCs de Ciência da Computação

Título: Avaliação Experimental de Bases de Dados para Reconhecimento de Entidades Nomeadas na Língua Portuguesa

Título alternativo: Experimental Evaluation of Databases for the Recognition of Named Entities in the Portuguese Language

Autoria de: Arthur Silveira Franco

Orientação de: Denilson Alves Pereira

Presidente da banca: Denilson Alves Pereira

Primeiro membro da banca: Marluce Rodrigues Pereira

Segundo membro da banca: Paula Christina Figueira Cardoso

Palavras-chaves: Reconhecimento de Entidades Nomeadas, NER, Avaliação Experimental, Partição de Bases de Dados, Estratificação Iterativa

Data da defesa: 28/07/2023

Semestre letivo da defesa: 2023-1

Data da versão final: 03/08/2023

Data da publicação: 03/08/2023

Referência: Franco, A. S. Avaliação Experimental de Bases de Dados para Reconhecimento de Entidades Nomeadas na Língua Portuguesa. 2023. 35 p. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação Bacharelado)-Universidade Federal de Lavras, Lavras, 2023.

Resumo: O Reconhecimento de Entidades Nomeadas é uma tarefa de extração de informação extremamente importante, exercendo papel chave em diversas áreas do Processamento de Linguagem Natural, como na mineração de opinião, perguntas e respostas e tradução automática. Embora tenham sido alcançados avanços significativos nessa área, alguns idiomas, incluindo o Português, ainda enfrentam escassez de recursos linguísticos, como bases de dados rotuladas manualmente. Além disso, a falta de um padrão de partições predefinidas dificulta a replicabilidade de experimentos e a comparação justa entre diferentes abordagens de Reconhecimento de Entidades Nomeadas. Este trabalho aborda essa lacuna e propõe uma metodologia de particionamento aplicada a sete bases de dados para Reconhecimento de Entidades Nomeadas em Português, que resultou em 10 partições disjuntas para cada uma das mesmas. Ademais, também é apresentado e discutido o desempenho de um classificador baseado no modelo de linguagem BERTimbau nas bases de dados utilizadas.

Abstract: Named Entity Recognition is an extremely important information extraction task, playing a key role in various areas of Natural Language Processing, such as opinion mining, question answering, and machine translation. Despite significant advancements in this field, some languages, including Portuguese, still face a scarcity of linguistic resources, such as manually labeled datasets. Moreover, the lack of a predefined partitioning standard hinders the replicability of experiments and fair comparison between different Named Entity Recognition approaches. This work addresses this gap and proposes a partitioning methodology applied to seven datasets for Named Entity Recognition in Portuguese, resulting in 10 disjoint partitions for each of them. Additionally, the performance of a classifier based on the BERTimbau language model on the utilized datasets is presented and discussed.

URI: sip.prg.ufla.br/publico/trabalhos_conclusao_curso/acessar_tcc_por_curso/
ciencia_da_computacao/20231201920252

URI alternaviva: sem URI do Repositório Institucional da UFLA até o momento.

Curso: G010 - CIÊNCIA DA COMPUTAÇÃO (BACHARELADO)

Nome da editora: Universidade Federal de Lavras

Sigla da editora: UFLA

País da editora: Brasil

Gênero textual: Trabalho de Conclusão de Curso

Nome da língua do conteúdo: Português

Código da língua do conteúdo: por

Licença de acesso: Acesso aberto

Nome da licença: Licença do Repositório Institucional da Universidade Federal de Lavras

URI da licença: repositorio.ufla.br

Termos da licença: Acesso aos termos da licença em repositorio.ufla.br

Detentores dos direitos autorais: Arthur Silveira Franco e Universidade Federal de Lavras

Baixar arquivo