Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca

VAZ, G. J.; VEIGA, P. H. R. da C. da; CALDAS, R. G.; VIDAL, W. C. L.; ASSIS, C. P. de; CORREA, J. L.; MOURA, M. F.; GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA.

Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca

Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.

Saved in:

Bibliographic Details
Main Authors:	VAZ, G. J., VEIGA, P. H. R. da C. da, CALDAS, R. G., VIDAL, W. C. L., ASSIS, C. P. de, CORREA, J. L., MOURA, M. F.
Other Authors:	GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA.
Format:	Artigo de periódico biblioteca
Language:	Portugues pt_BR
Published:	2023-08-15
Subjects:	Curadoria digital, Recuperação da informação, Processamento de texto, Disseminação da informação, Indexação, Livros digitais, Digital curation, Text processing, Indexing, Digital books, Information retrieval, Information dissemination,
Online Access:	http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913 https://doi.org/10.26512/rici.v16.n2.2023.42740
Tags:	Add Tag No Tags, Be the first to tag this record!

Internet

http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913
https://doi.org/10.26512/rici.v16.n2.2023.42740

Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca

Internet

Similar Items

Resource Map