Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.
Main Authors: | , , , , , , |
---|---|
Other Authors: | |
Format: | Artigo de periódico biblioteca |
Language: | Portugues pt_BR |
Published: |
2023-08-15
|
Subjects: | Curadoria digital, Recuperação da informação, Processamento de texto, Disseminação da informação, Indexação, Livros digitais, Digital curation, Text processing, Indexing, Digital books, Information retrieval, Information dissemination, |
Online Access: | http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913 https://doi.org/10.26512/rici.v16.n2.2023.42740 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|