Avaliação de métodos de detecção de tópicos em pré-processamento para classificação de textos agrícolas.

Neste trabalho, buscou-se construir e comparar modelos capazes de diferenciar textos sobre a cultura da cana-de-açúcar de outros textos relacionados a outras culturas ou criações. Para criar modelos de classificação de textos, os dados são transformados em matrizes termos-documentos, de forma que os dados apresentam alta dimensionalidade. Para construir melhores modelos de classificação de textos agrícolas foram testados: a) métodos de redução de dimensionalidade utilizando LDA (Latent Dirichlet Allocation) e PCA (Principal Component Analysis); b) número de tópicos/componentes principais; c) unigrama/bigrama; e d) algoritmos Random Forest, Gradiente Boosting e SVM (Support Vector Machine), de forma a determinar os fatores que mais impactam o AUC (Area Under the Curve). Os resultados demonstraram que os fatores estatisticamente significativos são o tipo de pré-processamento, com vantagem para LDA, e o tipo de algoritmo utilizado, com destaque para o SVM. O número de tópicos e de componentes principais e o uso de unigrama e bigrama não tiveram efeito estatisticamente significativo na performance dos modelos em termos de AUC.

Saved in:
Bibliographic Details
Main Authors: BARROS, F. M. M., OLIVEIRA, S. R. de M.
Other Authors: FLAVIO M. M. BARROS, Feagri/Unicamp; STANLEY ROBSON DE MEDEIROS OLIVEIRA, CNPTIA.
Format: Anais e Proceedings de eventos biblioteca
Language:pt_BR
por
Published: 2017-12-22
Subjects:Mineração de textos, Aprendizado de máquina, Redução de dimensionalidade, Sistema de informação agrícola, Text mining, Dimensionality reduction, Agricultural information systems, Machine Learning., Agricultura, Agriculture.,
Online Access:http://www.alice.cnptia.embrapa.br/alice/handle/doc/1083387
Tags: Add Tag
No Tags, Be the first to tag this record!