Avaliação de métodos de detecção de tópicos em pré-processamento para classificação de textos agrícolas.

BARROS, F. M. M.; OLIVEIRA, S. R. de M.; FLAVIO M. M. BARROS, Feagri/Unicamp; STANLEY ROBSON DE MEDEIROS OLIVEIRA, CNPTIA.

Avaliação de métodos de detecção de tópicos em pré-processamento para classificação de textos agrícolas.

Neste trabalho, buscou-se construir e comparar modelos capazes de diferenciar textos sobre a cultura da cana-de-açúcar de outros textos relacionados a outras culturas ou criações. Para criar modelos de classificação de textos, os dados são transformados em matrizes termos-documentos, de forma que os dados apresentam alta dimensionalidade. Para construir melhores modelos de classificação de textos agrícolas foram testados: a) métodos de redução de dimensionalidade utilizando LDA (Latent Dirichlet Allocation) e PCA (Principal Component Analysis); b) número de tópicos/componentes principais; c) unigrama/bigrama; e d) algoritmos Random Forest, Gradiente Boosting e SVM (Support Vector Machine), de forma a determinar os fatores que mais impactam o AUC (Area Under the Curve). Os resultados demonstraram que os fatores estatisticamente significativos são o tipo de pré-processamento, com vantagem para LDA, e o tipo de algoritmo utilizado, com destaque para o SVM. O número de tópicos e de componentes principais e o uso de unigrama e bigrama não tiveram efeito estatisticamente significativo na performance dos modelos em termos de AUC.

Saved in:

Bibliographic Details
Main Authors:	BARROS, F. M. M., OLIVEIRA, S. R. de M.
Other Authors:	FLAVIO M. M. BARROS, Feagri/Unicamp; STANLEY ROBSON DE MEDEIROS OLIVEIRA, CNPTIA.
Format:	Anais e Proceedings de eventos biblioteca
Language:	pt_BR por
Published:	2017-12-22
Subjects:	Mineração de textos, Aprendizado de máquina, Redução de dimensionalidade, Sistema de informação agrícola, Text mining, Dimensionality reduction, Agricultural information systems, Machine Learning., Agricultura, Agriculture.,
Online Access:	http://www.alice.cnptia.embrapa.br/alice/handle/doc/1083387
Tags:	Add Tag No Tags, Be the first to tag this record!

Internet

http://www.alice.cnptia.embrapa.br/alice/handle/doc/1083387

Avaliação de métodos de detecção de tópicos em pré-processamento para classificação de textos agrícolas.

Internet

Similar Items

Resource Map