Diseño y construcción de una plataforma de clasificación de texto basada en textmining aplicada sobre una red de blogs para Betazeta Networks S.A

López Aravena, Camilo Alberto

Professor Advisor	dc.contributor.advisor	Ríos Pérez, Sebastián A.
Professor Advisor	dc.contributor.advisor	Pérez Rojas, Jorge
Author	dc.contributor.author	López Aravena, Camilo Alberto
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas
Staff editor	dc.contributor.editor	Departamento de Ingeniería Industrial
Associate professor	dc.contributor.other	Barcelo Baeza, Pablo
Associate professor	dc.contributor.other	Rebeco Díaz, Carlos
Admission date	dc.date.accessioned	2012-10-02T17:04:23Z
Available date	dc.date.available	2012-10-02T17:04:23Z
Publication date	dc.date.issued	2012
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/110971
Abstract	dc.description.abstract	Betazeta Networks S.A. es una empresa dedicada a la publicación de información mediante una red de blogs de diversas temáticas. A corto plazo, la empresa necesita visualizar cómo se distribuye el contenido actual para tomar decisiones estratégicas respecto al mercado que enmarca los contenidos que publican. En el mediano plazo, la empresa emitirá contenido generado por los usuarios, el cual debe ser revisado para mantener la calidad de cada Blog. Para esto se requiere contar con métodos automáticos de clasificación para dichos mensajes, los cuales serán revisados por periodistas expertos en diferentes áreas. El trabajo realizado en esta memoria constituye un prototipo que apunta a resolver la problemática de la empresa. Para ello se construye una plataforma de procesamiento de texto, denominada Tanalyzer, que permite manejar grandes volúmenes de información, visualizar, clasificar y hacer predicciones sobre las temáticas de nuevos documentos utilizando text-mining, sub área de la minería de datos especializada en texto, implementando el modelo de tópicos generativo Latent Dirichlet Allocation. Las pruebas realizadas al software son satisfactorias. Sobre un modelo que maneja 8 temáticas, cada una asociada a uno de los 8 blogs de la empresa que se encuentran bajo estudio, es posible predecir documentos con un 80% de precision y 64% de recall, lo que demuestra la viabilidad de la aplicación. Actualmente, la solución permite escalar tanto en velocidad como en costos. Con un tiempo de ejecución de 2.5 horas para 300.000 documentos, permite entrenar en ese tiempo un mes de publicaciones a una tasa de 1250 artículos enviados diariamente repartidos en 8 blogs, frente a la tasa actual de publicación de 12.5 artículos diarios por blog. Entrenar 10 veces un modelo de esta magnitud representa para la empresa un costo de $USD 17 utilizando los servicios de Amazon Cloud Computing. Si bien los resultados obtenidos son positivos y la memoria cumple sus objetivos a cabailidad, existen múltiples mejoras realizables a la plataforma que constituyen el trabajo futuro de esta investigación y que deben ser consideradas por la empresa para llevar a cabo una implementación en producción. Por un lado es posible mejorar aún más los tiempos de ejecución y por otra parte se debe solucionar la disminución de recall cuando la cantidad de temáticas y la especificidad de éstas aumenta.	es_CL
Lenguage	dc.language.iso	es	es_CL
Publisher	dc.publisher	Universidad de Chile	es_CL
Keywords	dc.subject	Minería de datos	es_CL
Keywords	dc.subject	Procesamiento de textos (Ciencias de la Computación)	es_CL
Keywords	dc.subject	Tanalyzer	es_CL
Keywords	dc.subject	Categorización de texto	es_CL
Keywords	dc.subject	Blogs	es_CL
Keywords	dc.subject	Textmining	es_CL
Título	dc.title	Diseño y construcción de una plataforma de clasificación de texto basada en textmining aplicada sobre una red de blogs para Betazeta Networks S.A	es_CL
Document type	dc.type	Tesis

Files in this item

Name:: cf-lopez_ca.pdf
Size:: 10.26Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record