Show simple item record

Professor Advisordc.contributor.advisorRíos Pérez, Sebastián A.
Professor Advisordc.contributor.advisorPérez Rojas, Jorge 
Authordc.contributor.authorLópez Aravena, Camilo Alberto 
Staff editordc.contributor.editorFacultad de Ciencias Físicas y Matemáticas
Staff editordc.contributor.editorDepartamento de Ingeniería Industrial
Associate professordc.contributor.otherBarcelo Baeza, Pablo
Associate professordc.contributor.otherRebeco Díaz, Carlos
Admission datedc.date.accessioned2012-10-02T17:04:23Z
Available datedc.date.available2012-10-02T17:04:23Z
Publication datedc.date.issued2012
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/110971
Abstractdc.description.abstractBetazeta Networks S.A. es una empresa dedicada a la publicación de información mediante una red de blogs de diversas temáticas. A corto plazo, la empresa necesita visualizar cómo se distribuye el contenido actual para tomar decisiones estratégicas respecto al mercado que enmarca los contenidos que publican. En el mediano plazo, la empresa emitirá contenido generado por los usuarios, el cual debe ser revisado para mantener la calidad de cada Blog. Para esto se requiere contar con métodos automáticos de clasificación para dichos mensajes, los cuales serán revisados por periodistas expertos en diferentes áreas. El trabajo realizado en esta memoria constituye un prototipo que apunta a resolver la problemática de la empresa. Para ello se construye una plataforma de procesamiento de texto, denominada Tanalyzer, que permite manejar grandes volúmenes de información, visualizar, clasificar y hacer predicciones sobre las temáticas de nuevos documentos utilizando text-mining, sub área de la minería de datos especializada en texto, implementando el modelo de tópicos generativo Latent Dirichlet Allocation. Las pruebas realizadas al software son satisfactorias. Sobre un modelo que maneja 8 temáticas, cada una asociada a uno de los 8 blogs de la empresa que se encuentran bajo estudio, es posible predecir documentos con un 80% de precision y 64% de recall, lo que demuestra la viabilidad de la aplicación. Actualmente, la solución permite escalar tanto en velocidad como en costos. Con un tiempo de ejecución de 2.5 horas para 300.000 documentos, permite entrenar en ese tiempo un mes de publicaciones a una tasa de 1250 artículos enviados diariamente repartidos en 8 blogs, frente a la tasa actual de publicación de 12.5 artículos diarios por blog. Entrenar 10 veces un modelo de esta magnitud representa para la empresa un costo de $USD 17 utilizando los servicios de Amazon Cloud Computing. Si bien los resultados obtenidos son positivos y la memoria cumple sus objetivos a cabailidad, existen múltiples mejoras realizables a la plataforma que constituyen el trabajo futuro de esta investigación y que deben ser consideradas por la empresa para llevar a cabo una implementación en producción. Por un lado es posible mejorar aún más los tiempos de ejecución y por otra parte se debe solucionar la disminución de recall cuando la cantidad de temáticas y la especificidad de éstas aumenta.es_CL
Lenguagedc.language.isoeses_CL
Publisherdc.publisherUniversidad de Chilees_CL
Keywordsdc.subjectMinería de datoses_CL
Keywordsdc.subjectProcesamiento de textos (Ciencias de la Computación)es_CL
Keywordsdc.subjectTanalyzeres_CL
Keywordsdc.subjectCategorización de textoes_CL
Keywordsdc.subjectBlogses_CL
Keywordsdc.subjectTextmininges_CL
Títulodc.titleDiseño y construcción de una plataforma de clasificación de texto basada en textmining aplicada sobre una red de blogs para Betazeta Networks S.Aes_CL
Document typedc.typeTesis


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record