About
Contact
Help
Sending publications
How to publish
Advanced Search
View Item 
  •   Home
  • Facultad de Ciencias Físicas y Matemáticas
  • Tesis Pregrado
  • View Item
  •   Home
  • Facultad de Ciencias Físicas y Matemáticas
  • Tesis Pregrado
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse byCommunities and CollectionsDateAuthorsTitlesSubjectsThis CollectionDateAuthorsTitlesSubjects

My Account

Login to my accountRegister
Biblioteca Digital - Universidad de Chile
Revistas Chilenas
Repositorios Latinoamericanos
Tesis LatinoAmericanas
Tesis chilenas
Related linksRegistry of Open Access RepositoriesOpenDOARGoogle scholarCOREBASE
My Account
Login to my accountRegister

Diseño y construcción de una plataforma de clasificación de texto basada en textmining aplicada sobre una red de blogs para Betazeta Networks S.A

Tesis
Thumbnail
Open/Download
Iconcf-lopez_ca.pdf (10.26Mb)
Publication date
2012
Metadata
Show full item record
Cómo citar
Ríos Pérez, Sebastián Alejandro
Cómo citar
Diseño y construcción de una plataforma de clasificación de texto basada en textmining aplicada sobre una red de blogs para Betazeta Networks S.A
.
Copiar
Cerrar

Author
  • López Aravena, Camilo Alberto;
Professor Advisor
  • Ríos Pérez, Sebastián Alejandro;
  • Pérez Rojas, Jorge;
Abstract
Betazeta Networks S.A. es una empresa dedicada a la publicación de información mediante una red de blogs de diversas temáticas. A corto plazo, la empresa necesita visualizar cómo se distribuye el contenido actual para tomar decisiones estratégicas respecto al mercado que enmarca los contenidos que publican. En el mediano plazo, la empresa emitirá contenido generado por los usuarios, el cual debe ser revisado para mantener la calidad de cada Blog. Para esto se requiere contar con métodos automáticos de clasificación para dichos mensajes, los cuales serán revisados por periodistas expertos en diferentes áreas. El trabajo realizado en esta memoria constituye un prototipo que apunta a resolver la problemática de la empresa. Para ello se construye una plataforma de procesamiento de texto, denominada Tanalyzer, que permite manejar grandes volúmenes de información, visualizar, clasificar y hacer predicciones sobre las temáticas de nuevos documentos utilizando text-mining, sub área de la minería de datos especializada en texto, implementando el modelo de tópicos generativo Latent Dirichlet Allocation. Las pruebas realizadas al software son satisfactorias. Sobre un modelo que maneja 8 temáticas, cada una asociada a uno de los 8 blogs de la empresa que se encuentran bajo estudio, es posible predecir documentos con un 80% de precision y 64% de recall, lo que demuestra la viabilidad de la aplicación. Actualmente, la solución permite escalar tanto en velocidad como en costos. Con un tiempo de ejecución de 2.5 horas para 300.000 documentos, permite entrenar en ese tiempo un mes de publicaciones a una tasa de 1250 artículos enviados diariamente repartidos en 8 blogs, frente a la tasa actual de publicación de 12.5 artículos diarios por blog. Entrenar 10 veces un modelo de esta magnitud representa para la empresa un costo de $USD 17 utilizando los servicios de Amazon Cloud Computing. Si bien los resultados obtenidos son positivos y la memoria cumple sus objetivos a cabailidad, existen múltiples mejoras realizables a la plataforma que constituyen el trabajo futuro de esta investigación y que deben ser consideradas por la empresa para llevar a cabo una implementación en producción. Por un lado es posible mejorar aún más los tiempos de ejecución y por otra parte se debe solucionar la disminución de recall cuando la cantidad de temáticas y la especificidad de éstas aumenta.
General note
Ingeniero Civil Industrial
 
Ingeniero Civil en Computación
 
Identifier
URI: https://repositorio.uchile.cl/handle/2250/111200
Collections
  • Tesis Pregrado
xmlui.footer.title
31 participating institutions
More than 73,000 publications
More than 110,000 topics
More than 75,000 authors
Published in the repository
  • How to publish
  • Definitions
  • Copyright
  • Frequent questions
Documents
  • Dating Guide
  • Thesis authorization
  • Document authorization
  • How to prepare a thesis (PDF)
Services
  • Digital library
  • Chilean academic journals portal
  • Latin American Repository Network
  • Latin American theses
  • Chilean theses
Dirección de Servicios de Información y Bibliotecas (SISIB)
Universidad de Chile

© 2020 DSpace
  • Access my account