Identificación de la presencia de ironía en el texto generado por usuarios de Twitter utilizando técnicas de Opinion Mining y Machine Learning

Hernández Martínez, Víctor Alejandro

Professor Advisor	dc.contributor.advisor	Velásquez Silva, Juan Domingo
Author	dc.contributor.author	Hernández Martínez, Víctor Alejandro
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas
Staff editor	dc.contributor.editor	Departamento de Ingeniería Industrial
Associate professor	dc.contributor.other	Molina Jara, Francisco
Associate professor	dc.contributor.other	Cabezas Bullemore, Alberto
Admission date	dc.date.accessioned	2015-11-02T13:01:23Z
Available date	dc.date.available	2015-11-02T13:01:23Z
Publication date	dc.date.issued	2015
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/134793
General note	dc.description	Ingeniero Civil Industrial
Abstract	dc.description.abstract	El siguiente trabajo tiene como objetivo general dise~nar e implementar un módulo clasificador de texto que permita identificar la presencia de ironía en el contenido generado por usuarios de Twitter, mediante el uso de herramientas asociadas a Opinion Mining y Machine Learning. La ironía es un fenómeno que forma parte del contenido generado por las personas en la Web, y representa un campo de estudio nuevo que ha atraído la atención de algunos investigadores del área de Opinion Mining debido a su complejidad y al impacto que puede tener en el desempeño de las aplicaciones de Análisis de Sentimientos actuales. Este trabajo de título se desarrolla dentro del marco de OpinionZoom, proyecto CORFO código 13IDL2-23170 titulado "OpinionZoom: Plataforma de análisis de sentimientos e ironía a partir de la información textual en redes sociales para la caracterización de la demanda de productos y servicios" desarrollado en el Web Intelligence Centre del Departamento de Ingeniería Industrial de la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile, el cual busca generar un sistema avanzado para analizar datos extraídos desde redes sociales para obtener información relevante para las empresas en relación a sus productos y servicios. La hipótesis de investigación de este trabajo dice que es posible detectar la presencia de ironía en texto en idioma Español con cierto nivel de precisión, utilizando una adaptación de la metodología propuesta por Reyes et al. (2013) en [5] la cual involucra la construcción de un corpus en función de la estructura de Twitter junto con la capacidad de las personas para detectar ironía. El modelo utilizado se compone de 11 atributos entre los cuales se rescatan características sintácticas, semánticas y emocionales o psicológicas, con el objetivo de poder describir ironía en texto. Para esto, se genera un corpus de casos irónicos y no irónicos a partir de una selección semiautomática utilizando una serie de hashtags en Twitter, para luego validar su etiquetado utilizando evaluadores humanos. Además, esto se complementa con la inclusión de textos objetivos como parte del set de casos no irónicos. Luego, utilizando este corpus, se pretende realizar el entrenamiento de un algoritmo de aprendizaje supervisado para realizar la posterior clasificación de texto. Para ésto, se implementa un módulo de extracción de atributos que transforma cada texto en un vector representativo de los atributo. Finalmente, se utilizan los vectores obtenidos para implementar un módulo clasificador de texto, el cual permite realizar una clasificación entre tipos irónicos y no irónicos de texto. Para probar su desempe~no, se realizan dos pruebas. La primera utiliza como casos no irónicos los textos objetivos y la segunda utiliza como casos no irónicos aquellos textos evaluados por personas como tales. La primera obtuvo un alto nivel de precisión, mientras que la segunda fue insuficiente. En base a los resultados se concluye que esta implementación no es una solución absoluta. Existen algunas limitaciones asociadas a la construcción del corpus, las herramientas utilizadas e incluso el modelo, sin embargo, los resultados muestran que bajo ciertos escenarios de comparación, es posible detectar ironía en texto por lo que se cumple la hipótesis. Se sugiere ampliar la investigación, mejorar la obtención del corpus, utilizar herramientas más desarrolladas y analizar aquellos elementos que el modelo no puede capturar.	en_US
Lenguage	dc.language.iso	es	en_US
Publisher	dc.publisher	Universidad de Chile	en_US
Type of license	dc.rights	Atribución-NoComercial-SinDerivadas 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	Redes sociales	en_US
Keywords	dc.subject	Minería de datos	en_US
Keywords	dc.subject	Twitter	en_US
Keywords	dc.subject	Sentiment analysis	en_US
Keywords	dc.subject	Web opinion mining	en_US
Título	dc.title	Identificación de la presencia de ironía en el texto generado por usuarios de Twitter utilizando técnicas de Opinion Mining y Machine Learning	en_US
Document type	dc.type	Tesis

Files in this item

Name:: Identificacion-de-la-presencia ...
Size:: 1.455Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record

Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 3.0 Chile