Abstract | dc.description.abstract | Actualmente, en el mundo del e-commerce, el proceso de estructurar productos posee una
gran relevancia. Contar con información estructurada representa una ventaja para las organizaciones,
generando valor a partir de los estudios realizados. Por ejemplo, identificar los
diferentes segmentos de clientes para distintos tipos de artículos. Debido a lo anterior, la tarea
de estructurar información es enfrentada continuamente. Sin embargo, a diferencia de la gran
cantidad de trabajos que existe en el área del e-commerce, en el área de los medicamentos no
hay trabajos variados que enfrenten esta problemática.
En Chile existe una alta dispersión de precios de medicamentos en compras públicas, lo
que genera repercusiones a la sociedad en general. Es por esto que se establece una solución a
este problema, a través del monitoreo de precios, tarea que es realizada por la estructuración
de información de medicamentos en compras públicas. Contar con un sistema que permita
estructurar descripciones de medicamentos, podría simplificar todo el trabajo que conlleva la
extracción manual de la información relevante de los medicamentos.
Debido a lo anterior, en el presente trabajo de tesis se enfrenta la necesidad de estructurar
medicamentos, mediante la extracción de los valores de los atributos: forma farmacéutica,
principio activo y concentración. Estos últimos se encuentran presentes en las descripciones
de los fármacos, las cuales están escritas en texto libre. Por ejemplo, un medicamento cuya
descripción es “Levotiroxina 100 mg x 90 cm”, posee una forma farmacéutica con un valor
de comprimido, un principio activo igual a levotiroxina y una concentración de 100 mg.
Con el objetivo de facilitar la estructuración de medicamentos, se propone la creación de
un algoritmo de estructuración. Para lograr lo antes mencionado, se utiliza una combinación
de herramientas de Procesamiento de Lenguaje Natural (PLN) y de Machine Learning (ML),
a lo largo de 3 subprocesos que son enfrentados utilizando métodos diferentes. Además, se
añaden etapas de supervisión humana, entregando la opción de validar y ayudar al algoritmo
a entregar valores correctos, generando a su vez un sistema semi-supervisado, el cual es capaz
de estructurar un 75% de los datos utilizados.
Para lograr lo mencionado anteriormente, se entrega un contexto de la base entregada por
CENABAST, además de una revisión del estado del arte actual. Por otro lado, también se
establece una serie de objetivos, además de una metodología que abarca las etapas, desde los
análisis exploratorios de datos, hasta el establecimiento de métricas que ayudan a evaluar los
resultados generados por la aplicación del algoritmo construido. | es_ES |