Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
Autor corporativo
dc.contributor
Universidad de Chile
es_ES
Autor corporativo
dc.contributor
Facultad de Medicina
es_ES
Autor corporativo
dc.contributor
Escuela de Postgrado
es_ES
Professor Advisor
dc.contributor.advisor
Assar Cuevas, Rodrigo
Author
dc.contributor.author
Araneda García, Patricio Miguel
Admission date
dc.date.accessioned
2019-04-29T16:01:46Z
Available date
dc.date.available
2019-04-29T16:01:46Z
Publication date
dc.date.issued
2016
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/168327
General note
dc.description
Grado de magíster en informática médica
es_ES
Abstract
dc.description.abstract
Durante los últimos años la medicina traslacional ha surgido como un enfoque potente para el
estudio de enfermedades complejas, en que la idea fundamental es fortalecer la retroalimentación
entre los estudios en ciencias básicas y la clínica para mejorar los diagnósticos y tratamientos de
los pacientes. Accediendo a mayor información del paciente, en particular genómica, se busca
definir de mejor manera el fenotipo de su enfermedad y con ello decidir su mejor tratamiento.
Sin embargo, la gran cantidad y heterogeneidad de los datos disponibles hace complejo el
descubrimiento de información relevante (definir el fenotipo). Para abordar este problema es
necesario desarrollar un sistema que permita integrar los estudios realizados a cada paciente y
asociar sus resultados.
En este trabajo se propone implementar una plataforma (Datagenomed) constituida por un
modelo de base de datos “híbrida” basado en PostgreSQL y almacenamiento JSON (NoSQL) y
un conjunto de herramientas computacionales que permitan asociar la información clínica del
paciente con la información genómica. Un software de gestión de datos que registre tanto
información clínica (diagnóstica) como los resultados de secuenciación de ADN y que permita la
búsqueda de información pertinente en repositorios biológicos, añadiendo reportes estadísticos
basados en el software R.
La plataforma se adaptó a dos casos de estudio: i) información sobre Alzheimer basado en el
proyecto Fondecyt No. 1140423 “Fisiopatología de la Apatía en la Enfermedad de Alzheimer: Un
Estudio Experimental de Neuropsicología y Neuroimagen” (CA) liderado por la Dra. Andrea
Slachevsky y ii) información de cáncer de mama del proyecto Fondef N. D11I1029
“Incorporación de la Secuenciación de Última Generación en el Cuidado de los Pacientes con
Cáncer” (CC) proporcionado por la Dra. Katherine Marcelain.
Los datos clínicos provinieron de recolección de fichas clínicas hospitalarias, junto a datos
demográficos (solo para CA). Los datos genómicos se obtuvieron del análisis de archivos Fastq de muestras de sangre y/o tejido procesados mediante next-generation DNA sequencing (NGS)
(CC).
Para adaptarse a la naturaleza disímil de los datos registrados, la información se almacenó en un
nuevo sistema de bases de datos híbrido, permitiendo tanto datos clínicos estructurados como
datos genómicos de tipo documental.
La implementación resultante cuenta con un sistema de filtrado y búsquedas de términos en bases
bibliográficas e información genómica en bases de datos biológicas; Pubmed, RefSeqGene,
MedGen, dbSNP, Clinvar, Cosmic, Gene pudiendo agregarse otros recursos según necesidad.
El objetivo de esta tesis es diseñar e implementar un conjunto de herramientas de software para
permitir procesos de extracción, transformación y carga (ETL) de información sobre las bases de
datos creadas y permitir consultas en línea mediante webservice. Dichos webservice se
construyeron utilizando software open source y las mejores prácticas de diseño de interface,
fuerte prototipado y técnicas de desarrollo xtreme programming.
El fin último es que la información resultante esté disponible remotamente vía una plataforma
que pueda ser consultada utilizando webservice desde cualquier sistema de registro clínico
asociado. Como resultado se construyó una plataforma basada en tecnología web soportado sobre un motor de base de datos PostgreSQL utilizando Knime como herramienta para procesos de ETL.
es_ES
Abstract
dc.description.abstract
In recent years translational medicine has emerged as a powerful tool for the study of complex
diseases approach, the fundamental idea is to strengthen the feedback between basic and clinical
studies to improve diagnosis and treatment of patients. Accessing more information on the
patient, particularly genomics, seeks to better define the phenotype of the disease and thus
determine their best treatment.
However, due to the large amount of data and its heterogeneity the discovery of relevant
information becomes complex (defining the phenotype). To address this problem it is necessary
to develop a system that integrate studies and associate the patient outcomes.
In this thesis we propose to implement a platform (DataGenomed) consisting of a database model
and a set of computational tools that allow to associate clinical information with genomic
information of patients. The proposed data management software to record clinical information
(diagnostic) and the results of DNA sequencing and allows the search for relevant information in biological repositories, adding statistical reports based on the software R. The platform will tested two case studies: i) information on Alzheimer disease based on Fondecyt
No. 1140423 project "Apathy Pathophysiology of Alzheimer's Disease: An Experimental Study
of Neuropsychology and neuroimaging" project (CA) led by Dra. Andrea Slachevsky and ii)
breast cancer information Fondef N. D11I1029 project "Incorporating Next Generation
Sequencing Care in cancer Patients" (CC) led by Dra. Katherine Marcelain.
Clinical data collection came from hospital medical records, along with demographic data (CA
only). Genomic data was obtained from analysis files Fastq blood samples and / or tissue
processed using next-generation DNA sequencing (NGS) (CC).
To adapt us to the dissimilar nature of the recorded data, the information was stored in a new
hybrid database system data, allowing both clinical structured data and genomic non structured
document type. The resulting implementation has a filtering system and search terms in bibliographic databases
and genomic information in biological databases; Pubmed, RefSeqGene, MedGen, dbSNP,
Clinvar, Cosmic, Gene and it is posible to add other resources as needed.
The aim of this thesis is to design and implement a set of software tools to allow extraction,
transformation and loading (ETL) of information on databases created and allow online
consultations via webservice. These best practices webservice interface design, prototyping and
strong development techniques xtreme programming will be built using open source software.
The final goal is that the resulting information is available remotely via a platform that can be
accessed from any system using webservice and associated clinical record.