Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
Tesis
Open/ Download
Publication date
2016Metadata
Show full item record
Cómo citar
Universidad de Chile
Cómo citar
Diseño y modelo preliminar de una plataforma de integración de datos clínicos y genómicos : aplicaciones en Alzheimer y cáncer de mama
Author
Professor Advisor
Abstract
Durante los últimos años la medicina traslacional ha surgido como un enfoque potente para el
estudio de enfermedades complejas, en que la idea fundamental es fortalecer la retroalimentación
entre los estudios en ciencias básicas y la clínica para mejorar los diagnósticos y tratamientos de
los pacientes. Accediendo a mayor información del paciente, en particular genómica, se busca
definir de mejor manera el fenotipo de su enfermedad y con ello decidir su mejor tratamiento.
Sin embargo, la gran cantidad y heterogeneidad de los datos disponibles hace complejo el
descubrimiento de información relevante (definir el fenotipo). Para abordar este problema es
necesario desarrollar un sistema que permita integrar los estudios realizados a cada paciente y
asociar sus resultados.
En este trabajo se propone implementar una plataforma (Datagenomed) constituida por un
modelo de base de datos “híbrida” basado en PostgreSQL y almacenamiento JSON (NoSQL) y
un conjunto de herramientas computacionales que permitan asociar la información clínica del
paciente con la información genómica. Un software de gestión de datos que registre tanto
información clínica (diagnóstica) como los resultados de secuenciación de ADN y que permita la
búsqueda de información pertinente en repositorios biológicos, añadiendo reportes estadísticos
basados en el software R.
La plataforma se adaptó a dos casos de estudio: i) información sobre Alzheimer basado en el
proyecto Fondecyt No. 1140423 “Fisiopatología de la Apatía en la Enfermedad de Alzheimer: Un
Estudio Experimental de Neuropsicología y Neuroimagen” (CA) liderado por la Dra. Andrea
Slachevsky y ii) información de cáncer de mama del proyecto Fondef N. D11I1029
“Incorporación de la Secuenciación de Última Generación en el Cuidado de los Pacientes con
Cáncer” (CC) proporcionado por la Dra. Katherine Marcelain.
Los datos clínicos provinieron de recolección de fichas clínicas hospitalarias, junto a datos
demográficos (solo para CA). Los datos genómicos se obtuvieron del análisis de archivos Fastq de muestras de sangre y/o tejido procesados mediante next-generation DNA sequencing (NGS)
(CC).
Para adaptarse a la naturaleza disímil de los datos registrados, la información se almacenó en un
nuevo sistema de bases de datos híbrido, permitiendo tanto datos clínicos estructurados como
datos genómicos de tipo documental.
La implementación resultante cuenta con un sistema de filtrado y búsquedas de términos en bases
bibliográficas e información genómica en bases de datos biológicas; Pubmed, RefSeqGene,
MedGen, dbSNP, Clinvar, Cosmic, Gene pudiendo agregarse otros recursos según necesidad.
El objetivo de esta tesis es diseñar e implementar un conjunto de herramientas de software para
permitir procesos de extracción, transformación y carga (ETL) de información sobre las bases de
datos creadas y permitir consultas en línea mediante webservice. Dichos webservice se
construyeron utilizando software open source y las mejores prácticas de diseño de interface,
fuerte prototipado y técnicas de desarrollo xtreme programming.
El fin último es que la información resultante esté disponible remotamente vía una plataforma
que pueda ser consultada utilizando webservice desde cualquier sistema de registro clínico
asociado. Como resultado se construyó una plataforma basada en tecnología web soportado sobre un motor de base de datos PostgreSQL utilizando Knime como herramienta para procesos de ETL. In recent years translational medicine has emerged as a powerful tool for the study of complex
diseases approach, the fundamental idea is to strengthen the feedback between basic and clinical
studies to improve diagnosis and treatment of patients. Accessing more information on the
patient, particularly genomics, seeks to better define the phenotype of the disease and thus
determine their best treatment.
However, due to the large amount of data and its heterogeneity the discovery of relevant
information becomes complex (defining the phenotype). To address this problem it is necessary
to develop a system that integrate studies and associate the patient outcomes.
In this thesis we propose to implement a platform (DataGenomed) consisting of a database model
and a set of computational tools that allow to associate clinical information with genomic
information of patients. The proposed data management software to record clinical information
(diagnostic) and the results of DNA sequencing and allows the search for relevant information in biological repositories, adding statistical reports based on the software R. The platform will tested two case studies: i) information on Alzheimer disease based on Fondecyt
No. 1140423 project "Apathy Pathophysiology of Alzheimer's Disease: An Experimental Study
of Neuropsychology and neuroimaging" project (CA) led by Dra. Andrea Slachevsky and ii)
breast cancer information Fondef N. D11I1029 project "Incorporating Next Generation
Sequencing Care in cancer Patients" (CC) led by Dra. Katherine Marcelain.
Clinical data collection came from hospital medical records, along with demographic data (CA
only). Genomic data was obtained from analysis files Fastq blood samples and / or tissue
processed using next-generation DNA sequencing (NGS) (CC).
To adapt us to the dissimilar nature of the recorded data, the information was stored in a new
hybrid database system data, allowing both clinical structured data and genomic non structured
document type. The resulting implementation has a filtering system and search terms in bibliographic databases
and genomic information in biological databases; Pubmed, RefSeqGene, MedGen, dbSNP,
Clinvar, Cosmic, Gene and it is posible to add other resources as needed.
The aim of this thesis is to design and implement a set of software tools to allow extraction,
transformation and loading (ETL) of information on databases created and allow online
consultations via webservice. These best practices webservice interface design, prototyping and
strong development techniques xtreme programming will be built using open source software.
The final goal is that the resulting information is available remotely via a platform that can be
accessed from any system using webservice and associated clinical record.
General note
Grado de magíster en informática médica
Identifier
URI: https://repositorio.uchile.cl/handle/2250/168327
Collections
The following license files are associated with this item: