Assessment of exported clinical data from hospital information system for clinical reuse in multiple myeloma research
Tesis
Open/ Download
Publication date
2016Metadata
Show full item record
Cómo citar
Cerda, Mauricio
Cómo citar
Assessment of exported clinical data from hospital information system for clinical reuse in multiple myeloma research
Professor Advisor
Abstract
The Department of Multiple Myeloma of the University Hospital Heidelberg uses a
scientific database to enter clinical data for research purposes. Entered data is about
demographic, diagnostic, laboratory and treatment data of patients with multiple myeloma.
Currently the transfer of data from the Hospital Information System (HIS) to the scientific
database must be done manually by trained specialists, which is time consuming and prone
to transcription errors. Recently it became possible to export the data from the HIS as
Comma Separated Value (CSV) files to import it into the database. However there is no
evaluation of this reusing process to verify if the quality of the data is suitable for scientific
purposes.
This thesis assessed the quality of exported laboratory data from the HIS, as CSV
files, for secondary use in Multiple Myeloma research, in two types of processes: (1) in a
manual process of data transcription, and (2) in the automatic process of data transference.
The automatic transference was implemented as an Extract, Transform and Load (ETL)
process. A comparison was carried out between manual and automatic data collection
methods. The criteria to measure data quality were correctness and completeness. As
results of this analysis, the manual process had a general error rate of 2.6% to 7.1%,
obtaining the lowest error rate if data fields with a not clear definition were removed from
the analysis (p<0.000). In the case of automatic process, the general error rate was 1.9% to
12.1%, where lowest error rate is obtained when excluding information missing in the HIS
but transcribed to the scientific database from other physical sources. When the sample is
adjusted to only data that follow a standardized protocol and present in the HIS, manual
process presented a higher error rate of 1,8% in comparison with automatic process 0,18%
(p<0.000). In addition to the speed of automatic process compared to the manual one the
implemented ETL process simplifies data collection identifying, through alerts, data
incompleteness and incorrectness at the point of entry, and it expanded the range of
captured data.
The automatic ETL process can be used to collect laboratory data for clinical
research with quality assurance if data in the HIS as well as physical documentation not
included in HIS, are identified previously and follows a standardized data collection
protocol. El Departamento de Mieloma Múltiple del Hospital Universitario de Heidelberg
utiliza una base de datos científica para ingresar datos clínicos con fines de investigación.
Dentro de los datos introducidos se encuentran datos demográficos, diagnósticos,
laboratorio y tratamiento de pacientes con mieloma múltiple. Actualmente la transferencia
de datos desde el Sistema de Información Hospitalaria (HIS) a la base de datos científica
debe hacerse manualmente por especialistas entrenados, proceso que consume mucho
tiempo y es propenso a errores de transcripción. Recientemente es posible exportar los
datos del HIS como archivos de valores separados por comas (CSV) para importar estos en
la base de datos. Sin embargo no existe evaluación de este proceso de reutilización que
verifique si la calidad de los datos es apropiada para fines científicos.
Esta tesis evaluó la calidad de los datos de laboratorio exportados desde el HIS
como archivos CSV, para uso secundario en investigación del mieloma múltiple, en dos
tipos de procesos: (1) en un proceso manual de transcripción de datos y (2) en el proceso
automático de transferencia de datos. Este último fue implementado como un proceso de
extracción, transformación y carga (ETL). Luego, una comparación entre ambos métodos
de recolección fue llevada a cabo. Los criterios para medir la calidad fueron correctitud y
completitud. Como resultados de este análisis, el proceso manual presentó una tasa de error
general de 2,6% a 7.1%, obteniendo la más baja tasa si los campos de datos con una
definición no clara son excluidos del análisis (p <0.000). En el caso de proceso automático,
la tasa de error general fue 1,9% a 12.1%, donde la menor tasa se obtiene al excluir la
información que falta en el HIS, pero son transcritos a la base de datos científica desde
otras fuentes físicas. Cuando la muestra es ajustada con solo datos que siguen un protocolo
estandarizado e incluidos en el HIS, el proceso manual presenta una tasa de error más alta
de 1,8% en comparación con el automático, 0,18% (p<0.000). Además de las mejora en
velocidad el proceso ETL implementado permite simplificar la recogida de los datos,
identificar, a través de alertas, el estado incompleto e incorrecto en el punto de entrada y
ampliar la gama de los datos capturados.
El proceso automático ETL puede utilizarse para recopilar datos de laboratorio para
la investigación clínica, con calidad asegurada, si los datos en el HIS así como
documentación física no incluidos en él, se identifican previamente y siguen un protocolo
de recogida de datos estandarizados.
General note
Tesis para optar al grado de Magíster en Informática.
Identifier
URI: https://repositorio.uchile.cl/handle/2250/180528
Collections
The following license files are associated with this item: