Show simple item record

Professor Advisordc.contributor.advisorDunstan Escudero, Jocelyn Mariel
Professor Advisordc.contributor.advisorHartel ., Steffen
Authordc.contributor.authorAguirre Jerez, Marcela Betsabeth
Admission datedc.date.accessioned2022-06-03T19:40:40Z
Available datedc.date.available2022-06-03T19:40:40Z
Publication datedc.date.issued2019
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/185853
Abstractdc.description.abstractProblema: Cerca del 74,2% de la población chilena tiene sobrepeso u obesidad, considerada un factor de riesgo para variadas enfermedades no transmisibles, las cuales hoy en día representan gran parte de la mortalidad prematura y Años de Vida Potenciales Perdidos. La obesidad se debe al desbalance entre el consumo y el gasto energético de los individuos, el cual se ve afectado tanto por factores fisiológicos individuales como por la interacción con el medio. Dado que las intervenciones realizadas hasta el momento para controlar la obesidad, por medio de estrategias que apuntan a controlar el consumo de alimentos como causa de ésta, no han producido el efecto esperados por los expertos, es necesario utilizar nuevos modelos de estudio que representen el fenómeno con mayor precisión. Hipótesis: El estado nutricional de la población chilena puede ser predicho a partir del consumo de alimentos individuales y/o los datos sociodemográficos de la población chilena, con un 90% de exactitud. Objetivo General: Implementar algoritmos de Aprendizaje de Máquinas de clasificación y regresión para predecir el estado nutricional (IMC o clasificación de estado nutricional) de la población chilena adulta, a partir de datos de consumo alimentario, características sociodemográficas individuales o la combinación de éstos. Material y Métodos: La Encuesta Nacional de Consumo de Alimentos (ENCA) fue aplicada a una muestra representativa de la población chilena el año 2010, que incluye variables de interés como información antropométrica, consumo de alimentos y nivel socioeconómico, entre otros. Con los datos de dieta disponibles de la ENCA, se implementaron algoritmos de Aprendizaje de Máquinas para predecir el estado nutricional de los encuestados (5 algoritmos de clasificación y 5 de regresión), con y sin variables sociodemográficas como parte de las variables predictoras. Los algoritmos se compararon (ANOVA) según métricas de desempeño para clasificación (Exactitud) y regresión (raíz cuadrada del error cuadrático medio (RMSE)). Se realizó además análisis exploratorio de los datos, por medio de análisis de correlación, análisis de varianza y análisis de componente principal. Resultados: En la exploración de los datos, las variables de dieta en general se caracterizan por bajas correlaciones y con varianza explicada repartida en una gran cantidad de componentes. En el caso de los algoritmos de clasificación implementados, la exactitud de promedio varía entre 50,8% y 72,2%. El mejor desempeño para la clasificación se reporta para los datos de consumo mensual no agrupado con variables sociodemográficas y el algoritmo Support Vector Machine (Exactitud (%): 72,2 ± 2,6). Para la regresión, el promedio de raíz cuadrada del error cuadrático medio (RMSE) varía entre 5,21 a 6,24, y el mejor desempeño se reporta con los datos de consumo mensual agrupado con variables sociodemográficas y el algoritmo de Regresión Lineal (RMSE: 5,2 ± 0,4). Las pruebas estadísticas de comparación de desempeño entre algoritmos son no significativas para la clasificación y la regresión. Conclusión: Estos resultados deben ser interpretados con cautela. El desempeño regular de algoritmos, sin diferencias significativas entre ellos, llevan al rechazo de la hipótesis de que el estado nutricional de la población chilena puede ser predicho a partir del consumo de alimentos individuales y/o los datos sociodemográficos de la población chilena, con un 90% de exactitud. La capacidad predictiva de los algoritmos implementados depende de las características de los datos utilizados, los cuales por su naturaleza (autorreportados y transversales) demuestran limitaciones para este tipo de análisis. Al comparar con la literatura, los resultados obtenidos son similares a los reportados con población estadounidense encuestada en la National Health and Nutrition Examination Survey, incluso tratándose de una menor población y con diferentes características. Si bien, de los resultados obtenidos no se puede establecer causalidad, se obtienen directrices respecto de qué variables son relevantes para predecir la obesidad, que en conjunto pueden proporcionar información para el diseño de futuras investigaciones con métodos que permitan establecer causalidad.es_ES
Abstractdc.description.abstractProblem: About 74.2% of the Chilean population is overweight or obese, considered a risk factor for various noncommunicable diseases, that represent a large part of premature mortality and Years of Potential Life Lost. Obesity is due to the imbalance between the consumption and energy expenditure of individuals, which is affected by both individual physiological factors and interaction with the environment. Given that the interventions carried out so far to control obesity, through strategies aimed at controlling the consumption of food as a cause of it, have not produced the effect expected by the experts, it is necessary to use new study models that represent the phenomenon with greater precision. Hypothesis: The nutritional status of the Chilean population can be predicted from the consumption of individual foods and/or sociodemographic data of the Chilean population, with 90% accuracy. General Objective: Implement machine learning algorithms of classification and regression to predict the nutritional status (BMI or by categories of nutritional) of the Chilean adult population, based on data on food consumption, individual sociodemographic characteristics or the combination of these. Material and Methods: The National Survey of Food Consumption (ENCA) was applied to a representative sample of the Chilean population in 2010, which includes variables of interest such as anthropometric information, food consumption and socioeconomic status, among others. With the diet data available from the ENCA, Machine Learning algorithms were implemented to predict the nutritional status of the respondents (5 classification algorithms and 5 regression algorithms), with and without sociodemographic variables as part of the predictor variables. The algorithms were compared (ANOVA) according to performance metrics for classification (Accuracy) and regression (square root of the mean square error (RMSE)). An exploratory analysis of the data was also carried out, through correlation analysis, analysis of variance and principal component analysis. Results: In the exploration of the data, the variables of diet in general are characterized by low correlations and with explained variance distributed in a large number of components. In the case of the classification algorithms implemented, the average accuracy varies between 50.8% and 72.2%. The best performance for classification is reported for the non-grouped monthly consumption data with sociodemographic variables and Support Vector Machine algorithm (Accuracy (%): 72.2 ± 2.6). For regression, RMSE varies between 5.21 to 6.24, and the best performance is reported with the grouped monthly consumption with sociodemographic data and Linear Regression (RMSE: 5.2 ± 0.4). The statistical tests of performance comparison between algorithms are not significant for classification and regression. Conclusion: These results should be interpreted with caution. The regular performance of algorithms, without significant differences between them, lead to the rejection of the hypothesis that the nutritional status of the Chilean population can be predicted from the consumption of individual foods and/or the sociodemographic data of the Chilean population, with a 90% accuracy. The predictive capacity of the algorithms implemented is conditioned by the quality of the data used, which by their nature (self-reported and cross-sectional) demonstrate limitations for this type of analysis. When compared with literature, the results obtained are similar to those reported with the US population surveyed in the National Health and Nutrition Examination Survey, even in the case of a smaller population and with different characteristics. Although it is not possible to establish causality from the results obtained, guidelines are obtained regarding which variables are relevant for predicting obesity, which together can provide information for the design of future research with methods that allow establishing causality.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Keywordsdc.subjectObesidades_ES
Keywordsdc.subjectConsumo de alimentoses_ES
Keywordsdc.subjectAlgoritmoses_ES
Títulodc.titleUso de aprendizaje de máquinas para el estudio de la obesidad en Chilees_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorprves_ES
Departmentuchile.departamentoEscuela de Postgradoes_ES
Facultyuchile.facultadFacultad de Medicinaes_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magister en Informática Médicaes_ES


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States