Development of a multimodal web user dataset and adaptation of deep learning models for visual attention prediction on web pages for web user segmentation

Villanueva González, Pablo Ignacio

Professor Advisor	dc.contributor.advisor	Velásquez Silva, Juan
Author	dc.contributor.author	Villanueva González, Pablo Ignacio
Associate professor	dc.contributor.other	Guiñazú, María Flavia
Associate professor	dc.contributor.other	Vera Cid, Felipe
Admission date	dc.date.accessioned	2025-04-15T18:47:45Z
Available date	dc.date.available	2025-04-15T18:47:45Z
Publication date	dc.date.issued	2024
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/204313
Abstract	dc.description.abstract	The objective of this thesis is to develop a multimodal web user dataset and to fine-tune a saliency prediction model for web page saliency prediction, focusing on identifying potential differences in gaze behavior between males and females. Vision is the dominant sense for humans, playing a crucial role in how individuals interact with their environment and process information. Visual attention is critical for filtering the vast amount of visual data received in day-to-day life, guiding what the brain processes and what does not. Understanding visual attention, specifically through saliency prediction models, is essential in fields like computer vision, advertising, robotics, and healthcare. Despite advances in saliency prediction and gaze behavior differences between males and females, studies are generally limited to age ranges that do not encompass young and middle adulthood, and advances in this topic often focus on certain types or specific elements of web pages. This does not allow for full segmentation of adult males and females. Therefore, the research hypothesis in this thesis is stated as ``Significant differences exist in visual attention distribution patterns between males and females, evidenced by the intrinsic characteristics of their respective saliency maps.'' Previous research includes traditional saliency models, convolutional neural networks, and transformers. Existing web page saliency datasets provide foundational data, but limitations in participant diversity and dataset size remain. This work created a multimodal web user dataset, with balanced representation across sex and age groups. This multimodal dataset includes the WIC640 dataset, corresponding to the largest web page saliency dataset to date. Data was collected using a 60 Hz eye tracker from 80 participants. A deep learning model for visual attention prediction was fine-tuned on both existing datasets and WIC640. The model’s performance was benchmarked against state-of-the-art models, and separate models were trained for male and female gaze predictions. Intrinsic features from saliency maps from males and females were measured and studied. The model achieved competitive performance and significant differences (p < 0.05) in gaze behavior between males and females were identified through statistical analysis. Saliency map key features such as the number of saliency peaks, saliency area, and contrast revealed distinct distributions across sexes. The research hypothesis was validated, and significant differences in gaze behavior between males and females were exposed. This work builds the foundation for further research in web user behavior, enabling more personalized and adaptive web design.	es_ES
Abstract	dc.description.abstract	El objetivo de esta tesis es crear un conjunto de datos multimodal de usuarios web y adaptar un modelo de predicci´on de saliencia para la predicci´on de saliencia en p´aginas web; centr´andose en identificar potenciales diferencias en el comportamiento visual entre hombres y mujeres. La visi´on es el sentido dominante para los humanos. La atenci´on visual es fundamental para filtrar la gran cantidad de datos visuales proporcionados por el entorno en la vida cotidiana, por lo que la comprensi´on de la atenci´on visual a trav´es de modelos de predicci´on de saliencia se vuelve esencial. Pese a de los avances en la predicci´on de la saliencia y en las diferencias de comportamiento de la mirada entre hombres y mujeres, los estudios suelen limitarse a rangos de edad que no abarcan la edad adulta joven y media, y los avances en este tema suelen centrarse en determinados tipos o elementos espec´ıficos de las p´aginas web. Esto no permite una segmentaci´on completa de hombres y mujeres en etapa adulta. La hip´otesis de investigaci´on se plantea como: “Existen diferencias significativas en los patrones de distribuci´on de la atenci´on visual entre hombres y mujeres, evidenciadas por las caracter´ısticas intr´ınsecas de sus respectivos mapas de saliencia”. Investigaciones previas incluyen modelos tradicionales, redes neuronales convolucionales y transformadores. Los conjunto de datos de saliencia de p´aginas web existentes proporcionan datos fundamentales para entrenamiento de modelos y se ha estudiado variables espec´ıficas en comportamiento visual en hombres y mujeres en p´aginas web, aunque con edades limitadas. Este trabajo cre´o un conjunto de datos multimodal de 80 participantes, equilibrado entre sexos y rangos etarios; que incluye a WIC640, el conjunto de datos de saliencia de p´aginas web m´as grande hasta la fecha. Se entren´o un modelo para la predicci´on de atenci´on visual en p´aginas web y se entrenaron y testearon modelos separados para las predicciones de saliencia de hombres y mujeres. Se midieron y estudiaron estad´ısticamente caracter´ısticas intr´ınsecas de los mapas de saliencia de hombres y mujeres. El modelo logr´o un rendimiento competitivo y se identificaron diferencias significativas en el comportamiento de la mirada entre hombres y mujeres a trav´es de un an´alisis estad´ıstico. La hip´otesis de investigaci´on fue validada. Este trabajo sienta las bases para investigaciones futuras en el comportamiento de usuarios web, permitiendo un dise˜no web m´as personalizado y adaptativo y mejorando la experiencia web.	es_ES
Patrocinador	dc.description.sponsorship	Este trabajo ha sido parcialmente financiado por FONDECYT	es_ES
Lenguage	dc.language.iso	en	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Development of a multimodal web user dataset and adaptation of deep learning models for visual attention prediction on web pages for web user segmentation	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Escuela de Postgrado y Educación Continua	es_ES
Department	uchile.departamento	Departamento de Ingeniería Industrial
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencia de Datos	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de ingeniero Civil Industrial

Files in this item

Name:: Development-of-a-multimodal-we ...
Size:: 114.1Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States