Development of a multimodal web user dataset and adaptation of deep learning models for visual attention prediction on web pages for web user segmentation
Tesis

Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Velásquez Silva, Juan
Cómo citar
Development of a multimodal web user dataset and adaptation of deep learning models for visual attention prediction on web pages for web user segmentation
Professor Advisor
Abstract
The objective of this thesis is to develop a multimodal web user dataset and to fine-tune a saliency prediction model for web page saliency prediction, focusing on identifying potential differences in gaze behavior between males and females.
Vision is the dominant sense for humans, playing a crucial role in how individuals interact with their environment and process information. Visual attention is critical for filtering the vast amount of visual data received in day-to-day life, guiding what the brain processes and what does not. Understanding visual attention, specifically through saliency prediction models, is essential in fields like computer vision, advertising, robotics, and healthcare.
Despite advances in saliency prediction and gaze behavior differences between males and females, studies are generally limited to age ranges that do not encompass young and middle adulthood, and advances in this topic often focus on certain types or specific elements of web pages. This does not allow for full segmentation of adult males and females. Therefore, the research hypothesis in this thesis is stated as ``Significant differences exist in visual attention distribution patterns between males and females, evidenced by the intrinsic characteristics of their respective saliency maps.''
Previous research includes traditional saliency models, convolutional neural networks, and transformers. Existing web page saliency datasets provide foundational data, but limitations in participant diversity and dataset size remain.
This work created a multimodal web user dataset, with balanced representation across sex and age groups. This multimodal dataset includes the WIC640 dataset, corresponding to the largest web page saliency dataset to date. Data was collected using a 60 Hz eye tracker from 80 participants. A deep learning model for visual attention prediction was fine-tuned on both existing datasets and WIC640. The model’s performance was benchmarked against state-of-the-art models, and separate models were trained for male and female gaze predictions. Intrinsic features from saliency maps from males and females were measured and studied.
The model achieved competitive performance and significant differences (p < 0.05) in gaze behavior between males and females were identified through statistical analysis. Saliency map key features such as the number of saliency peaks, saliency area, and contrast revealed distinct distributions across sexes. The research hypothesis was validated, and significant differences in gaze behavior between males and females were exposed. This work builds the foundation for further research in web user behavior, enabling more personalized and adaptive web design. El objetivo de esta tesis es crear un conjunto de datos multimodal de usuarios web y
adaptar un modelo de predicci´on de saliencia para la predicci´on de saliencia en p´aginas web;
centr´andose en identificar potenciales diferencias en el comportamiento visual entre hombres
y mujeres.
La visi´on es el sentido dominante para los humanos. La atenci´on visual es fundamental
para filtrar la gran cantidad de datos visuales proporcionados por el entorno en la vida
cotidiana, por lo que la comprensi´on de la atenci´on visual a trav´es de modelos de predicci´on
de saliencia se vuelve esencial. Pese a de los avances en la predicci´on de la saliencia y
en las diferencias de comportamiento de la mirada entre hombres y mujeres, los estudios
suelen limitarse a rangos de edad que no abarcan la edad adulta joven y media, y los
avances en este tema suelen centrarse en determinados tipos o elementos espec´ıficos de las
p´aginas web. Esto no permite una segmentaci´on completa de hombres y mujeres en etapa
adulta. La hip´otesis de investigaci´on se plantea como: “Existen diferencias significativas en
los patrones de distribuci´on de la atenci´on visual entre hombres y mujeres, evidenciadas por
las caracter´ısticas intr´ınsecas de sus respectivos mapas de saliencia”.
Investigaciones previas incluyen modelos tradicionales, redes neuronales convolucionales y
transformadores. Los conjunto de datos de saliencia de p´aginas web existentes proporcionan
datos fundamentales para entrenamiento de modelos y se ha estudiado variables espec´ıficas en
comportamiento visual en hombres y mujeres en p´aginas web, aunque con edades limitadas.
Este trabajo cre´o un conjunto de datos multimodal de 80 participantes, equilibrado entre
sexos y rangos etarios; que incluye a WIC640, el conjunto de datos de saliencia de p´aginas
web m´as grande hasta la fecha. Se entren´o un modelo para la predicci´on de atenci´on visual en
p´aginas web y se entrenaron y testearon modelos separados para las predicciones de saliencia
de hombres y mujeres. Se midieron y estudiaron estad´ısticamente caracter´ısticas intr´ınsecas
de los mapas de saliencia de hombres y mujeres.
El modelo logr´o un rendimiento competitivo y se identificaron diferencias significativas en
el comportamiento de la mirada entre hombres y mujeres a trav´es de un an´alisis estad´ıstico.
La hip´otesis de investigaci´on fue validada. Este trabajo sienta las bases para investigaciones
futuras en el comportamiento de usuarios web, permitiendo un dise˜no web m´as personalizado
y adaptativo y mejorando la experiencia web.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos Memoria para optar al título de ingeniero Civil Industrial
Patrocinador
Este trabajo ha sido parcialmente financiado por FONDECYT
Identifier
URI: https://repositorio.uchile.cl/handle/2250/204313
Collections
The following license files are associated with this item: