Abstract | dc.description.abstract | Las diferentes redes sociales han surgido a partir del sentido común y natural de los humanos por reunirse en torno a un tema, sintiendo que pertenecen a una Comunidad, la cual es representada por una red de relaciones complejas entre las unidades que cambia con el tiempo. Una Comunidad es un grupo de vértices que comparten propiedades comunes y desempeñan un papel similar dentro del grupo, las cuales pueden ser clasificadas como Comunidades de interés, en el que los miembros comparten un interés particular, y Comunidades de práctica, donde los miembros comparten inquietudes, participan y desarrollan un tema volviéndose expertos. Si estas interacciones ocurren sobre plataformas en línea, son llamadas Comunidades virtuales de interés (VCoI) y Comunidades virtuales de práctica (VCoP).
El estudio de las Comunidades virtuales (VC) no sólo ayuda a entender su estructura interna, sino que también a descubrir cómo el conocimiento es compartido, los principales miembros, proporcionar herramientas a los administradores para mejorar la participación y asegurar la estabilidad de la comunidad en el tiempo. El área de Análisis de Redes Sociales y de Minería de Datos han estudiado el problema, pero ninguno toma en cuenta el significado del contenido que los miembros de una comunidad generan.
Por lo tanto, la principal contribución de este trabajo es tomar en cuenta la semántica de los contenidos creados por los miembros de dos VCoP, así como las propiedades estructurales de las redes que forman, para estudiar la existencia de otros miembros claves, buscar los principales temas de investigación, y estudiar las propiedades de las nuevas redes creadas con contenido. Se utilizó una VCoP científica del área de computación ubicua, y otra del área Web Semántica, considerando como data los autores de los papers aceptados en las conferencias de las comunidades y su contenido.
Este trabajo propone dos métodos, el primero, busca representar cada artículo escrito por los miembros por sus Keywords, y el segundo, busca extraer los temas subyacentes de cada paper con el modelo probabilístico LDA. Con el resultado de estos métodos, las interacciones entre autores pueden ser construidas basándose en el contenido en lugar de sólo la relación de coautoría (red base para comparar los métodos). La metodología propuesta es un proceso híbrido llamado SNA-KDD que incluye la extracción y procesamiento de datos de texto, para su posterior análisis con SNA para descubrir nueva información, utilizando teoría de grafos, algoritmos de clasificación (HITS y PageRank) y diferentes medidas estructurales para redes.
Los resultados muestran que las redes científicas en estudio pueden ser modeladas como VCoPs usando la metodología SNA-KDD usando teoría de grafos. Esto queda evidenciado en los resultados de la métrica Modularidad, obteniendo valores sobre 0,9 en la mayoría de las redes, lo que indica una estructura de comunidad.
Además, los métodos propuestos para introducir el contenido generado por sus miembros, Keywords y Modelo de Tópicos LDA, permite reducir la densidad de todas las redes, eliminando relaciones no relevantes. En la red de Computación Ubicua, con 1920 nodos, se redujo de 5.452 arcos a 1.866 arcos para método de Keywords y a 2.913 arcos para modelo LDA; mientras que en la red de Web Semántica permitió reducir de 20.332 arcos a 13.897 arcos y 8.502 arcos, respectivamente.
La detección de miembros claves se realizó contra una comparación de los autores más prominentes del área según las citaciones en Google Scholar. Los resultados indican que la mejor recuperación de miembros claves se da en el método de tópicos por LDA con HITS para el primer dataset, para el segundo se da en Keywords, tanto en métricas de Recall como en Precision. | en_US |