Sistemas de Recuperación e Internet: Webmetría y análisis de páginas web

Qué es cibermetría y webmetría

Dada la importancia y extensión que ha adquirido la cibermetría en los últimos tiempos, se hace necesario conocer algunas definiciones de conceptos relacionados con la Bibliometría aplicada a la Web o Internet, es decir, la cibermetría. Este área de conocimiento, está en pleno estudio y desarrollo, por lo que existe una variación semántica bastante notable en muy corto espacio de tiempo, según se avanza en las investigaciones y pruebas.

Analizando el término "cibermetría", al descomponerlo en (ciber-) y (-metria), se indica la medición cuantitativa de la red virtual o la web. Es por ello, que se puede deducir también que la cibermetría es la aplicación de las técnicas bibliométrico estadísticas a la información recopilada en la web. Partiendo de la metodología como base para distinguir la ciencia que mide la web, cabe distinguir otro concepto emergente en muchos estudios especializados, se trata del término "webmetría". Si bien cibermetría corresponde al estudio cuantitativo de la web, ¿a qué corresponde el término webmetría? Según Björneborn, distingue el área de aplicación.

Cibermetría (BJÖRNEBORN. 2004): Es el estudio de los aspectos cuantitativos de la construcción y uso de los recursos de información, estructuras y tecnologías en Internet, desde perspectivas bibliométricas e informétricas.

Webmetría (BJÖRNEBORN. 2004): Es el estudio de los aspectos cuantitativos de la construcción y uso de los recursos de información, estructuras y tecnologías de una parte concreta de Internet, por regla general a una web o portal, desde perspectivas bibliométricas e informétricas.

Esto significa que la cibermetría acoge todo el espectro de análisis de la web y la webmetría selecciona una parte de ella, una sección o localización muy concreta. Por ejemplo el análisis de la web de española, corresponde a un estudio de tipo cibermétrico. Pero el estudio de la web de la universidad española es mucho más reducido y localizado lo que corresponde según Björneborn a un enfoque webmétrico. (ARROYO, N. 2005)

Factores que pueden influir en los estudios cibermétricos y webmétricos

Frecuencia de actualización de los sitios web citantes y citados

La modificación y actualización de los contenidos de una página o sitio web

La difusión y el nivel de enlazamiento de una web con el resto

La tipología documental de los recursos electrónicos en constante cambio

Qué es un webcrawler

El término webcrawler, también conocido con las denominaciones rastreador, araña, robot de búsqueda, crawler, spider, bot es un programa que cumple múltiples propósitos de análisis y extracción de información de la web. Constituye el instrumento de investigación principal con el que se realizan los estudios cibermétricos y webmétricos, lo que implica una estrecha relación entre la información que es capaz de recuperar y las técnicas de análisis, tabulación y medición de la metría. Pero ¿cómo funciona un webcrawler? ¿qué información puede recuperar? ¿qué utilidad tiene para el documentalista, de cara a la elaboración de estudios webmétricos?

Cómo funciona un webcrawler

A continuación se presenta un diagrama que explica el funcionamiento del webcrawler Mbot, véase figura1. Se trata de un programa especializado en el desarrollo de análisis webmétricos para un determinado área del conocimiento en la web, o grupo demarcado de sitios y páginas web. El mecanismo de funcionamiento se basa en diversos pasos. En primer lugar es necesario elaborar un archivo denominado "semilla.txt" que contiene la muestra inicial de direcciones URL que se pretenden analizar. Ello implica un proceso manual de selección de las páginas y sitios web que serán objeto de estudio. Definido el marco de estudio y con ello el listado de direcciones, se realiza un proceso de configuración del webcrawler en el que se determina la profundidad del análisis según los niveles de enlazamiento de los sitios y páginas definidas en la semilla. Esto es analizar los vínculos de los sitios y páginas de la semilla de forma sucesiva, hasta finalizar el proceso. Cada salto de una página a otra, se denomina nivel de profundidad, de tal manera que es posible navegar de una página a través de sus vínculos, determinando un recorrido que puede ser trazado y reflejado en un sistema de información, como un webcrawler. Pero también pueden y deben configurarse otros ajustes de importancia, como por ejemplo el buffer (que permite retener la información del proceso de extracción de datos), el tiempo en cache (para determinar el número de segundos que el sistema mantiene las entradas DNS en memoria), el tiempo de conexión (define el número de milisegundos que el sistema espera cuando está intentando conectar con la dirección URL especificada) y el tiempo de ejecución máximo por URL. Finalmente también es relevante determinar filtros y extensiones para que el análisis del webcrawler sea más especializado y rápido. Por ejemplo aplicar restricciones por sitio web, por extensión o por patrones o regexp, permite diferenciar más fácilmente el tipo de enlace que se pretende recuperar en el análisis webmétrico y obviar o no aceptar aquel que fue especificado.

Figura1. Funcionamiento del programa de webcrawling Mbot. (BLÁZQUEZ OCHANDO, M. 2011)

El proceso de webcrawling, consiste en la extracción de toda la información de la dirección URL de una página o sitio web objetivo que de forma secuencial presenta el programa Webcrawler. Mbot por ejemplo, descarga todo el código fuente de una página web objetivo y lo filtra para obtener todos sus elementos de forma ordenada de cara a un correcto almacenamiento. Dicho almacenamiento puede realizarse de múltiples formas, a través de archivos de texto plano, separados por comas CSV e incluso bases de datos como MySQL. En este sentido se crea un registro tipo que permite almacenar la información ordenada y filtrada por el webcrawler para su posterior tratamiento, tabulación y análisis. De hecho pueden existir registros completos de todo el contenido de una página web, o existir diversos archivos, bases de datos especializados en el almacenamiento de enlaces, imágenes, documentos que fueron recopilados durante la extracción de datos. Para realizar la extracción de la información de una página web y dividir sus correspondientes elementos, se emplean programas de tipo parser dentro del webcrawler, capaces de reconocer las etiquetas e instrucciones de HTML y con ello desarrollar el proceso de extracción de los datos contenidos en ellas. De la misma forma que existen parsers capaces de analizar archivos de metadatos en XML, existen parsers capaces de recopilar los enlaces de una página, los párrafos, metadatos en HTML, canales de sindicación, imágenes, documentos, archivos multimedia, entre otros. No obstante, la información extraída en este estadio no está definitivamente preparada, ya que en muchos casos los enlaces (unidad fundamental del análisis webmétrico) resultan ser de tipo relativo, lo que dificulta el acceso a subsiguientes niveles de análisis durante el proceso de webcrawling. Ello implica que se desarrolle un proceso de depuración y preparación de las direcciones URL relativas, convirtiéndolas en absolutas, de forma tal que aseguren el acceso a la información que en tal caso vinculan.

Qué información se puede recuperar

La información que en un webcrawler se pueda recuperar, marca en muchos casos los posibles estudios webmétricos que se puedan realizar. A priori es posible recuperar cualquier elemento o contenido de un sitio o página web. Suelen ser objetivo de extracción los títulos de las sitios y páginas, sus metadatos y meta-etiquetas, sus canales de sindicación, las imágenes, documentos, archivos multimedia, código fuente y texto completo párrafo a párrafo.

Qué utilidad tiene para el documentalista, de cara a la elaboración de estudios webmétricos

La utilidad de un webcrawler para la elaboración de estudios webmétricos es capital, dado que la información recopilada por este tipo de programas posibilita la elaboración de una muestra de datos lo suficientemente cualificada y completa como para obtener datos directos sobre los siguientes aspectos:

Banco de datos de imágenes, documentos, metadatos, canales de sindicación.
Colección de textos para la recuperación de información.
Nº total de enlaces analizados (incluyendo duplicaciones).
Nº total de enlaces únicos analizados (sin duplicaciones).
Nº total de enlaces analizados según niveles de profundidad.
Nº de dominios, sitios y páginas web analizadas en cada nivel de profundidad.
Distribución de dominios de tipo genérico y geográfico, según sitios y páginas web.
Distribución de tipos de documentos según su extensión o formato. Por ejemplo documentos ofimáticos, audiovisuales, imágenes, web dinámica y estática.
Análisis de macroestructura de la web. Determinación de los componentes de la web Main, Out, In, Island, Tunnel, Tentacle In, Tentacle Out, según el enlazamiento de los vínculos entre sitios y páginas web del análisis llevado a cabo.
Ranking de sitios y páginas con más metadatos.
Distribución de la tipología de metadatos más utilizada.
Ranking de sitios web con más enlaces únicos y páginas.
Ranking de sitios web con más documentos, imágenes, archivos audiovisuales, etc.
Ranking de sitios web con más canales de sindicación.
Análisis de coenlaces. Sitios y páginas más coenlazados.
Sitios web más enlazados.
Páginas web más enlazadas.
Trazado de hipervínculos entre sitios y páginas web que permite la elaboración de gráficas topográficas de la web analizada.

Análisis de enlaces

Como se puede comprobar, cualquier análisis cibermétrico y webmétrico requiere ineludiblemente de un análisis de los enlaces. Ello significa que la citación entendida en el ámbito de la bibliometría, puede encontrarse igualmente en los documentos de naturaleza electrónica, publicados en la web, añadiendo la variable del enlazamiento. Dicho de otra forma, se pueden aplicar las técnicas de análisis bibliométricas, pero requerirán de un aumento de los vínculos enlazados, concretamente de los "links" que el documento tenga. de esta forma la citación bibliográfica no es el único objeto de análisis y el enlace hipertextual juega un papel determinante para definir la correlación entre varias páginas web, incluso si se trata de una referenciación bibliográfica. De esta forma, pueden existir diversos tipos de análisis de enlaces:

Análisis de "sitas" o "links que vinculan sitios web" comprobando cuáles son los sitios web de mayor relevancia por el número de enlaces externos e internos que reciben.
Análisis de "co-citas" que mide el número de veces que aparecen dos documentos referenciados recíprocamente, lo que indica su aproximación temática.
Análisis de "co-enlaces" que identifica si dos sitios web están referenciados recíprocamente en sus páginas web, midiendo el número de enlaces que sí co-enlazan y el número de enlaces que no co-enlazan.
Análisis de "Co-ocurrencia por palabras" que determina cuantos documentos tienen en común una serie de descriptores, frases o palabras clave, contabilizando su frecuencia en el número de coincidencias ocurridas para cada término.
Análisis de macroestructura de la web, véase figura2.

Figura2. Representación de la macroestructura web, o análisis de grafo

Componente	Descripción	Esquema
MAIN	Sitios web fuertemente conectados en todas las páginas web.	url1ßà url main ßà url2 linkmap url ßà url main ßà linkmap url
IN	Sitios web que enlazan el componente MAIN, pero no lo son de manera recíproca.	url1 à url main url2 à url main linkmap url à url main
OUT	Sitios web que son enlazados desde MAIN pero no de forma recíproca.	url main à url1 url main à url2 url main à linkmap url
ISLAND	Sitios web desconectados de los demás o con un pobre nivel de enlazamiento. Pueden ser alcanzados por el resto de componentes, pero ellos no enlazan a ninguno de ellos.	à url1 ß à url2 ß à linkmap url ß
TENTACLE IN	Sitios web que sólo conectan el componente IN	(url1 à url main) à linkmap url (url2 à url main) à linkmap url
TENTACLE OUT	Sitios web que sólo conectan el componente OUT	(url main à url1) à linkmap url (url main à url2) à linkmap url
TUNNEL	Sitios web que vinculan el componente IN y OUT sin necesidad de enlace a través de MAIN	url1 à url2 url2 à url1 linkmap url à linkmap url

Tabla1. Descripción de componentes de la macroestructura web.
Véase (GRAELLS, E.; R. BAEZA YATES. 2007)

Referencias

ABRAHAM, R.H. 1996. Webometry: measuring the complexity of the World Wide Web. World Futures, 50, 785-791. Disponible en: http://www.ralph-abraham.org/articles/MS%2385.Web1/

ABRAHAM, R.H. 1998. Webometry: measuring the synergy of the World Wide Web. Biosystems. 46(1-2), 209-212.

ALONSO BERROCAL, J.L.; GARCÍA FIGUEROLA, L.C.; ZAZO RODRÍGUEZ, F. 2004. Cibermetría: Nuevas Técnicas de Estudio Aplicables al Web. Madrid: Trea.

ARROYO, N.; ORTEGA, J.L. PAREJA, V.; PRIETO, J.A.; AGUILLO, I. 2005. Cibermetría: Estado de la cuestión. En: 9as Jornadas Españolas de Documentación, FESABID (Madrid 14 y 15 de abril). Disponible en: http://digital.csic.es/bitstream/10261/4296/1/R-17.pdf

BJÖRNEBORN, L. 2004. Small-world link structures across an academic web space: a library and information science approach. Copenhage: Department of Information Studies, Royal School of Library and Information Science.

FABA PÉREZ, C.; GUERRERO BOTE, V.P.; F. MOYA ANEGÓN. 2004. Fundamentos y técnicas cibermétricas. Badajoz: Consejería de Educación, Ciencia y Tecnología. Junta de Extremadura.

GRAELLS, E.; R. BAEZA YATES. 2007. Características de la Web Chilena 2007. Santiago de Chile. Disponible en: http://alumnos.dcc.uchile.cl/~egraells/wp-content/uploads/2008/10/estudio-ecc.pdf

Sistemas de Recuperación e Internet

lunes, 26 de noviembre de 2012

Webmetría y análisis de páginas web

1 comentario:

Libros Recomendados

Enlaces: mi web profesional