lunes, 17 de diciembre de 2012

Extensión de consultas avanzadas y recuperación de volcados de datos

Extensión de consultas avanzadas

Filtrar extensiones y archivos en un sitio web
En muchos casos, la exigencia en las búsquedas de datos y documentos plantean el empleo de diversos operadores que identifiquen cuáles son los formatos válidos y desde qué sitio deben ser recuperados. Por ejemplo la consulta -ext:html -ext:htm -ext:shtml -ext:asp -ext:php site:csic.es permite obtener todos los subdominios de la página web del Consejo Superior de Investigaciones Científicas CSIC. Ello es debido a que se indica claramente qué archivos no son deseados entre los resultados. En tal caso se emplea el signo menos ( - ) precedido del operador de extensiones ( ext: ) y la extensión correspondiente. De esta forma entre los resultados no estarán presentes ninguna página html, asp o php que configuran todas las páginas web del sitio del CSIC. Por el contrario, el resultado obtenido serán todos los subdominios que contenga "csic.es". Para obtener un determinado tipo de documento dentro del dominio y subdominios del CSIC, tan sólo sería necesario modificar la consulta dada por la siguiente ext:pdf -ext:html -ext:htm -ext:shtml -ext:asp -ext:php site:csic.es en la que se indica la presencia de los archivos de extensión ( pdf ), que a su vez es equivalente a la expresión +ext:pdf -ext:html -ext:htm -ext:shtml -ext:asp -ext:php site:csic.es ya que el signo más ( + ) se emplea para indicar el cumplimiento obligatorio de la condición, filtro u operador que se está utilizando. Como se podrá observar existen múltiples formas de aludir a un mismo objetivo, como por ejemplo el operador ( filetype: ) y ( ext: ) cuya finalidad es la misma.

Recuperar copias de seguridad y archivos temporales
En muchas ocasiones, puede ser necesario realizar consultas sobre archivos, documentos, bases de datos o páginas web publicadas en el pasado o cuya copia de seguridad alberga información de interés. En esos casos es posible realizar consultas para recuperar tales copias de seguridad y archivos temporales de forma sencilla mediante el operador ( inurl: ) utilizando las palabras claves y extensiones adecuadas, utilizadas por los principales archivos de seguridad y almacenamiento. Por ejemplo inurl:temp, inurl:tmp, inurl:backup, inurl:bak. Estos casos pueden reproducirse en combinación con las consultas de directorios de servidores, como por ejemplo intitle:index.of "parent directory" inurl:backup site:mit.edu que permitiría observar los directorios de backup de los dominios, subdominios y páginas del MIT. De esta forma y mejorando la combinación de los operadores se pueden obtener los archivos backup en formato sql de un sitio web completo. Por ejemplo al realizar la consulta ext:sql inurl:backup se obtiene el enlace http://www.dpm-cultura.org/static/files.bk/backup.sql que contiene la copia de seguridad del sitio web de la Delegación de Cultura de la Diputación de Málaga, que pudiera contener información de interés para el trabajo documental. 

Combinación de extensiones y operadores
En muchas ocasiones, las consultas requieren diversas alternativas entre múltiples extensiones o cadenas de texto. En estos casos, la combinación de extensiones y operadores se realiza a modo de expresión regular REGEXP, tal como se muestra en el siguiente ejemplo ext:(doc | pdf | xls | txt | ps | rtf | odt | sxw | psw | ppt | pps | xml) (intext:information retrieval | intext:"retrieval models") inurl:book. Es posible determinar distintas alternativas por medio de valores separados por barras verticales ( | ) contenidos entre paréntesis. De esta forma se recuperan todos los libros que versan sobre recuperación de información en todos los formatos posibles y con diversos textos entre sus contenidos.


Recuperación de volcados de datos

Los volcados de datos constituyen una fuente de información muy importante para obtener catálogos, registros, tablas, bancos de datos completos sobre un tema o área de conocimiento determinada. Las consultas más eficientes en este sentido son las de tipo SQL (Structured Query Language) y CSV (Comma Separated Values). La información en gran medida se exporta en tales formatos y conviene conocer algunas cadenas de texto claves para su recuperación automática.

Volcados de datos SQL
En el caso de los volcados de datos en formato SQL, existe un método de migración de datos denominado "dumping data". En tales casos, los programas gestores de bases de datos MySQL, generan archivos automáticos con los contenidos de las tablas, estructuras y registros de la base de datos objetivo. Estos archivos pueden utilizarse para generar backups, copias de seguridad o servir de plataforma para la importación de los registros en terceros sistemas de información. En tales casos, ese proceso de automatización permite en un alto porcentaje, poder recuperar el texto predeterminado "MySQL dump", "Dumping data" y "phpMyAdmin MySQL-Dump" con alto poder discriminatorio con respecto al resto de archivos. De esta forma, las consultas quedarían como ext:sql "MySQL dump"ext:sql "Dumping data"ext:sql "phpMyAdmin MySQL-Dump". No obstante pueden obtenerse resultados muy similares, utilizando la sentencia ext:sql "INSERT INTO", ya que la instrucción "Insert Into" se refiere al proceso de inserción de registros que habitualmente es utilizado en los volcados de datos, delatando la presencia de registros y datos que se pretenden recuperar. Conociendo las distintas instrucción del lenguaje de consulta SQL, es posible modificar las búsquedas dependiendo de la finalidad de uso de los resultados. Por ejemplo, el desarrollo de nuevos diseños de bases de datos, estructuras de campos y sus características en MySQL, dependen de archivos de instalación en formato PHP o SQL que contienen instrucciones como "Update Set", "Create Table" o "Alter Table". Esto hace que las consultas puedan ser del tipo inurl:install ext:sql intext:"update set".

Volcados de datos CSV
En el caso de los volcados de datos en formato CSV, resulta interesante comprobar cómo la búsqueda genérica ext:csv o filetype:csv, produce millones de resultados entre los que se puede obtener todo tipo de información, incluyendo catálogos bibliográficos y registros de bases de datos. Por ejemplo, la búsqueda de revistas científicas puede automatizarse con búsquedas similares a la siguiente  filetype:csv -github intext:"journal". Entre los resultados obtenidos, se encuentran listados completos de revistas científicas como por ejemplo la proporcionada por el Instituto de Investigación Scripps,   http://www.scripps.edu/library/open/vivo_data/vivo_journal_holdings.csv, especializado en la investigación médica.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.