Tesoros Digitales: A navegar: de lo superficial a lo profundo.

Los misterios de la Internet nos llevan a focalizar nuestra atención en sitios generalizados para su consulta, arrojados por motores de búsqueda sin mayor discriminación que la habilidad de filtrado; sin embargo, hay mucha más información allá, en lo profundo de la red.

* Paola L. Guzmán, investigación y adaptación.

Es así como identificamos los dos niveles de la Internet: Superficial y Profunda.

La Web Superficial es aquella zona franca que desprende Información de la red ya que se encuentra indexada por los motores de búsqueda. Las arañas de los buscadores recorren sus páginas para almacenar información que contienen, buscando enlaces a otros sitios web para seguir actualizando sus bases de datos. Con el tiempo acaban recorriendo todas las páginas que tienen enlaces desde otras.

Según un estudio reciente que investigó distintos motores de búsqueda: Google, MSN, Yahoo, Ask Jeeves, en enero de 2005 había 11.500 millones de páginas web en los índices de los buscadores; tan sólo tres años después, los índices contenían más de 63.000 millones de éstas páginas de información; estamos pensando que con el Boom de las redes y la generación de contenidos digitales actualmente habrá más de 1000 millones de páginas.

Resultado de imagen para www virtual library header

Por Inferencia inmediata

Muchos usuarios asumen que la única forma de acceder a la web es consultando un buscador.

Alguna información puede ser encontrada más fácilmente que otra, pero ésto no quiere decir que esté invisible.

La web contiene información de diversos tipos que es almacenada y recuperada en diferentes formas.

El contenido indexado por los buscadores de la web es almacenado también en bases de datos y disponible solamente a través de las interrogaciones del usuario, por tanto no es correcto decir que la información almacenada en bases de datos es invisible.

Por distintos motivos, algunas páginas no pueden ser alcanzadas por las arañas de los buscadores (enlaces generados por JavaScript y Flash, páginas protegidas con contraseña, fichero de exclusión de robots, etc.) Estas páginas forman la Internet Profunda, la informalmente nombrada sección no indexada.

Es ahí a donde llegamos con la web profunda, que se refiere a la colección de sitios o bases de datos que un buscador común, como Google, no puede o quiere indexar. Es un lugar específico del Internet que se distingue por el anonimato y nada que se haga en dicha zona puede ser asociado con la identidad de uno, a menos que uno lo deseé.

También ha sido referida como Invisible (Deepweb, Invisible Web, Deep Web, Dark Web o Hidden Web) por ser la porción presumiblemente difícil de rastrear o hecha bajo ese precepto, casi imposible de rastrear, deliberadamente usando métodos poco convencionales, con muchos proxys, es decir, mediante la utilización de códigos, no direcciones, así como el utilizar el pseudodominio de nivel superior .onion, creada por la armada norteamericana para realizar pruebas y ahora lamentablemente es aprovechada por delincuentes cibernéticos.

Profunda e Invisible, en este sentido se le conoce así al contenido de la Web que no forma parte del nivel superficial (páginas indexadas por las redes de los motores de búsqueda de la red). Todo ello debido a las limitaciones que tienen las redes para acceder a los sitios web por distintos motivos. En su mayoría enterrada en sitios generados dinámicamente, lo que hace difícil hallarla por los buscadores.

Fiscales y Agencias Gubernamentales han calificado a la Internet Profunda como un refugio para la delincuencia debido al contenido ilícito que se encuentra en ella.

Por sus características, estos recursos pueden estar clasificados en las siguientes categorías: Contenido de Acceso limitado, Contenido Dinámico, Contenido No Vinculado, Contenido Programado, Sin contenido HTML, Web privada, Web contextual.

No obstante, aunque los motores de búsqueda pudieran indexar la información de la Internet Profunda, ésta no dejará de existir, ya que siempre habrá páginas privadas. Accesible sólo a usuarios que posean una contraseña o códigos especiales.

En síntesis, entre los motivos para no indexar la Información de la Internet profunda tenemos:

Páginas y sitios web protegidos con contraseñas o códigos establecidos.

Páginas que el buscador decidió no indexar: generalmente por la falta de demanda/consulta.
Limitación de acceso técnico (exclusión estándar de robots o captcha, que prohíben copias en caché).

Sitios, dentro de su código, tiene archivos que impiden al buscador indexarlo.

Documentos en formatos no indexables.

De acuerdo a la tecnología usada por el sitio, por ejemplo sitios que usan bases de datos: catálogos de librerías o agencias de gobierno.

Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos, como por ejemplo la base de datos de la RAE.

Sitios cuya mezcla de media o archivos no son fáciles de clasificar como visible o invisible (Web opaca).

La información es efímera, variable o carente de valor para indexar.

Páginas que contienen imágenes, audio o video con poco o nada de texto.

Los archivos en formatos PostScript, flash, Shockwave, ejecutables (.exe), archivos comprimidos (.zip, rar, etc)

Información creada en páginas dinámicas después de llenar un formulario, la información detrás de los formularios es invisible.

Documentos dinámicos creados por un script que selecciona datos de diversas opciones para generar una página personalizada; o bien, servidores web a través de soluciones de Flash o Ajax.

Es un sitio aislado, sin ligas que lo vinculen con otros sitios y viceversa.

Son subdirectorios o bases de datos restringidas.

Y casos de sitios concretos propios de la red Profunda tenemos:

La web del conocimiento: una de las mayores bases de datos de citas del mundo con mas de 54 millones de registros.
Elseiver: repositorio con más de 2000 revistas de medicina y salud.
Science Direct: más de 2.500 revistas científicas y más de 11.000 libros.
Pubmed: motor de búsqueda de medline. Contiene más de 22 millones de documentos de investigación en biomedicina.
Ingenta: contenedor de revistas de más de 12.000 publicaciones.
Us PTO: buscador de patentes y marcas de Estados Unidos de América.
Espacenet: buscador de patentes Europeos.
Latipat: Bajo la plataforma de espacenet agrega resultados de patentes de países de Latinoamérica, España y Portugal.

Fuentes de referencia

Wikipedia Web superficial y Web profunda. https://es.wikipedia.org/wiki/Internet_superficial // https://es.wikipedia.org/wiki/Internet_profunda

Papeles de inteligencia. Guía para principiantes de la web que no ves. Actualizada 2015 http://papelesdeinteligencia.com/internet-profunda/

Greekland. Deep Web. http://geekland.eu/acceder-a-la-deep-web/

Tesoros Digitales

lunes, 22 de junio de 2015

A navegar: de lo superficial a lo profundo.

No hay comentarios.:

Publicar un comentario