Encontrando Tesoros en la Red

La Caracterización de la Web Superficial y la Web Profunda

Como mencionado en las entradas anteriores, la información de esta llamada Sociedad de la Información es bastante grande, y mucha de esta información se empezó a almacenar en la Internet. Toda esta información posee valor inicial al ser recuperada, dicho proceso se logra a través de los directorios que existieron inicialmente, y estos pasaron de ser privados a de dominio público. Pero la información que estos almacenaban se realizaban manualmente. Al crecer exponencialmente la cantidad de información, el proceso manual paso a ser obsoleto por dos principales razones: no se lograba indexar la cantidad de información, y el hecho de que los descriptores (palabras clave) que cada directorio utilizaba era distinto.

Con el tiempo los catálogos evolucionaron a sistemas amigables que gracias a incorporar un robot en su proceso de almacenamiento y recuperación, y al hecho de utilizar descriptores "estandarizados o de dominio público general" la recuperación se empezó a hacer más amigable aún. Un ejemplo del primer buscador de este tipo fue Wandex, y tal como muchos avances científicos, su capacidad adicional fue por serendipia, y entonces ¿Qué fue lo que sucedió? Pues en 1993 se deseó crear un programa que lograra medir la cantidad de información que había en la Internet, y se percataron que con unas pequeñas modificaciones el programa creado (Wandex) era capaz de leer las distintas URL e indexarlas, y así nacieron los motores de búsqueda. Con el tiempo y aunque creamos que los buscadores han sido omnipresentes, no es cierto, han evolucionado y aparecido en pocos años. Entonces como mencionaba, estos buscadores se fueron desarrollando y evolucionando, apareciendo Altavista, hasta los hoy famosos Google (creado apenas hace 19 años en 1998 por Larry Page y Sergey Brin), Bing, Yahoo (famosamente caida en desgracias, pero fue famosa haya por los años 2,000), la capacidad de indexar y recuperar fue cambiando también, haciéndolo al inicio (con Wandex) a través de URL y ahora a través de descriptores contenidos en el contenido de la página misma, por la forma en que son citados, frecuencia de uso, Etc.

Las empresas privadas licitas o ilícitas, las instituciones gubernamentales con información pública y de seguridad nacional, Etc., con capacidad para almacenar información en la red, no se quedaron atrás (tal es el caso de instituciones de medicina)y y crearon sus propios "buscadores" a los que denominaron catálogos o bases de datos privados, y establecieron para acceder a ellos códigos, clavés de acceso, pago por el acceso, y le añadieron además descriptores específicos para recuperar la información que ellos almacenaban. Entre más compleja, costosa, ilegal y/o delicada la información que almacenan en la red, mayor es la complejidad y facilidad para acceder a la información que almacenan.

Con el tiempo gracias a los diversos buscadores y/o indezadores, toda la información que se almacenaba en la red empezó a ser recuperada. Esta información recuperada de manera general es clasificada en base a la gradación de la facilidad de su recuperación por buscadores según sean públicos, privados, o gubernamentales. Así, entonces tendremos las denominadas Web Superficial y Web Profunda. Si relacionáramos la cantidad de información capaz de recuperarse (con buscadores generales) con lo que sucede con un iceberg, tendremos que toda aquella información recuperada fácilmente por buscadores públicos se denomina Web Superficial, y toda aquella parte del iceberg que no sale a la superficie, es decir se encuentra profunda dentro del agua es la Web Profunda, y que solo es accesable por los buscadores que mencionamos previamente (privado, gubernamentales, Etc.). Debido a que esto (lo del iceber) es solo una analogía, pero en la realidad la capacidad de que aparezca o no, no es en base a su profundidad sino en su capacidad de almacenarse, indezarse y posteriormente recuperarse, es por ello que algunos la denominan la Web no Indezable.

Antes de continuar entonces hemos de decir que entre las características de la Web Superficial o general o de acceso público (cualquiera) y libre (sin necesidad de registros, claves, pagos, Etc.) tenemos el hecho de que la información: no esta almacenada en un index, es de libre acceso, no debes estar registrado, la información esta en páginas estáticas es decir páginas no automáticas.

La Web Profunda entonces posee las siguientes características: está almacenada en index, debes registrarte o debes pagar, la información es generada en páginas automáticas, o no logra la capacidad de indezación de la web superficial. De esto tenemos que a su vez la Web Profunda Sherman y Price la subclasifican en: Web Opaca, Web Privada, Web Propietaria y Web Realmente Invisible. Para pertenecer a uno de estos grupos, la información debe poseer una de las siguientes características:

Web Opaca:

la información supera la capacidad de indexar del buscador.
El documento indezado supera la capacidad de presentación de resultados (usualmente hasta hoy si está más haya de la posición 15,900 millones).
En su actualización no fue contemplada dicha información.
La URL está desconectada.

Web Privada:

La información posee:

Un archivo "noindex", "robots.txt".

Se necesita tener clave para acceder a ellas.

Web Propietario:

La información requiere que el usuario :

Se registre.
Pague.

Web Realmente Privada.

Para su ejecución se necesita un programa que sea capaz de ejecutarlo.
El contenido de sus espacios son ilegales incurriendo incluso cayendo en lo inmoral personal y hacia otros. Algunos son de pago y otros compartidos entre las personas que comparten dichas ideologías (tráfico, sodomía, parafilias, Etc.)
Programas que albergan información de seguridad nacional o gubernamental, corporativo, Etc.

A su vez la web no indizable o profunda se subdivide, como también ya mencionamos con anterioridad, en base a la complejidad, pago o costo, legalidad o ilegalidad, seguridad nacional, Etc. de la institución que posee dicha información.

Otra forma de clasificar la información en la red y no debido a si es por ser recuperado por un buscador público o no, es por la facilidad del usuario para acceder a ella, y por tanto entre más profunda o compleja o segura sea la forma de almacenaje, más profundo es el nivel, y mas difícil para el público general acceder a ella. Esto nos lleva de la mano a que si una persona particular desea acceder a la información de esa red no público, acceda, está en peligro de inflingir normas, leyes y puede ser penalizado.

La clasificación por niveles es:

Nivel 1: Información localizada en todos los tipos de buscadores (Google, Yahoo, You Tube, Facebook, Yahoo).
Nivel 2: Archivos que se necesite registrarse y/o la información se almacene a su vez en comprimidos. Deben ser de pago o uso limitado a muestras. Algunos en este nivel comparten información pero esta puede infringir derechos de autor, o bien de no infringirlos deben ser de pago. Se necesita no solo estar registrado, sino además en ocasiones clave.
Nivel 3: Nivel cuya información es ilegal (pornografía clasificadas como parafilias), e infringe la ley tanto el usuario como el propietario, se necesita clave específica para acceder a ello y pago.
Nivel 4: Ilegalidad de tipo no sexual, como trata de personas, tráfico de drogas, tráfico de órganos. Igual ambos usuario y propietario infringen la ley.
Nivel 5: páginas con información de suicidios, homicidios. Igual ambos son ilegales el usuario y el propietario.

El siguiente infograma nos muestra y ordena nuevamente las ideas que tenemos sobre la red y las muestra según esta última clasificación que menciono.

Continuando, deducimos entonces que en estas clasificaciones encontramos a los buscadores de sitios médicos y he de mencionar que comparte de la primera, tendremos dentro de la web superficial a google académico y como parte de la profunda a Intramed, Scielo, NJM, PubMed, Etc.

Si clasificáramos en base a la segunda tendríamos en el primer nivel a google académico. En el segundo nivel estaría videos stream de conferencias médicas, videoconferencias médicas, Etc. En el tercer nivel se encuentran las páginas de internet de las que puedes descargar libros de medicina con derechos de autor eMule, 4Shared, Etc.

Concluyendo, hemos de decir que lo importante de estas clasificaciones o cualquier otra que exista o que surge, tendrá su importancia si la traspolamos a nuestra realidad profesional y/u ocupacional, ya que su aplicación permitirá reorganizar nuestras concepciones de nuestro entorno y la teoría.

Encontrando Tesoros en la Red

sábado, 12 de marzo de 2016

La Caracterización de la Web Superficial y la Web Profunda

No hay comentarios:

Publicar un comentario

Archivo del blog