Nuestro plan para conservar las webs de hace años está fracasando: de Archive.org a los enlaces rotos de medio internet

Nuestro plan para reservar las webs de hace años esta fracasando: de Archive.org a los enlaces rotos de medio internet

Con la venida de internet(www) a la totalidad de los hogares, parecía que se iniciaba una época en la que cualquiera con una conexión tenía abierta una ventana al planeta repleta de información, cultura y ocio. Una biblioteca sin limitaciones espaciales donde albergar todo el conocimiento. Lugares como las hemerotecas corrían el riesgo de extinguirse en detrimento de beneficios digitales online a los que entrar desde cualquier sitio y en cualquier lugar.

Nada mas lejos de la realidad: como ya sucediera en Alejandría, toda esa información publicada y almacenada en la “biblioteca” de internet esta desapareciendo sin obligación de un incendio. Basta con el paso del tiempo. ¿Es buena idea fiarse toda la información a nubes y servidores?

Error 404 Not found

Comprobarlo es muy fácil: solo tenemos que investigar información para documentar un artículo, preparar un trabajo para clase o resolver la típica disputa entre amiguitos que se salda googleando.

No hace falta irse muy lejos, basta con investigar algo que fuera actualidad hace algunos años. Pero veámoslo con un ejemplo. Como es mas sencillo hallar estos fallos cuando no los buscas, probaremos suerte googleando “floppy disk”. Google nos devuelve treinta y un millones de resultados.

Elegimos al azar una entrada que en teoría razones presentarnos la evolución de las 5 décadas de vida del disquete, albergada en la próximo ruta de la web(www) Disk Trend: http://www.disktrend.com/5decades2.htm.

Lo que vemos a la izquierda es la información que razones salir y a la derecha, la que verdaderamente aparece.

Enlace Que Ya No

Así que El control de la web(www) ya no corresponde a Disk Trend, por lo que buscando información relativamente antigua logramos toparnos con páginas que nada tienen que visualizar con la entrada indexada.

Otra de las entradas, albergada en la web(www) Linux® Command (concretamente http://linuxcommand.org/man_pages/floppy8.html), en teoría razones repasar como ha ido variando la capacidad del disquete a lo largo de su historia. Lo que hallamos en realidad es un fallo 404.

Error 404 1

Probamos de nuevo con mas entradas de floppy disk en Google. Esta antigua entrada albergada en la web(www) del Consejo Profesional de Ciencias Económicas de la Ciudad Autónoma de Buenos Aires (http://www.consejo.org.ar/aplicativos/pregfrecuentessifere.htm) razones explicar como el disquete se utilizaba para exhibir la declaración de la renta en Argentina. Si haces click sobre el enlace, volverás a toparte con otro fallo 404.

Error 404 2

Buscando información “antigua” es relativamente frecuente toparse con el famoso fallo 404. ¿Qué significa? Aquí teneis una guía básica con los primordiales errores que podrias hallar navegando por internet(www) en la que por supuesto, se localiza el mítico “Error 404, not found”.

Error 404

Es suficiente frecuente que los motores de busqueda proporcionen entre sus resultados contenidos que ya no están disponibles en esa dirección. Esto se debe porque o bien porque la web(www) original ha dejado de existir o el control control caducó y ya no fue renovado, por lo que ahora corresponde a otra persona.

Como no es factible saber si un contenido ha sido movido o eliminado, estos enlaces rotos seguirán disponibles en internet(www) al alcance de todos durante un buen periodo de tiempo. Además, como tampoco se notifica al resto de paginas webs y blogs(website) de esta incidencia, varios de ellos pueden contener enlaces que dirigen a esta pagina que ya no se localiza disponible.

Perdiendo las fuentes…¿y la fiabilidad?

Que las paginas web(www) se pierdan es un dilema en sí mismo que evidencia que el contenido de internet(www) no va a estar ahí para siempre. Pero además es un dilema cuando estas paginas se utilizan como fuente. Es el caso de Wikipedia, que confía en enlaces externos como referencias para aportar verificabilidad.

Siguiendo con el ejemplo del “floppy disk”, ahora buscamos su entrada en inglés en la Wikipedia:

Floppy Disk

Como Wikipedia no es una fuente primaria, segun la política de esta enciclopedia online todos sus artículos han de contener referencias bastantes para que pueda comprobarse “exactitud, precisión y neutralidad del artículo, y investigar mas información sobre el tema”, ya que todo su contenido debe haber sido anunciado previamente en otro lugar.

Por eso en todos los artículos de Wikipedia hay unas referencias en el texto en forma de superíndice numérico que logramos consultar en la parte inferior de la entrada, entrando a los artículos originales.

¿Recuerdas la entrada de Disk Trend del punto anterior que nos llevaba a una pagina que no tenía nada que ver? Resulta que es una de las referencias en las que se sustenta el artículo:

Referencias

La superioridad de Wikipedia ha estado en tela de juicio desde el origen porque cualquiera puede modificarla a su antojo. Una medida que tiene su lado malo en cuanto a que no se solicita ningun conocimiento o rigurosidad para actualizar artículos que son consultados cada dia por millones de personas, sin embargo que posibilita el conocimiento abierto y actualizado.

Pero Wikipedia es mucho mas que el sitio de consulta mas famoso de internet: segun examinadores del MIT, es apto de influir y potenciar el conocimiento científico.

Sin embargo, este parecer podría convertir cuando las referencias que sustentan la enciclopedia web(www) de conocimiento abierto desaparezcan, algo que de hecho ya esta sucediendo. Si no hay fuentes en las que respaldarse, ¿qué superioridad obtendrá Wikipedia a largo plazo?

Iniciativas contra el olvido de internet: Archive.org

Afortunadamente, existen algunas iniciativas como Archive.org que intentan frenar el olvido de la red. La Wayback Machine es el camino a un archivo digital del World Wide Web que, además de almacenar libros, películas, audios, software, aplicaciones de TV y conciertos, además se ha propuesto almacenar internet.

De este modo, el servicio permite a los visitantes visualizar versiones archivadas de paginas web a través de algo que ellos mismos denominan “el index tridimensional”.

Archive

Este proyecto sin ánimo de lucro nació en 1996 en la antigua prisión de San Francisco de la mano del activista de internet(www) Brewster Kahle y desde entonces ha aumentado de forma potencial, pero, ¿serán capaces de almacenar todo internet? ¿dónde y como podrán hacerlo?

Aunque comenzó guardándose en cintas digitales, pronto resultó inviable, pasando de los racks PetaBox de Capricorn Technologies a un centro de documentos de Sun Microsystems en California en 2009.

En aquel momento, la Wayback Machine contenía próximamente tres petabytes de datos, experimentando un aumento de 100TB al mes. Actualmente, Wayback Machine incorpora mas de 334.000.000.000 páginas web(www) y su ritmo de aumento continua aumentando.

Crecimiento

¿Cómo guardan internet?

Para bajar y almacenar internet, la fundación Archive.org ha construido un software específico optimizado con inteligencia artificial que actúa como una red de arrastre de pesca en el fondo del mar, que en este caso es internet. Para realizarlo posible, ha contado con el apoyo de la Fundación Sloan, una filantrópica norteamericana centrada en la ciencia y la tecnología y Alexa, una firma que proporciona documentos y analisis comerciales de trafico web(www) propiedad de Amazon.

Pero no lo guarda todo, solo el contenido asequible y público del World Wide Web, siguiendo 2 protocolos que fueron muy conocidos en la década de los 90: la jerarquía Gopher y el metodo de tablón de avisos Bulletin Board System.

La jerarquía Gopher acepta trasladarse de un sitio a otro eligiendo una alternativa en el menú de una página, algo que hacemos sin darnos cuenta cuando pulsamos sobre un enlace. Por su parte, el BBS era la antesala de los foros actuales, permitiendo bajar software y datos, leer noticias, intercambiar mensajes con otros usuarios, inventar zonas privadas… De este modo, el software rastrea cada uno de los enlaces del árbol de información contenido en una web, lo descarga y lo almacena.

Asimismo, este software continua las reglas del estándar de exclusión de robots, de modo que se queda solo con lo significativo de una web, obviando información superflua o aquella información que los webmasters han querido sostener como privada.

La frecuencia de capturas varía segun la pagina web(www) y su tamaño. Existen algunas listas de arrastre la Worldwide Web en la que se almacenan las paginas cada vez que se pasa esta red, un proceso que puede llegar a durar períodos o años en función del tamaño.

¿Qué entra y qué se queda fuera?

Aunque su misión sea guardar todo el contenido asequible y público de la red, este software de arrastre no incorpora toda la información habilitada en internet, quedando fuera aquella cuyos documentos son restringidos por la difusión o almacenado en bases de documentos que no están accesibles públicamente.

Para eludir inconsistencias en paginas web(www) que se han conseguido almacenar parcialmente, en 2005 la Fundación realizó Archive-It.org, una plataforma que acepta a las organizaciones y fabricantes de contenidos guardar voluntariamente sus colecciones para nutrir el archivo digital.

Como los dueños de las webs tienen la alternativa de escoger surgir en la Wayback Machine, si cambian de parecer, el software aplica la decisión retroactivamente y borra todo lo que hubiera guardado.

De hecho, su forma de proceder plantea cuestiones legales en Europa por un posible infringimiento del Copyright si no existe permiso explicito. No es el único lugar donde han tenido problemas: en Estados Unidos la Cienciología se ha contrario a que se almacene información relativa a su iglesia y no puede operar en China y Rusia esta prohibida.

Sorprendentemente es la censura y no la falta de espacio el mayor dilema de Archive.org

Y es que el tiempo corre en contra de internet y no solo es cuestión de desindexación o el fallo 404: además la manipulación, los ciberataques, la destrucción remota o física de información ponen en peligro la ingente suma de información de nuestra civilización.

Alternativas a Archive.org

Aunque Archive.org sea el proyecto mas intenso y con mayor extensión, no es el único. Otras como Archive.fo, Pagefreezer o competidor Screenshots aceptan almacenar el contenido de webs y investigar como han ido variando su aspecto y su contenido.

A nivel educativo además se localiza Perma.cc un servicio de archivamiento web(www) centrado en temática legítimo y académica fundado por la Harvard Library Innovation Lab en 2013.

También te recomendamos

Kirin 980: todo lo que esconde el 1° procesador de 7nm y con NPU dual

220.000 textos editados y 0 euros recibidos: mi vida como super editor de Wikipedia

Por qué la oferta de directiva europea de copyright es preocupante para internet(www)


La novedad Nuestro plan para reservar las webs de hace años esta fracasando: de Archive.org a los enlaces rotos de medio internet(www) fue publicada originalmente en Xataka por Eva Rodríguez de Luis .


Xataka



Agradecemos a la fuente original por la información que nos ayudo a crear este articulo.

También puedes revisar estas noticias relacionadas.

Tags: #años #Archive.org #conservar #enlaces #está #fracasando #hace #Internet #medio #nuestro #para #plan #rotos #webs

Deja un comentario

Author: 
    author