Arquivo de Internet

Da Wikipedia, a enciclopedia libre.
Ir á navegación Ir á busca
Arquivo de Internet
Logotipo e wordmark.svg de Internet Archive
Rapaz ONG
Fundación 1996
Sede Estados Unidos San Francisco
Área de actuación Preservación dixital
Presidente Brewster Kahle
Lema acceso universal a todo o coñecemento
Páxina web
Arquivo de Internet
páxina web
Logotipo
URL archive.org/
Tipo de sitio Biblioteca dixital
Lingua Inglés
Rexistro opcional
Beneficio Non
Creado por Brewster Kahle
Lanzamento Maio de 1996
Estado actual activo
Slogan acceso universal a todo o coñecemento
Internet Archive estivo no Presidio de San Francisco , unha antiga base militar dos Estados Unidos en San Francisco desde 1996 ata 2009
A nova sede do Arquivo de Internet de novembro de 2009 a 300 Funston en San Francisco , antiga igrexa científica cristiá
O logotipo de Wayback Machine, usado desde novembro de 2001
Espello do arquivo de Internet na Bibliotheca Alexandrina ( Exipto )

Internet Archive é unha biblioteca dixital sen ánimo de lucro que ten o propósito expreso de permitir un "acceso universal ao coñecemento" [1] [2] . Ofrece un espazo dixital permanente para acceder a varios tipos de recursos: por exemplo, sitios web, audio, imaxes en movemento (vídeos) e libros. Internet Archive foi fundado por Brewster Kahle en 1996 e forma parte do IIPC ( International Internet Preservation Consortium ). [3] Ademais da súa función principal de almacenamento, Internet Archive é unha organización que realiza campañas para Internet gratuíta e aberta, e é unha organización sen ánimo de lucro recoñecida oficialmente nos Estados Unidos .

As oficinas administrativas teñen a súa sede en San Francisco, mentres que os centros de datos están situados en San Francisco, Redwood City e Mountain View en California . A colección dixital máis masiva da biblioteca é o arquivo web, unha especie de colección de "imaxes fixas" da World Wide Web catalogadas por data de adquisición. Para garantir a estabilidade e seguridade dos datos almacenados, toda a colección ten un espello no servidor Bibliotheca Alexandrina en Alexandría, Exipto . O arquivo permite ao público cargar e descargar material dixital desde e cara aos seus servidores sen ningún custo.

Tamén permite acceder a un dos maiores proxectos de arquivo dixital de libros existentes, forma parte da ' American Library Association e está oficialmente recoñecido polo estado de California como biblioteca pública. [4] A compañía ten 200 empregados, moitos dos cales participan na dixitalización de volumes de papel en centros especializados. A oficina principal de San Francisco ten trinta empregados. Internet Archive ten un orzamento anual de aproximadamente 10 millóns de dólares, procedentes principalmente dunha variedade de fontes: os beneficios dos servizos relacionados co rastrexo web , colaboracións, subvencións, doazóns e a Fundación Kahle-Austin. [5]

Segundo o sitio web de Internet Archive, "moitas sociedades dan importancia á preservación de artefactos relacionados co seu patrimonio cultural. Sen estes artefactos a civilización non ten memoria e non ten xeito de aprender dos seus éxitos e fracasos. A nosa cultura agora sempre produce. Máis produtos en formato dixital. A misión do Internet Archive é axudar a preservar estes artefactos e crear unha biblioteca dixital en Internet para investigadores, historiadores e eruditos. "

Historia

Brewster Kahle fundou Internet Archive en 1996, o mesmo período en que fundou a empresa Alexa Internet , unha empresa dedicada ao rastrexo de servizos web . Internet Archive comezou a almacenar a World Wide Web en 1996, pero a colección non estivo dispoñible ata 2001 , cando se desenvolveu a Wayback Machine. En 1999, o Arquivo de Internet ampliouse engadindo máis coleccións, incluído o Arquivo Prelinger . O Arquivo de Internet inclúe actualmente, entre outras cousas, texto, audio, imaxes en movemento e software. Aloxa unha serie doutros proxectos, incluído un arquivo de imaxes da NASA , o Indexing Service Archive-It e Open Library , un catálogo de volumes editado por software similar a unha wiki.

O 25 de marzo de 2020, tras a pandemia COVID-19 , The Internet Archive lanzou a Biblioteca Nacional de Emerxencias, unha iniciativa que permite o acceso gratuíto a texto completo a toda a colección dixital de máis de 1 millón de títulos no catálogo. [6] [7]

Proxectos

Máquina Wayback

Icona de lupa mgx2.svg O mesmo tema en detalle: Wayback Machine .

Wayback Machine é a interface web empregada por Internet Archive para a extracción de datos en sitios web de arquivos. Os sitios arquivados representan unha especie de "imaxes fixas" recollidas no momento da adquisición das páxinas a través do software de indexación do Internet Archive. O nome "Wayback Machine" provén do termo "WABAC Machine" usado nunha das historias da serie animada Rocky and Bullwinkle . [8] O servizo, grazas ás arañas de Alexa , almacena ao longo do tempo os cambios e tendencias dos diferentes sitios web . Para sitios máis pequenos non ten unha caché común ou as páxinas raramente se almacenan.

É un servizo útil nos seguintes casos:

  • estudo da evolución dos sitios web;
  • recuperación de páxinas e sitios perdidos;
  • busca probas unha vez publicadas e logo eliminadas.

O servizo permite acceder a versións arquivadas de páxinas web do pasado, unha especie de "arquivo tridimensional" segundo as palabras do Arquivo de Internet. Millóns de sitios web cos seus datos (imaxes, texto, documentos relacionados, etc.) almacénanse nunha base de datos xigante . Non todos os sitios web están dispoñibles debido á elección de moitos propietarios de sitios para excluír os seus sitios da indexación. Como ocorre con todos os sitios baseados en datos de rastrexadores web, tamén faltan grandes áreas da web por varias razóns técnicas. Ao longo dos anos atopáronse varios problemas legais relativos ao arquivo e cobertura ou non dos sitios, aínda que non son o resultado de accións deliberadas. [9]

O uso do termo "Wayback Machine" no contexto do Arquivo de Internet fíxose tan común que "Wayback Machine" e "Internet Archive" convertéronse case en sinónimos na cultura popular ; por exemplo, na serie de televisión Law & Order: Criminal Intent (no episodio "Legacy", que se emitiu por primeira vez o 3 de agosto de 2008, titulado Virtual love in the Italian homólogo), un dos protagonistas do episodio a "Wayback Machine" para atopar unha copia arquivada dun sitio web. A "instantánea" dos sitios arquivados durante os distintos pasos do rastrexo pasa a ser de acceso público normalmente despois de 6-18 meses.

Exemplos de sitios web arquivados por Internet Archive e vistos a través da máquina Wayback:

Internet Archive utiliza o protocoloRobots Exclusion Standard (a través do ficheiro robots.txt ) para a exclusión voluntaria de sitios da súa base de datos. Internet Archive respecta as directivas do ficheiro robots.txt asegurándose de que os seus bots non indexan as páxinas. Por esta razón, o Arquivo de Internet deixou de estar dispoñibles unha serie de sitios web totalmente inaccesibles a través da Wayback Machine. En caso de sitios bloqueados, almacena o ficheiro só robots.txt .

O Arquivo de Internet aplica regras robots.txt retroactivamente se un sitio bloquea a araña Arquivo de Internet a través do ficheiro robots.txt, entón todas as páxinas xa almacenadas polo dominio quedan indispoñibles. Ademais, resérvase o mesmo comportamento para todos os sitios web que o soliciten de xeito explícito: por este motivo, cada vez que o propietario dun sitio pide que se exclúa do índice, a solicitude é consentida [10] , xa que non é "Internet Arquivo [...] interesado en preservar ou ofrecer acceso a sitios web ou outros documentos en Internet propiedade de persoas que non queren os seus materiais na nosa colección. " [11]

Por exemplo, o enderezo https://web.archive.org/*/https://www.ubuntu-it.org , mostra as páxinas copias da páxina

https://www.ubuntu-it.org,
dividido segundo a data de gardado no Arquivo de Internet.

Biblioteca aberta

Open Library , entre cuxos fundadores inclúe tamén o activista dixital Aaron Swartz [12], é unha biblioteca dixital creada co obxectivo de recompilar tarxetas de cada libro publicado e introducilas nunha única base de datos; unha especie de versión de código aberto de WorldCat , nacida en oposición ao proxecto de dixitalización Google Books [13] (en italiano, Google Books ). O proxecto naceu en 2007 e inclúe algúns millóns de tarxetas de catálogo e libros dixitalizados de dominio público que son totalmente accesibles e descargables. [14] Open Library é un proxecto baseado en software libre e de código aberto, o código fonte é totalmente accesible desde o sitio de referencia. Desde xuño de 2010, Open Library tamén ofrece un libro electrónico de servizo de préstamo feito en colaboración co distribuidor de contido dixital estadounidense OverDrive e bibliotecas americanas [15] .

Arquivo-It

Desenvolvido en 2006, Archive-É un servizo que permite ás institucións e entidades individuais construír e conservar coleccións de material dixital. [16] A través dunha aplicación web, os subscritores do servizo poden recompilar, catalogar, indexar e, ao longo de 24 horas, ter acceso completo ao arquivo. As coleccións alóxanse en servidores e no Arquivo de Internet accesibles ao público mediante buscas de texto completo. Todo o material dixital almacénase en dúas copias (unha primaria e outra de respaldo), está indexado regularmente no Arquivo xeral de Internet e pódese enviar unha copia dos datos aos subscritores previa solicitude. En 2009 Archive-Ten 125 institucións asociadas en 42 estados dos Estados Unidos e en 11 países por un total de 1.500 millóns de URL e 963 coleccións públicas. As institucións que asinaron o servizo Archive-It son en gran parte bibliotecas académicas e universidades, arquivos estatais, institucións federais, museos e organizacións culturais, incluíndo a Electronic Literature Organisation , os Archives of the State of North Carolina , a Texas State Library and Archives Commission , a Universidade de Stanford , a Biblioteca Nacional de Australia , o Research Libraries Group (RLG) e moitos outros.

Imaxes da NASA

O proxecto NASA Images creouse grazas a un Space Act Agreement entre o Internet Archive e a NASA para facer accesibles ao público os arquivos de imaxes, vídeos e audio producidos pola axencia ao longo dos anos a través dun único arquivo completamente indexado e accesible mediante buscas. O sitio web lanzouse en xullo de 2008 e chegou a conter máis de 100.000 ficheiros.

Coleccións de recursos multimedia

Ademais dos arquivos web, Internet Archive mantén grandes coleccións de activos multimedia dixitais recoñecidos por quen os cargou no sitio, no dominio público dos Estados Unidos ou distribuídos cunha licenza que permite a redistribución gratuíta, como as licenzas Creative Commons . . Os activos clasifícanse segundo o tipo de soporte (imaxes en movemento, audio, texto) e noutras subclasificacións segundo diversos criterios.

Colección de películas

A colección de imaxes en movemento ( Colección de imaxes en movemento) Internet Archive inclúe: noticias; debuxos animados clásicos; propaganda de guerra; o Prelinger Archive , un arquivo especial que contén material considerado "efémero" como unha película patrocinada por empresas e organizacións, películas educativas e películas caseiras, anuncios e outro material cuxos dereitos de autor expiraron. As coleccións de recursos dixitais son moitas e varían segundo o tema e a fonte de recuperación; a colección brickfilm , por exemplo, contén varias películas feitas en stop-motion con ladrillos Lego; outra colección refírese ás eleccións presidenciais dos Estados Unidos de 2004 e á campaña electoral relacionada. A colección Independent News inclúe varias coleccións, incluída a do concurso de 2001 World At War de Internet Archive, para a que os concursantes crearon curtametraxes para demostrar a importancia do acceso á información e á historia. Os arquivos relativos ao ataque ás Torres Xemelgas do 11 de setembro de 2001 contén material de arquivo producido polas principais cadeas de televisión e o evento foi retransmitido en directo ese día.

Película

Nas coleccións de películas tamén hai versións orixinais de películas famosas, incluíndo:

Colección de audio

A colección de audio inclúe música, libros de audio, noticias, transmisións de radio antigas e unha gran variedade doutros ficheiros de audio. A colección Live Music Archive inclúe máis de 50.000 gravacións de concertos de artistas independentes e artistas xa establecidos e conxuntos musicais que adoptan regras laxas no rexistro dos seus concertos, como The Grateful Dead e Smashing Pumpkins .

Colección de textos

Escáner de libros de arquivos en Internet

A colección inclúe textos dixitais de libros de varias bibliotecas do mundo, así como moitas coleccións especiais. O Arquivo de Internet ten 23 centros de dixitalización en cinco países, dixitalizando aproximadamente 1.000 libros ao día, financiados por bibliotecas e fundacións. [17] En novembro de 2008, cando había aproximadamente un millón de textos, toda a colección levaba aproximadamente 0,5 petabytes , incluíndo imaxes en bruto, ficheiros PDF, OCR e datos en bruto. [18]

Entre 2006 e 2008 Microsoft Corporation colabora co arquivo de Internet a través do seu proxecto Live Search Books , dixitalizando máis de 300.000 libros que se engadiron á colección, así como soporte financeiro e equipos de dixitalización. O 23 de maio de 2008, Microsoft anunciou que poñería fin ao proxecto Live Book Search e ao escaneo de novos libros. [19] Microsoft puxo a disposición libros dixitalizados sen restricións contractuais e doou o seu equipo de dixitalización ao seu antigo socio.

En outubro de 2007 os usuarios do Arquivo de Internet comezaron a cargar libros de dominio público de Google Books . [20] En xaneiro de 2010 recompiláronse 900.000 libros dixitalizados por Google , que representan máis da metade do total de libros dispoñibles en archive.org. Os libros son idénticos aos exemplares atopados en Google e están dispoñibles para o seu uso e descarga ilimitados , como todos os materiais do Arquivo en Internet.

Internet Archive é membro da Open Book Alliance , unha organización que foi unha das máis críticas sobre o acordo entre a Asociación de Editores Americanos e Google para dixitalizar libros.

En 2016, tamén tras o escándalo das eleccións presidenciais , o Arquivo de Internet iniciou unha colaboración coas versións de Wikipedia en varios idiomas preparando un programa para a substitución automática das ligazóns rotas do modelo Citation. Na súa substitución, Internet Archive Bot [21] coloca a URL da copia dixital desta fonte no Arquivo de Internet, cunha vista previa de dúas páxinas para contextualizar a cita.[22]

Nota

  1. ^ (EN) Arquivo de Internet Preguntas máis frecuentes Arquivado o 15 de abril de 2013 en Wikiwix.
  2. ^ (EN) Internet Archive: acceso universal a todo o coñecemento Arquivado o 13 de outubro de 2013 en Internet Archive .
  3. ^ (EN) Membros arquivados o 13 de xuño de 2010 en Internet Archive . (International Internet Preservation Consortium)
  4. ^ (EN) "Arquivo de Internet oficialmente á biblioteca" Arquivado o 1 de setembro de 2016 Wikiwix., 2 de maio de 2007.
  5. ^ (EN) CabinetMagazine.org Arquivado o 19 de marzo de 2013 en Internet Archive .
  6. ^ Palmer Haasch, The Internet Archive lanzou unha biblioteca pública dixitalizada sen espera de máis dun millón de libros que normalmente só están dispoñibles para escolas e bibliotecas en insider.com.
  7. Anunciando a Biblioteca Nacional de Emerxencias en archive.org. Consultado o 26 de marzo de 2020 ( arquivado o 26 de marzo de 2020).
  8. ^ (EN) Heather Green, Unha biblioteca tan grande coma o mundo: Brewster Kahle ten a tecnoloxía para reunir o arquivo definitivo do coñecemento humano. Que o impide? Leis restritivas sobre dereitos de autor , Business Week Online, 28 de febreiro de 2002. Consultado o 25 de xuño de 2007 ( arquivado o 1 de xuño de 2002).
  9. ^ (EN) Thelwall, M. e Vaughan, L. (2004). Unha xusta historia da web? Examinando o balance do país en Internet Archive, Library & Information Science Research, 26 (2), 162-176.
  10. ^ (EN) Algúns sitios non están dispoñibles Debido a Robots.txt ou outras exclusións Arquivado o 15 de abril de 2011 en Internet Archive ..
  11. ^ (EN) Como podo eliminar as páxinas do meu sitio da Wayback Machine? Arquivado o 10 de outubro de 2013 Arquivo de Internet ..
  12. ^ Aaron Swartz O proxecto Open Library en openlibrary.org. Consultado o 2 de maio de 2019 ( presentado o 27 de xuño de 2015).
  13. ^ (EN) Antone Gonsalves, Avances de reclamacións de arquivos en Internet contra a iniciativa de Google Library , InformationWeek, 20 de decembro de 2006. Recuperado o 5 de xaneiro de 2007 ( arquivado o 14 de outubro de 2007).
  14. ^ (EN) A biblioteca aberta fai a súa estrea en liña , Crónica da educación superior, The Wired Campus, 19 de xullo de 2007. Consultado o 26 de xaneiro de 2013 (arquivado por "url orixinal o 30 de setembro de 2007).
  15. ^ Small Moves: Open Integrates Digital Library Lending , en blog.openlibrary.org. Consultado o 26 de xaneiro de 2013.
  16. ^ (EN) Stefanie Olsen, Preserving the Web un grupo á vez , CNet News.com, 1 de maio de 2006.
  17. ^ (EN) Books Scanning to be Publiced ​​Fund Arquivado o 24 de setembro de 2009 en Internet Archive ., Anuncio de Brewster Kahle, 23 de maio de 2008.
  18. ^ (EN) "Bulk Access to OCR for 1 Million Books" Arquivado o 6 de decembro de 2008 no Arquivo de Internet . Via Open Library Blog, por raj, 24 de novembro de 2008.
  19. ^ (EN) "Book book winding down" Arquivado o 20 de agosto de 2008 en Internet Archive ., Blog de busca en directo. Anuncio oficial de Microsoft. Último acceso o 23 de maio de 2008.
  20. ^ (EN) Google Books at Internet Archive Arquivado o 3 de outubro de 2013 Internet Archive ..
  21. ^ Tamén pode consultar a discusión IABot blue linking to the Internet books books do 14 de novembro de 2019, presente na versión en inglés de Wikipedia
  22. The Internet Archive Wikipedia Is Making More Reliable , en wired.com, 11 de marzo de 2019. Consultado o 24 de novembro de 2019 ( arquivado o 24 de novembro de 2019).

Elementos relacionados

Outros proxectos

Ligazóns externas

Outros proxectos e recursos
Control da autoridade VIAF (EN) 123 343 900 · LCCN (EN) n2001062537 · GND (DE) 1222513323 · BNF (FR) cb170635025 (data) · NLA (EN) 54.3568 millóns · WorldCat Identities (EN)lccn-n2001062537
Informática Portal das TIC : Acceso de entradas da Wikipedia xestionar TI