Archiwum internetowe
Logo archiwum internetowego i wordmark.svg
Serwery lustrzane archiwum internetowego - Bibliotheca Alexandrina.jpg
FacetOrganizacja pozarządowa
Fundacja1996
SiedzibaStany Zjednoczone San Francisco
Obszar działaniaOchrona cyfrowa
PrezydentBrewster Kahle
Mottopowszechny dostęp do wszelkiej wiedzy
Stronie internetowej
Strona Archiwum
internetowego
Logo
URLarchiwum.org/
Typ witrynyBiblioteka Cyfrowa
Językjęzyk angielski
Rejestracjaopcjonalny
ZyskNie
Stworzone przezBrewster Kahle
Początekmaj 1996
Stan obecnyaktywny
Hasło reklamowepowszechny dostęp do wszelkiej wiedzy
Internet Archive mieściło się w Presidio of San Francisco , byłej amerykańskiej bazie wojskowej w San Francisco , od 1996 do 2009 roku
Nowa siedziba Internet Archive od listopada 2009, przy 300 Funston w San Francisco , dawny naukowiec Christian Church
Logo Wayback Machine, używane od listopada 2001 r.

Internet Archive to nienastawiona na zysk biblioteka cyfrowa , której celem jest umożliwienie „powszechnego dostępu do wiedzy” [1] [2] . Oferuje stałą cyfrową przestrzeń dostępu do różnego rodzaju zasobów: na przykład stron internetowych, audio, ruchomych obrazów (wideo) i książek. Internet Archive zostało założone przez Brewstera Kahle w 1996 roku i jest częścią Międzynarodowego Konsorcjum Ochrony Internetu (IIPC ). [3] Oprócz swojej podstawowej funkcji archiwizacyjnej, Internet Archive jest organizacją dążącą do wolnego i otwartego Internetu i jest stowarzyszeniem non-profitoficjalnie uznane w Stanach Zjednoczonych Ameryki .

Biura administracyjne znajdują się w San Francisco , a centra przetwarzania danych znajdują się w San Francisco, Redwood City i Mountain View w Kalifornii . Najbardziej potężną cyfrową kolekcją biblioteki jest archiwum internetowe, rodzaj zbioru „nieruchomych obrazów” z sieci WWW, skatalogowanych według daty pozyskania. Aby zapewnić stabilność i bezpieczeństwo archiwizowanych danych, cała kolekcja posiada lustro na serwerach Bibliotheca Alexandrina w Aleksandrii w Egipcie . Archiwum umożliwia społeczeństwu przesyłanie i pobieranie materiałów cyfrowych do iz serwerów bez żadnych kosztów.

Zapewnia również dostęp do jednego z największych istniejących projektów archiwizacji książek cyfrowych, jest częścią American Library Association i jest oficjalnie uznawana przez stan Kalifornia jako biblioteka publiczna. [4] Firma zatrudnia 200 pracowników, z których wielu zajmuje się skanowaniem tomów papieru w wyspecjalizowanych ośrodkach. Główne biuro w San Francisco zatrudnia trzydziestu pracowników. Internet Archive ma roczny budżet w wysokości około 10 milionów dolarów, w dużej mierze pochodzący z różnych źródeł: przychodów z usług przeszukiwania sieci , partnerstw, grantów, darowizn i Fundacji Kahle-Austin. [5]

Według strony Internet Archive „wiele społeczeństw przywiązuje wagę do zachowania artefaktów związanych z ich dziedzictwem kulturowym. Bez tych artefaktów cywilizacja nie ma pamięci i nie ma możliwości uczenia się na swoich sukcesach i porażkach. Nasza kultura teraz zawsze produkuje. więcej produktów w formie cyfrowej. Misją Archiwum Internetowego jest pomoc w zachowaniu tych artefaktów oraz stworzenie cyfrowej biblioteki w Internecie dla badaczy, historyków i uczonych.”

Historia

Brewster Kahle założył Internet Archive w 1996 roku, mniej więcej w tym samym czasie założył firmę Alexa Internet , zajmującą się usługami przeszukiwania sieci . Internet Archive rozpoczęło archiwizację sieci WWW od 1996 roku, ale zbiór nie był dostępny aż do 2001 roku, kiedy opracowano Wayback Machine. W 1999 roku Internet Archive poszerzyło się o kolejne zbiory, w tym Archiwum Prelingera . Archiwum internetowe obejmuje obecnie m.in. tekst, dźwięk, ruchome obrazy i oprogramowanie. Obsługuje wiele innych projektów, w tym NASA Image Archive, Archive-It Indexing Service i Open Library, katalog tomów, które można edytować za pomocą oprogramowania typu wiki.

25 marca 2020 r., po pandemii COVID-19 , The Internet Archive uruchomiło Narodową Bibliotekę Ratunkową, inicjatywę umożliwiającą bezpłatny dostęp w trybie pełnotekstowym do całej cyfrowej kolekcji liczącej w katalogu ponad 1 milion tytułów. [6] [7]

Projektowanie

Maszyna powrotna

Wayback Machine to interfejs sieciowy używany przez Internet Archive do wyodrębniania danych na stronach internetowych z archiwów. Zarchiwizowane witryny reprezentują rodzaj „nieruchomych obrazów” gromadzonych, gdy strony są pozyskiwane za pomocą oprogramowania indeksującego Internet Archive. Nazwa „Wayback Machine” pochodzi od określenia „ WABAC Machine ” użytego w jednym z opowiadań z animowanego serialu Rocky and Bullwinkle . [8] Usługa, dzięki pająkowi Alexa , zapamiętuje zmiany i ewolucje różnych stron internetowych w czasie . W przypadku mniejszych witryn nie ma częstego buforowania ,

Jest to przydatna usługa w następujących przypadkach:

  • badanie ewolucji stron internetowych;
  • odzyskiwanie utraconych stron i witryn;
  • szukaj dowodów po opublikowaniu, a następnie usunięciu.

Usługa umożliwia dostęp do zarchiwizowanych wersji stron internetowych z przeszłości, coś w rodzaju „trójwymiarowego archiwum”, jak mówi Internet Archive. Miliony stron internetowych z odpowiednimi danymi (zdjęciami, tekstem, powiązanymi dokumentami itp.) są przechowywane w gigantycznej bazie danych . Nie wszystkie witryny są dostępne z powodu decyzji wielu właścicieli witryn, aby wykluczyć swoje witryny z indeksowania. Ponadto, podobnie jak w przypadku wszystkich witryn opartych na danych z robotów internetowych , z różnych przyczyn technicznych brakuje dużych obszarów sieci. Na przestrzeni lat natrafiono wreszcie na kilka problemów prawnych związanych z archiwizacją i zasięgiem lub nie witryn, choć nie są one wynikiem celowych działań. [9]

Użycie terminu „Wayback Machine” w kontekście Internet Archive stało się tak powszechne, że „Wayback Machine” i „Internet Archive” stały się niemal synonimami w kulturze masowej ; na przykład w serialu Law & Order: Criminal Intent (w odcinku „Dziedzictwo”, wyemitowanym po raz pierwszy 3 sierpnia 2008 r., zatytułowanym Wirtualna miłość we włoskim odpowiedniku), jeden z bohaterów odcinka używa „Wayback Machine”, aby znaleźć zarchiwizowaną kopię strony internetowej. „Migawki” witryn zarchiwizowane podczas różnych przejść robota indeksującego stają się publicznie dostępne zwykle po 6-18 miesiącach.

Przykłady stron internetowych zarchiwizowanych przez Internet Archive i przeglądanych przez Wayback Machine:

Internet Archive korzysta z protokołu Robots Exclusion Standard (poprzez plik robots.txt ) w celu dobrowolnego wykluczenia witryn z bazy danych. Internet Archive przestrzega dyrektyw pliku robots.txt, upewniając się, że jego boty nie indeksują stron. Z tego powodu Archiwum Internetowe sprawiło, że wiele stron internetowych jest niedostępnych, które są całkowicie niedostępne za pośrednictwem Wayback Machine. W przypadku zablokowanych witryn przechowywany jest tylko plik robots.txt .

Internet Archive stosuje reguły robots.txt z mocą wsteczną: jeśli witryna blokuje pająka Internet Archive za pośrednictwem pliku robots.txt, wszystkie strony już zarchiwizowane przez domenę stają się niedostępne. Co więcej, to samo zachowanie jest zarezerwowane dla wszystkich witryn, które wprost o to proszą: z tego powodu za każdym razem, gdy właściciel witryny prosi o jej wykluczenie z indeksu, zgadza się na żądanie [10] , nie będąc „Archiwum Internetowym”. [...] zainteresowanych zachowaniem lub oferowaniem dostępu do stron internetowych lub innych dokumentów w Internecie należących do osób, które nie chcą, aby ich materiały znajdowały się w naszej kolekcji.” [11]

Na przykład adres https://web.archive.org/*/https://www.ubuntu-it.org , wyświetla przeszukiwalne kopie strony

https://www.ubuntu-it.org ,
podzielone według daty zapisania w Archiwum Internetowym.

Otwórz bibliotekę

Open Library , której założycielami są również aktywista cyfrowy Aaron Swartz [12] , to biblioteka cyfrowa stworzona w celu zbierania kart do każdej opublikowanej książki i skatalogowania ich w jednej bazie danych; rodzaj open source'owej wersji WorldCat , stworzonej w przeciwieństwie do projektu digitalizacji Google Books [13] (po włosku Google Books ). Projekt powstał w 2007 roku i obejmuje kilka milionów kart katalogowych i zdigitalizowanych książek będących w domenie publicznej, które są w pełni dostępne i możliwe do pobrania. [14] Otwarta Biblioteka to projekt oparty na darmowym oprogramowaniu o otwartym kodzie źródłowym, kod źródłowy jest w pełni dostępny z witryny referencyjnej. Od czerwca 2010 r. Open Library oferuje również usługę wypożyczania ebooków realizowaną we współpracy z amerykańskim dystrybutorem treści cyfrowych OverDrive i amerykańskimi bibliotekami [15] .

Archiwum-It

Opracowany w 2006 roku Archive-It to usługa, która umożliwia instytucjom i jednostkom indywidualnym tworzenie i przechowywanie zbiorów materiałów cyfrowych. [16] Za pomocą aplikacji webowej abonenci serwisu mogą gromadzić, katalogować, indeksować iw ciągu 24 godzin mieć pełny dostęp do archiwum. Zbiory są przechowywane na serwerach Internet Archive i są publicznie dostępne poprzez wyszukiwanie pełnotekstowe . Wszystkie materiały cyfrowe są przechowywane w dwóch egzemplarzach (jeden podstawowy i jeden zapasowy ), są okresowo indeksowane w archiwum ogólnym Archiwum Internetowego, a kopia danych może zostać przesłana na żądanie subskrybentów. Od 2009 r. Archiwum-Ma 125 instytucji partnerskichw 42 stanach amerykańskich i 11 krajach, łącznie z 1,5 miliarda adresów URL i 963 kolekcjami publicznymi. Instytucje, które zasubskrybowały usługę Archive-It, to głównie biblioteki uniwersyteckie , archiwa stanowe, instytucje federalne, muzea i organizacje kulturalne, w tym Electronic Literature Organization , North Carolina State Archives , Texas State Library and Archives Commission , Stanford University , National Library of Australia , Research Libraries Group (RLG) i wiele innych.

Obrazy NASA

Projekt NASA Images powstał dzięki umowie Space Act pomiędzy Internet Archive i NASA , aby udostępnić publicznie archiwa obrazów, filmów i nagrań audio wyprodukowanych przez agencję na przestrzeni lat za pośrednictwem jednego archiwum, które jest w pełni zindeksowane i można je wykorzystać za pomocą wyszukiwania. Strona została uruchomiona w lipcu 2008 roku i zawiera ponad 100 000 plików.

Kolekcje zasobów multimedialnych

Oprócz archiwów internetowych, Internet Archive przechowuje duże kolekcje cyfrowych zasobów multimedialnych uznanych przez tych, którzy przesłali je do witryny, w domenie publicznej w Stanach Zjednoczonych lub dystrybuowanych z licencją, która umożliwia bezpłatną redystrybucję, taką jak licencje Creative Commons . . Aktywa są klasyfikowane według rodzaju mediów (ruchome obrazy, dźwięk, tekst) oraz w innych podklasyfikacjach według różnych kryteriów.

Kolekcja filmów

Kolekcja ruchomych obrazów w Internet Archive obejmuje: kroniki filmowe; klasyczne bajki; propaganda wojenna; Archiwum Prelingera , specjalne archiwum zawierające materiały uważane za „efemeryczne”, takie jak filmy sponsorowane przez firmy i organizacje, filmy edukacyjne i domowe, reklamy i inne materiały, do których prawa autorskie wygasły. Zbiory zasobów cyfrowych są liczne i różnią się tematem i źródłem wyszukiwania; na przykład kolekcja brickfilm zawiera liczne filmy poklatkowe nakręcone z klocków Lego; inny zbiór dotyczy wyborów prezydenckich w USA w 2004 r. i związanej z nimi kampanii wyborczej. KolekcjaIndependent News obejmuje szereg zbiorów, w tym zbiór z konkursu World At War z 2001 r. w Internet Archive , w ramach którego uczestnicy stworzyli filmy krótkometrażowe, aby pokazać, jak ważny jest dostęp do informacji i historii. Archiwum dotyczące ataku na Bliźniacze Wieże z 11 września 2001 r. zawiera materiały archiwalne wyprodukowane przez główne światowe sieci telewizyjne na temat tego wydarzenia i wyemitowane tego dnia na żywo.

Film

W zbiorach filmowych znajdują się również oryginalne wersje znanych filmów, m.in.:

Kolekcja audio

Kolekcja audio obejmuje muzykę, książki audio, wiadomości, stare audycje radiowe i wiele innych plików audio. Kolekcja Live Music Archive zawiera ponad 50 000 nagrań koncertowych niezależnych i uznanych artystów i zespołów muzycznych, które mają luźne przepisy dotyczące nagrywania koncertów, takie jak Grateful Dead i Smashing Pumpkins .

Zbiór tekstów

Internetowy skaner książek archiwalnych

Zbiór zawiera zdigitalizowane teksty książkowe z różnych bibliotek na całym świecie oraz wiele zbiorów specjalnych. Internet Archive posiada 23 centra skanowania w pięciu krajach, które digitalizują około 1000 książek dziennie, finansowane przez biblioteki i fundacje. [17] W listopadzie 2008 roku, kiedy było około 1 miliona tekstów, cała kolekcja zajmowała około 0,5 petabajta , wliczając surowe obrazy, pliki PDF, OCR i surowe dane. [18]

W latach 2006-2008 Microsoft Corporation współpracuje z Internet Archive w ramach projektu Live Search Books , skanując ponad 300 000 książek, które zostały dodane do kolekcji, a także zapewniając wsparcie finansowe i sprzęt do skanowania. 23 maja 2008 r. Microsoft ogłosił, że zakończy projekt Live Book Search i skanowanie nowych książek. [19] Microsoft udostępnił zeskanowane książki bez ograniczeń umownych i przekazał swój sprzęt do skanowania swojemu byłemu partnerowi .

W październiku 2007 r. użytkownicy archiwum internetowego zaczęli przesyłać książki z domeny publicznej z serwisu Książki Google . [20] Od stycznia 2010 r. zebrano 900 000 książek zeskanowanych przez Google , co stanowi ponad połowę wszystkich książek dostępnych na archive.org. Książki są identyczne z kopiami znalezionymi w Google i są dostępne do nieograniczonego użytku i pobierania , podobnie jak wszystkie materiały z archiwum internetowego.

Internet Archive jest członkiem Open Book Alliance , organizacji, która była jedną z najbardziej krytycznych w umowie między American Publishers Association i Google dotyczącej digitalizacji książek.

W 2016 r., również po skandalu związanym z wyborami prezydenckimi , Internet Archive rozpoczęło współpracę z wersjami Wikipedii w wielu językach, opracowując program do automatycznego zastępowania uszkodzonych linków w szablonach cytowań. W ich miejsce Internet Archive Bot [21] wstawia adres URL cyfrowej kopii źródła w Internet Archive z dwustronicowym podglądem w celu kontekstualizacji cytatu. [22]

Notatka

  1. ^ Archiwum internetowe Często zadawane pytania zarchiwizowane 15 kwietnia 2013 r. w Wikiwix .
  2. ^ Internet Archive : Uniwersalny dostęp do całej wiedzy zarchiwizowanej 13 października 2013 r. w Internet Archive .
  3. ^ Członkowie zarchiwizowano 13 czerwca 2010 w Internet Archive . (Międzynarodowe Konsorcjum Ochrony Internetu)
  4. ^ Internetowe archiwum oficjalnie biblioteką” Zarchiwizowane 1 września 2016 r. w Wikiwix., 2 maja 2007 r . .
  5. ^ CabinetMagazine.org Zarchiwizowane 19 marca 2013 r. w Internet Archive .
  6. ^ Palmer Haasch, The Internet Archive uruchomił publiczną, zdigitalizowaną bibliotekę bez czekania, zawierającą ponad milion książek, które są zwykle dostępne tylko dla szkół i bibliotek , su insider.com .
  7. ^ Ogłoszenie Narodowej Biblioteki Ratunkowej , na archive.org . Pobrano 26 marca 2020 r. ( zarchiwizowane 26 marca 2020 r. ) .
  8. ^ Wrzos zielony , _Biblioteka wielka jak świat: Brewster Kahle dysponuje technologią pozwalającą na zgromadzenie najlepszego archiwum ludzkiej wiedzy. Co go powstrzymuje? Restrykcyjne prawa autorskie, Business Week Online, 28 lutego 2002. Pobrano 25 czerwca 2007 ( zarchiwizowane 1 czerwca 2002) .
  9. ^ Thelwall M. i Vaughan L. (2004) . Sprawiedliwa historia sieci? Badanie równowagi krajów w Internet Archive, Library & Information Science Research , 26 (2), 162-176.
  10. ^ Niektóre witryny są niedostępne z powodu pliku Robots.txt lub innych wykluczeń Zarchiwizowane 15 kwietnia 2011 r. w Internet Archive ..
  11. ^ Jak mogę usunąć strony mojej witryny z Wayback Machine ? Zarchiwizowane 10 października 2013 w Internet Archive .
  12. ^ Aaron Swartz Projekt Otwartej Biblioteki , na stronie openlibrary.org . Pobrano 2 maja 2019 r. ( zarchiwizowane 27 czerwca 2015 r. ) .
  13. ^ Antone Gonsalves , _Internet Archive twierdzi postępy w stosunku do inicjatywy Biblioteki Google, InformationWeek, 20 grudnia 2006 r. Pobrano 5 stycznia 2007 r. ( archiwum 14 października 2007 r. ) .
  14. ^ ( PL ) Otwarta biblioteka debiutuje online, Kronika Szkolnictwa Wyższego, Wired Campus, 19 lipca 2007 r. Pobrano 26 stycznia 2013 r. (Zarchiwizowane z oryginału 30 września 2007 r.) .
  15. ^ Małe zmiany: Otwarta biblioteka integruje pożyczki cyfrowe , na blog.openlibrary.org . Źródło 26 stycznia 2013 .
  16. ^ Stefanie Olsen, Ochrona sieci Web jedna grupa na raz , CNet News.com, 1 maja 2006.
  17. ^ Skanowanie książek , które mają być finansowane ze środków publicznych, zarchiwizowane 24 września 2009 r. w Internet Archive . Ogłoszenie Brewstera Khale, 23 maja 2008 r.
  18. ^ Zbiorczy dostęp do OCR dla 1 miliona książek” zarchiwizowane 6 grudnia 2008 r. w Internet Archive ., Via Open Library Blog, autor: raj, 24 listopada 2008 r.
  19. ^ „ Rezygnacja z wyszukiwania książek ” Zarchiwizowane 20 sierpnia 2008 r. w Internet Archive . Live Search Blog. Oficjalne ogłoszenie firmy Microsoft. Ostatni dostęp 23 maja 2008 r.
  20. ^ Książki Google w Internet Archive Zarchiwizowane 3 października 2013 w Internet Archive .
  21. ^ Możesz również zapoznać się z dyskusją IABot blue z linkami do internetowych książek archiwalnych z 14 listopada 2019 r., obecnych w angielskiej wersji Wikipedii
  22. ^ Archiwum internetowe sprawia, że ​​Wikipedia jest bardziej niezawodna , na wired.com , 11 marca 2019 r. Pobrano 24 listopada 2019 r. ( zarchiwizowane 24 listopada 2019 r. ) .

Powiązane przedmioty

Inne projekty

Inne projekty

Zewnętrzne linki

Inne projekty i zasoby
  Portal IT : dostęp do wpisów Wikipedii dotyczących IT