Интернет архив

(пренасочване от Archive.org)

Internet Archive е американска електронна библиотека, основана на 10 май 1996 г. и председателствана от защитника на свободната информация Брюстър Кейл.[3][4] Сайтът предоставя безплатен публичен достъп до колекции от дигитализирани материали, включително уебсайтове, софтуерни приложения (игри, музика, филми) видеоклипове, движещи се изображения и милиони книги. В допълнение към функцията си за архивиране, Internet Archive е активистка организация, застъпваща се за безплатен и отворен интернет. Към 1 януари 2023 г. Internet Archive съдържа повече от 36 милиона печатни материали, 11,6 милиона парчета аудиовизуално съдържание, 2,5 милиона софтуерни програми, 15 милиона аудиофайла, 4,5 милиона изображения, 251 хиляди концерта и над 808 милиарда уебстраници в своята Wayback Machine.

Internet Archive
Сървърът в Библиотека Александрина в град Александрия, Египет през 2008 г.
Уеб адресarchive.org
Вид на сайтаархив, уебсайт, организация с нестопанска цел, електронна библиотека, уеб архив
Регистрацияне е задължителна
Езиканглийски
ПритежателInternet Archive
Създаден отБрюстър Кейл
Създаване12 май 1996 г.;
преди 28 години
 (1996-05-12)
Alexa ранг183:[1]
САЩ – 27,4 % (155);
Индия – 17,8 % (91);
Япония – 6,1 % (393)
(към 31 май 2021 г.)
ПриходиПовишение 20,3 милиона щатски долара (2018)[2]
Рекламине
Настоящ статусактивен
Седалище САЩ;
 Египет;
 Нидерландия
Internet Archive в Общомедия

Internet Archive позволява на обществеността да качва и изтегля цифрови материали в своя клъстер от данни, но по-голямата част от данните му се събират автоматично от нейните търсещи роботи, които работят за запазване на възможно най-голяма част от публичната мрежа. Неговият уеб архив, Wayback Machine, съдържа стотици милиарди уеб улавяния. Internet Archive контролира един от най-големите проекти за дигитализация на книги в света.

Сайтът е създаден през 1996 г. от Брюстър Кейл. Към август 2016 г. съдържа 502 млрд. копия на уеб страници. Към март 2019 г. размерът на архива е 60 петабайта[5] Архивът не включва страници от сайтове, които не позволяват (чрез robots.txt) да бъдат индексирани от ботове.

Управление

Internet Archive е организация с нестопанска цел, базирана в Сан Франциско, Калифорния, САЩ. Архивът разполага с годишен бюджет от около няколко десетки милиона щатски долара, събиран чрез различни източници, като: уеб услуги, различни партньорства, безвъзмездни средства, дарения и фондация „Kahle–Austin“.[6] Internet Archive управлява периодични кампании за финансиране, както стартиралата през декември 2019 г. кампания, целяща да събере дарения за 6 милиона щатски долара.[7]

До 2019 г. по-голямата част от служителите работят в центровете за сканиране на книги, след което сканирането се извършва от 100 платени оператора по целия свят.[8] Internet Archive разполага с центрове за данни в три калифорнийски града – Сан Франциско, Редуд Сити и Ричмънд. За да се подсигури стабилността и устойчивостта на архива, както да се ускори свалянето и да се разпредели натоварването, пълни копия се поддържат на огледални сайтове в Библиотека Александрина (Египет) и съоръжение в Амстердам (Нидерландия). Архивът е член на Международния консорциум за опазване на интернет.[9] От 2007 г. архивът придобива статус на библиотека.[10]

История

Архива е основан през май 1996 г. от Брюстър Кейл. През октомври 1996 г. Internet Archive започва да архивира и съхранява глобалната мрежа в големи количества, въпреки че запазва най-ранните страници през май 1996 г.[11] До 2001 г. архивираното съдържание не е публично достъпно, до разработването на Wayback Machine.

Уеб архивиране

Wayback Machine

Лого на Wayback Machine, използвано от 2001 г.

Internet Archive се възползва от популярното използване на термина „WABAC machine“ от сегмент на анимационния филм „Приключенията на Роки и Булуинкъл“ и използва името „Wayback Machine“ за своята услуга, която позволява архиви на World Wide Web за търсене и достъп.[12] Тази услуга позволява на потребителите да преглеждат някои от архивираните уеб страници. Wayback Machine е създаден със съвместни усилия на Alexa Internet и Internet Archive, когато е изграден триизмерен индекс, който позволява сърфиране на архивирано уеб съдържание. Милиони уеб сайтове и свързаните с тях данни (изображения, източник код, документи и др.) се записват в база данни. Услугата може да се използва, за да се види как са изглеждали предишните версии на уеб сайтове, да се вземе оригинален изходен код от уеб сайтове, които може вече да не са директно достъпни, или да се посетят уебсайтове, които вече дори не съществуват. Не всички уеб сайтове са налични, защото много собственици на уебсайтове решават да изключат своите сайтове.[13]

През октомври 2013 г. е предоставена функция за архивиране „Запазване на страница сега“,[14] достъпна в долния десен ъгъл на главната страница на Wayback Machine. След като се въведе и запази целеви URL адрес, уеб страницата се запазва в Wayback Machine.[14] Чрез интернет адреса web.archive.org[15] потребителите могат да качват в Wayback Machine голямо разнообразие от съдържание, включително PDF и файлови формати за компресиране на данни. Wayback Machine създава постоянен локален URL адрес на съдържанието за качване, който е достъпен в мрежата, дори ако не е посочен по време на търсене в официалния уебсайт „archive.org“.

Archive-It

Брюстър Кейл говори за методите при архивиране, 2013 г.

Archive-It е услуга за абонамент за уеб архивиране, която позволява на институции и лица да изграждат и съхраняват колекции от цифрово съдържание и да създават цифрови архиви, създадена в началото на 2006 г. Archive-It позволява на потребителя да персонализира заснемането или изключването на уеб съдържание, което иска да запази поради съображения за културно наследство. Чрез уеб приложение, партньорите Archive-It могат да събират, каталогизират, управляват, разглеждат, търсят и преглеждат своите архивирани колекции.[16]

По отношение на достъпността, архивираните уебсайтове могат да се търсят в пълен текст в рамките на седем дни след заснемането. Съдържание, събрано чрез Archive-It се заснема и съхранява като WARC файл. Основно и резервно копие се съхраняват в центровете за данни на Internet Archive. Копие от WARC файла може да бъде предоставено на абониращи се партньорски институции за геоизлишно съхранение и съхранение в съответствие с техните най-добри стандарти.[17] Периодично данните, уловени чрез Archive-It се индексират в общия архив на Internet Archive.

Към март 2014 г. Archive-It има над 275 партньорски институции в 46 щати на САЩ и 16 държави, които събрат над 7,4 милиарда URL адреса за над 2444 публични колекции. Партньори на Archive-It са библиотеки на университети и колежи, държавни архиви, федерални институции, музеи, юридически библиотеки и културни организации, включително Организацията за електронна литература, Държавен архив и библиотека в Северна Каролина, Станфордски университет, Колумбийски университет, Американски университет в Кайро, Джорджтаунска юридическа библиотека и др.

Internet Archive Scholar

През септември 2020 г. Internet Archive обявява че пуска нова услуга за архивиране и запазване на академични списания с отворен достъп, наречена Internet Archive Scholar.[18][19][20] Тя включва над 25 милиона научни статии и други научни документи, запазени в Internet Archive. Колекцията обхваща от дигитализирани копия на списания от 18 век до най-новите конферентни сборници с отворен достъп и предпечатни материали от световната уеб мрежа.

General Index

През 2021 г. Internet Archive обявява първоначалната версия на General Index, публично достъпен индекс към колекция от 107 милиона статии в академични списания.[21][22]

Колекции от книги

Служители сканират книги в централната сграда в Сан Франциско, 2011 г.
Машини на Internet Archive за сканиране на книги, 2012 г.

Брой текстове по езици

Броят на всички текстове към 2 август 2021 г. е 32 144 440. Първите 100 категории за езици по брой текстове са:[23]

ЕзициБрой
текстове
1Английски24 273 219
2Нидерландски702 221
3Френски689 436
4Немски688 460
5Арабски461 483
6Италиански384 698
7Испански287 030
8Гръцки144 161
9Китайски141 668
10Латински133 710
11Японски130 926
12Ръкописен
английски
92 763
13Урду91 094
14Санскрит86 582
15Хинди75 948
16Руски66 980
17Португалски63 315
18Бенгалски43 489
19Телугу41 883
20Гуджарати41 307
21Украински30 059
22Тамилски28 388
23Персийски23 007
24Датски21 269
25Шведски18 151
ЕзициБрой
текстове
26Полски18 051
27Турски17 244
28Папиаменто16 382
29Тибетски16 051
30Идиш15 343
31Индонезийски15 068
32Малаялам14 669
33неопределен13 957
34Каннада12 994
35Унгарски11 447
36Румънски11 175
37Есперанто9720
38Хърватски9646
39Чешки9402
40Тайски8007
41Маратхийски7534
42неизвестен7409
43Каталонски7284
44Корейски7254
45Малайски7049
46Беларуски6046
47Норвежки5666
48Старогръцки5297
49Панджабски5273
50Староруски5094
ЕзициБрой
текстове
51Суахили5085
52Пиемонтски4848
53Иврит4838
54Фински4641
55Уелски4471
56Кюрдски4443
57Ръкописен японски4097
58Виетнамски3935
59много езици3746
60други3213
61Английски и френски3067
62Тагалог3048
63Исландски2972
64Африканс2847
65Сръбски2844
66Балийски2778
67Манипури2762
68Одия2702
69Османски турски2538
70Конкани2446
71Синдхи2280
72Бретонски2272
73Асамски2258
74Албански2258
75Галисийски2064
ЕзициБрой
текстове
76Арменски2055
77Баски1928
78Илокано1914
79Естонски1909
80Литовски1788
81Азербайджански1750
82Кхоса1741
83Словашки1708
84Новоарамейски1691
85Шотландски келтски1639
86Зулуски1572
87Ирландски1570
88Словенски1537
89Узбекски1450
90Пали1347
91Окситански1192
92Български983
93Шотландски германски966
94Кхаси878
95Енг – ръкописен867
96Сирийски836
97Бошняшки832
98Непалски832
99Норвежки – букмол826
100Пущунски824

Брой текстове по десетилетия

19 век
ДесетилетияБрой текстове
(27 ноември 2015)
1800-те39 842
1810-те51 151
1820-те79 476
1830-те105 021
1840-те127 649
1850-те180 950
1860-те210 574
1870-те214 505
1880-те285 984
1890-те370 726
20 век
ДесетилетияБрой текстове
(27 ноември 2015)
1900-те504 000
1910-те455 539
1920-те185 876
1930-те70 190
1940-те85 062
1950-те81 192
1960-те125 977
1970-те206 870
1980-те181 129
1990-те272 848
21 век
ДесетилетияБрой текстове
(27 ноември 2015)
2000-те579 905
2010-те855 253

Open Library

Open Library (в превод: Отворена библиотека) е проект на Internet Archive. Уикито се стреми да включи уеб страница за всяка книга, съдържа 25 милиона каталожни записа на издания. Също така се стреми да бъде достъпна в мрежата публична библиотека: съдържа пълните текстове на приблизително 1 600 000 книги в публично достояние (от повече от пет милиона от основната колекция текстове), както и книги в печат и авторски права,[24] които са напълно четими, с възможност за изтегляне[25] и с възможност за търсене в пълен текст; предлага двуседмичен заем на електронни книги в своята програма за кредитиране на Книги за заеми за над 647 784 книги, които не са публични домейн, в партньорство с над 1000 библиотеки от 6 държави[26] след безплатна регистрация в уеб сайта. Open Library е безплатен софтуерен проект с отворен код, чийто изходен код е свободно достъпен в GitHub.

Медийни колекции

В допълнение към уеб архивите, Internet Archive поддържа обширни колекции от дигитални медии, които са удостоверени от потребителя, който ги е качил, за публично достояние в Съединените щати или са лицензирани под лиценз, който позволява преразпределение, като лицензи на Криейтив Комънс. Медиите са организирани в колекции по тип медия (движещи се изображения, аудио, текст и др.) И в раздели на колекции според различни критерии. Всяка от основните колекции включва раздела на колекция „Общност“ (по-рано наречена „Отворен код“), където се съхраняват общи публикации от обществеността.

Колекциите съдържат около 3000 предмета от Бруклинския музей.

Аудио колекция

Аудио архивът включва музика, аудиокниги, новинарски предавания, радиопредавания от старо време и голямо разнообразие от други аудио файлове. В колекцията има повече от 200 000 безплатни цифрови записа. Разделите колекции включват аудио книги и поезия, подкасти и др. Звуковите колекции са куратори от Боб Джордж, директор на Архива на съвременната музика.[27]

Архивът на музика на живо включва повече от 170 000 записа на концерти от независими музиканти, както и по-утвърдени изпълнители и музикални състави с разрешителни правила за записване на техните концерти.[28]

Проектът „Великият 78“ има за цел да дигитализира 250 000 сингъла със 78 оборота в минута (500 000 песни) от периода между 1880 и 1960 г., дарени от различни колекционери и институции. Той е разработен в сътрудничество с Архива на съвременната музика и Джордж Блъд аудио, отговарящ за дигитализацията на аудио.[27]

Източници

Външни препратки