«Электронный архив Украины займёт минимум 250-300 ТБ» — Павел Кушнир

Сегодня в Украине идёт активная работа по переводу в электронную форму государственных услуг и документов. Инициативной силой выступают волонтёры, представители бизнеса и IT-компаний, а государственные органы участвуют во всех процессах лишь во вторую очередь.

Аналогичная ситуация наблюдается и с запуском единого электронного архива документов: его созданием озаботились историки и программисты, которые теперь ведут переговоры с государством, убеждая чиновников присоединиться и способствовать оцифровке архивов. Как формируется электронная память всей украинской нации, нам рассказали участники команды разработки Электронного архива Украины — кандидат исторических наук, доцент Павел Кушнир и кандидат физико-математических наук Артём Баев:

13615386_1749564711987564_8196867816638809735_n

Павел Кушнир

О начале работы над электронным архивом

«Без знания своей истории у нации нет будущего», — это часто повторяемое утверждение, но мало кто понимает его суть. Даже школьный учитель истории не всегда может доказать истинность этого утверждения (хотя уверен, что он чаще всего и повторяет его своим ученикам). У Михаила Грушевского есть известное высказывание, что без исторической памяти не будет ни нации, ни государства (как, впрочем, и семья становится семьёй, только осознав и сохранив свои корни). Хотелось бы, чтобы однажды эти слова стали понятны всем нам — скольких проблем в современной истории можно было бы избежать.

Идея электронного исторического архива появилась не случайно. Желание больше знать и понимать историю сыграло в этом свою важную роль. Для профессиональных историков ответы на вопросы обывателя не вызывают затруднений. А вот среднестатистическому гражданину, не погружённому в мир истории, экономики и политики, разобраться в бесчисленных и запутанных исторических связях всегда было и будет сложно — этим, кстати, и пользуются не всегда порядочные журналисты, давая широкой аудитории заведомо неверные исторические сведения. Без конкретных фактов и доказательств можно говорить обо всём — и люди, повседневно занятые своими делами, будут реагировать на такие сообщения как на исторический факт.

EHAU_baner 2016

Доказательством любого исторического факта является документ, который в исторической науке называется источником. Такие документы хранятся в архивах. В мире более 5 тыс. архивов национального и регионального уровня. В Украине — 24 областных и 8 центральных архивов, вместе с местными и специализированными их количество приближается к 700. Фонды Донецкого, Луганского архивов и Архив АРК пока не доступны, поэтому можно надеяться лишь на работу с 21 областным архивом. В общей сложности, в украинских архивах хранится более 58 млн единиц документов. Невозможно разобраться в их содержании и найти необходимую информацию без специальной подготовки и достаточного времени.

Даже историк тратит на поиск необходимого документа значительную часть своего времени. Иногда на это уходит целый отпуск, иногда историк работает за счёт командировок. Как правило, нужно поработать не в одном, а в нескольких архивах, чтобы найти полезную информацию. В любом случае, на поиск документа уходит много дней. А теперь представьте себе, что мы зашли в читальный зал какого-нибудь областного архива. Такие залы ежегодно обслуживают более 7 тыс. посетителей. Каждый из них что-то ищет, в чём-то пытается разобраться. Кому-то везёт и он сразу находит нужную ему информацию. Кому-то придётся ещё раз приехать — и так бесконечно. В архивах очереди на выдачу дел расписаны на недели и месяцы вперед.

Самое интересное, что значительная часть пользователей архивов ищут документы, связанные с историей их семей. Очень часто такая информация может быть найдена в одном архиве. Особенно, если речь идёт о периоде XIX века и истории крестьянской семьи. Но бывает и так, что приходится обращаться в несколько архивов. Трудности возникают, когда нет точных данных о местожительстве предка. В Швейцарии, к примеру, есть особенное социальное право у граждан — право знать свои корни.

Есть и более прагматичные запросы. Люди пенсионного и предпенсионного возраста обращаются в районные и городские архивы с вопросом о подтверждении трудового стажа. Для выдачи такой справки сотрудник архива должен найти в хранилище необходимое дело, просмотреть его и выдать справку, при наличии соответствующей информации. На это уходит минимум 3 дня, а иногда, и недели. Всё зависит от загрузки архива. Бывает так, что будущий пенсионер собирает сведения по предприятиям из разных областей. Тогда единственный выход для «проинформированного» гражданина — начать собирать справки за несколько лет до пенсии.

Электронный исторический архив в открытом доступе даст возможность найти все ответы с минимальными затратами времени и средств. Мы в самом начале работы над проектом хотели создать ресурс для автоматизации работы с архивными документами, дать людям удобный инструмент для поиска, в том числе, и исторической информации. В начале ХХІ века уже можно было бы работать с библиотеками и архивами не на элементарном уровне перелистывания страниц, а на уровне логического поиска информации по содержанию документов. Для нового поколения это уже становится потребностью.

14054838_1095278153874373_1521897483_n

Артём Баев

Об интересе молодёжи к работе с архивами

Дело в том, что архивы – это такое учреждение, мимо которого мы можем проходить миллион раз, но зайти в него лишь однажды, когда возникает потребность. Архивы хранят историческую информацию, а мы сегодня много говорим об истории, но редко испытываем желание разобраться в ней. Обывателю редко приходит в голову идея, что полезно было бы зайти в архив и поискать информацию по тому или иному вопросу. Чаще всего в читальных залах архивов работают люди среднего и старшего возраста. Что приводит старшее поколение в архивы, кроме пенсии? Вопрос «Кто я есть?». Вопрос короткий, но очень специфический. На него не то чтобы найти ответ, его даже сформулировать не всегда есть время. Мы надеемся, что молодёжь станет пользователем архивных фондов, как только архивы получат удобную для них форму. Когда ответ на вопрос «Кто я есть?» не будет занимать много времени и требовать соблюдения множества сложных бюрократических процедур. А для этого нужен интернет-ресурс.

Над проектом «Электронный исторический архив Украины» совместно работают преподаватели университета и студенты. Как бы это удивительно не звучало, но студенты очень активно включились в реализацию проекта, особенно активны студенты-математики. Они видят в проекте не только перспективу развить свои навыки программистов и аналитиков — для студентов интересна сама тема проекта. До начала работы над проектом мало кто задавал вопрос даже своим родителям о том, откуда родом бабушки и прабабушки, где воевал дедушка. И уж совсем не возникало вопросов о том, как давно существует их род, какова его история, кем были далёкие предки.

Это, конечно же, всё вопросы генеалогии, достаточно узкой отрасли истории. Но даже получив ответы на эти вопросы, молодёжь смогла бы лучше понять историю. Через родословную очень часто история обретает менее абстрактное содержание. В истории фигурируют уже не только короли и полководцы, в ней появляются конкретные члены семьи. Думаю, что проект создаст много условий для того, чтобы к архивным документам стали обращаться как можно больше людей (в т.ч. — и молодых). Это как с книгой на полке в гостях: приходишь в гости, видишь книжную полку, берёшь первую попавшуюся книгу и начинаешь её листать. Почему? Потому что она доступна и её не трудно взять с полки. Да и время на это есть, пока ждёшь хозяев.

Проект «Электронный исторический архив» предполагает, в том числе, и возможный резкий рост популярности архивной тематики среди молодёжи. Это было бы здорово.

EHAU_grup 2016_32225231852304

О зарубежном опыте

В архивах и библиотеках всегда были каталоги и справочники. Иногда такие справочники называли путеводителями. Они значительно упрощают поиск необходимой книги или документа. Когда в хранилище помещены миллионы единиц, без ящичка с карточками не обойтись. С появлением компьютера идея создания электронного каталога библиотек стал развиваться незамедлительно. Наиболее давний опыт в этом направлении имеют Франция и Япония. В этих государствах архивы и библиотеки начали вести электронный каталог ещё в начале 70-х годов ХХ века.

Появление интернета вызвало спрос и на электронные библиотеки. Проект Google Books, наверное, один из самых масштабных примеров в этой сфере. Его создатели одними из первых увидели и продемонстрировали перспективу симбиоза интернета и библиотек. Чтобы не нарушать ничьих авторских прав, Google в 2004 году стал оцифровывать букинистические книги — и это уже стало значительным прорывом в сфере развития электронных библиотек. Невероятным казался замысел проекта Internet Archive — идея создать интернет-библиотеку всего, что создано руками человека. И он реализуется, хоть и не спеша: еженедельно этот ресурс пополняется тысячью новых книг.

В истории с государственными архивами первый шаг сделала Библиотека Национального Конгресса США. Там оцифровку фондов начали ещё в 1994, правда, сначала это было микрофильмирование, а электронный формат появился в 2000-х. Сделанные до этого микрофильмы также прошли оцифровку. В результате, мы можем легко ознакомиться не только с Декларацией независимости США, но и со списками эмигрантов, проходивших регистрацию на острове Эллис. Об истории электронных библиотек и архивов можно говорить долго. Это — достаточно интересная тема, как для библиотекарей, так и для пользователей. Интересна даже, как опыт решения сложного вопроса о соблюдении авторских прав (ещё одной болезненной для интернет-технологий проблемы).

На сегодняшний день в мире существует порядка 24 государственных архивов, у которых есть свой полноценный интернет-ресурс. В них пользователь имеет возможность не только просмотреть цифровую копию документа, но и произвести поиск документа в электронном каталоге и даже заказать себе качественную копию или получить от архива официальную справку. Кроме того, есть отдельные ресурсы узкой тематики. Например, российский сайт «Память народа», на котором можно найти информацию о воевавшем дедушке, описание его подвигов или данные о причине смерти и месте захоронения. Ресурс появился ещё в 2000 году, ежегодно он пополняется тысячами новых документов. На нём легко искать информацию по фамилии и месту призыва, можно просмотреть сканированную копию оригинала документа.

Для генеалогов большой интерес представляет масштабный проект FamilySearch. Это ресурс Центра семейной истории церкви мормонов. В своё время они начали оцифровывать церковные книги украинских архивов, но несколько лет назад работа остановилась. Для нашего проекта важен опыт каждого ресурса. Но образцом, в каком-то смысле — эталоном, являются архивы Швейцарии и города Амстердам, Голландия. Они, на наш взгляд, идеально перенесли в интернет все основные функции физического архива.

Конечно же, мы стремимся решить те задачи, которые где-то кем-то уже так или иначе решены. Мы понимаем, что далеко не первые на этом пути. Однако, опыт других даёт нам больше возможностей для собственного развития. Поэтому наша команда вместе с программистами долгое время тщательно изучала достоинства и недостатки каждого существующего ресурса. Что-то нам нравится у одного ресурса, а что-то мы хотели бы реализовать на примере другого. Главным критерием для нас остаётся максимальное удобство и информативность ресурса: удобство в работе волонтёров по созданию базы данных; информативность в поисковой системе для сотрудников архивов и пользователей.

ЧИТАЙТЕ ТАКЖЕ:

Технологии для электронного архива

Над реализацией проекта работает команда как опытных программистов, так и студентов. От разработки технического задания и написания проекта базы данных, до дизайна и вёрстки — всё делается силами нашей команды.

Проект и его цель технически очень сложные. В работу вовлечены не только историки и программисты, но и документоведы, филологи, математики. Историки выступили в роли некоего заказчика, хотя основными потребителями нашего ресурса будут архивы и сотрудники архивов. Математики увидели в этой идее перспективу для создания конкретных математических моделей. Программисты — главные исполнители. Документоведы значительно потрудились при разработке структуры базы данных архивных документов и записей. Без филологов невозможно было обойтись, так как работа ресурса будет тесно связана с рукописными текстами XVIII-XIX века. А значит, нужен справочный аппарат и обучающие материалы.

Что из себя представляет программный ресурс? База данных записей архивных документов, привязанных к цифровым изображениям самих документов. Для создания такой базы данных нужны цифровые копии документов. К сожалению, в Украине за 25 лет независимости сделано крайне мало таких копий. В архивах наберётся по несколько сотен документов, которые имеют сканированные или фотокопированные изображения. Хотя в каждом областном архиве только наиболее востребованных метрических книг может быть более 5 тыс. единиц. Поэтому пока не будет создан электронный резервный фонд, говорить о создании полноценной базы данных будет сложно.

InfoGraf_003_Skan Input

Мы начнём с тех копий, которые уже есть у архивов, объединим их в общий резервный фонд и проведём индексацию документов по заранее созданным формам. На сегодня в программе предусмотрена работа по 17 формам исторических документов: от церковной метрической книги о рождении до личной карточки работника — так называемой формы Т-2.

Сейчас в планах — небольшой объём, но он позволит протестировать наше программное обеспечение и довести его до полноценного работающего прототипа. Затем придётся решать вопрос по оцифровке остальных документов. Мы уже подготовили методические требования к фотокопиям документов, поэтому в любой момент сможем приступить и к этой работе. Технически мы готовы выполнить эту работу, хотя для нас было бы лучше, если бы копии у архивов уже были. Но чего нет, то нужно создавать. Из центральных архивов, в первую очередь, нам будут интересны лишь три: в Киеве, во Львове и Архив Общественных объединений. Рассчитываем наладить сотрудничество с Национальным музеем во Львове им. Андрея Шептицкого, у которого есть огромная коллекция греко-католического прихода, собранная самим Шептицким.

EHAU_architectur_save DB_00

Для индексации, т.е., чтения документов и ввода их содержания в базу данных, мы решили привлечь волонтёров, которых мы будем учить и контролировать одновременно. Для нас минимизация количества ошибок – главный критерий качества базы данных. Чтобы стать волонтёром, достаточно заполнить анкету в группе проекта на Facebook. Планируем набрать базу из 500-550 волонтёров, с которыми проведём онлайн-собеседования и обучающую работу. Без привлечения массы волонтёров-индексаторов нам не обойтись. На данный момент анкету заполнили более 360 человек — это люди из различных городов Украины, Израиля, Польши, США. Примерно 64% из них отнесли себя к начинающим, не имеющим опыта чтения рукописных документов и книг XIX века.

На весь объём документов генеалогического или актового содержания, — а это, напомню, не более 270 тыс. единиц, — мы рассчитываем затратить не более 5 лет работы. В наших планах дать архивам и украинцам полноценно работающий ресурс во вполне обозримом будущем. Возможно, мы слишком разогнались, и на практике потребуется больше времени. Но многое зависит от качества и скорости работы операторов ввода. Изначально, мы закладывали в проект работу специально подготовленных операторов. Планировали набирать желающих, проводить с ними интенсивное обучение, заключать договор с теми, кто справится с программой обучения. Это – идеально правильный путь, но он требует большого фонда заработной платы. Если будут средства, мы обязательно к нему вернёмся.

Доступ к архивам: ограничения и запреты

В нашей стране вопрос о доступе, т.е., праве просмотра и использования архивных документов, не однозначен для пользователей. Однако в этом вопросе мы не на много отстаём от европейского опыта. Архивы во всём мире не просто хранят документы – они защищают содержащуюся в них информацию. Это — вопрос и авторских прав, и персональных данных, и государственной тайны.

Украинские архивы – не исключение. Другое дело, что история у нас сложная, есть что скрывать. Поэтому реализация проекта должна осуществлять с учётом этих аспектов законодательства и морали. Электронный архив, по своей сути, является аналогом физического архива. Пользователь сможет в нём искать информацию так же, как и при просмотре книги в читальном зале. Разница лишь в форме документа. Поэтому то, что государство разрешает просматривать внутри архива, будет доступно и на ресурсе.

Запуск ресурса будет осуществляться поэтапно. На первом этапе, пока база данных создаётся, пользователями будут исключительно сотрудники архивов. Однако, чтобы реализовать весь заложенный в ресурс потенциал, нужен доступ из любой точки мира. Только так можно разгрузить читальные залы архивов и расширить аудиторию пользователей архивами; привлечь иностранцев к изучению нашей истории; увеличить внебюджетные доходы архивов и решить проблему обслуживания в архивах. Открытый электронный ресурс позволит не только гражданам внутри страны знакомиться с архивными документами, но и тем, кто давно уже выехал из Украины. В мире живёт несколько миллионов потомков украинцев в четвёртом и пятом поколениях. Каждый из них сможет стать пользователем украинского архива, не покидая места жительства.

13627169_1749564851987550_7009238533458391910_n

Запуск областных архивов и работа с государством

Я уже говорил, что практически все областные архивы пытаются создать резервный фонд архивных документов. Каждый из них хотел бы иметь электронный ресурс. Винница и Одесса — одни из наиболее успешных в этом деле. Но только Одесский областной архив уже начал понемногу выкладывать копии в формате DJVU или в PDF на своём сайте. Надеюсь, что и Винница подтянется.

Резервный электронный фонд архивных документов должен содержать не только облегчённые и удобные к просмотру файлы, но и качественные изображения в формате JPEG или RAW. А это — дополнительные технические требования. Чтобы сделать такое резервное хранилище, нужны значительные объёмы памяти на жёстких дисках или в облачном хранилище. Самостоятельно решить эту задачу будет сложно, потому что слишком дорого. По нашим расчётам, только на наиболее востребованные документы нужно в каждом архиве иметь примерно 25-30 ТБ памяти. Для всей Украины понадобится приблизительно 250-300 ТБ. А если в будущем всё же приступить к оцифровке всех фондов, то объёмы будут просто космическими. Поэтому те архивы, которые работают над оцифровкой, делают это:

  • на доступной им технике (не всегда профессиональной);
  • не стремятся к высокому качеству;
  • делают эту работу только на собственном энтузиазме.

На качество нет средств, и хорошо бы иметь хоть какую-то фотокопию, чтобы извлечь оригинал исторического документа из физического использования и защитить его от разрушения. Сейчас это крайне важно архивам. К тому же, каждый архив, кроме оцифровки, имеет массу других проблем: не хватает помещений, нужны средства на обеспечение условий хранения документов. Исторические документы в архивах Украины каждый день находятся на грани исчезновения. Только трагедия Каменец-Подольского архива в 2003 году привела к потере почти 30% всех фондов этого хранилища. В пожаре сгорели, как ни грустно об этом думать, почти 100 лет истории семей Хмельницкой и Винницкой областей. А сколько таких угроз ещё существует? Об этом знают только архивные сотрудники, а широкая общественность узнает, когда случится очередная трагедия.

Архивы просто нуждаются в помощи. В том числе, и в создании электронной базы данных. Мы очень надеемся, что запустив наш ресурс, привлечём внимание и общественности к проблемам сохранения исторической памяти, и государства. Архивы станут играть социальную роль так же, как и в Швейцарии. Поэтому игнорировать их существование будет уже невозможно. Сейчас мы ведём переговоры с госучреждениями, рассказываем о проекте, убеждаем директоров архивов в целесообразности использования ресурса. Огромные надежды возлагаем на местные власти. Очень интересно было бы ввести в базу данных документы городских и районных архивов, в которых хранятся документы новейшего периода истории. На многих из них есть ограничение из-за защиты персональных данных. Поэтому показать, как работает наш ресурс с учётом деперсонификации, было бы лучшим доказательством безопасности данных.

В будущем хотелось бы ввести в базу данных документы сельских советов: похозяйственные книги, актовые книги и т.д. В сёлах хранятся документы с 1944 года, иногда и старше, но условия хранения просто ужасные. Их единственными постоянными читателями сейчас являются мыши и крысы. А ведь это — та история, которая уже через 50 или 100 лет будет интересна специалистам, как сегодня бесценны старинные церковные книги или документы земских управ.

EHAU_input_interface_001А

О профессионалах и волонтёрах

Команда нашего проекта небольшая — всего 11 человек. В неё входят учёные, профессиональные программисты, студенты. Есть кандидаты физико-математических, исторических и филологических наук. Есть программисты, которые много лет работают в IT-компаниях и веб-дизайнер, один из наиболее рейтинговых на фрилансе. В качестве экспертов приглашены палеографы, архивариусы и даже фотографы.

С целью обеспечения юридических взаимоотношений с государственными учреждениями и потенциальными спонсорами, в марте 2016 года мы зарегистрировали общественную организацию «Вільний інформаційний простір». Так что теперь будем официально продвигать наш проект, поддержать который может любой рядовой пользователь. Можно стать волонтёром, рассказать о проекте друзьям и соседям, чтобы они тоже стали волонтёрами. Можно поговорить со знакомым директором архива, чтобы он подключился к созданию нашего ресурса.

Много полезного времени уходит на поиск финансирования, но без средств невозможно будет даже минимально обеспечить ресурс местом на жёстком диске. Проект хотя и социальный по содержанию, но с огромным финансовым потенциалом. На его базе любая другая команда сможет создавать аналитические ресурсы, реализовывать коммерческие проекты и т.д. Например, израильский генеалогический сервер My Heritage, создававшийся как сервер по составлению родословного древа, уже перерос в глобальный ресурс поиска родственных связей. Его бюджет в 2009 году начинался с закладных на дом, а сегодня — это уже многомиллионный бизнес. Поэтому мы активно ищем спонсоров для создания базы данных, участвуем в конкурсах на получение грантов и вкладываем собственные средства.

Без базы данных развитие архивов в Украине невозможно. Даже если предположить, что однажды архивы чудом получат новые помещения и современные раздвижные полки с противопожарной безопасностью, без электронного ресурса они всё равно будут оставаться в прошлом столетии.

Читайте также:

Штучний інтелект у дизайні та розробці ігор. Де ми зараз і що далі?

Аналоги російських сервісів для українців

CES 2022: цікаві анонси найбільшої у світі виставки електроніки

Чому дрони можуть стати кращою заміною феєрверків