Как сделать электронную копию бумажной книги

Автор: | 04.03.2022

Оцифровка бумажных книг имеет два очевидных преимущества: электронная книга всегда под рукой, и ею очень легко поделиться.

В этом руководстве вы узнаете основные шаги по созданию удобной электронной версии бумажной книги с навигацией и возможностью копирования текста.

 

Стоит помнить, что в эпоху бурной защиты авторских прав и легкой доступности литературы, изначально представленной в электронном виде, имеет смысл оцифровать базовые старые советские учебники или что-то действительно редкое и только для личного пользования.

Имея доступ к старым техническим руководствам, я иногда бесплатно помогал тем, кто меня не знал и не имел хороших источников знаний для обучения. И поскольку я принимал на работу, я хотел выполнять свою работу на достаточно высоком уровне, чтобы читатель книги был счастлив погрузиться в нее.

Этап 1. Копирование книги

Со временем многие процессы становятся проще. Если в течение пяти лет этот этап был чрезвычайно долгим (мне приходилось пользоваться сканером), то с улучшением камер мобильных телефонов время, затрачиваемое на это, значительно сократилось. Конечно, между фотоаппаратом и фотоаппаратом нет разницы, но если вы выберете приемлемые условия съемки, подойдет любой более-менее современный телефон.

Конечно, еще предпочтительнее использовать сканер. Особенно, если речь идет о технической литературе, содержащей множество формул и рисунков.

Забегая вперед, хочу уточнить, что впоследствии изображения будут обрабатываться специальной программой. Однако стоит добросовестно позаботиться о самом кадре, чтобы качество конечного продукта не зависело только от постобработки.

Пример плохого кадрирования: страдает освещение, страницы не полностью расправляются. Все ради эксперимента.Пример плохого кадрирования: страдает освещение, страницы не полностью расправляются. Все ради эксперимента

Поэтому постарайтесь максимально раскрыть страницы, чтобы складки на корешке книги были минимальными. Было бы здорово, если бы кто-нибудь мог вам в этом помочь. Один держит телефон, а другой переворачивает и поправляет страницы. Также студенты любят делать пометки в библиотечных книгах, и их неплохо бы стереть.

Берем серию изображений и переносим их на компьютер в отдельную папку. Пришло время функционировать неживому мозгу.

Этап 2. Обработка

Мне попались две серьезные программы для обработки отсканированных (сфотографированных) книг: ScanTailor и ScanKromsator. Возможно, за годы моего бездействия появились другие действенные альтернативы, но я сомневаюсь, что ниша пользователей очень мала и бедна. Крупные букмекеры предпочитают СканКромсатор. В ней масса настроек и возможностей, но сам автор программы, видимо, не может разобраться и разобраться во всех предлагаемых наворотах (шутка). Поэтому рекомендую вам ScanTailor. Я имел возможность следить за развитием этой утилиты с первых дней ее существования. Разработчик прекратил поддержку проекта несколько лет назад, но все же предложил миру хороший инструмент для обработки сканов.

Начало работы

Работать в ScanTailor просто и понятно. Все промежуточные действия отображаются в левой части рабочего пространства, вы легко присоединитесь к процессу.

Выберите исходную папку, выходная папка будет создана автоматически. Установите максимально возможное DPI для всех страниц: 600 × 600. Мощность современных компьютеров позволяет довольно быстро обрабатывать такие изображения.

ScanTailor_pic1Не жалейте DPI для вашей книги

Шаг 1. Исправление ориентации

Самый простой и быстрый шаг. Скорее всего, вы изначально сфотографировали страницы в правильной ориентации, так что проблем быть не должно. Отмечу только, что изначально ScanTailor предложит вам запустить пакетную обработку текущего действия (маленький значок Воспроизвести перед шагом) — обязательно используйте его, чтобы не нажимать на каждое изображение отдельно.

ScanTailor_pic2На мой взгляд, ScanTailor может гордиться продуманным интерфейсом

Шаг 2. Разрезка страниц

Практически беспроблемный переход. На этом этапе я редко видел ошибки. Обязательно обратите внимание на обложку книги — здесь часто возникают нюансы.

ScanTailor_pic3Больше ясности и трудно найти

Шаг 3. Компенсация наклона

В подавляющем большинстве случаев алгоритм работает правильно. Не ждите подвоха, переходите к следующему шагу.

ScanTailor_pic4К вашим услугам ручная дробная регулировка

Шаг 4. Полезная область

Это, наверное, самый ответственный момент. Решающее значение имеет только содержание книги, дизайн — дело второстепенное. Именно с этого шага начинает работать связь «компьютер-человек». В программе иногда бывают небольшие глюки, поэтому после автоматической обработки закатите глаза по эскизам страниц в правой части экрана. Ошибки обычно видны сразу.

ScanTailor_pic5Полезная «отклоненная» область будет видна при просмотре эскизов страниц

Шаг 5. Поля

Размер полей — дело вкуса. Важнее возможность выровнять размер страницы. Не забудьте установить этот флажок, чтобы не выводить «танцующие» страницы.

ScanTailor_pic6Обложку обычно нужно доработать в графическом редакторе

Шаг 6. Выход

Последний бой самый тяжелый. Кроме того, наиболее ресурсоемкий для вашего компьютера и наиболее требовательный к вашему вниманию.

ScanTailor_pic7Незаконченные страницы отмечены вопросительным знаком

Эта веха отмечена рядом важных действий. Прежде всего, определите режим вывода книги: черно-белый, цветной или смешанный. Затем страницы очищаются от мусора, выравниваются изогнутые линии. Я не буду вдаваться в подробности, но укажу вам не самые очевидные закладки, расположенные несколько нелогичным и необычным образом — между превью страницы и лентой миниатюр. Каждая карта отвечает за важную функцию ручной настройки результирующих изображений. Если вы найдете желание и время понять, как они работают, ваши книги станут более качественными.

Страница до и после коррекции искажения строкиСтраница до и после коррекции искажения строки

Итог

В поисках идеала можно потратить на эту работу больше часа. Все зависит от вашего интереса к конечному результату и качеству исходных изображений. Да, я снова возвращаюсь к этой теме. Небольшие дополнительные усилия на этапе подготовки могут сэкономить огромное количество времени, чтобы ваши страницы выглядели достойно.

Пожалуйста, не берите приведенные в качестве примера скриншоты — все это заняло у меня не более пары минут. Не сомневаюсь, что забыл указать вам на некоторые нюансы работы со ScanTailor: слишком долго я с его помощью ничего не обрабатывал.

В итоге вы получите кучу разрозненных страниц .tif. Пора шить!

Этап 3. Создание djvu-файла

Если вы хотите быстро разобраться с файлом DjVu, обратитесь за помощью к небольшой утилите DjVu Small. Есть и более серьезные программы, например DjVu Editor Pro, но, очевидно, предпочтительнее использовать второй инструмент. Но решать вам: установить обе программы и сравнить их возможности.

Малый Djvu

Что касается создания PDF-файлов, в Интернете существует целый ряд связанных программ и веб-сервисов.

Этап 4. Создание OCR-слоя

Одним из признанных мировых лидеров в области распознавания текста, несомненно, является компания ABBYY со своим широко известным продуктом FineReader. Наверное, нет людей, которые не слышали об этой программе, поэтому описывать особо нечего. Совсем недавно FineReader смог открывать и сохранять результаты заданий непосредственно в DjVu, устраняя необходимость в промежуточном программном обеспечении.

Этап 5. Создание оглавления

В Интернете мне довелось встретить положительные отзывы о программе Pdf & Djvu Bookmarker. Как следует из названия, программа может работать с обоими наиболее распространенными форматами электронных книг.

Заключение

Скорее всего, вы не выучили много букв и сразу поспешили с выводами. И они разочаровывают нормального человека. Электронные публикации — занятие проблемное, полное трудностей и неожиданностей. Чтобы добраться и до зеленого пояса, придется потратить много времени. Оцифровка бумажных книг на высоком уровне — удел энтузиастов. Если вы все же решите пройти чертову дюжину кругов ада, вас ждут невероятные впечатления. Всегда приятно делать что-то общественно полезное и получать за это нормальные человеческие благодарности.

Но в целом рекомендую после обработки в ScanTailor останавливаться, объединить разрозненные страницы в PDF и не углубляться дальше в дебри.

Сознательно и подсознательно я упустил множество мелочей и нюансов, которые ждали вас на пути к созданию хорошей электронной книги. Надеюсь, опытные люди присоединятся к обсуждению в комментариях и укажут на мои неточности или расскажут о своих секретах.