Быстрая оцифровка учебников своими руками

Любите ли вы книги так, как люблю их я…

Детство и юность, проведенная в маленьком городе, где в районной библиотеке из энциклопедий был лишь «Большой энциклопедический словарь» приучила к бережному, практически благоговейному отношению к любой технической книге.

Я понимаю, почему люди пережившие блокаду все время держали дома запас продуктов. Первое время, получив доступ к более или менее скоростному интернету все время хотелось скачивать новые книги и сохранять их на жестком диске, сохранять, сохранять :).

Потом появился twirpx и я понял, что книги, как и знания, должны участвовать в постоянном круговороте, иначе они мертвы. Стоило один раз отсканировать монографию своего научного руководителя и услышать десятки отзывов скачавших, как лавину уже было не остановить.

Я заметил, что сегодня поделившись редкой книгой, завтра я увижу две, а то и три не менее редких, которыми поделились другие.

Быстрая оцифровка учебников своими руками

В годы студенчества из-за довольно узкой специализации, библиотека была практически вторым домом. Но библиотека библиотеке, как водится, рознь и при прочих равных гораздо удобнее читать (а также распознавать и сразу копировать в курсовую) странички, пусть и цифровые, но сидя дома.

Поэтому сначала был планшетный сканер Mystek BearPaw2400, тонкий, с питанием от USB, но ужасно медленный. С уменьшением стоимость цифровых камер (и ростом разрешения) его заменил отличный быстрый фотоаппарат Canon PowerShot A720IS (имхо, один из лучших в линейке PowerShot-ов).

Именно с его помощью я прочувствовал всю мощь оптической стабилизации :). Вопрос со скоростью сканирования был решен, но в угоду спешке пострадало качество. Чтобы не ходить по пятьдесят раз и не перефотографировать испорченные/пересвеченные/недосвеченные и т.п.

страницы было решено решать возникшие проблемы программно.

Опыт, наработанный в результате изысканий (и десятков отсканированных книг) вылился в целые серии статей, посвященных особенностям обработки сырого книжного материала и доводки его до состояния «неплохой djvu копии». В том числе причиной написания были вопросы друзей и знакомых «а как это djvu сделать вообще, мне вот дали хорошую книгу на пару дней». Ниже привожу, на всякий случай ссылки:

  • Цифровое «книгопечатание». Книга за 5 минут. Часть 1, часть 2
  • Цифровое «книгопечатание» Пошаговое руководство по оцифровке книг. Часть 1, часть 2, часть 3
  • Цифровое «книгопечатание». Фотоаппарат вместо сканера Статья

Увлечение сканирование пришлось на то время, когда только начинал наполнятся twirpx и нормально работал avaxhome.

Отсканировав около полусотни книг, постепенно начали выкристализоваться алгоритмы, которые бы позволяли получать материал удобный для чтения на 10″ планшете (не говоря уже про монитор компьютера) достаточно высокого качества и при этом экономить время, которое затрачивается на обработку одной книги.

Честно скажу, мне несколько раз очень хотелось сделать настоящий книжный сканер, вроде описанного на Хабре (Книжный сканер своими руками), или еще лучше такой как cделал крутой немецкий дедок (видео ч.1, ч.2, ч.3).

Но мысли о самоделках посещают тогда, когда есть уйма свободного времени для размышлений (и материал, и инструмент и т.д., и т.п.). Чаще же всего этого под рукой нет, а книга нужна.

И нужна срочно, да еще и в приемлемом качестве.

Поэтому уже довольно давно я пользуюсь несложным программно-аппаратным комплексом, который позволяет мне создавать довольно качественные копии книг за короткое время. К примеру на обработку одной 300 страничной книги (начиная от фотографирования и заканчивания кодированием в djvu) уходит примерно час, с использованием ПК на базе AMD Athlon II X4 640/16 Gb RAM/4 Tb SATA 3.0 HDD.

Быстрая оцифровка учебников своими руками То же самое, но снятое под другим углом 🙂Быстрая оцифровка учебников своими руками

  • В джентельменский набор железа мобильного цифрового книгопечатника входят следующие позиции:
  • 1) Смартфон Nokia PureView 808 2) Подвижный штатив-струбцина 3) Крепление для смартфона
  • 4) Bluetooth пульт управления Coco CC-PC101

Смартфон от Nokia выбран за свою надежность и максимальный размер матрицы. Ну и люблю я его очень 🙂 (и на Хабре ему пели дифирамбы).

Из недостатков можно отметить то, что в отличие от Android-смартфонов мне пришлось довольно долго искать подходящий пульт, который бы заработал с моим телефоном. В итоге я остановился на Coco CC-PC101.

Притом этот пульт работает только с программой CameraPro (cтандартное приложение его не подхватывает). При использовании Android подойдет любой копеечный пульт с Aliexpress.

Быстрая оцифровка учебников своими руками Работает принцип 'книга поменьше-штатив пониже'Быстрая оцифровка учебников своими руками Быстрая оцифровка учебников своими руками

Подвижная штанга, с помощью которой можно регулировать высоту смартфона над книгой — обычная селфи-палка палка-себяшка, но с наличием в нижней части стандартной резьбы 1/4″ для прикручивания к струбцине/любой другой стойке. На aliexpress много вариантов, мне по цене/параметрам понравился «монопод для GoPro Hero 5 4 3»

Быстрая оцифровка учебников своими руками

Крепление для смартфона тоже первое попавшееся с резьбами 1/4″, не самое дешевое (в отличие от проволочных вариантов), но мне понравилось своей формой. И пока никаких проблем с ним нет.

Штатив-струбцина — советского производства УТМ ЛСНХ. Чистый дюралюминий, настоящая радость для инженера, ну и просто очень надежный инструмент с множеством регулировок.

Смартфон у меня достаточно тяжелый, + вес телескопической штанги, поэтому пластиковым китайским струбцинкам я не доверяю. Но они имеют место быть.

Дополнение: При фотографировании в полевых условиях ч/б книг очень важным фактором является освещенность. Естественной (свет в библиотеке) часто бывает недостаточно. Помочь решить эту проблему могут переносные фото-лампы с aliexpress:

Быстрая оцифровка учебников своими руками

Из преимуществ можно отметить малый вес и встроенный башмак с резьбой 1/4″ для крепления на стандартный штатив. Можно взять несколько таких ламп и расположить вокруг объекта фотографирования для создания равномерного освещения. Чтобы удобнее было лампы крепить — можно дополнительно к ним приобрести фото-клипсы с креплением 1/4″ на том же aliexpress:

Быстрая оцифровка учебников своими руками

Сам процесс фотографирования особой сложностью не отличается. Книга располагается так, чтобы попадать в фокус камеры и с помощью пульта происходит фокусировка/съемка. Перевернули страниц — «фокусировка/съемка». При этом располагать книгу я стараюсь так, чтобы были видны все края (это нужно для выравнивания изгиба страниц в программе ScanTailor).

Несколько хвалебных слов о ней. Раньше мне приходилось использовать либо довольно капризную (часто вылетала с ошибкой) и платную программу BookRestorer, либо «косноязычную» ScanKromsator (хотя более чем уверен, что у нее найдутся свои фанаты 🙂 ). Но слава богу появилась ScanTailor и жизнь таких вот как я «книгопечатников» сильно упростилась.

Вот что говорит Википедия по этому поводу:

Scan Tailor (англ. scan — сканировать, tailor — портной) — компьютерная программа для обработки изображений, полученных при помощи сканера. Является кроссплатформенной программой и работает под управлением операционых систем Microsoft Windows, Linux и Mac OS X. Высокий уровень программы был отмечен по итогам первого конкурса «Лучший свободный проект России» в 2009 году, проводимым журналом Linux Format Основной плюс программы — это автоматическая обрезка, чистка и распрямление строк. Притом распрямление работает по тому же принципу, что и у японского «робота для сканирования книг» о котором писали на Хабре (Японский сканер оцифровывает книгу в 250 страниц за минуту). Позволю себе выдержку из этой статьи: Открытая книга фотографируется с использованием лазеров (они формируют сетку на поверхности). При этом фотографирование производится сразу с нескольких ракурсов, после чего происходит автоматическое объединение всех трех кадров. Разработчики утверждают, что их способ позволяет избежать искажений, обычно проявляющихся при стандартном сканировании.. Тот же принцип используется и в ScanTailor, только расположение разметочной сетки на странице регулируется самим пользователем. Я выравниваю сетку по краям страниц (для этого при съемке они должны быть видны). Пример страницы без распрямления строк Пример страницы с использованием распрямления строк После окончания работы программы в папке out будут готовые страницы. Их загружаем в любой конвертер DJVU (выбирать можно на сайте). Я использую DEE

Источник: https://habr.com/post/425113/

Бюджетный сканер для книг — после покупки доработать напильником • Статьи • Кировская Молекулярная Биология

Понадобилось как-то отсканировать редкую книгу, выпуска 70-х годов прошлого века в стране, которой больше нет. Я это к тому, что надеяться на перевыпуск книги — это, как минимум, наивно.

Сказано-сделано. Берем у знакомого в аренду сканер. И тут всё как заверте… Чужую редкую книгу уродовать и гнуть нельзя. Соответственно, при попытке отсканировать страницу у корешка отрезается полтора-два сантиметра, что категорически неприемлемо.

Но как-то же книги сканируют? Гуглим сканер для книг купить. Нагуглили. Читаем описание — подходит. Отлично! Смотрим цену… СКОЛЬКО-СКОЛЬКО??? ВСЕГО 299 000 РУБЛЕЙ??? А, это профессиональная модель…

сканирует сразу разворот, нам такое не надо…

Гуглим дальше: бюджетный сканер для книг купить. Нагуглили. Читаем описание:

Из всех сканеров, имеющихся на рынке, для сканирования книг в больших количествах нет ничего лучше.

Эти планшетные сканеры отличаются высоким корпусом и прозрачным основанием, выполненным «в край» — так, чтобы на него можно было уложить книгу, не ломая и не деформируя корешок.

Такой сканер — идеален для перевода в электронный вид десятков томов, например из библиотеки университетской кафедры.

Сканер заточен под сканирование книг. С этим справляется великолепно. Скорость сканирования одной страницы книги — 4 сек. (ч/б, 300 точ.) Скорость сканирования в цвете при 300 точ., того же размера книги — 4 сек. Сканирование 500 стр. книги занимает 1,5 — 2 часа. Зависит от вас, т.к.

требуется время на переворот страниц. Файлы сохраняются в выбранную вами папку. При повороте книги на 180 град. файлы можно сохранить в удобном положении для чтения и в выбранном вами графическом формате.

Если свою библиотеку желаете перевести в цифровой формат и освободить полки — этот сканер для вас.

Ну-ну… Уже с опаской смотрим цену. Мда… 12 000 руб. С ума все посходили, что ли? Откуда такие цифры? С тоской смотрим на сканер на столе… Потом смотрим на него заинтересовано. Потом бежим в магазин, и покупаем точно такой же сканер, потому что чужой ломать нельзя, а свой — можно. В чем разница между сканером для офисного планктона и библиотечным сканером? Если не вдаваться в технические подробности, характеристики оптической матрицы и софт, то разница в двух вещах: цена и широченный бортик по периметру. У библиотечного сканера с одной стороны бортика нет. То есть, по большому счету, это такой маркетинговый ход. Ну а теперь берем в руки наш Canon LIDE 110. Открываем крышку, и изучаем поверхность. По периметру 15 мм пластика. Именно этих 15 мм нам при сканировании и не хватает. Будем исправлять. Аккуратно подцепляем скальпелем пластиковую накладку справа и отрываем. Китайские товарищи прилепили ее на двусторонний скотч прямо к стеклу. Счищаем остатки скотча, изучаем. Между краем пластикового корыта, в котором и находится начинка сканера и краем стекла — 7 мм. Разогретым шпателем проплавляем края корыта до стекла, и, перевернув сканер — срезаем пластик, который мешает корешку книги лечь вплотную на срез стекла. Срезаем резаком из ножовочного полотна, постепенно, чтобы не намусорить опилками на линзы и не растрясти механику. Проверяем как сканирует: нормально сканирует, теперь с торца срезает только 5 мм. Немного подумав, отрываем вторую накладку, слева, и, чуть-чуть приподняв, сдвигаем стекло влево до упора. А вот теперь, наш Canon LIDE 110 за 1800 рублей превратился в библиотечный сканер. Книга укладывается корешком на угол стекла, зазоров нет, качество сканирования — идеальное. Кроме того, программное обеспечение сканера достаточно удобное, позволяет поворачивать картинки, обрезать края и автоматически ориентирует страницу по положению шрифта. Такой вот библиотечный сканер за смешную сумму. Прав был старый советский анекдот:

Читайте также:  4 в одном инструменте - молоток, пила, мачете и гвоздодер своими руками

После сборки тщательно обработать напильником!

Фотоальбом

Источник: https://molbiol.kirov.ru/articles/110.html

Как сканировать книги и каталоги библиотеки: технологии и практика

Почему библиотека является наиболее ярким образом системологии – фундаментальной науки, изучающей организацию процессов и явлений в мире? Ответ кроется в фонде и справочно-поисковом аппарате библиотеки.

Для обычного читателя книги на полках и есть фонд, но это не совсем так.

Библиотечный фонд – это сложная по структуре совокупность документов, представленных на различных носителях информации, соответствующая определенным отраслям знаний и связанная со специализированным поисковым механизмом на основе карточного каталога.

Даже размещение журналов на стеллажах библиотеки основываются на научном подходе: информетрический закон Брэдфорда объясняет закономерность распределения статей по изданиям и тем самым позволяет с большой вероятностью спрогнозировать востребованность материалов, исходя из специфики информации.

Иначе говоря, библиотекам удалось создать идеальную систему классификации и структурирования информации, которая позволила решить проблему хранения и поиска огромных объемов данных из любых источников.

Для этого были разработаны специализированные библиотечные классификаторы, регламентирующие распределение и расстановку фондов, методы организации систематических каталогов, стандарты оформления и учета документов.

Об оцифровке

Когда мы говорим об оцифровке книг любой библиотеки, то, помимо сохранности оригиналов и обеспечения аутентичности электронной копии, необходимо помнить о сохранении идентичности структуры классификации и поиска информации в бумажном и электронном фонде. Другими словами, сканирование книг требует обязательного создания электронного каталога и формирования индексно-поисковой базы данных с максимальной полнотой наполнения.

  • Проекты по созданию электронных ресурсов библиотек являются одними из самых сложных и насыщенных с точки зрения трудозатрат,
  • применяемых методологий и технического исполнения.

Возникает естественный вопрос – зачем? Зачем при такой сложности реализации подобных проектов затевать оцифровку библиотечных материалов, ведь «книги могут храниться веками», да и «вообще в библиотеку уже никто не ходит»?

Это ошибочное мнение. В последние годы библиотеки активно меняются, внедряют современные технологии и стандарты обслуживания для удовлетворения потребностей нового поколения читателей, воспитанных на свободе использования цифрового контента.

Принимаются программы по переоснащению, в практику работы вводятся индексы эффективности деятельности, создаются единые каталоги, региональные и краеведческие электронные коллекции. В 2015 г.

запущена Национальная электронная библиотека (НЭБ), для развития которой проводится регулярная оцифровка фондов российских библиотек.

Не стоит забывать и о сохранности бесценных знаний и культурных ценностей, накопленных в книгохранилищах по всей стране. Для этих целей оцифровка – самый эффективный способ сохранения изданий и обеспечения безопасного доступа к содержащейся в них информации.

Электронный каталог

Проект в одной крупной библиотеке продолжался с 2003 по 2011 гг. В ходе проекта было выполнено сканирование и индексирование более 2 млн карточек систематического каталога на русском и иностранных языках. В АБИС перенесены данные по 17 полям с каждой карточки.

Основа основ автоматизации современных библиотек – создание электронного каталога и наполнение автоматизированной библиотечно-информационной системы (АБИС). АБИС необходима для автоматизации учета фондов. А полноценный электронный каталог значительно увеличивает эффективность и скорость поиска информации, значительно повышая общее качество обслуживания читателей.

Как правило, в библиотеке ведутся несколько видов каталогов: алфавитный, в котором все карточки расставлены по алфавиту; систематический, где карточки расставлены по отраслям знаний. Существуют каталоги, разделяющиеся по охвату фонда: генеральный или отдельных частей фонда; по назначению: читательский или служебный; по многим другим признакам: краеведческий, предметный и т.д.

  1. При большом количестве фондов оцифровка всего каталога – довольно длительный процесс,
  2. который обычно проводится поэтапно.

Основа каталога – это библиотечная карточка, содержащая информацию об издании, индексы классификации, номер книги (ISBN) и другие данные.

Ввиду большого объема специфической информации, карточка является сложнейшим документом для извлечения индексных данных.

Еще больше затрудняют обработку информации записи на иностранных языках, рукописный текст или диакритические знаки (различные надстрочные, подстрочные, реже внутристрочные символы).

Одна библиографическая запись может содержать до 24 разных полей.

Перенос записей в систему напрямую с бумажных носителей нецелесообразен из-за низкой скорости и риска потери/пропуска ключевой информации, поэтому работы по созданию электронного каталога подразумевают обязательное предварительное сканирование библиотечной картотеки, формирование и проверку индексной базы данных перед загрузкой в АБИС.

Даже в небольшой библиотеке количество карточек исчисляется тысячами единиц.

В таких условиях искать собственные кадровые и технические ресурсы и самостоятельно заниматься формированием электронного каталога практически невозможно, поэтому для экономии времени и денег привлекаются профессиональные подрядчики, которые специализируются на обработке библиотечной информации и готовы гарантировать итоговый результат.

Типовой технологический процесс создания электронного каталога

Оцифровку целесообразно производить на территории библиотеки, чтобы не изымать библиотечные карточки из использования и не нарушать работу с читателями. Процесс делится на несколько этапов:

Экспертиза. Оценивается физическое состояние карточек и объемов картотеки. Определяется состав библиографического описания и требуемый формат машиночитаемых записей.

Исходя из полученных данных, составляется дальнейшая технологическая цепочка работ. На перечень работ и методы извлечения данных влияют нюансы в написании символов, формате и даже составе материала (картон, бумага).

Ниже приведены возможные типы карточек:

Современное оборудование позволяет достигать скорости сканирования 170 карточек в минуту, при этом выбор профессионального сканера позволяет избежать повреждения самих карточек.

  • добавочная карточка. Особенность: печатные и рукописные символы,
  • разделитель. Особенность: отличный от стандартного формат карточки,
  • ссылочная карточка. Особенность: только рукописные символы,
  • описание. Особенность: старорусский текст.

Сканирование. Поточное сканирование бумажных карточек осуществляется на высокоскоростных документных сканерах. Стандартные требования к оцифровке: разрешение 300 dpi, черно-белый режим сканирования, формат файлов TIFF или JPEG.

Большинство карточек типового размера 130х80 мм, но встречаются до формата А6 (148х105 мм) включительно. Иногда перед сканированием производится склейка поврежденных карточек.

Часто проводится двустороннее сканирование карточек, где на обратной стороне содержатся инвентарные номера, разбивка по филиалам. Незначимые карточки-разделители не сканируются.

  • После оцифровки бумажный массив картотеки приводится в исходное состояние. Все последующие работы проводятся с полученными
  • графическими образами карточек.

Обязательно должны проводиться поворот перекошенных изображений, удаление фона, проявление слабоконтрастных символов и т.д.

Свойства электронных копий должны исключать потерю информации и не ухудшать читаемость документа по сравнению с бумажным оригиналом. В случае плохого состояния исходного материала допускается использование программных средств улучшения качества изображений.

Вся обработка изображений выполняется в автоматическом режиме. Возможна ручная коррекция геометрии образов, очистка от шумов и следов сгиба при необходимости обработки небольшого количества поврежденных документов.

Даже в случае набора текста на печатной машинке, далеко не все символы распознаются корректно. Автоматическое распознавание рукописного текста, карандашных пометок и карточек, созданных до середины 20 века практически невозможно.

Количество графических образов должно совпадать с числом листов бумажного массива. Нормой стало сканирование в порядке следования карточек каталога. Пропуск страниц считается браком.

Ретроконверсия: ввод информации с отсканированных карточек и формирование базы данных. Карточки могут содержать машинопечатный и рукописный текст, карандашные пометки, нечеткие символы и иметь другие особенности заполнения.

В редких случаях, при хорошем качестве документа, содержащего печатный текст, можно использовать программные средства распознавания для автоматического извлечения определенных полей карточки.

Перед ретроконверсией производится сепарация (сортировка) изображений с целью группировки отдельных частей массива по типам карточек и другим признакам индексирования (сцепка составных карточек, создание блоков данных для томов, разделение по языкам и т.д.). Производится разметка блоков для удобства извлечения данных оператором.

На выходе формируется база данных в требуемом для библиотеки формате (RUSMARC, UNIMARK, MARC21 и др.). В некоторых случаях при создании электронного каталога предметом обработки могут служить напрямую графические образы книг. Тогда к работе привлекаются операторы, владеющие знаниями правил составления библиографических описаний.

Требования к минимальному проценту ошибок в базе данных очень высоки, так как это напрямую влияет на качество поиска информации в электронном каталоге. Поэтому после ввода данных присутствует этап проверки по различным параметрам опытными верификаторами.

  1. Для ускорения процесса ретроконверсии используется технология заимствования, упрощающая ввод информации за счет автоподбора заполнения полей
  2. на основе ранее введенных данных.

Сканирование книг

Многие библиотеки уже обладают профессиональными планетарными сканерами для ежедневной оцифровки книг.

Но собственными силами в основном сканируется поступающая литература. Для массовой качественной оцифровки обычно заказываются аутсорсинговые услуги. Так, в одной крупной федеральной библиотеке с 2008 по 2014 гг.

оцифровано более 16,5 млн страниц библиотечных и архивных фондов силами привлеченного подрядчика.

После создания электронного каталога или параллельно этому процессу библиотеки решают задачи по обеспечению сохранности и доступности книжного фонда путем оцифровки книг. Работы по оцифровке проводятся для наполнения национальных электронных проектов, создания коллекций редких книг и полнотекстовых ресурсов, собраний тематических иллюстрированных материалов и много другого.

Библиотеки могут проводить работы по оцифровке фондов самостоятельно. Например, в крупных библиотеках организованы целые отделы сканирования, располагающие парком профессионального оборудования.

Важным аспектом являются характеристики цифровых копий. Если решаются локальные задачи, библиотека может самостоятельно определять требования к выходным электронным ресурсам. Но при реализации национальных проектов, где используются фонды различных библиотек, необходим общий стандарт, регламентирующий основные характеристики работы.

  • При создании НЭБ электронные ресурсы, созданные техническим исполнителем и библиотеками самостоятельно, имели разные параметры оцифровки,
  • что усложняло работу по обработке и загрузке цифрового контента.

Поэтому отраслевым экспертным советом были подготовлены «Рекомендации по оцифровке материалов из фондов библиотек»*, которые показывают принцип создания электронных библиотечных ресурсов. В рекомендациях указаны три вида цифровых копий.

Мастер-копия – эталонная копия оригинала в полиграфическом качестве (разрешение не ниже 600 dpi). Пользовательская копия – для создания электронных коллекций и предоставления читателям (разрешение не ниже 300 dpi).

Служебная копия используется для внутренних задач библиотеки и размещения на web-сайтах (разрешение не ниже 150 dpi).

Читайте также:  Кулон - шкатулка из дерева своими руками

Особенности сканирования книг

При оцифровке книг этапы работ повторяют процесс создания электронного каталога.

Действует библиотека самостоятельно или нанимает подрядчика, но так или иначе в первую очередь необходимо определить цель проекта и провести экспертизу книжного фонда для понимания стоимости и трудоемкости работы.

В дальнейшем формируется состав подлежащих оцифровке изданий, согласовываются технические требования, и производится окончательная оценка проекта.

Рассмотрим несколько особенностей оцифровки книг, которые влияют на стоимость и сроки проектов. Большое значение имеет формат и состояние книг, а также объем бумажного фонда. Исходя из этих особенностей, определяется вид сканирующего оборудования и технологии оцифровки.

Ветхая, рваная бумага, а также толстый переплет многих книг позволяет применять только бесконтактное сканирование – профессиональные планетарные (книжные) сканеры. Использование планшетных сканеров исключено.

После сканирования полученные цифровые копии проходят процесс программной коррекции, приводятся к наиболее удобному для чтения качеству изображений.

Зачастую при использовании профессиональных книжных сканеров для этого достаточно встроенных программных средств обработки.

После получения массива цифровых копий при необходимости составляются библиографические описания отсканированных изданий.

Отдельно стоит выделить работы по высококачественному сканированию коллекций редких книг, книжных памятников, фолиантов и других ценных экземпляров. Для этого используются специализированные комплексы высококачественного сканирования, обеспечивающие уникально высокие показатели оптического разрешения.

Особенности формирования полнотекстовых PDF-книг

*В Гражданском кодексе РФ (ч. IV в ред. 2006 г.) статьями 1274 и 1275 допускается без согласия автора предоставление экземпляров произведений, правомерно введенных в гражданский оборот во временное безвозмездное пользование.

Но цифровые экземпляры произведений могут предоставляться только в помещениях библиотек при условии исключения возможности создать копии этих произведений в цифровой форме.

Для предоставления доступа к ограниченным изданиям в среде национальной электронной библиотеки был разработан специальный защищенный просмотровщик для удаленной работы граждан с произведениями в электронной форме.

Но цифровых копий порой бывает недостаточно. Существуют задачи по превращению изображения в полноценную электронную книгу. На основе графических образов формируются электронные книги в формате PDF.

Этот формат наиболее универсален и позволяет осуществлять полнотекстовый поиск и навигацию по оглавлению и гиперссылкам.

Электронные книги, не ограниченные авторским правом, можно публиковать в интернете или давать «защищенный» доступ в читальном зале библиотеки*.

Для создания таких книг проводится полнотекстовое распознавание с дальнейшей верификацией текста и проверкой орфографии. Для окончательной вычитки документа привлекаются профессиональные корректоры.

  1. В результате макетирования формируется электронная книга, полностью идентичная бумажному оригиналу — с точным расположением страниц,
  2. иллюстрациями, сохранением языка и стиля.

Оцифровка книг и каталогов библиотек, особенно при существенном объеме, разнородности фондов по формату и состоянию оригиналов, – сложнейший производственный процесс, осуществить который качественно могут только специализированные компании, обладающие всей необходимой инфраструктурой и большим опытом в создании электронных ресурсов.

Короткая ссылка на материал: //cnews.ru/link/a4439

Источник: https://scan.cnews.ru/articles/2016-01-29_skanirovanie_knig_i_kataloga_biblioteki_tehnologii_i_praktika

Цифровое "книгопечатание"

Задеть больную тему
качественного перевода бумажных
изданий в цифровую форму
заставляет сама жизнь. В
электронных интернет-библиотеках
книги появляются довольно новые, но
вот качество их обработки
оставляет желать лучшего. Страницы
не обрезаны, картинки размыты,
текстовый (OCR) слой не добавлен и ещё
много всяких больших и маленьких
огрехов.

Понимаю, бывают случаи, когда
необходимо быстро создать
электронную копию для собственных
нужд, но должно быть совестно
выкладывать такой полуфабрикат в
Сеть и заставлять людей страдать
(ибо чтением назвать процесс
просмотра таких «шедевров»
язык не поворачивается).

Если уж у
вас нет сил, чтобы отсканированный
«манускрипт» привести в
приемлемый вид, — просто
заархивируйте сканы и выложите на
специализированных форумах.

Поверьте, всегда найдутся люди,
готовые пожертвовать своим
временем для создания электронного
варианта книги, за который потом не
было бы стыдно перед её читателями.

Итак, возвращаясь к нашим баранам.
Основы «DJVU-печатания» были
рассмотрены в «Компьютерных
вестях» №№5-6 за 2007 год Андреем
Ачиновичем.

Дабы не переписывать
уже имеющуюся информацию,
остановимся на некоторых нюансах,
связанных, в основном, с качеством
создаваемых сканов книг, а также на
появившихся нововведениях и
улучшениях, с позволения сказать,
техпроцесса.

Времени после
публикации вышеупомянутой статьи
прошло довольно много — появились
новые версии прежних программ, да и
разработаны новые утилиты.

Конечно,
тема процесса создания книг
затёрта уже практически до дыр на
различных форумах и в печатных
изданиях, но, как ни странно,
улучшению качества недавно
отсканированных книг это не
способствует. Цель статьи — поднять
уровень уже существующих
«Гуттенбергов» века
компьютерного и привлечь новичков
к этому важному делу.


Этап первый: сканирование

Здесь особенных премудростей нет
— как правило, выставления
разрешения 300 dpi для страницы в
формате Gray вполне достаточно. Всё
остальное зависит только от
сканера.

Кстати, обложку книги и
особо важные иллюстрации я всё-таки
рекомендую сканировать в цвете (16-
или 24-битном), опять же — для того,
чтобы наша цифровая книжка
получилась красивая. Кроме того,
желательно разворот книги на
сканерном стекле особенно не
перекашивать и не менять каждый раз
его местоположение.

Потом будет
проще всё лишнее обрезать (не стоит
полностью уповать на возможности
автоматического разворота и
разрезания страниц, имеющихся в
пакетах типа ABBYY FineReader).

Сканировать в разрешении больше
300 dpi смысла нет, так как, во-первых,
увеличивается износ механики
сканера (к примеру, мой старый Mustek
12000 SP+ на 300 dpi сканирует страницу за
один проход, а на 600 останавливается
четыре раза), а во-вторых,
разрешение впоследствии можно
исправить вручную, с помощью
специализированного ПО (об этом
ниже). Сканирование, на мой взгляд,
во всей технологии e-book самый нудный
процесс, и тенденции к облегчению и
упрощению пока не намечается. Всё
равно переворачивать страницы
приходится вручную. Хотя, к примеру,
в некоторых сканерах производства
HP возможности пакетного
сканирования сводят неудобства до
минимума. Настроил один раз
качество и разрешение сканируемой
картинки — и знай себе
переворачивай страницы да не
забывай нажимать кнопку «Scan»
на крышке сканера. Всё остальное
уже сделает автоматика. В
результате в выбранную папку будут
ложиться готовые сканы.

Что же касается владельцев не
столь продвинутой техники, то им
придётся пользоваться старым
добрым IrfanView с установленным
специализированным плагином AutoScan (labun.com/autoscan.zip)
от Eugen Labun. Скачиваем данный архив со
страницы автора и распаковываем
файлы autoscan.vbs и AutoWindowEnabler.exe в
директорию с установленным IrfanView.

Далее заходим в меню Файл >
Получить/Отсканировать, выбираем
режим сканирования «Одно
изображение» и сканируем и
сохраняем образец с нужными нам
параметрами. Назвать первый скан
лучше всего 001.* (так советует автор).
Теперь запускаем распакованный
ранее файл autoscan.vbs.

Программа
покажет заданные ранее параметры и
после нажатия на «OK» начнётся
автоматическое сканирование через
определённые промежутки.

Файлы сохраняются с именами 001.*,
002.*, 003.* и т.д. в ту же директорию, где
и первый файл. Файл AutoWindowEnabler.exe
предназначен для слежения за окном
IrfanView (часто бывает, что во время
открытого TWAIN-диалога окно
просмотрщика становится
неактивным, а то и вовсе исчезает с
экрана).

Кстати, если вдруг скрипт
что-то воспроизводит не так, как бы
вам хотелось, или просто нужно
изменить настройки — достаточно
просто ещё раз произвести тестовый
запуск IrfanView, а потом опять
запустить макрос. Или же, щелкнув
правой кнопкой мыши по файлу
autoscan.

vbs, выбрать «Изменить» и
внести необходимые параметры
вручную:

' You can change these settings:
StartingIndex = 1
Increment = 1
NumberOfDigits = 3
SkipExistingFiles = True ' True or False
DelayBetweenScans = 0 ' Seconds
SetScanDPI = False ' Try to set to True only if
Your scanner does not preserve scan resolution
DPI = 300 ' has no effect if SetScanDPI is False

Как можно догадаться, StartingIndex
показывает порядковый номер
первого файла (от которого будет
вестись счёт), Increment — величину, на
которую будет увеличиваться
порядковый номер каждой новой
сканируемой страницы. NumberOfDigits —
число знаков в цифровом индексе
файла.

DelayBetweenScans — задержку между
окончанием одного прохода сканера
и началом следующего (выставляется
она строго экспериментальным
методом и занимает ровно столько
времени, сколько вам потребуется,
чтобы перевернуть страницу).

SetScanDPI —
принудительное задание разрешения
сканирования (необходимо в случае,
если TWAIN-драйвер сканера такой
возможности не предоставляет).
Может принимать значение либо TRUE,
либо FALSE; по умолчанию стоит второе.
DPI — значение разрешения
сканирования в случае выбора
предыдущего параметра «TRUE».

Сохраняем исправленный документ
(отмечу, что лезть ручками можно
только (!) в данную секцию, упаси вас
бог экспериментировать с
остальными, недоступными разуму
рядового пользователя, параметрами
— в результате таких необдуманных
действий вместо картинки можно
получить чёрти что).

Более продвинутым является
использование специальной утилиты
для потокового сканирования PaperCapture
(djvu-soft.narod.ru/recogniform_paper_capture.rar)
от компании Recogniform. После
скачивания архива и его распаковки
первым делом стоит запустить
имеющийся .reg файл, дабы в
дальнейшем избежать неожиданных
действий со стороны программы.
Затем просто запускаем PaperCapture.exe.

В
меню File > Scanner Settings создаём новый
профиль с любым названием и
активируем радио-кнопку рядом со
строкой «This Scanner», где в
выпадающем меню выбираем
установленные на ПК устройства
(если их у вас, конечно, несколько).
Окно «Parameter» позволяет
настроить параметры, с которыми
будет сканироваться каждая новая
страница.

Я выставил минимальное
количество наиболее необходимых:

Auto Rotate=Yes;
Auto Deskew=Yes;

чтобы получаемая картинка
сначала разворачивалась (для
двухстраничного скана), а потом
выравнивалась (всё остальное можно
качественно оформить на этапе
«ретуширования» чернового
материала). Жмём ОК и Ctrl+A.

Остаётся
только наблюдать за процессом
сканирования и контролировать
качество по отображаемым в окне
программы эскизам.

Кстати,
результат пакетного сканирования
можно сохранить не только в
графический формат, но сразу и в
PDF-файл (это на случай сканирования,
к примеру, конспекта лекций).

Для любителей «глубокого
копания» могу посоветовать
использование пакета FastScan, который
вместе с инструкцией по
использованию можно скачать с
«рапидшары» (rs101cg2.rapidshare.com/files/
36486343/11054328/FastScan.rar).

За основу там
берется уже нам знакомый IrfanView,
утилита-автоматизатор AutoRecorder 3.3 и
программа для точного определения
положения курсора Pixie 3.1.

Первоначальная настройка ведется с
помощью встроенной в Windows утилиты WIA
(предназначенной специально для
работы с цифровыми фотоаппаратами
и сканерами). Доступна работа с ней
после установки драйверов на
оборудование, в которых имеется
поддержка вышеупомянутой
программы.

Так как у меня в наличии
таких драйверов не было, особенно
акцентировать внимание на
настройке этого комплекса программ
и создании скрипта для
сканирования я не стал. Скачав
вышеупомянутый архив, внутри можно
найти очень подробное
иллюстрированное руководство по
работе с комплексом программ.

Читайте также:  Воздушный змей своими руками

Так
что если предложенные мною способы
вас чем-то не устроят — всегда есть
возможность пошевелить мозгами и
попробовать данный способ (опять
же, при условии, что в наличии у вас
имеется подходящая модель сканера,
а это практически все современные
модели).

Применять для сканирования ABBYY
FineReader всех версий до 9-й я не
советую, ввиду того, что зачастую
текст необратимо перекашивается. В
9-й же желательно в меню Options убрать
галочку рядом со строкой
«Исправлять перекос страниц».

Что касается формата, в котором
будет сохраняться черновой
материал, то лучше всего
использовать TIFF, потому что широко
популярный JPEG размывает картинки,
что в случае копии книги, по-моему,
совершенно неприемлемо.

Формат TIFF в
случае сканов оттенков серого и
цветных даёт лучшие результаты со
сжатием по механизму LZW (без потери
качества), для битовых чёрно-белых
лучше всего применять сжатие по
механизму CCIT FAX G4 (если вы сразу
сканируете материал такой
«битности»).

Принципиальная их
разница для рядового пользователя
только в том, что каждый
используется для своей
определённой глубины цвета.

Итак, все основные нюансы мы
обсудили. Сканируем выбранную
книгу, а после окончания переходим
ко второму этапу: ретушь и
облагораживание. Впрочем, об этом
уже в следующей части статьи.

(Продолжение следует)

Сергей БЕСАРАБ aka
stean,
helpfaq@tut.by

Источник: https://www.kv.by/archive/index2008343001.htm

Быстрая оцифровка учебников своими руками

  • Вот и внучка уже на втором курсе в университете учится, а тема до сих пор еще не потеряла свою актуальность.
  • Около пяти лет назад, когда внучка в 9 классе готовилась к экзаменам, я обнаружил пренеприятную проблему; собранный внучкой школьный портфель был до пуда весом.

Это, чтобы его до школы и обратно носить и не подорвать свое здоровье, нужно дружить с парочкой — тройкой преданных юношей — акселератов.

Чтож, проблема поступила, будем ее решать без мальчиков. Благодаря дедовой пенсии, внучка приобрела большеэкранный и не очень дорогой планшет.

Планшетом решено было пока пользоваться, как обычным ридером, только в цветном варианте. На планшетнике установил специальную программку для того, чтобы было удобнее читать электронные книги, страницы перелистываются пальчиком, как в обычной книжке, масштаб легко изменяется.

Своего сканера у меня не было, а одалживать у чужих — хлопотно это, а кто сканировал большие объемы документов, знает, что это еще и муторное дело. Решено было оцифровывать учебные материалы с помощью цифрового фотоаппарата.

После ознакомления и изучения материалов по данной теме в сетях интернета, было изготовлено простое приспособление для работы фотоаппарата в роли сканера, использовались обрезки алюминиевой композитной сайтинговой панели (алюкобонда).

Процесс теперь гораздо быстрее и значительно легче. Перед оцифровкой книги фотоаппарат центрируется по центру странички перемещением регулировочной платы. Кнопками зуммирования кадр компонуется на всю страничку. Осталось перелистывать странички и нажимать на кнопку спуска.

Прижимное стекло для страничек — противобликовое, потому к освещению не критично. За полчаса работы можно оцифровать до 250 страниц книги. Естественно, на сканере качество печати выше, но практика доказала, что такого качества для прочтения книг вполне достаточно.

Для оцифровки документов использовалась простая утилита JPEG to PDF.

  1. И вот, у внучки уже имеются все учебные материалы в электронном виде, записанные на флешке и она заходит в школьный класс с небольшим модным рюкзачком, в котором лишь легкий планшетник и парочка тетрадочек с ручками. 
  2. Источник

Источник: https://sdelaisam.mirtesen.ru/blog/43145127149/Byistraya-otsifrovka-uchebnikov-svoimi-rukami

Изготовление электронных книг при помощи фотоаппарата

В период обучения в институте мне неоднократно приходилось сталкиваться с ситуацией, когда нужно было воспользоваться литературой из институтской библиотеки. В силу редкости экземпляров книг и широкого спроса на них в предсессионный период, работать с ними можно было только в читальном зале или взяв на одни сутки домой. И тот и другой вариант не позволяют провести серьезную работу с источниками при написании курсовых и дипломных работ. Самый удачный выход в такой ситуации — перевод книги в электронный вид.На рынке оборудования можно встретить достаточное количество предложений, предназначенных для сканирования книг. Однако большая часть этих решений ориентирована на корпоративный и государственный сектор, имея стоимость хорошего автомобиля. Правда встречаются исключения, как например, сканеры линейки OptiсBook фирмы Plustek. Но и они стоят в 3-4 раза дороже обычных сканеров. Анализ ряда решений для сканирования книг на рынке показал, что они представляют из себя штатив для книги, камер и источников освещения. Подобную технологию можно легко имитировать дома, при наличии цифрового фотоаппарата с матрицей не менее 4 Мпикс. Хорошим подспорьем будет возможность управлять камерой с компьютера по USB при помощи специальных программ (например Cam2Com)Для оборудования рабочего места необходимо прямоугольное стекло толщиной 4-6 мм, по ширине, превышающее книгу не менее чем на 10 см. Длина должна быть достаточной, чтобы на нём можно было создать противовес, в роли которого идеально подходят 5-6 книг большого формата (рис.1). Отличный вариант для выбора стекла — стеклянные дверцы шкафов старых мебельных стенок или шкафчиков. На стекло необходимо нанести маркеры, по которым вы будете определять размещение сканируемой книги. Это могут быть как отметки на обратной стороне стекла, так и приклеенные к нему реечки, позволяющие точно позиционировать книгу. Сканируемая страница будет укладываться на стекло сверху, так чтобы корешок разворота упирался в край стекла. Такой вариант размещения книги позволит добиться постоянного расстояния до фотоаппарата и отсутствие изгибов страницы, требующих дополнительной коррекции специальным программным обеспечением (например Book Restorer фирмы i2s.После того как создана поверхность для сканирования, самое время заняться источниками освещения. Для этого необходимы 2 лампы-прищепки, с вращающимися головками. В них следует установить энергосберегающие лампы (люминесцентные) с эквивалентной мощностью 40-60 Вт. Можно, конечно, обойтись и обычными лампами накаливания, но они дают желтый цвет, что несколько затрудняет дальнейшую обработку книг, особенно при наличии в последних цветных иллюстраций. Лампы следует прикрепить так, что бы они не давали отражения на стекле, попадающего в объектив камеры, расположенной под стеклом. Оптимальный угол падения лучей на «свою» половину сканируемой страницы 45° (рис.2). В роли опор для ламп отлично подходят кухонные табуретки. Если есть возможность, то на абажуры ламп стоит прикрепить экраны из плотного картона, препятствующие попаданию света на камеру, во избежание появления на стекле блика от объектива и корпуса фотоаппарата.После того, как вопросы освещения решены, осталось заняться размещением камеры. Для этого подойдет штатив с короткими ножками. Оптическая ось объектива фотоаппарата должна быть перпендикулярной поверхности сканирования и направлена в центр сканируемой страницы. Точку, в которую нужно поместить фотоаппарат легко определить с помощью отвеса (нить с привязанным к концу грузилом), приставленного снизу к стеклу в точке, где находится середина книги. Точное положение головки штатива, настройки резкости и экспозицию определяются при помощи пары-другой пробных снимков. Важно добиться максимального заполнения получаемых снимков изображением книги. Обычно это достигается изменением фокусного расстояния объектива (оптический зум). Отсутствие штатива — не помеха. Фотоаппарат можно разместить на двух книгах, подкладывая между ними небольшие предметы для выравнивания его положения. Если цвет корпуса фотоаппарата отличен от черного, то его следует замаскировать черной тканью или черной матовой бумагой. В противном случае возможно появление заметного блика на снимках.

Рис. 1. Схема конструкции. Вид сбоку

Рис. 2. Схема конструкции. Вид спереди

Рекомендации по выбору выдержки и диафрагмы

Следует помнить, что чем больше число диафрагмы (чем меньше она раскрыта) тем больше глубина резкости и тем меньше будут заметны ошибки настройки резкости. Длина выдержки особой роли не играет, так как аппарат находится не в руках и изображение не будет смазываться. Оптимальной будет выдержка в пределах ½ — ¼ секунды.

Формат снимков — предпочтительно RAW или иной, не использующий сжатие с потерей качества. Сохранять снимки на компьютере предпочтительно в формате TIFF, так как именно на этот формат ориентировано большая часть программного обеспечения, создающего PDF и DjVu файлы.

Также этот формат позволяет избежать появление артефактов сжатия изображения, приводящих к ухудшению качества результата.

Обработка фотографий

Итак вами получена серия снимков. Настало время подвергнуть их серьезной обработке. Ниже описано как это сделать используя Adobe Photoshop CS 2.

Если все снимки получены при одинаковых условия, то можно, записав набор действий на одном снимке, обработать по нему весь пакет изображений.Примеры изображений были получены по описанной методике с использованием фотоаппарата Olimpus C-3020 Zoom.

Размер матрицы — 3,2 Мпикс, снимки делались в формате jpeg. Этого было достаточно для чтения книги с экрана и распознавания текста. Но для перевода в DjVu, на мой взгляд этого мало — слишком много дефектов на окончательном изображении.

Рис. 3.1. Исходное изображение полученное с фотоаппарата

Рис. 3.2. Фрагмент изображения

1. Для начала следует произвести в пакетном режиме обрезку снимков (Crop) и поворот (Rotate) нечетных (или четных) страниц. Цвет обрезанных страниц преобразуем в Grayscale (градации серого). Затем производится изменение размеров изображений так, чтобы у вас получились изображения разрешением 600 dpi и размерами, соответствующими размерам исходной книги.

Рис. 4.1. Фотоснимок после обрезки, обесцвечивания и изменения размера

Рис. 4.2. Фрагмент изображения

2. Полученные изображения пока еще слабо подходят для преобразования в DjVu из-за низкой контрастности, да и выглядят не очень приятно. Исправляем эту ситуацию при помощи инструмента Curves (Кривые), сдвигая точки белого и черного от краев графика, пока не получится хорошее контрастное изображение с минимумом дефектов.

Рис. 5.1. Фотоснимок после коррекции цвета

Рис. 5.2. Фрагмент изображения

3. Теперь осталось только отбросить промежуточные цвета при помощи инструмента Threshold и понизить палитру цветов изображения до 2х цветов (черный, белый).

Рис. 6.1. Окончательный вариант изображения, готовый к конвертации в DjVu/PDF

Источник: https://www.perunica.ru/rukodelie/6101-izgotovlenie-elektronnyh-knig-pri-pomoschi-fotoapparata.html

Ссылка на основную публикацию
Adblock
detector