Как оцифровать книгу

Давай посмотрим как оцифровать книгу очень быстрым и домашним способом.

Оцифровка книги всегда состоит из двух частей: в первой вы получаете изображение текста, а во второй - это изображение обрабатывается OCR, un Программное обеспечение для оптического распознавания символов

Оцифровка книг в электронные книги

Традиционно книги сканировались страница за страницей, это очень медленный процесс, который был сложным из-за корешков книг, которые искривляли страницы, и затем OCR не распознавал слова должным образом. Обратите внимание, что многие люди отвязывают их, чтобы облегчить процесс сканирования.

Поэтому вместо сканирования страниц мы собираемся сфотографировать его. Я работаю с 10-мегапиксельной компактной камерой, но это можно сделать даже со смартфоном.

Как оцифровать книгу дома

Как видите, это очень самодельная и дешевая система, но даже в этом случае менее чем за час у меня была 120-страничная книга в цифровом формате (без макета) и без спешки.

И не думайте, что это используется только для пиратских книг, что вы можете идеально использовать его для оцифровки своих классных заметок и иметь возможность учиться с помощью ридера, iPad или ноутбука.

Система оцифровки книги

Нам понадобится

  • Одна камера фотографий
  • Штатив
  • Картоны и лента
  • Кристалл

Первое, что нужно сделать, это построить платформу или кафедру для книги, и мы собираемся сделать это из картона. Это очень просто

кафедра для оцифровки книг

На следующем снимке детали, соединенные лентой, будут лучше оценены, за исключением ремней, которые создают жесткость конструкции, поэтому мы убираем 2 стержня, и мы можем сложить кафедру и хранить ее, не занимая

как сделать кафедру из картона

пюпитр и опоры

важна деталь позвоночника. В зависимости от толщины книги мы должны адаптировать ее, чтобы книга не была толще и не имела проблем.

кафедра оцифровки книги с камерой

деталь позвоночника кафедры

Если вы хотите, чтобы здесь все пережевано, я оставляю вам размеры того, что я построил. Он измеряется в см, а x2, x4 - это количество штук, которые вам нужны для каждого из них.

Спланируйте построить кафедру и оцифровать книги

Сборка дигитайзера книги

Сборка для оцифровки книг

Мы будем использовать стекло, чтобы сплющить страница для фотографии, вы должны быть осторожны с отражениями от стекла, поэтому лучше всего делать это при естественном свете, который падает сбоку.

и вы должны поместить камеру так, чтобы она занимала всю страницу, как можно ближе (используйте масштабирование) и как можно более центрируя.

создание электронных книг с камерой

Как мы уже говорили, стекло отвечает за то, чтобы лист, который нужно сфотографировать, оставался плоским, мы отодвинем противоположную страницу, чтобы она не отображалась на экране, и позволим ему сфотографировать весь текст.

Если вы посмотрите на эту фотографию, она будет плохо сделана, потому что на ней не берется полный текст.

изображения для ocr

ошибочная страница для ocr

Все поля должны быть видны, слова нельзя вырезать, поэтому очень важно хорошо разместить камеру, чтобы снимки получались

Как мне делать снимки?

[выделено] Я обновляю редактирование изображений шаг за шагом, что является непонятным моментом, и многие из вас спрашивают меня [/ выделено]

Есть несколько методов и программного обеспечения, которые нам помогут. Для меня самый быстрый и удобный способ - сначала сфотографировать нечетные страницы, а потом все четные.

Мы переименовываем их по номерам страниц, чтобы иметь возможность смешивать их, это можно сделать с помощью нескольких бесплатных программ.

И если вы хотите, вы можете повернуть один из двух пакетов, четный или нечетный, потому что они будут выровнены в противоположных направлениях, и в зависимости от используемого OCR у вас могут возникнуть проблемы с идентификацией текста.

Как повернуть изображения с помощью GIMP

Мы будем использовать GIMP, бесплатный редактор изображений и плагин BIMP, который используется для пакетное редактирование изображений. Вот видео, как это будет сделано

Что такое OCR?

Мы на последнем этапе. прогонять изображения через OCR. OCR - это программное обеспечение для оптического распознавания символов, которое распознавать текст на изображении и преобразовывать его в письменный текст который вы можете сохранить как текстовый документ, либо .doc, .odt, либо в других форматах.

Лучшее, что я знаю, это Эбби прекрасный читатель настоящее чудо, но оно платное.

После того, как все оцифровано, «только» мы должны сделать макет, но мы не будем говорить об этом сейчас, если это не заинтересует многих из вас.

Наконец, поскольку кто-то наверняка пытается увидеть, какие книги были в стопке, вот деталь ;-)

книги экспериментов и поделки

Самый быстрый в мире оцифровщик книг

Насколько я знаю, вам нравятся мелочи из видео о работе самого быстрого в мире оцифровщика книг. Это BSF-Auto, он способен сканировать 250 страниц в минуту.

У вас есть больше информации на http://www.k2.t.u-tokyo.ac.jp/vision/BFS-Auto/

35 комментария к "Как оцифровать книгу"

  1. Я благодарю вас за то, что поделились этой хорошей идеей, я один из тех, кто разрывает бумагу, чтобы отсканировать ее, так как это причина нехватки места, это не большая потеря, но у меня есть и другие копии, которые я не хочу получать избавиться от них, и если я их оцифрую, еще раз спасибо.

    ответ
  2. Я рад, что эта идея работает на вас, и вы можете сохранить свои физические тома нетронутыми ;-)

    Если вы можете придумать какое-либо улучшение, это всегда приветствуется.

    приветствия

    ответ
  3. Я считаю, что в учебнике удается общаться, но все еще не хватает данных, чтобы любой смертный негодяй мог делать то, чему он призван здесь научить.

    ответ
  4. Я ищу поддержку, купленную или построенную, для мобильного samsung note II. Он мне нужен для четкого сканирования книг и камеры. То есть вертикальное, наклонное и горизонтальное положения.

    ответ
  5. Привет. Хорошее объяснение и вклад, обычно я просматриваю его, но, как вы говорите, иногда слова не выходят полностью, и это происходит медленнее. Удача

    ответ
  6. Выглядит отлично, я постараюсь его доработать и сделать более эффективным, у меня есть несколько книг, которые я бы хотел преобразовать в pdf: D

    ответ
  7. По словам Ромодольфо, название программы отсутствует для интеграции четных и нечетных страниц, так что это было бы очень полно, какой-то фактор времени, который мы предпочитаем постоянно жевать, спасибо.

    ответ
  8. Для тех, кто не привык управлять сериями изображений, переименование и смешивание четных и нечетных фотографий сбивает с толку.

    Если бы вы могли подробнее рассказать об этом, было бы хорошо.

    ответ
  9. Если вам нужна программа для переименования четных и нечетных страниц, я могу порекомендовать простую программу «Lupas Rename 2000», которую вы очень легко найдете с помощью Google.

    Когда я сканировал книги, и поскольку мой сканер сканировал только одну сторону, сначала он сканировал нечетные страницы, а затем четные страницы, и с помощью этой маленькой программы они мгновенно переименовываются.

    Приветствие.

    ответ
  10. Спасибо за ваш вклад. Что ж, это расточительный верблюд (работа). Спасибо брат.
    Теперь история ставит стакан в университет, ха-ха

    ответ
  11. Здравствуйте, очень интересно. У меня полупрофессиональный рефлекс (никон!) И теперь я знаю, что для него использовать, хе-хе-хе
    Но у меня есть предложение. Вы говорите: «Используйте свою руку, чтобы разгладить лист, который не будет фотографироваться». А почему бы не использовать еще одну пластину из твердого материала? В этом случае вы можете сделать что-то вроде папки (хорошо закрепленной и приклеенной, чтобы она не распадалась) в форме двухстраничной книги, и вы положите их поверх книги, чтобы сфотографироваться. Одна из сторон или листов папки будет из твердого материала; а другой - стеклянное лицо, которым вы делаете снимок на интересующей вас странице.
    Я говорю.
    Спасибо за идею.

    ответ
    • Здравствуйте, большое спасибо за комментарий

      да, это очень хорошая идея, правда в том, что метод, который я оставил, очень простой - оцифровка книги. Если вы собираетесь работать с большим объемом, мы должны внести несколько изменений, чтобы работать быстрее :)

      приветствия

      ответ
  12. Спасибо, оставляю! Также я хотел спросить вас, а если есть изображения или графика, как мне это сделать? Объединены ли изображения так, как они видны в тексте? Или что делать, если на странице есть текст и изображения?

    ответ
  13. Спокойной ночи.
    Мне понравился твой пост. Поздравляю.
    Я не говорю, что я достиг этого, потому что я остался на предпоследнем этапе: макете.
    Сынок, я сотни раз хотел перерезать себе вены, ну что сказать, сотни! ДЕСЯТКИ !!!
    Без шуток, вы окажете мне огромную услугу, если расскажете нам о процессе верстки. Это завершит процесс из одних рук.
    Я призываю вас сделать это.
    Еще раз поздравляю.

    ответ
  14. По правде говоря, поддержка и камера - хорошая идея, но я сомневаюсь в том, что сканировать сначала четные, а затем нечетные и переупорядочивать их, так как я думаю, что это займет много времени, чтобы сделать это вручную или научиться пользоваться программой хе-хе
    Вы также говорите, что после съемки фотография преобразуется в текст, что не похоже на фотокопию, поэтому для изображений или текстовых полей, как это было бы, если бы вы могли лучше представить конечный результат.

    ответ
  15. На ваш взгляд, с мобильным телефоном (8Mpx) лучше со вспышкой или без вспышки в комнате с нормальным дневным освещением?
    спасибо

    ответ
    • Здравствуйте, Евгения, я лично предпочитаю камеру, которая неплохо решает свет. Если это камера мобильного телефона, я рекомендую нормальный дневной свет, но не прямой. После белой занавески, рассеивающей входной свет, или дневного света - в комнате на противоположной стороне от того места, где садится солнце - поскольку вспышка может «сжечь» изображение (то есть оно может получиться очень белым) .
      В любом случае, лучший вариант - передать фотографию (рекомендуется в формате JPEG) через программу сканирования OCR. Обычно эти программы решают проблемы за вас.

      ответ
    • Если вы используете стекло для сглаживания листов, вспышка не позволит сделать снимок, потому что он будет отражаться. При нормальном дневном свете этого должно быть более чем достаточно.

      пока изображения четкие, OCR работает очень хорошо и обнаруживает все

      ответ
  16. Привет! Я хотел бы знать, есть ли у вас сфотографированный лист, чтобы посмотреть, как он выглядит, поскольку камера не очень хорошо это оценивает, кажется, что лист не полный.

    ответ
    • Это изображение нечеткое, вы должны взять весь текст, то, что не видно на изображении, не будет преобразовано ocr, поэтому слова не нужно вырезать. Я собираюсь сделать фото и загрузить его

      ответ
  17. Поздравляю, идея очень понравилась, я прочитал комментарий поставить подставку к листу, который нас фотографирует. Например, вы можете прикрепить к дну стакана оберточную бумагу (толстый картон), которая будет выглядеть как папка, и это поможет сделать это немного быстрее, не так ли?

    ответ
  18. Если вы поместите фотографию в рамку так, чтобы она занимала весь текст на листе, и вам просто не нужен картон, это сработает так же быстро. Если вам сложно кадрировать, это может быть хорошей идеей.

    ответ
  19. Спасибо Начо за руководство.
    При сканировании старой книги листы выходят желтоватыми, грязными, можно ли их почистить?
    привет

    ответ
    • Привет, Антонио. Если вы собираетесь передать его через OCR, вам все равно, потому что он сохранит только текст.

      Если вы собираетесь создать PDF-файл из отсканированных изображений, вы можете редактировать их с помощью Photoshop или GIMP.

      ответ

Оставить комментарий