Vamos a ver como digitalizar un libro de una forma muy rápida y casera.
Digitalizar un libro siempre consta de 2 partes, la primera donde se consigue una imagen del texto y la segunda donde se trata esta imagen con un OCR, un software de Reconocimiento Óptico de Carácteres
Tradicionalmente los libros se escaneaban página a página, este es un proceso muy lento y que resultaba complejo por los lomos de los libros, que curvaban las páginas y luego el OCR no reconocía bien las palabras. ntato que mucha gente los desencuadernaba con tal de facilitar el proceso de escaneo.
Por eso en lugar de escanear las páginas vamos a sacarle fotos. Yo trabajo con una cámara compacta de 10 megapíxels, pero incluso se podría hacer con algún smartphone.
Como ves es un sistema muy casero y barato pero aún así yo en menos de una hora he tenido en formato digital (sin maquetar) un libro de 120 páginas y sin apresurarme.
Y no pienses que esto se usa solo para piratear libros, que puede usarlo perfectamente para digitalizar tus apuntes de clase y poder estudiar con un reader, ipad, o portátil.
Sistema para digitalizar un libro
Necesitaremos
- Una cámara de fotos
- Un trípode
- Cartones y celo
- un cristal
Lo primero que hay que hacer es construir un plataforma o atril para sujetar el libro y lo vamos a hacer con cartones. Es muy sencillo
En la toma posterior se aprecian mejor las partes, unidas con celo, excepto los tirantes que crean rigidez en la estructura, que así quitamos los 2 palitos y podemos doblar el atril y guardarlo sin que ocupe
el detalle del lomo es importante. Dependiendo del grosor del libro deberíamos adaptarlo para que el libro no sea más gordo y no tener problemas.
Si lo quieres todo mascadito aquí te dejo las medidas del que tengo yo construido. Va en cm, y el x2, x4 es el número de piezas que necesitas de cada uno
Montaje del digitalizador de libros
Usaremos el cristal para aplanar la página a fotografiar, hay que tener cuidado con los reflejos del cristal, así que lo mejor es hacerlo con luz natural y que incida desde un lado.
y hay que poner la cámara de forma que coja la página completa, de lo más cerca posible ( usar zoom) y lo más centrado que puedas.
El cristal se encarga como hemos dicho de dejar plana la hoja a fotografiar, nosotros con la mano apartaremos la página opuesta para que no aparezca en pantalla y dejar que fotografíe todo el texto.
Si te fijas esta fotografía estaría mal hecha, pues no coge el texto completo
Deben de verse todos los márgenes no puedes cortar las palabras, así que es muy importatne colocar bien la cámara de fotos para conseguir las imágenes
¿Cómo tomo las imágenes?
[resaltado]Estoy actualizando paso a paso la edición de las imágenes que es un punto que no queda claro y muchos me preguntáis[/resaltado]
Hay varios métodos y software que nos ayudará. Para mí lo más rápido y cómodo es fotografiar primero las páginas impares, y luego hacer todas las pares.
Renombramos con los números de página para poder mezclarlas, esto puedes hacerlo con múltiples software gratuito.
Y si quieres puedes rotar una de las 2 tandas, bien las pares o las impares, porque te van a quedar alineadas en sentidos contrarios y dependiendo del OCR que uses quizás tengas problemas para identificar el texto.
Cómo rotar las imágenes con GIMP
Usaremos GIMP, el editor de imágenes de software libre y un plugin que se llama BIMP y que sirve para editar imágenes en lote. Aquí tienes un vídeo de como se haría
¿Qué es un OCR?
Estamos en el último paso. pasar las imágenes por el OCR. El OCR es un software de Reconocimiento óptico de carácteres, que lo que hace es reconocer el texto de una imagen y convertirlo en texto escrito que puedes guardar como un documento de texto, bien .doc .odt o en otros formatos.
El mejor de los que yo conozco, es el Abby Fine Reader una auténtica maravilla, pero es de pago.
Una vez todo digitalizado, «solo» nos queda maquetar, pero de esto no vamos a hablar de momento a no ser que os interese a muchos.
Para acabar, como seguro que alguno está intentando ver que libros había en la la pila, aquí va un detalle ;-)
El digitalizador de libros más rápido del mundo
Cómo sé que te gustan las curiosidades aquí de un vídeo del funcionamiento del digitalizador de libros más rápido del mundo. Se trata del BSF-Auto y es capaz de digitalizar 250 páginas por minuto
Tienes más información en http://www.k2.t.u-tokyo.ac.jp/vision/BFS-Auto/
Te agradezco que compartas esta buena idea, yo soy de los que despiezan el papel para escanearlo, como es razón de espacio no ha sido una gran pérdida pero también dispongo de otros ejemplares que no quiero desprenderme de ellos y si digitalizarlos, nuevamente gracias.
Me alegro de que te sirva la idea y puedas conservar tus volúmenes físicos intactos ;-)
Si se te ocurre alguna mejora siempre es bienvenida.
Un saludo
Excelente idea.
Creo que el tutorial logra comunicar pero aun le faltan muchos datos para que cualquier misero mortal pueda realizar lo que aquí se pretende enseñar.
Hola,
yo creía que estaba muy claro :-(
dime que dudas tienes y completo el tutorial.
Un saludo
Estoy buscando un soporte, comprado o construido, para móvil samsung note II. Lo necesito para escanear libros y cámara lúcida. Es decir posiciones vertical, inclinada y horizontal.
Hola, muy buen tutorial y muy original la forma, es sencilla para los que no cuentan con un escaner. Pido permiso para linkearlo desde mi blog.
Saludos.
Hola Roland.
Ningún problema, al contrario, se agradecen los enlaces :)
Un saludo
Gracias, ahora pido permiso para copiar el texto integro en el blog, jejeje… obviamente respetando tu autoría y enlaces.
Saludos.
Saludos. Buena la explicación y el aporte, normalmente lo escaneo pero como dices algunas veces no sale completo las palabras y es más lento. Suerte
hay un programa ocr gratuito free ocr. No es la leche pero cumple bastante bien
Muchas gracias por la recomendación
Lo probaré a ver que tal :)
se ve exclente, tratare de modificarlo y hacerlo mas eficiente, tengo algunos libros que quisiera pasar a pdf :D
De acuerdo con Romodolfo falta el nombre del programa p integrar las paginas pares e impares, asi t quedaria completisimo algunos x factor tiempo preferimos mascado siempre gracias Un abrazo
Para quien no tiene costumbre en manejar series de imagenes lo de renombrar y mezclar las fotos pares e impares es confuso.
Si pudieras detallarlo un poco mas estaria bien.
Si necesitáis un programa para renombras las páginas pares e impares, uno sencillito que os puedo recomendar es «Lupas Rename 2000», que podéis localizar muy fácilmente con google.
Cuando yo he escaneado libros, y como mi escáner sólo escaneaba a una cara, primero escaneaba las páginas impares y después las pares, y con ese programilla se renombran en un momento.
Un saludo.
Para el OCR, el One Note va bien, hay «tutoriales» de cómo hacerlo:
El oficial está aquí
Espero que os sirva, a mi el tuto me va a servir «un poco» jajaja.
Saludos
necesito construir una camara lucida casera.
gracias
camara lucida
Gracias, por tu aporte. Pues es un camello (trabajo) dispendioso. Gracias brother.
Ahora el cuento es para meter el vidrio a la universidad, ja ja
Hola, muy interesante. Yo tengo una reflex semi profesional (una nikon!) y ahora sé qué uso darle, jejeje
Pero tengo una sugerencia. Tu dices «usar la mano para aplanar la hoja que no se va a fotografiar». ¿Y porque no usar otra placa de algún material duro? En ese caso, puedes hacer una especie de carpeta (bien montada y pegada, para que no se desarme) con la forma de un libro de dos hojas, y las pones encima del libro a fotografiar. Una de las caras u hojas de la carpeta será algún material duro; y la otra, la cara de vidrio que usas para sacar la foto, sobre la página que te interesa.
Digo yo.
Gracias por la idea.
Hola, muchas gracias por el comentario
sí es muy buena idea, la verdad es que el método que dejé es muy muy básico, para digitalizar un libro. Si vas a hacer mucho volumen deberíamos hacer unos cuantos cambios para poder ir más rápidos :)
Un saludo
Gracias, me resirve!! Ademas te queria preguntar, y si hay imagenes o graficos como hago? quedan las imagenes integradas tal cual como se ve en el texto? o como debiera hacer si tengo texto e imagenes en una pagina?
Buenas noches.
Me ha encantado tu post. Felicidades.
No digo que lo haya conseguido porque me he quedado en el penúltimo paso: La maquetación.
Hijo, ganas me han dado de cortarme las venas cienes de veces, ¡ que digo cienes! ¡¡¡DECENAS!!!
Fuera chascarrillo, me harias un enorme favor si nos dijeras el proceso de maquetación. Así quedaría rematado el proceso desde una sola fuente.
Te animo a ello.
Una vez más, felicidades.
La verdad que es buena idea la del soporte y la camara, pero me surgen dudas en el tema de escanear primero las pares y luego las impares y reordenarlas ya que creo que se tardaria bastante en hacerlo a mano o en aprender a usar el programa jeje
Además dices que despues de hacer la foto se reconvierte en texto, lo cual no queda como una fotocopia,entonces para imagenes o cuadros de texto como quedaria, si pudieses poner el resultado final mejor.
A tu parecer, con un celular (8Mpx), es mejor con flash o sin flash en una habitación con luz normal del día?
Gracias
Hola Eugenia, yo personalmente prefiero una cámara fotográfica, que resuelve bastante bien lo de la luz a utilizar. Si es una camara de celular, te recomiendo luz normal de día, pero no directa. Tras una cortina blanca que difumine la luz de entrada o con la luz de la tarde -en una habitación al lado contrario de donde el sol se está poniendo-, pues el flash te puede «quemar» la imagen (es decir, salir muy blanca).
En cualquier caso, la mejor opción es pasar la fotografía -recomendable, formato JPEG- por un programa de escaneo OCR. Usualmente esos programas te solucionan los inconvenientes.
Si usas cristal para alisar las hojas el flash no dejará hacer la foto, porque se reflejará. Con luz normal del día tiene que ser más que suficiente.
mientras las imágenes sean nítidas el OCR trabaja muy bien y lo detecta todo
Hola! me gustaría saber si tienes alguna hoja fotografiada para ver cómo queda, ya que en la cámara no se aprecia muy bien, parece que no se ve completa la hoja.
Esa imagen no está clara, tienes que coger todo el texto, lo que no se vea en la imagen el ocr no lo transformará así que no hay que cortar ninguna palabra. Voy a hacer una foto y la subo
Muchas felicidades, me gustó mucho la idea, lei un comentario en que ponerle un soporte para la hoja que nos fotografia. Por ejemplo, podria ponerse un papel cascaron (cartulina gruesa) unida en la parte de abajo del vidrio, que quedase como una carpeta y ayudaria para hacerlo un poco mas rapido, podria ser?
Si encuadras bien la foto para que coja todo el texto de la hoja y nada más no necesits la cartulina, trabajará igual de rápido. Si te cuesta encuadrar quizás sí que sea buena idea.
Gracias Nacho por el tutorial.
Cuando escaneas un libro viejo, las hojas salen amarillentas, sucias ¿hay alguna forma de limpiarlas?
saludos
Hola Antonio. Si vas a pasarlo por el OCR te da igual porque solo se va a quedar con el texto.
Si vas a generar algún pdf a partir de imágenes escaneadas, puedes editarlas usando Photoshop o GIMP.
Muchas gracias por la ayuda, nos ha sido muy util.