Sacar el texto de un PDF de imágenes en Linux

A veces hay que pasar texto de un PDF a un trabajo en word o open/libreOffice, pero el texto del pdf no se puede copiar, porque en sí es como una foto cada página. Aparte es demasiado texto como para ponerse a la antigua a pasar como se adelanta un cuaderno.

Para hacer la tarea de pasar texto del pdf a nuestro trabajo, mas ágil, primero separamos el PDF en imagenes, cada una por una página con:

convert mipdf.pdf imagen.jpg

Si se quiere un rango de páginas y no todo el pdf

convert mipdf.pdf[0-21] imagen.jpg

Se empieza a contar desde 0 y va a hasta la página 21

Ya con las imágenes nos valemos del servicio de Free ORC que permite extraer texto de imágenes

  1. Subimos la imagen que se le quiere extraer el texto.
  2. Seleccionamos el idioma, español, de suponer.
  3. Se llena un capcha

Acto seguido se verá el texto que tenía el archivo de la imagen o la página del PDF, funciona bastante bien la verdad aún así es recomendable leer como queda ya que a veces pero a veces quedan las palabras unidas o separadas dónde no deben.

visto en -> MundoGeek

 

Anuncios

Un comentario en “Sacar el texto de un PDF de imágenes en Linux

  1. Meeen que cosa tan util!! 🙂
    Interesante

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s