5 webs de OCR gratis extraer el texto de un PDF, o una imagen

Shares

unnamedOCR son las siglas de Optical Character Recognition, o lo que es lo mismo, el reconocimiento óptico de caracteres. En lenguaje normal, viene a ser el proceso por el cual se extrae el texto de una imagen.

¿Recuerdas ese PDF del cual no podías copiar su texto, porque sus páginas estaban guardadas como imágenes? ¿O quizá aquella vez en la que escaneaste todos tus apuntes y luego no podías buscar en su contenido? Un software OCR te habría sido de gran ayuda, pero no hace falta que instales nada, ni te gastes un dineral. Hay muchas páginas web donde lo puedes hacer, y gratis.

1. Google Drive (o Google Docs)

Google Drive es un servicio de almacenamiento y edición de documentos, presentaciones y hojas de cálculo online. Sus funciones son muchas, pero la que vamos a ver a continuación es una no demasiado conocida: el análisis OCR.

Lo primero es entrar a Google Drive, para lo cual necesitarás una cuenta de Gmail. Después, en la pantalla principal elige Subir > Archivos.

Subir drive

Después se abrirá una pequeña ventana en la parte inferior de la ventana y la subida se iniciará automáticamente. Una vez termine, haz clic sobre el nombre del archivo que has subido.

Subido

Esto abrirá una previsualización del archivo. Probablemente ya puedas seleccionar el texto y copiarlo al portapapeles, pero elige Archivo > Abrir con > Google Docs para que se exporte en un formato editable.

El resultado es bastante bueno, reconociendo formato básico como negritas y cursivas.

2. Free Online OCR

¿Pero por qué complicarse tanto? A lo mejor lo único que quieres es subir tu PDF (o imagen) y obtener el texto, sin más. En tal caso Free Online OCR es de lo más agradable a la vista que vas a encontrar.

El proceso consta de dos únicos pasos. Primero, elige el archivo en tu disco duro, y después en qué formato recibirás el resultado, pudiendo elegir entre PDF, TXT, DOC y RTF. En unos segundos podrás descargar el resultado a tu ordenador.

FreeOCR

El resultado es aceptable, aunque peor que Google Docs. Algunos párrafos los omite por completo, aunque a cambio intenta generar un documento DOC manteniendo el formato original, cosa que no pasa en el anterior.

3. NewOCR

Otra alternativa es NewOCR, más sobrio y con algo más de publicidad, pero que en cierto modo va más al grano. Lo malo: extrae el texto sin formato.
newocr
Eso sí, en cuanto a los resultados, parece reconocer bastante mejor el resultado que Free Online OCR, y más o menos igual que Google Docs.

4. Free Online OCR

Free Online OCR tiene una versión gratuita y una de pago. La diferencia radica en una serie de limitaciones incluidas en la versión gratuita. Sólo puedes convertir 15 imágenes en una hora, el tamaño del archivo máximo es de 4 Mb, y no puedes subir varias imágenes en un ZIP.
Aún con eso, es válido y funcional. El proceso consta de dos partes, subir la imagen y después -tras introducir un CAPTCHA- iniciar el reconocimiento.
onlineocr
Después el resultado se mostrará como texto plano, aunque también lo puedes descargar en el formato que eligieras: DOC, XLS o TXT.
Sorprendentemente, el resultado es de los mejores, superando con creces a todos los anteriores. No sólo reconoce el texto perfectamente, sino que lo muestra en un archivo DOC respetando la maquetación original (si bien las imágenes aparecen en blanco y negro). Ideal si tu documento tiene tiene un diseño especial que vuelve locos a los demás.

5. Free OCR

Por último, Free OCR, un servicio algo estándar por el cual puedes obtener el texto de una imagen, sin formato. El resultado es normal tirando a malo, y con nuestro PDF de prueba -el mismo que funcionó en todos los servicios anteriores- no encontró nada.

Después de ponérselo más fácil con otra imagen, sí ha funcionado, aunque muestra bastante texto incomprensible y no reconoce bien caracteres no ingleses.
freeocrrrrr

¿No tienes conexión a Internet? Entonces prueba con esta pequeña utilidad para Windows: GT Text.

Shares

You may also like...

16 Responses

  1. konas dice:

    GT Text es también bastante bueno.
    En propiedades, añades español (spanish)
    y extrae carácteres de imagenes cualquiera.
    http://gttext.googlecode.com

    Lo recomiendo

  2. KinSama dice:

    Esto sí sirve. Agregado a favoritos :D

  3. Genial, no tenía idea que google docs tenía esa opción!!

  4. Audares dice:

    Hay dos opciones iguales!
    Los mejores resultados los obtuve en http://www.onlineocr.net/
    Lastima que es limitado el numero de páginas que analizan por sesión.

  5. Tae ceyon dice:

    La mejor google docs solo subir el archivo a drive y descargarlo.. ya todo el doc esta reconocido muy buena opción para libros escaneados estos pesan mucho y la mayoría de las pag sque recomiendan tienen límite

  6. Marilu Cantillo dice:

    Love u man! Gracias, haz cooperado con mi tesis :D

  7. bob dice:

    amigo eres una chingoneria, muchas g
    racias por la info. que exelente aporte…

  8. Andrés dice:

    Gracias por la información recopilada. La uso para mis pupilos.

  9. Carlos Rozas dice:

    GT text tiene una interfase bastante pobre, pero hace el trabajo en español, gracias por la información.

  10. Luiz Cervantes dice:

    Hola todos! Otra pagina util que falta aki es esta:
    http://www.ocrgeek.com/ Vale la pena echar un ojo :-)

  1. 13/07/2011

    Información Bitacoras.com…

    Valora en Bitacoras.com: OCR son las siglas de Optical Character Recognition, o lo que es lo mismo, el reconocimiento óptico de caracteres. En lenguaje normal, viene a ser el proceso por el cual se extrae el texto de una imagen. ¿Recuerdas ese PDF ……

  2. 22/03/2014

    […] hemos visto con anterioridad cómo extraer el texto de un PDF o imagen mediante 5 páginas web. El proceso es más o menos rápido y generalmente bueno, pero a veces […]

  3. 01/12/2014

    […] pdf por un sistema de reconocimiento de caracteres (OCR) y aprovechar lo que podamos. En este post he encontrado varias opciones de servicios on-line que podemos usar. Sólo he probado […]

  4. 11/12/2014

    […] pdf por un sistema de reconocimiento de caracteres (OCR) y aprovechar lo que podamos. En este post he encontrado varias opciones de servicios on-line que podemos usar. Sólo he probado […]

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>