Extraiga texto de archivos PDF y de imagen

¿Tiene un documento PDF(PDF document) del que le gustaría extraer todo el texto? ¿Qué pasa con los archivos de imagen de un documento escaneado que desea convertir en texto editable? Estos son algunos de los problemas más comunes que he visto en el lugar de trabajo al trabajar con archivos.

En este artículo, hablaré sobre varias formas diferentes en las que puede tratar de extraer texto de un PDF o de una imagen. Los resultados de su extracción variarán según el tipo y la calidad(type and quality) del texto en el PDF o la imagen(PDF or image) . Además, sus resultados variarán según la herramienta que utilice, por lo que es mejor probar tantas de las siguientes opciones como sea posible para obtener los mejores resultados.

Extraer texto de imagen o PDF

La forma más sencilla y rápida de comenzar es probar un servicio de extracción de (extractor service)texto PDF(PDF text) en línea . Estos normalmente son gratuitos y pueden brindarle exactamente lo que está buscando sin tener que instalar nada en su computadora. Aquí hay dos que he usado con muy buenos a excelentes resultados:

ExtraerPDF

extraerpdf

ExtractPDF es una herramienta gratuita para extraer imágenes, texto y fuentes(text and fonts) de un archivo PDF(PDF file) . La única limitación es que el tamaño máximo(max size) del archivo PDF(PDF file) es de 10 MB. Eso es un poco pequeño; así que si tiene un archivo más grande, pruebe algunos de los otros métodos a continuación. Elija su archivo y luego haga clic en el botón Enviar archivo(Send file) . Los resultados normalmente son muy rápidos y debería ver una vista previa del texto cuando hace clic en la pestaña Texto(Text tab) .

descargar texto

También es un buen beneficio adicional que extrae imágenes del archivo PDF(PDF file) , ¡en caso de que las necesite! En general, la herramienta en línea funciona muy bien, pero me encontré con un par de documentos en PDF(PDF docs) que me dieron un resultado divertido. El texto se extrae bien, pero por alguna razón tendrá un salto de línea(line break) después de cada palabra. No es un gran problema para un archivo PDF(PDF file) corto , pero sí lo es para archivos con mucho texto. Si eso te sucede, prueba con la siguiente herramienta.

reconocimiento óptico de caracteres en línea

El OCR en línea(Online OCR) solía funcionar para los documentos que no se convertían correctamente con ExtractPDF , por lo que es una buena idea probar ambos servicios para ver cuál le ofrece un mejor resultado. El OCR en línea(Online OCR) también tiene algunas características más agradables que pueden resultar útiles para cualquier persona con un archivo PDF(PDF file) grande que solo necesita convertir el texto en unas pocas páginas en lugar de todo el documento.

Lo primero que debe hacer es seguir adelante y crear una cuenta gratuita. Es un poco molesto, pero si no crea la cuenta gratuita, solo convertirá parcialmente su PDF en lugar de todo el documento. Además, en lugar de solo poder cargar un documento de 5 MB(MB document) , puede cargar hasta 100 MB por archivo con una cuenta.

en línea

Primero, elija un idioma y luego elija el tipo de formatos de salida que le gustaría para el archivo convertido. Tienes un par de opciones y puedes elegir más de una si quieres. En Documento(Multipage document) de varias páginas , puede seleccionar Números de página(Page numbers) y luego elegir solo las páginas que desea convertir. ¡Luego seleccionas el archivo y haces clic en (file and click) Convertir(Convert) !

documentos ocr en línea

Después de la conversión, accederá a la sección Documentos(Documents) (si ha iniciado sesión) donde podrá ver cuántas páginas gratuitas disponibles le quedan y enlaces para descargar sus archivos convertidos. Parece que solo tienes 25 páginas gratis al día, así que si necesitas más, tendrás que esperar un poco o comprar más páginas.

El OCR en línea(Online OCR) hizo un excelente trabajo al convertir mis archivos PDF(PDF) porque pudo mantener el diseño real del texto. En mi prueba, tomé un documento de Word(Word doc) que usaba viñetas, diferentes tamaños de fuente, etc. y lo convertí a PDF . Luego usé Online OCR para volver a convertirlo al formato de Word(Word format) y era aproximadamente un 95% igual que el original. Eso es bastante impresionante para mí.

Además, si está buscando convertir una imagen en texto, OCR en línea(Online OCR) puede hacerlo tan fácilmente como extraer texto de archivos PDF .

OCR en línea gratuito

Ya que estamos hablando de OCR de imagen a texto , permítanme mencionar otro buen sitio web que funciona muy bien con imágenes. El OCR en línea gratuito(Free Online OCR) fue muy bueno y muy preciso al extraer texto de mis imágenes de prueba. Tomé un par de fotos desde mi iPhone de páginas de libros, folletos, etc. y me sorprendió lo bien que podía convertir el texto.

ocr en línea gratis

Elija su archivo y luego haga clic en el botón Cargar(Upload button) . En la siguiente pantalla, hay un par de opciones y una vista previa de la imagen. Puede recortarlo si no desea OCR todo. Luego simplemente haga clic en el botón OCR(OCR button) y su texto convertido aparecerá debajo de la vista previa de la imagen(image preview) . Tampoco tiene limitaciones, lo cual es realmente bueno.

Además de los servicios en línea, hay dos convertidores de PDF gratuitos que quiero mencionar en caso de que necesite un software que se ejecute localmente en su computadora para realizar las conversiones. Con los servicios en línea, siempre necesitará una conexión a Internet(Internet connection) y eso puede no ser posible para todos. Sin embargo, noté que la calidad de las conversiones de los programas gratuitos era significativamente peor que la de los sitios web.

Extractor de texto A-PDF

A-PDF Text Extractor es un software gratuito que hace un trabajo bastante bueno al extraer texto de archivos PDF(PDF file) . Una vez(Once) que lo descargue e instale, haga clic en el botón Abrir(Open button) para elegir su archivo PDF(PDF file) . Luego haga clic en Extraer texto(Extract text) para iniciar el proceso.

extractor de pdf

Le pedirá una ubicación para almacenar el archivo de salida de texto(text output file) y luego comenzará a extraerlo. También puede hacer clic en el botón Opción(Option) , que le permite elegir solo ciertas páginas para extraer y el tipo de extracción(extraction type) . La segunda opción es interesante porque extrae el texto en diferentes diseños y vale la pena probar los tres para ver cuál te da el mejor resultado.

Piloto PDF2Text

PDF2Text Pilot  hace un buen trabajo extrayendo texto. No tiene ninguna opción; simplemente agrega archivos o carpetas, convierte y espera(convert and hope) lo mejor. Funcionó bien en algunos archivos PDF(PDFs) , pero para la mayoría de ellos hubo numerosos problemas.

pdf2texto

Simplemente haga clic en Agregar archivos(Add Files) y luego haga clic en Convertir(Convert) . Una vez completada la conversión, haga clic en Examinar(Browse) para abrir el archivo. Su kilometraje variará usando este programa, así que no espere mucho.

Además, vale la pena mencionar que si se encuentra en un entorno corporativo o puede obtener una copia de Adobe Acrobat del trabajo, entonces realmente puede obtener resultados mucho mejores. Acrobat obviamente no es gratuito, pero tiene opciones para convertir PDF a formato Word , Excel y HTML(Excel and HTML format) . También hace el mejor trabajo manteniendo la estructura del documento original y convirtiendo texto complicado.



About the author

Soy ingeniero de windows, ios, pdf, errores, gadgets con más de 10 años de experiencia. He trabajado en muchas aplicaciones y marcos de trabajo de Windows de alta calidad, como OneDrive for Business, Office 365 y más. Mi trabajo reciente ha incluido el desarrollo del lector de pdf para la plataforma Windows y trabajar para que los mensajes de error sean más claros para los usuarios. Además, he estado involucrado en el desarrollo de la plataforma ios durante algunos años y estoy muy familiarizado con sus características y peculiaridades.



Related posts