Puede ser muy frustrante intentar extraer texto de un archivo PDF para usarlo en otra aplicación. No es raro que los gráficos se interpongan en el camino o que el diseño del documento dificulte que la prueba se transfiera en oraciones significativas. Aunque no es imposible extraer texto con un enfoque de copiar y pegar, puede llevar mucho tiempo y no permite que el texto del archivo PDF se exporte como un formato diferente. Sin embargo, existen algunas formas de extraer texto de un archivo PDF.
Extraer texto con Acrobat Reader
Paso 1
Abra el archivo en Acrobat Reader. En Windows, seleccione "Archivo -> Exportar documento a texto", asigne un nombre al documento y guárdelo.
Paso 2
Copie el texto en un sistema operativo Mac o Linux accediendo al menú Ver y seleccionando " Continuo "o" Orientación continua ". (El primero le proporcionará el texto en una columna, mientras que el segundo formateará el texto como páginas en paralelo). Vaya a "Editar -> Seleccionar todo" y luego "Editar -> Copiar".
Use la herramienta Seleccionar si solo desea extraer parte del texto. Haga clic en la herramienta "Selección de texto" y luego elija la información que desee. En un documento formateado en varias columnas, primero deberá usar la herramienta "Seleccionar columna". Vaya a "Editar -> Copiar".
Convertir PDF a HTML
Paso 1
Use Gmail como acceso directo. Adjunte el archivo PDF a un correo electrónico y envíelo a su cuenta de Gmail. Cuando abra el correo electrónico, verá una serie de opciones junto al archivo adjunto. Elija "Ver como HTML" y guarde el archivo que se abre en una ventana separada. Aunque no podrá ver ningún gráfico, el archivo HTML conservará el formato de texto del documento.
Paso 2
Extraiga y convierta archivos en la línea de comandos. Los usuarios de Linux pueden usar un comando de conversión básico que cambiará un archivo .pdf a un archivo .txt: "pdftotext filename.pdf". Asegúrese de reemplazar el nombre del archivo con el nombre del archivo PDF.
Descargue un programa de conversión de PDF a texto. Hay una serie de programas de código abierto y gratuitos disponibles, como PDFBox y Easy PDF to Text Converter (ver Recursos a continuación). Muchos de estos programas también pueden convertir archivos PDF a HTML.
Consejos
Determine si el documento está formateado para contener texto y gráficos. El enfoque de Adobe Acrobat solo funcionará si el archivo PDF contiene ambos; no funcionará solo para archivos con imágenes. En algunos casos, el texto en un documento PDF está formateado como una imagen. Esto sucede a menudo cuando se escanea un documento original y se crea un archivo PDF a partir de la imagen escaneada.
Esté preparado para volver a formatear parte del texto cuando use Acrobat Reader. Esta forma de extracción simplemente exporta el archivo PDF a un archivo de texto; no retendrá necesariamente el formato. Sin embargo, si solo necesita usar las palabras, esto no debería ser un problema.
Elementos que necesitará
Archivo PDF
Adobe Acrobat Reader
Cuenta de Gmail (opcional)
Software de conversión de PDF a texto (opcional)
[Cómo extraer texto de un documento PDF] URL: http://www.ordenador.online/computadora/Software/257353.html