Importar datos de PDF a Excel a través de Power Query

La tarea de transferir datos de una hoja de cálculo en un archivo PDF a una hoja de Microsoft Excel siempre es “divertida”. Especialmente si no tiene un software de reconocimiento costoso como FineReader o algo así. La copia directa generalmente no conduce a nada bueno, porque. después de pegar los datos copiados en la hoja, lo más probable es que se "peguen" en una columna. Entonces tendrán que separarse minuciosamente con una herramienta Texto por columnas de la pestaña Datos (Datos — Texto a Columnas).

Y por supuesto, la copia solo es posible para aquellos archivos PDF donde hay una capa de texto, es decir, con un documento que acaba de escanearse de papel a PDF, esto no funcionará en principio.

Pero no es tan triste, de verdad 🙂

Si tiene Office 2013 o 2016, en un par de minutos, sin programas adicionales, es muy posible transferir datos de PDF a Microsoft Excel. Y Word y Power Query nos ayudarán en esto.

Por ejemplo, tomemos este informe en PDF con un montón de texto, fórmulas y tablas del sitio web de la Comisión Económica para Europa:

Importar datos de PDF a Excel a través de Power Query

… e intente sacarlo en Excel, diga la primera tabla:

Importar datos de PDF a Excel a través de Power Query

¡Vamonos!

Paso 1. Abre PDF en Word

Por alguna razón, pocas personas lo saben, pero desde 2013 Microsoft Word ha aprendido a abrir y reconocer archivos PDF (¡incluso escaneados, es decir, sin capa de texto!). Esto se hace de forma completamente estándar: abra Word, haga clic en Archivo – Abrir (Archivo — Abrir) y especifique el formato PDF en la lista desplegable en la esquina inferior derecha de la ventana.

Luego seleccione el archivo PDF que necesitamos y haga clic en Abierto (Abierto). Word nos dice que va a ejecutar OCR en este documento a texto:

Importar datos de PDF a Excel a través de Power Query

Estamos de acuerdo y en unos segundos veremos nuestro PDF abierto para editar ya en Word:

Importar datos de PDF a Excel a través de Power Query

Por supuesto, el diseño, los estilos, las fuentes, los encabezados y pies de página, etc. saldrán parcialmente del documento, pero esto no es importante para nosotros: solo necesitamos datos de las tablas. En principio, en esta etapa, ya es tentador simplemente copiar la tabla del documento reconocido a Word y simplemente pegarla en Excel. A veces funciona, pero más a menudo conduce a todo tipo de distorsiones de datos; por ejemplo, los números pueden convertirse en fechas o seguir siendo texto, como en nuestro caso, porque. PDF utiliza no separadores:

Importar datos de PDF a Excel a través de Power Query

Así que no tomemos atajos, pero hagamos todo un poco más complicado, pero correcto.

Paso 2: Guarde el documento como una página web

Para luego cargar los datos recibidos en Excel (a través de Power Query), nuestro documento en Word debe guardarse en el formato de página web; este formato es, en este caso, una especie de denominador común entre Word y Excel.

Para hacer esto, vaya al menú Archivo – Guardar como (Archivo — Guardar como) o presione la tecla F12 en el teclado y en la ventana que se abre, seleccione el tipo de archivo Página web en un archivo (Página web: archivo único):

Importar datos de PDF a Excel a través de Power Query

Después de guardar, debería obtener un archivo con la extensión mhtml (si ve extensiones de archivo en el Explorador).

Etapa 3. Subir el archivo a Excel a través de Power Query

Puede abrir el archivo MHTML creado en Excel directamente, pero luego obtendremos, en primer lugar, todo el contenido del PDF a la vez, junto con el texto y un montón de tablas innecesarias, y, en segundo lugar, volveremos a perder datos debido a errores. separadores Por lo tanto, haremos la importación a Excel a través del complemento Power Query. Este es un complemento completamente gratuito con el que puede cargar datos a Excel desde casi cualquier fuente (archivos, carpetas, bases de datos, sistemas ERP) y luego transformar los datos recibidos de todas las formas posibles, dándole la forma deseada.

Si tiene Excel 2010-2013, puede descargar Power Query desde el sitio web oficial de Microsoft; después de la instalación, verá una pestaña Power Query. Si tiene Excel 2016 o más reciente, no necesita descargar nada; toda la funcionalidad ya está integrada en Excel de manera predeterminada y se encuentra en la pestaña Datos (Fecha) en grupo Descargar y convertir (Obtener y transformar).

Así que vamos a la pestaña Datos, o en la pestaña Power Query y elige un equipo para obtener datos or Crear consulta – Desde archivo – Desde XML. Para hacer visibles no solo los archivos XML, cambie los filtros en la lista desplegable en la esquina inferior derecha de la ventana para Todos los archivos (Todos los archivos) y especificar nuestro archivo MHTML:

Importar datos de PDF a Excel a través de Power Query

Tenga en cuenta que la importación no se completará con éxito porque. Power Query espera XML de nosotros, pero en realidad tenemos un formato HTML. Por lo tanto, en la siguiente ventana que aparece, deberá hacer clic derecho en el archivo incomprensible para Power Query y especificar su formato:

Importar datos de PDF a Excel a través de Power Query

Luego de eso, el archivo será reconocido correctamente y veremos una lista de todas las tablas que contiene:

Importar datos de PDF a Excel a través de Power Query

Puede ver el contenido de las tablas haciendo clic con el botón izquierdo del mouse en el fondo blanco (¡no en la palabra Tabla!) de las celdas en la columna Datos.

Cuando se define la tabla deseada, haga clic en la palabra verde Mesa – y “caerás” en su contenido:

Importar datos de PDF a Excel a través de Power Query

Queda por hacer algunos pasos simples para "peinar" su contenido, a saber:

  1. elimine las columnas innecesarias (haga clic con el botón derecho en el encabezado de la columna – Eliminar)
  2. reemplace los puntos con comas (seleccione columnas, haga clic con el botón derecho – Sustitución de valores)
  3. elimine los signos iguales en el encabezado (seleccione columnas, haga clic con el botón derecho – Sustitución de valores)
  4. eliminar la línea superior (Inicio – Borrar líneas – Borrar líneas superiores)
  5. eliminar líneas en blanco (Inicio – Eliminar líneas – Eliminar líneas vacías)
  6. elevar la primera fila al encabezado de la tabla (Inicio: use la primera línea como encabezados)
  7. filtrar datos innecesarios usando un filtro

Cuando la mesa se lleva a su forma normal, se puede descargar en la hoja con el comando cerrar y descargar (Cerrar y Cargar) on El principal pestaña. Y obtendremos tal belleza con la que ya podemos trabajar:

Importar datos de PDF a Excel a través de Power Query

  • Transformar una columna en una tabla con Power Query
  • Dividir texto fijo en columnas

Deje un comentario