He tratado de extraer de las tablas de los archivos Pdf que no están en el formato adecuado que creo. Las tablas en estos archivos Pdf se tiene un formato de tabla, pero no cerrado correctamente con verical de las fronteras. Voy a adjuntar el pdf de ejemplo y de salida con ambas bibliotecas. Cuando he intentado utilizar la tabla para la tabla de detección, un espacio en blanco datadrame se devuelve en todas las páginas en pdf.
introduzca 0 para páginas individuales, 1 para todos, 2 para una página específica: 2 introduzca el número de página: 25 ninguna de las tablas se encuentran en esta página por tabula.
Y cuando yo uso camelot no es la misma respuesta cuando yo uso flovor='lattice'
introduzca 0 para páginas individuales, 1 para todas las páginas, 2 para las páginas en las tablas son detectados por tabula, 3 de páginas específicas: 3 introduzca 0 para la red de o a 1 para la secuencia: 0 introduzca el número de página: 25 ninguna de las tablas se encuentran en esta página por camelot.
y cuando yo uso flovor='stream'
, Tengo un dataframe que tiene cada línea, leer línea por línea, con la ficha de datos separados, pero con texto normal, así como en que dataframe.
introduzca 0 para páginas individuales, 1 para todas las páginas, 2 para las páginas en las tablas son detectados por tabula, 3 de páginas específicas: 3 introduzca 0 para la red de o a 1 para la secuencia: 1 introduzca el número de página: 25
Sólo tengo una manera eficaz de detectar la tabla y el extracto de la misma, si los datos vertical que encierra la tabla de líneas no están presentes. Ambos tabula y camelot bibliotecas están trabajando muy bien si la tabla está en el formato adecuado delimitada por líneas verticales y horizontales.