Я пробовал большинство вещей при переполнении стека и за его пределами
Проблема : у меня есть PDF с содержимым и таблицами.Мне нужно также проанализировать таблицы и содержимое.
Apis: https://github.com/tabulapdf/tabula-java Я использую tabula-java
, который игнорирует некоторое содержимое, и содержимое внутри ячеек таблицы не разделяется должным образом.
МОЙ PDF имеет содержимое, подобное этому
DATE :1/1/2018 ABCD SCODE:FFFT
--ACCEPTED--
USER:ADMIN BATCH:RR EEE
CON BATCH
=======================================================================
MAIN SNO SUB VALUE DIS %
R 12 rr1 0125 24.5
SLNO DESC QTY TOTAL CODE FREE
1 ABD 12 90 BBNEW -NILL-
2 XDF 45 55 GHT55 MRP
3 QWE 08 77 CAT -NILL-
=======================================================================
MAIN SNO SUB VALUE DIS %
QW 14 rr2 0122 24.5
SLNO DESC QTY TOTAL CODE FREE
1 ABD 12 90 BBNEW -NILL-
2 XDF 45 55 GHT55 MRP
3 QWE 08 77 CAT -NILL-
Код Tabula для преобразования:
public static void toCsv() throws ParseException {
String commandLineOptions[] = { "-p", "1", "-o", "$csv", };
CommandLineParser parser = new DefaultParser();
try {
CommandLine line = parser.parse(TabulaUtil.buildOptions(), commandLineOptions);
new TabulaUtil(System.out, line).extractFileInto(
new File("/home/sample/firstPage.pdf"),
new File("/home/sample/onePage.csv"));
} catch (Exception e) {
e.printStackTrace();
}
}
tabula даже поддерживает интерфейс командной строки
java -jar TabulaJar/tabula-1.0.2-jar-with-dependencies.jar -p all -o $csv -b Pdfs
Я пытался использовать -c,--columns <COLUMNS>
таблицы, которая принимает ячейки по X координатам границ столбцов
Но проблема в том, что мой pdf-файл динамический.то есть размеры таблиц изменены.
Эти ссылки в переполнении стека и многие другие dint работали для меня.
Как конвертировать PDF в CSV с tabula-py?
Как извлечь данные таблицы из PDF в виде CSV из командной строки?
Преобразовать PDF в Excel в Java
Как преобразовать файл PDF в файл CSV?
itext Преобразование PDF в CSV
Анализ таблицы PDF и отображение ее в формате CSV (Java)
Я использовал pdf-поле, которое дает текст, который не отформатирован, где я не могу правильно прочитать содержимое таблицы.
Возможно преобразовать pdf с таблицами в csv / excel использование java без потери содержимого и форматирования.
Я не хочу использовать платные библиотеки.