Конвертируйте PDF в txt, одновременно идентифицируя текст в файле .txt, что было подчеркнуто в формате PDF. - PullRequest
0 голосов
/ 05 ноября 2018

Я работаю над проектом Node.js. Мне было поручено преобразовать PDF-файлы в TXT-файлы. Первоначально я конвертировал файлы PDF в файлы .txt, используя пакет pdf-parse. Это было легко и сработало очень хорошо.

Однако я только что узнал, что в PDF есть подчеркнутый текст. Этот подчеркнутый текст указывает, что все, что подчеркнуто, является «не текущим». Например, имя может быть подчеркнуто, и это будет означать, что этот человек НЕ работает в компании. В разных PDF-файлах подчеркивание означает разные вещи, поэтому мне нужно указать в текстовом файле, когда что-то было подчеркнуто в PDF. В настоящее время у меня нет выбора, кроме как выводить txt-файлы, потому что эти файлы в конечном итоге передаются в API-интерфейс translate, и API-интерфейс translate лучше всего работает с TXT-файлами. Мне нужно как-то указать в файлах .txt, что было подчеркнуто в формате PDF.

Вот что я пробовал. Я попытался преобразовать PDF-файлы в RTF, а затем проанализировал файлы RTF, чтобы найти \ul, что указывает на начало подчеркивания. Как только я нахожу \ul, я заменяю его чем-то, чтобы указать, что это когда-то было подчеркнуто. (После этого я преобразовал файлы RTF в файлы .txt.)

Например: * @ 日本 航空 機 リ ー ス 株式会社 (* @ указывает, что это было подчеркнуто в оригинальном PDF).

Проблема в том, что иногда вывод содержит что-то вроде этого:

* @ 山 * @ * @ 下 * @ * @ 洋 * @ * @ 司

Мне нужно что-то вроде этого:

* @ 山下 洋 司 (только 1 «специальный символ» для обозначения подчеркивания в PDF)

Похоже, что преобразование из PDF в RTF (с использованием API CloudConvert) иногда подчеркивает слова / фразы, используя только 1 \ul перед всем подчеркнутым словом / фразой, а затем в других случаях вставляет тег \ul перед каждым символом. слова / фразы, что означает, что это доставляет мне неприятности при попытке заменить каждый \ul. Это работает для файлов RTF и в любом случае подчеркивание выглядит одинаково в RTF. Однако, как только я пытаюсь заменить теги \ul другим символом / символом, а затем преобразую в txt, вышеупомянутая проблема начинает расти.

У меня такой вопрос: как бы вы конвертировали PDF-файлы в текстовые (.txt) файлы, в то же время указав в файле .txt, что некоторые тексты / слова / фразы в исходном PDF были подчеркнуты? Я в порядке с этим в шагах. Это не должен быть одностадийный процесс.

...