Я работаю над проектом Node.js. Мне было поручено преобразовать PDF-файлы в TXT-файлы. Первоначально я конвертировал файлы PDF в файлы .txt, используя пакет pdf-parse. Это было легко и сработало очень хорошо.
Однако я только что узнал, что в PDF есть подчеркнутый текст. Этот подчеркнутый текст указывает, что все, что подчеркнуто, является «не текущим». Например, имя может быть подчеркнуто, и это будет означать, что этот человек НЕ работает в компании. В разных PDF-файлах подчеркивание означает разные вещи, поэтому мне нужно указать в текстовом файле, когда что-то было подчеркнуто в PDF. В настоящее время у меня нет выбора, кроме как выводить txt-файлы, потому что эти файлы в конечном итоге передаются в API-интерфейс translate, и API-интерфейс translate лучше всего работает с TXT-файлами. Мне нужно как-то указать в файлах .txt, что было подчеркнуто в формате PDF.
Вот что я пробовал. Я попытался преобразовать PDF-файлы в RTF, а затем проанализировал файлы RTF, чтобы найти \ul
, что указывает на начало подчеркивания. Как только я нахожу \ul
, я заменяю его чем-то, чтобы указать, что это когда-то было подчеркнуто. (После этого я преобразовал файлы RTF в файлы .txt.)
Например: * @ 日本 航空 機 リ ー ス 株式会社 (* @ указывает, что это было подчеркнуто в оригинальном PDF).
Проблема в том, что иногда вывод содержит что-то вроде этого:
* @ 山 * @ * @ 下 * @ * @ 洋 * @ * @ 司
Мне нужно что-то вроде этого:
* @ 山下 洋 司 (только 1 «специальный символ» для обозначения подчеркивания в PDF)
Похоже, что преобразование из PDF в RTF (с использованием API CloudConvert) иногда подчеркивает слова / фразы, используя только 1 \ul
перед всем подчеркнутым словом / фразой, а затем в других случаях вставляет тег \ul
перед каждым символом. слова / фразы, что означает, что это доставляет мне неприятности при попытке заменить каждый \ul
. Это работает для файлов RTF и в любом случае подчеркивание выглядит одинаково в RTF. Однако, как только я пытаюсь заменить теги \ul
другим символом / символом, а затем преобразую в txt, вышеупомянутая проблема начинает расти.
У меня такой вопрос: как бы вы конвертировали PDF-файлы в текстовые (.txt) файлы, в то же время указав в файле .txt, что некоторые тексты / слова / фразы в исходном PDF были подчеркнуты? Я в порядке с этим в шагах. Это не должен быть одностадийный процесс.