Я работаю над проектом, который требует, чтобы я извлек полные предложения из текстовых файлов, которые были проанализированы из PDF-файлов.Эти необработанные текстовые файлы действительно беспорядочные в том смысле, что в них включены как таблицы, так и абзацы из pdf.
Это снимок текстового файла
Issue 15-24 | Thursday 18 June 2015 PRICES Sulphur prices YL 4 Contract
Spot Saupe fob Vancouver Q2-2015 135-145 135-145 fob Middle East* Q2-
2015 140-165 145-151 fob Qatar QSP Jun 2015 141 fob UAE OSP Jun 2015
145 fob Iran 139-145 fob Black Sea (lump-gran) Q2-2015 110-130 120-130
fob US Gulf Q2-2015 135-150 135-140 cfr Brazil Q2-2015 150-165 155-160
cfr Med (under 10 k) 128-148 fob Med (under 10 k) 110-120 cfr N Africa
(lump-gran) Q2-2015 135-155 140-155 cfr India 163-168 cfr China Q2-2015
143-163 143-163 ex-w Nantong (CNY/t) 1250-1260
“excluding Iran cfr Tampa/C Fla (l.t.) Q2-2015 132 cfr Benelux (loc
refs) Q2-2015 155-172 cpt NW Europe Q2-2015 193-214
cpt = ‘carriage paid to’ for sulphur delivered by Roadtankcar FM
Argus FMB Sulphur pated after the Chinese New Year in February, prices
eroded slightly but did not enter a free-fall. Some argue that it was
down to a structural market tightness, which is expected to provide
support to current sulphur prices and to potentially prevent prices
from falling sharply even if Chinese buyers decided to exit the market
in the next few weeks.
Мне нужен инструмент, который может извлекать все полные предложения, игнорировать эти таблицы и неполные предложения.Мне интересно, есть ли какое-либо существующее решение для этой проблемы сейчас.
Любая помощь будет принята с благодарностью!