Как автоматически определять полные предложения в текстовых файлах, проанализированных из PDF-файлов - PullRequest
0 голосов
/ 22 февраля 2019

Я работаю над проектом, который требует, чтобы я извлек полные предложения из текстовых файлов, которые были проанализированы из PDF-файлов.Эти необработанные текстовые файлы действительно беспорядочные в том смысле, что в них включены как таблицы, так и абзацы из pdf.

Это снимок текстового файла

Issue 15-24 | Thursday 18 June 2015 PRICES Sulphur prices YL 4 Contract 
Spot Saupe fob Vancouver Q2-2015 135-145 135-145 fob Middle East* Q2- 
2015 140-165 145-151 fob Qatar QSP Jun 2015 141 fob UAE OSP Jun 2015 
145 fob Iran 139-145 fob Black Sea (lump-gran) Q2-2015 110-130 120-130 
fob US Gulf Q2-2015 135-150 135-140 cfr Brazil Q2-2015 150-165 155-160 
cfr Med (under 10 k) 128-148 fob Med (under 10 k) 110-120 cfr N Africa 
(lump-gran) Q2-2015 135-155 140-155 cfr India 163-168 cfr China Q2-2015 
143-163 143-163 ex-w Nantong (CNY/t) 1250-1260
“excluding Iran cfr Tampa/C Fla (l.t.) Q2-2015 132 cfr Benelux (loc 
refs) Q2-2015 155-172 cpt NW Europe Q2-2015 193-214
cpt = ‘carriage paid to’ for sulphur delivered by Roadtankcar FM

Argus FMB Sulphur pated after the Chinese New Year in February, prices 
eroded slightly but did not enter a free-fall. Some argue that it was 
down to a structural market tightness, which is expected to provide 
support to current sulphur prices and to potentially prevent prices 
from falling sharply even if Chinese buyers decided to exit the market 
in the next few weeks.

Мне нужен инструмент, который может извлекать все полные предложения, игнорировать эти таблицы и неполные предложения.Мне интересно, есть ли какое-либо существующее решение для этой проблемы сейчас.

Любая помощь будет принята с благодарностью!

...