У меня большой текстовый документ (~ 20000 строк), тело которого выглядит примерно так:
Invoice Account / Name:
0234523454 / XYZCORPORATIONS
Charge Group
Portfolio Fee
Date
Our / Your Ref
Security / Category
Charge Item
No of Units
Market Value
Charge Amt Invoice Amt
30-Sep-2019
Debt Instruments
PORTFOLIO FEE
CS
USD
USD 219.12 USD 219.12
14,136,666.31
Invoice Account / Name:
021346676343/ abcdefgcopr
M0919-031 / Page 3 of 35
Charge Group
Portfolio Fee
Date
Our / Your Re
Security / Category
Charge Item
No of Units
Market Value
Charge Amt Invoice Amt
30-Sep-2019
Equity Instruments
USD 788,640.00 USD 12.22
USD 12.22
PORTFOLIO FEE-
EC_CS
Invoice Account / Name:
123498761233/ somethingelsecorporation
Charge Group
Portfolio Fee
Date
Our / Your Ref
Подобные блоки повторяются тысячи раз. Попытка вывода:
Invoice Account / Name:
0234523454 / XYZCORPORATIONS
Market Value
Invoice Account / Name:
021346676343/ abcdefgcopr
Market Value
Invoice Account / Name:
123498761233/ somethingelsecorporation
Market Value
Поскольку я никогда не пытался сделать что-то подобное раньше, у меня есть два вопроса:
1. Как определить и сохранить предложение вроде этого:
Invoice Account / Name:
0234523454 / XYZCORPORATIONS
У которого нет фиксированной длины?
- Как сохранить только ключевое слово "Рыночная стоимость", кроме этого.
Разумно ли использовать для этого nltk? Или это может быть обработано с помощью регулярных выражений и обработки строк?