Мне нужно почистить отчеты формы 10-K (то есть годовые отчеты американских компаний) со сайта SEC для проекта.
Проблема в том, что компании не используют точно такой же формат для подачи этих данных. Так, например, данные по недвижимости для 2 разных компаний могут отображаться как показано ниже
1st company
Property name State City Ownership Year Occupancy Total Area
------------- ----- ------ --------- ---- --------- ----------
ABC Mall TX Dallas Fee 2007 97% 1,347,377
XYZ Plaza CA Ontario Fee 2008 85% 2,252,117
2nd company
Property % Ownership %Occupany Rent Square Feet
--------------- ----------- --------- ----- -----------
New York City
ABC Plaza 100.0% 89.0% 38.07 2,249,000
123 Stores 100.0% 50.0% 18.00 1,547,000
Washington DC Office
12th street .......
2001, J Drive .......
etc.
Аналогично, расположение данных может быть совершенно другим для других компаний.
Я хотел бы знать, существуют ли более эффективные способы очистки этого типа разнородных данных, кроме написания сложных запросов регулярных выражений.
У меня есть свобода использовать Java, Perl, Python или Groovy для этой работы.