Очистка текста в несогласованном формате в Python - PullRequest
0 голосов
/ 21 апреля 2020

Я пытаюсь научиться анализировать текст в Python, анализируя стенограммы свидетельств Конгресса. Мне удалось извлечь текст из стенограммы PDF, но текст очень грязный. Я не уверен, как это почистить. Я пытаюсь преобразовать это:

`["HOUSE COMMITTEE ON BANKING, FINANCE AND URBAN AFFAIRSHENRY S. REUSS, Wisconsin, ChairmanTHOMAS'L. 
ASHLEY, OhioWILLIAM S. MOORHEAD, PennsylvaniaFERNAND J. ST GERMAIN, Rhode Island", "HENRY B. 
GONZALEZ, TexasPAUL NELSON, Clerk and Staff DirectorMICHAEL P. FLAHERTY, General CounselMERCER L. 
JACKSON, Minority Staff Director(H)']`

в список имен, состояний и заголовков (например, "Председатель"), например:

`[["HENRY S. REUSS", "Wisconsin", "Chairman"],
["THOMAS'L. ASHLEY", "Ohio"],
["WILLIAM S. MOORHEAD", "Pennsylvania"],
["FERNAND J. ST GERMAIN", "Rhode Island"], 
["HENRY B. GONZALEZ", "Texas"], 
["PAUL NELSON", "Clerk and Staff Director"],
["MICHAEL P. FLAHERTY", "General Counsel"],
["MERCER L. JACKSON", "Minority Staff Director(H)"]]`

Обратите внимание, что некоторые отдельные лица имеют штат и название, связанные с их именем, в то время как некоторые имеют только штат или название, связанные с их именем. Возможно ли преобразование этого типа? Любые рекомендации о том, как подойти к этому? Любая помощь будет оценена. Ура! -Mike

...