Я хочу извлечь имена и профессии тех, кто давал показания перед Конгрессом, из следующего текста:
text <- c (("СЛУЖБА ПОЛНОГО КОМИТЕТА \ \ ", \\" 2017 \\ ", \ n \\" 6 апреля 2017 г. - '' Сезон подачи налоговой декларации 2017 г .: внутренний доход \\ ", \", \ "\\" \ nСервисные операции и опыт налогоплательщиков . '' На этом слушании \\ ", \\" были рассмотрены вопросы, связанные с сезоном подачи налоговых деклараций 2017 года, включая \\ ", \\" производительность IRS, проблемы обслуживания клиентов и информационные \\ ", \\" технологии. Свидетельство было \ nheard от достопочтенного Джона \\ ", \\" Коскинен, комиссар, Служба внутренних доходов \ nService, Вашингтон, \\ ", \", \ "\\" D C. \\ ", \\" 25 мая 2017 г. - «Бюджетный бюджет на 2018 год \ nПредложения для Министерства финансов и налоговой реформы». Слушание \ n, «Обследовало» бюджет президента на 2018 год и коснулось об операциях Отдела Казначейства и Налоговой Реформы. Свидетельство было заслушано почетным Стивеном Мнучином, Секретарем Казначейства. ry, \\ ", \", \ "\\" Соединенные Штаты \ nДепартамент казначейства, Вашингтон, D C. \\ ", \\" 18 июля 2017 г. - '' Комплексная реформа \ nTax: перспективы и Chal - \\ ", \\" lenges. '' Слушание охватывало вопросы, связанные с потенциальными налоговыми планами - \\ ", \\", включая индивидуальные, деловые, \ n и международные про - \\ ", \\" посылки , Свидетельство было заслушано почетным \ nJonathan Talis - \\ ", \", \ "\\" человеком, бывшим помощником секретаря по налоговой политике 2000– \ n2001, \\ ", \\" Казначейства США, Вашингтон , ОКРУГ КОЛУМБИЯ; \\ ", \ n \\" Достопочтенная Памела Ф. Олсон, бывший помощник министра по налогам \\ ", \\" Политика \ n2002–2004, Министерство финансов США, \\ ", \\" Вашингтон, ОКРУГ КОЛУМБИЯ; \ nПочтительный Эри c Соломон, бывший помощник \\ ", \", \ "\" Секретаря по налоговой политике \ n2006–2009, Департамент США \ ", \" Казначейство, Вашингтон, округ Колумбия; и \ n Почетный знак Дж. \\ ", \\" Мазур, бывший помощник министра налоговой политики \ n2012–2017, \\ ", \\" Министерство финансов США, Вашингтон, D C. \\ ", \ n \\" (5) \\ ", \\" VerDate 11 сентября 2014 г. 14:16 28 марта 2019 г. Jkt 000000 PO 00000 Frm 00013 \ nFmt 6601 Sfmt 6601 R: \\\\ DOCS \\\\ 115ACT.000 TIM \\ "\", \ ") \") ") </p>
Полный текст доступен здесь: https://www.congress.gov/116/crpt/srpt19/CRPT-116srpt19.pdf
It Кажется, что имена находятся между «Доказательства были услышаны от« до следующего ».» Итак, как я могу извлечь имена между этими двумя образцами? Текст намного длиннее (документ на 50 страниц), но я подумал, что если я могу сделать это один, я сделаю это для остальной части текста.
Я знаю, что не могу использовать NLP для извлечения имени, потому что это имена людей, которые не свидетельствовать, например.