Я работаю с письменным текстом (параграфы статей и книг), который включает в себя как места, так и даты. Я хочу извлечь из текстовых пар, которые содержат местоположения и даты, которые связаны друг с другом. Например, учитывая следующую фразу:
Человек покинул Амстердам в январе и достиг Непала 21 октября
У меня был бы такой вывод:
>>>[(Amsterdam, January), (Nepal, October 21st)]
Я попытался разделить текст по «соединяющим словам» (таким как «и», например) и поработать над частью следующим образом: найти слова, которые указывают местоположение («в», « в "," из "," в "et c.) и слова, которые указывают дату или время (" on "," во время "et c.) и присоединяются к тому, что вы найдете. Однако это оказалось проблематичным c, так как слишком много слов указывают местоположение и дату, и иногда базовый c метод «найти» не может различить guish между ними.
Предположим, что я могу определить дату как таковую, и, учитывая слово, которое начинается с заглавной буквы, я могу определить, является ли это место или нет. Главная проблема заключается в том, чтобы соединиться между ними и убедиться, что они есть.
Я подумал, что такие инструменты, как ntlk и scapy , помогут мне здесь, но это не так. Достаточно документации, чтобы помочь мне найти точное решение этой проблемы.
Любая помощь будет признательна!