Как я могу использовать регулярное выражение в Python для извлечения информации о местонахождении из твитов об активности / протестах? - PullRequest
0 голосов
/ 21 января 2020

Я работаю с корпусом, который я вычеркнул из сообществ активистов Twitter, чтобы изучить современную эпоху организации сообществ. Я пытаюсь запустить эти данные через re.findall, чтобы определить твиты, ориентированные на местоположение. Я думаю, что использование ключевого слова "at" может быть самым простым способом сделать это.

В основном, если весь твит (например) «все, кто присоединится sh 2, встретиться в мэрии в 15:00», мой код должен напечатать что-то вроде «встретиться в мэрии» для этой строки , Возможно ли это, или я в корне неправильно понимаю полезность регулярных выражений? Я действительно когда-либо ранее использовал их только для извлечения информации из электронной почты, поэтому я привык писать такой код:

match = re.findall(r'[\w\.-]+@[\w\.-]+', line)

Однако, пытаясь заменить '@' в приведенном выше коде на ' at 'не дает никаких результатов.

Я, вероятно, даже не задаю правильный вопрос здесь. Извиняюсь за любую путаницу, которую я причиняю, и я ценю любую помощь!

1 Ответ

0 голосов
/ 21 января 2020

Если я правильно понимаю, вы просто пытаетесь сопоставить предложение со словом "at" или "@"?

Это регулярное выражение, которое я придумал:

r'[\w\s]+(at|@)[\w\s]+\.?'

Это будет соответствовать любым словам до и после "в" или "@".

Для дальнейшего использования: в следующий раз, когда вы создаете регулярное выражение, используйте https://regex101.com/. Я считаю, это помогает тонну.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...