Я пытаюсь использовать NLP / NLTK для извлечения информации из потока данных XML. Фид состоит из пар имя-значение.
Часть Name содержит интересные фрагменты информации, к которым я хотел бы применить метки после фрагментирования
PPTacticalPriceSFOV4
- дифференцирование цены до SFO. Аэропорты часто встречаются в названиях тестов.
Как я могу разделить строку выше и применить НЛП для получения токенов - Tactical
, 'Цены and
SFO`
PXCPaxSREarlyArrival5minWaitFromAcceptV2
- Как долго водитель должен ждать после принятия?
Как я могу разделить строку выше и применить NLP для получения токенов - Early
, 'Arriva ,
5min` и т. Д.
Это мой первый набег в НЛП, и мне нужен был совет относительно того, какой инструментарий обеспечит это средство