Я работаю над проектом НЛП, используя в качестве набора данных обзоры цифровой музыки amazon. Я препроцессирую все обзоры лемматизацией, остановкой, токенизацией, удалением знаков препинания и стоп-слов ...
Однако я застрял в проблеме. Есть ли способ предварительной обработки текста, говоря python:
`если есть слова, похожие на слова« нью-йорк »,« лос-анджелес »,« хип-хоп », то не разделяйте их, а плавьте: 'new_york', 'los_angeles', 'hip_hop'
?
Я не хочу вручную отображать все из них, и я пытался играть с биграммами и с pos, но снет успеха
Вы можете мне помочь?