Я относительно новичок в Python и очень плохо знаком с nltk и regex.Я искал руководство, но не понял его.Я просто пытаюсь удалить любые x или X, которые идут после целого числа (всегда должно быть целым числом) в тексте, чтобы в конечном итоге получить только число.У меня есть код, который делает то, что мне нужно, после удаления X или x, поэтому теперь я пытаюсь добавить в код, чтобы удалить этот x или X из чисел, но НЕ из обычного текста (слова, такие как exited и матрица ниже),
Например, если у меня есть текстовая строка: «Это был прекрасный день, и 710x птиц покинули свои места обитания и пролетели над головой.130X из них нырнули и приземлились на траву, в то время как 21X из них были застрелены 7 охотниками.9x птиц исчезли в матрице.Остальные 550x птиц продолжали лететь. '
Мне бы хотелось:
' Это был прекрасный день, и 710 птиц покинули свои места обитания и пролетели над головой.130 из них нырнули и приземлились на траву, в то время как 21 из них был застрелен 7 охотниками.9 птиц исчезли в матрице.Оставшиеся 550 птиц продолжали лететь. '
Так что я не знаю, лучше ли это обрабатывать с помощью регулярных выражений (Regular Expression) или nltk (Natural Language Toolkit) или просто каким-то оператором if как-то.Я копирую весь текст, который может содержать от 20 000 до 30 000 токенов / слов из pdf-файлов, из которых я извлекаю текст, но я был бы рад удалить эти x, пока они еще были огромной строкой или после того, как они были превращены в токены.Неважно для меня.Большое спасибо за любую помощь ...