Короткий ответ
Этот тип проблемы по своей природе требует времени.
Длинный ответ
- Использование регулярных выражений
- Изменение конвейера пространства
Чем больше информации о строках вам нужно для принятия решения, тем дольше это займет.
Хорошая новость заключается в том, что если очистка текста относительно упрощена, несколько регулярныхвыражения могут помочь.
В противном случае вы используете просторный конвейер, чтобы помочь удалить биты текста, который является дорогостоящим, поскольку по умолчанию он выполняет множество функций:
- Tokenisation
- Лемматизация
- Разбор зависимостей
- NER
- Chunking
В качестве альтернативы, вы можете попробовать еще раз свою задачу и отключить аспекты простотыконвейер, который вам не нужен, который может немного ускорить его.
Например, возможно, отключить распознавание именованных объектов, разметку и анализ зависимостей ...
nlp = spacy.load("en", disable=["parser", "tagger", "ner"])
Затем попробуйте снова, это ускорится.