Как лучше всего фильтровать текст в Python, чтобы я включал только цифры, буквы верхнего и нижнего регистра, всю пунктуацию и символы для новой строки, табуляции и т. Д. c.
Например, у меня может быть текст ниже, и я хочу избавиться от изображений, но ссылки, знаки препинания, буквы, цифры в порядке:
?Эпизод 19 ВЫШЕЛ СЕЙЧАС! ? ?Pasta Go Go Обзор еды? Ужин при свечах в машине! PASTA LA VISTA Щелкните ссылку B…
Я просмотрел регулярные выражения, но не уверен, как это будет работать. Я пытался повторно сопоставить.
Похоже, таблицы перевода могут быть путем к go, но они, похоже, не работают путем исключения. Я хотел бы определить набор символов, который мне нужен, и удалить все остальное.