Я не уверен насчет других возможных вводов, мы могли бы добавить пробелы, используя выражение, подобное:
(\d+)([a-z]+)\b
, после этого мы заменили бы любые два пробела одним пробелом, и это могло быработать, но не уверен:
import re
print(re.sub(r"\s{2,}", " ", re.sub(r"(\d+)([a-z]+)\b", " \\1 \\2", "This is my corpus1a.I am looking to convert it into a 2corpus 2b")))
Выражение объяснено на верхней правой панели этого демо , если вы хотите изучить его дальше или изменить, и в этоссылка , вы можете посмотреть, как она будет шаг за шагом сопоставляться с некоторыми примерами входных данных, если хотите.