У меня есть список названий книг:
- "Хоббит: 70-летие"
- "Хоббит"
- «Хоббит (иллюстрированное / коллекционное издание) [туда и обратно]»
- «Хоббит: или туда и обратно»
- «Хоббит: Подарочная упаковка»
и так далее ...
Я подумал, что если бы я как-то нормализовал заголовки, было бы проще реализовать автоматизированный способ узнать, на какую книгу ссылается каждое издание.
normalised = ''.join([char for char in title
if char in (string.ascii_letters + string.digits)])
или
normalised = ''
for char in title:
if char in ':/()|':
break
normalised += char
return normalised
Но очевидно, что они работают не так, как задумано, поскольку заголовки могут содержать специальные символы, а издания могут в основном иметь очень разный формат заголовков.
Помощь будет очень цениться! Спасибо:)