Я работаю над проблемой классификации текста.Мой CSV-файл содержит столбец с описанием «description», который описывает события.К сожалению, этот столбец полон специальных символов, кроме английских слов.Иногда все поле подряд заполнено такими символами, или, иногда, несколько слов имеют такие специальные символы, а остальные - английские слова.Я показываю вам два поля образца из двух разных строк:
हर वर्ष की तरह इस वर्ष भी सिंधु सेना द्वारा आयोजित सिंधी प्रीमियर लीग फुटबॉल टूर्नामेंट का आयोजन एमबीएम ग्राउंड में करने जा रही है जिसमें अंडर-19 टीमें भाग लेती है आप सभी से निवेदन है समाज के युवाओं को प्रोत्साहन करने अवश्य पधारें
Unwind on the strums of Guitar & immerse your soul into the magical vibes of music! ️? ️?..Guitar Night By Ashmik Patil.July 19, 2018.Thursday.9 PM Onwards.*Cover charges applicable...#GuitarNight #MusicalNight #MagicalMusic #MusicLove #Party #Enjoy #TheBarTerminal #Mumbaikars #Mumbai
В первом поле целиком заполнено такими нечитаемыми символами, тогда как во втором случае присутствует только несколько таких символов.Остальные - английские слова.
Я хочу удалить только те специальные символы, которые сохраняют английские слова такими, какие они есть, поскольку мне нужны эти английские слова, чтобы сформировать пакет слов на более позднем этапе.
Как реализовать это с помощью Python (я использую ноутбук Jupyter)?