У меня есть pandas
DataFrame, который содержит столбец с предложениями из разных языков (6 языков). DataFrame также содержит столбец, в котором указывается, к какому языку относится соответствующее предложение. Тем не менее, предложение может содержать не-буквенные символы ASCII, такие как =@#
et c .. и слова, которые могут не принадлежать одному языку. Хотя это может быть написано в том же сценарии. В качестве примера, пожалуйста, обратитесь к приведенному ниже предложению, которое было помечено как Испанский sh;
'¿Vas a venir a la tienda conmigo?+== @loja' #Note that 'loja' is a Portuguese word.
Поскольку предложение помечено как Испанский sh Я хотел бы удалить все не спани sh слова и не знаки препинания символы (+, =, =, @).
У меня есть идея удалить слова без знаков препинания, получив заданные значения и удалив те, которые не являются буквами (символов пунктуации немного. Поэтому искать не нужно). Однако сможет ли кто-нибудь помочь удалить слова, которые не относятся к теговому языку, например португальское слово в приведенном выше примере, используя python.?
Спасибо и наилучшие пожелания
Michael