Извлечение строк определенного языка из кадра данных в python - PullRequest
0 голосов
/ 14 апреля 2020

У меня есть pandas DataFrame, который содержит столбец с предложениями из разных языков (6 языков). DataFrame также содержит столбец, в котором указывается, к какому языку относится соответствующее предложение. Тем не менее, предложение может содержать не-буквенные символы ASCII, такие как =@# et c .. и слова, которые могут не принадлежать одному языку. Хотя это может быть написано в том же сценарии. В качестве примера, пожалуйста, обратитесь к приведенному ниже предложению, которое было помечено как Испанский sh;

'¿Vas a venir a la tienda conmigo?+== @loja' #Note that 'loja' is a Portuguese word.

Поскольку предложение помечено как Испанский sh Я хотел бы удалить все не спани sh слова и не знаки препинания символы (+, =, =, @).

У меня есть идея удалить слова без знаков препинания, получив заданные значения и удалив те, которые не являются буквами (символов пунктуации немного. Поэтому искать не нужно). Однако сможет ли кто-нибудь помочь удалить слова, которые не относятся к теговому языку, например португальское слово в приведенном выше примере, используя python.?

Спасибо и наилучшие пожелания

Michael

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...