Текстовая категоризация на двуязычных необработанных данных - PullRequest
0 голосов
/ 07 мая 2019

У меня есть файл CSV с более чем 10000 строками.

Я пытаюсь отделить текст в одном конкретном столбце ('short_desctiption') на основе их естественного языка.

Большинство текстов имеют стандартный формат, например (текст на немецком языке // текст на английском языке), но иногда либо один из языков отсутствует, либо формат не в порядке.

, пожалуйста, предложитеспособ категоризации двух столбцов для каждого языка

print(data_sel[['number','short_description']].head(5))

И вывод выглядит так:

       number                                  short_description
0  INC37263694 Internet geht nicht//Internet is not working
1  INC4836555  OUTLOOK Benutzung nicht möglich // unable to user outlook
2  INC3981320  Ich habe Problem emich im Igel anzumelden 
3  INC5579940  forgot password // Hat Kennwort vergessen
4  INC4882640  Agent Desktop doest start, the desktops are changed
...