У меня есть файл CSV с более чем 10000 строками.
Я пытаюсь отделить текст в одном конкретном столбце ('short_desctiption') на основе их естественного языка.
Большинство текстов имеют стандартный формат, например (текст на немецком языке // текст на английском языке), но иногда либо один из языков отсутствует, либо формат не в порядке.
, пожалуйста, предложитеспособ категоризации двух столбцов для каждого языка
print(data_sel[['number','short_description']].head(5))
И вывод выглядит так:
number short_description
0 INC37263694 Internet geht nicht//Internet is not working
1 INC4836555 OUTLOOK Benutzung nicht möglich // unable to user outlook
2 INC3981320 Ich habe Problem emich im Igel anzumelden
3 INC5579940 forgot password // Hat Kennwort vergessen
4 INC4882640 Agent Desktop doest start, the desktops are changed