Я работаю над проектом персидской классификации. Персидские тексты очень похожи на арабские тексты. когда я использую Tokenize, он не показывает ни слова на странице списка слов, а на странице «Пример набора» будет показано изображение ниже:
Мне нужно отнести персидский текст к какой-то категории, но я не знаю, как?.
Я выполняю некоторые шаги, подобные этому:
1- Чтение набора данных Excel (с использованием компонента Read Excel) с 2 столбцами => col1: персидский текст, col2: категория
2 - я использую Установить роль компонента для маркировки данных
3 - Я использую документ Process Process from Data, содержащий: (Tokenize (с любым режимом, который ничего не меняет) и Filter Token (min: 5, max: 25) внутри него)
4- Затем я использую компонент перекрестной проверки для обучения с SVM или Basian и в тестовом режиме для получения производительности.
Программа работает правильно и производительность неплохая, например, точность составляет 50%, но я думаю, что моя работа неверна.
Буду признателен за любую помощь.