Как я могу обрабатывать персидские тексты, используя Rapid Miner? - PullRequest
0 голосов
/ 16 мая 2018

Я работаю над проектом персидской классификации. Персидские тексты очень похожи на арабские тексты. когда я использую Tokenize, он не показывает ни слова на странице списка слов, а на странице «Пример набора» будет показано изображение ниже:

Мне нужно отнести персидский текст к какой-то категории, но я не знаю, как?.

Я выполняю некоторые шаги, подобные этому:

1- Чтение набора данных Excel (с использованием компонента Read Excel) с 2 столбцами => col1: персидский текст, col2: категория

2 - я использую Установить роль компонента для маркировки данных

3 - Я использую документ Process Process from Data, содержащий: (Tokenize (с любым режимом, который ничего не меняет) и Filter Token (min: 5, max: 25) внутри него)

4- Затем я использую компонент перекрестной проверки для обучения с SVM или Basian и в тестовом режиме для получения производительности.

Программа работает правильно и производительность неплохая, например, точность составляет 50%, но я думаю, что моя работа неверна.

Буду признателен за любую помощь.

1 Ответ

0 голосов
/ 17 июня 2018

сначала убедитесь, что ваши текстовые данные имеют кодировку UTF-8 и если вы используете токены фильтра (по длине), то 5 равно слишком много для минимальной попытки 2 или по крайней мере 3 также я рекомендую использовать оператор Filter Stopwords (Dictionary) , и в словаре должны быть персидские стоп-слова в каждой строке надеюсь, это поможет тебе

...