Токенизация не английского текста в предложениях Python - PullRequest
0 голосов
/ 23 ноября 2018

У меня есть арабский текстовый файл, который выглядит следующим образом

1002 * اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل.Я хочу создать список предложений из этого абзаца, используя python, если каждое предложение отделяется точкой.

Я нашел этот ответ: Токенизация неанглийского текста в Python

Он разбивает текст на слова, но не на предложения.

Я также пробовал это

from nltk.tokenize import sent_tokenize, word_tokenize
import regex
text = "اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل‪.‬ افضل من قلب راشد ليش اتعب" 
regex.findall(r'\p{L}+', text.replace('[\u200c]', ''))
print(sent_tokenize(data))

Он возвратил текст, разделенный '\ u202a'

زيز 240 و انا بدرب منال تاريخ\u202a.\u202c برقاء

NB: предложение не делает никакогов смысле, это всего лишь пример арабских символов.

Мне нужно, чтобы вывод был в форме предложений:

[اغاني و اغانياخلاق تربطنا ساخنه , بن الخطاب حريم منتدى نضال و امراه , انا نحن,  احبابك رامي مرض , النقرس ماذا]

, что означает:

[sentence 1, sentence 2, sentence, 3]
...