У меня есть арабский текстовый файл, который выглядит следующим образом
1002 * اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل.Я хочу создать список предложений из этого абзаца, используя python, если каждое предложение отделяется точкой.
Я нашел этот ответ: Токенизация неанглийского текста в Python
Он разбивает текст на слова, но не на предложения.
Я также пробовал это
from nltk.tokenize import sent_tokenize, word_tokenize
import regex
text = "اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل. افضل من قلب راشد ليش اتعب"
regex.findall(r'\p{L}+', text.replace('[\u200c]', ''))
print(sent_tokenize(data))
Он возвратил текст, разделенный '\ u202a'
زيز 240 و انا بدرب منال تاريخ\u202a.\u202c برقاء
NB: предложение не делает никакогов смысле, это всего лишь пример арабских символов.
Мне нужно, чтобы вывод был в форме предложений:
[اغاني و اغانياخلاق تربطنا ساخنه , بن الخطاب حريم منتدى نضال و امراه , انا نحن, احبابك رامي مرض , النقرس ماذا]
, что означает:
[sentence 1, sentence 2, sentence, 3]