Я хочу отделить все слова от не-слов в греческом и иврите.
Я использую этот код:
words = re.findall(r'\w+|\S+', text)
результат не так удовлетворителен, например:
он разделяет ⸂ἡμῶν καὶ κυρίου⸃ -> (⸂ἡμῶν) (καὶ) (κυρίου) (⸃), который я тоже хочу разделить (⸂) (ἡμῶν)
он не разделяет ⸂ὑπὲρ⸃ на (⸂) ὑπὲρ (⸃)
он также не разделяет [ὑμῖν] на ([) (ὑμῖν) (]) для иврита.Он отделяет то, что не предполагается отделять.
Спасибо за информацию, я нашел решение с этим для греческого
words = re.findall (r '\ w + | [[] ⸂⸃ ()] | \ S +', текст)
но у меня все еще проблемы с ивритом.как отделить это עַל־ אֵ֣לֶּה׀ אֲנִ֣י от этого?(עַל־) (אֵ֣לֶּה) (׀) (אֲנִ֣י)