Как полностью отделить слово без слова с python?для греческого и иврита - PullRequest
0 голосов
/ 21 марта 2019

Я хочу отделить все слова от не-слов в греческом и иврите.

Я использую этот код:

words = re.findall(r'\w+|\S+', text)

результат не так удовлетворителен, например:

  • он разделяет ⸂ἡμῶν καὶ κυρίου⸃ -> (⸂ἡμῶν) (καὶ) (κυρίου) (⸃), который я тоже хочу разделить (⸂) (ἡμῶν)

  • он не разделяет ⸂ὑπὲρ⸃ на (⸂) ὑπὲρ (⸃)

  • он также не разделяет [ὑμῖν] на ([) (ὑμῖν) (]) для иврита.Он отделяет то, что не предполагается отделять.

1 Ответ

0 голосов
/ 22 марта 2019

Спасибо за информацию, я нашел решение с этим для греческого

words = re.findall (r '\ w + | [[] ⸂⸃ ()] | \ S +', текст)

но у меня все еще проблемы с ивритом.как отделить это עַל־ אֵ֣לֶּה׀ אֲנִ֣י от этого?(עַל־) (אֵ֣לֶּה) (׀) (אֲנִ֣י)

...