Question

Я хочу отделить все слова от не-слов в греческом и иврите.

Я использую этот код:

words = re.findall(r'\w+|\S+', text)

результат не так удовлетворителен, например:

он разделяет ⸂ἡμῶν καὶ κυρίου⸃ -> (⸂ἡμῶν) (καὶ) (κυρίου) (⸃), который я тоже хочу разделить (⸂) (ἡμῶν)
он не разделяет ⸂ὑπὲρ⸃ на (⸂) ὑπὲρ (⸃)
он также не разделяет [ὑμῖν] на ([) (ὑμῖν) (]) для иврита.Он отделяет то, что не предполагается отделять.

OpenBiblica · Answer 1 · 22 марта 2019

Спасибо за информацию, я нашел решение с этим для греческого

words = re.findall (r '\ w + | [[] ⸂⸃ ()] | \ S +', текст)

но у меня все еще проблемы с ивритом.как отделить это עַל־ אֵ֣לֶּה׀ אֲנִ֣י от этого?(עַל־) (אֵ֣לֶּה) (׀) (אֲנִ֣י)

Как полностью отделить слово без слова с python?для греческого и иврита

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.