Как захватить иврит с помощью регулярных выражений в Java? - PullRequest
5 голосов
/ 24 января 2012

Я пытаюсь поймать часть текста на иврите (происхождение - комментарии на новостном сайте), используя следующее регулярное выражение:

[\u0590-\u05FF \\p{Graph} \\s]+

Это работает для большинства комментариев, но некоторые комментарии пропущены.

Я попытался отладить это, и кажется, что есть буква на иврите, которая не соответствует шаблону.

Когда я извлекаю это письмо и печатаю его целочисленное значение, оно кажется правильным, но регулярное выражение не улавливает его ...

Идеи

1 Ответ

1 голос
/ 24 января 2012

С точки зрения семантики было бы правильнее использовать \p{InHebrew} вместо \u0590-\u05FF

Также вам необходимо сопоставлять знаки препинания, цифры (по крайней мере, общие для мира) и пробелы различного типа.Я не знаю, что такое \p{Graph} и есть ли какие-то специфические знаки препинания на иврите, но, кажется, вы пропустили некоторые части.

...