Уберите символы форматирования иврита из строки - PullRequest
0 голосов
/ 08 сентября 2011

У меня есть проблема, которая пинает меня в задницу уже пару дней.

У меня есть массив строк, и каждая строка содержит одно еврейское слово.

Эти слова были извлечены из PDF и появляются в массиве в том же порядке, как показано в PDF.

Я хочу взять эти слова и преобразовать их в предложение в том порядке, в котором онинаходятся в массиве и в PDF.Кажется очень простым.

edit: Вот код, на самом деле это XML, который я зацикливаю, я думаю, что он неуместен, но, поскольку я показываю код, мне лучше понять его правильно*

Это похоже на то, что слова имеют свой собственный разум, и порядок смешивается с тем, что не похоже на логический порядок для нееврейского читателя.Запятые будут перемещаться даже на разные слова.Но это не всегда так.

Я не читаю и не говорю на иврите, но из того, что я могу узнать, есть некоторые специальные символы в языке, которые могут влиять на порядок?Мой вопрос: что мне нужно сделать, чтобы удалить их?

Я использую для этого PHP.

1 Ответ

0 голосов
/ 08 сентября 2011

Не видя ваш код, вот два предложения:

  1. Распечатайте массив еврейских слов с помощью print_r и посмотрите, в каком порядке они находятся.
  2. Имейте в виду, чтоИврит читается справа налево, а не слева направо.

В противном случае, пожалуйста, предоставьте больше кода для дальнейшей помощи.

...