Следующий поток байтов обозначен как UTF-8, он содержит предложение на иврите: דירות לשותפים בתל אביב - הומלס
. Я пытаюсь понять кодировку.
ubuntu@ip-10-126-21-104:~$ od -t x1 homeless-title-fromwireshark_followed_by_hexdump.txt
0000000 0a 09 d7 93 d7 99 d7 a8 d7 95 d7 aa 20 d7 9c d7
0000020 a9 d7 95 d7 aa d7 a4 d7 99 d7 9d 20 20 d7 91 d7
0000040 aa d7 9c 20 d7 90 d7 91 d7 99 d7 91 20 2d 20 d7
0000060 94 d7 95 d7 9e d7 9c d7 a1 0a
0000072
ubuntu@ip-10-126-21-104:~$ file -i homeless-title-fromwireshark_followed_by_hexdump.txt
homeless-title-fromwireshark_followed_by_hexdump.txt: text/plain; charset=utf-8
Файл UTF-8, я проверил это, открыв блокнот (windows 7), введя символ иврита ד
и сохранив файл. Результат которого дает следующее:
ubuntu@ip-10-126-21-104:~$ od -t x1 test_from_notepad_utf8_daled.txt
0000000 ef bb bf d7 93
0000005
ubuntu@ip-10-126-21-104:~$ file -i test_from_notepad_utf8_daled.txt
test_from_notepad_utf8_daled.txt: text/plain; charset=utf-8
Где ef bb bf
- это спецификация, закодированная в форме utf-8, а d7 93
- это именно та последовательность байтов, которая появляется в исходном потоке после 0a 09
(новая строка, вкладка в ascii).
Проблема здесь в том, что с помощью кодовых страниц Unicode ד
должно быть закодировано как 05 D3
, так почему и как кодировка utf-8 стала d7 93
?
d7 93
в двоичном виде - 11010111 10010011
, а
05 D3
в двоичном виде - 00000101 11010011
Кажется, я не могу найти правильное преобразование, которое будет иметь смысл для этих кодировок, которые (на мой взгляд) представляют ту же сущность Unicode, что и есть "HEBREW LETTER DALET"
Спасибо,
Максим.