Как запрограммировать десятичный HTML-декодер? - PullRequest
1 голос
/ 09 декабря 2010

Я хочу создать (на языке R) "десятичный HTML-декодер", такой как реализованный на этом сайте:

http://www.hashemian.com/tools/html-url-encode-decode.php

Но я не уверен, гдедля начала, может кто-нибудь предложить какие-нибудь указатели на то, что читать / какую таблицу перевода (или формулу) использовать?

Моей первоначальной мотивацией для этого будет декодирование ивритских символов.(например, перевод чего-то вроде этого:

שלום

На это:

שלום

)

(наконечник шляпы идет к Мэтту Шотвеллу за указателями)

1 Ответ

2 голосов
/ 09 декабря 2010
inp <- "&#x5E9;&#x5DC;&#x5D5;&#x5DD;"
nohash <- sub("#", "0", strsplit(inp, "&")[[1]])  # cvrt # to 0
nohash
# [1] ""       "0x5E9;" "0x5DC;" "0x5D5;" "0x5DD;"
strtoi( sub(";", "", nohash) )  # remove trailing ";" and cvrt to dec
# [1]    0 1513 1500 1493 1501

Изменить время истечения при добавлении в мой комментарий, поэтому я добавлю эту ссылку, которая, кажется, имеет таблицу конверсий :

...