Как собирать специальные буквы типа "ᑕ Ƙ Ꮤ®✞ℍ" - PullRequest
1 голос
/ 28 января 2020

Я очищаю социальную платформу, используя селен, и многие пользователи используют специальные символы, такие как HEᑕƘᏔ®✞ℍ, огонь Emojis и так далее. Эти символы превращаются в знаки вопроса, такие как "HE?????????".

Я пытался использовать утилиты декодирования и кодирования, но мне абсолютно не повезло. См. Здесь:

 WebUtility.HtmlDecode(string);
 WebUtility.HtmlEncode(string);

У меня такое ощущение, что я здесь неправильно лаю, но понятия не имею, с чего начать, так как ответы специальных персонажей обычно говорят о Юникоде, и я уверен, что это в данном случае не имеет значения.

РЕДАКТИРОВАТЬ: Вот как я выбираю содержимое с использованием селена

  title = driver.FindElement(By.XPath("//*[@id=\"header- 
  section\"]/div[2]/div/div/div/div/div[1]/div/h1")).Text;

1 Ответ

0 голосов
/ 28 января 2020

То, что вы делаете, смотрит на HTML декодирование и скорее кодирование, которое заменяет буквы, чтобы сделать их HTML безопасными, например, £ становится £

Вы хотите посмотреть на кодировку текста, как это контролирует, какие символы доступны с разными наборами символов, давая вам разные символы. Если символ не доступен в наборе символов, который вы используете, он отображается в виде знака вопроса или черного блока.

Вы можете использовать Encoding.Convert() см. это обсуждение для получения дополнительной информации.

Вероятно, вы захотите преобразовать свой ввод в кодировку текста UTF-8, чтобы увидеть полный набор символов.

...