Конвертировать UTF-8 в ASCII - PullRequest
0 голосов
/ 17 июня 2019

Правильный ответ: ты не можешь. Однако я ищу ответ, который будет полезным, а не правильным.

Спаммеры преобразуют (даже правильно написанные) спам-ключевые слова ASCII в различные не-ASCII UTF-8 символы, которые типичные (западные) люди легко (и неправильно) ошибочно принимают за исходное 7-битное ключевое слово ASCII-спама.

Мне нужен инструмент преобразования, который будет выполнять обратное действиям спамеров, неправильно преобразовывать строку UTF-8 обратно в похожую 7-битную последовательность ASCII, которая выглядит как спамерское американское английское слово, которое спамер использует. что я неправильно понял (хотя педантично, UTF-8 не из подмножества ASCII).

Я ищу что-то, что я могу использовать в теме сообщения электронной почты. Затем я могу убить оставшуюся часть веб-страницы или отправить письмо по электронной почте, прежде чем потратить 5 минут на скачивание по моей высокоскоростной акустической ссылке со скоростью 110 бод.

Платформа - это любой язык, обычно доступный в общей системе Linux, такой как Raspberry Pi с Raspbian или Ubuntu.

Ответы [ 2 ]

1 голос
/ 17 июня 2019

Ответ до сих пор, к сожалению, вы не можете.

Фундаментальная идея - это звук, но люди любят усложнять жизнь, поэтому некоторые буквы имеют значительные различия в форме между языками .

Это означает, что для данной последовательности символов не обязательно ясно, какое слово в американском английском языке должно напоминать эта последовательность.

В дополнение к этому, даже если вы можете уменьшить символНадежно, английский тесно связан со многими европейскими языками, которые все используют свои уникальные алфавитные вариации.

Например, сокращение "Høst Fæst!"на "Хост Быстро!"(что также может произойти) может привести к неправильной маркировке легкомысленного норвежского электронного письма от вашего двоюродного брата в Миннесоте, приглашающего вас на День благодарения в качестве спама для хостинг-провайдера.

Конечно, вызов любой из этих вещей пересекает реку дляwater:

Просто рассмотрите (все-ASClI) сюжетную линию "PilIs! PiIls! PiIIs!".

0 голосов
/ 17 июня 2019

Меня немного смущает вопрос, потому что, как вы указали, ASCII является подмножеством UTF-8, поэтому все файлы ASCII уже закодированы в UTF-8.

Если вы отправляете файлы, содержащие только символы ASCII, другой стороне, но другая сторона жалуется, что они не «закодированы в UTF-8», то я думаю, что они ссылаются на тот факт, что ASCII-файл не имеет метки порядка следования байтов, явно указывающей, что содержимое является UTF-8.

Если это действительно так, то вы можете добавить метку порядка байтов, используя ответ здесь:

iconv: Преобразование из Windows ANSI в UTF-8 с спецификацией

А также вы можете обратиться к следующему вопросу Как преобразовать файл из ASCII в UTF-8?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...