У меня есть две версии одного и того же документа (скажем, D), содержащего многоязычный текст (английский и другие):
I.Один кодируется в ASCII с помощью кодовых точек Unicode, представленных в виде ссылок на символьные объекты (т. Е. Символы Unicode имеют форму & # N, где N - десятичный эквивалент шестнадцатеричного значения Unicode)
II.Другой - кодировка UTF-8.
Q 1:
У меня есть отдельный список слов (закодированных в UTF-8 и более чем на одном языке), которые я должен удалитьиз документа D. Как мне поступить?
Могу ли я использовать регулярные выражения для очистки D?Для документа типа I, я полагаю, что при формировании регулярного выражения я должен указать шаблоны & # N для каждого слова в списке.
Должна ли задача быть проще для документа типа II, теперь, когда я могу указывать неанглийские символы непосредственно в регулярном выражении (мой emacs настроен на использование этих неанглийских шрифтов)?
Q 2:
У меня есть огромные коллекции таких документов D.Какой должен быть лучший алгоритм удаления слов из каждого из этих документов?Поиск по столу прост, но, вероятно, самый медленный.Должен ли я пересмотреть каждый?