Как удалить слова из многоязычного текста? - PullRequest
0 голосов
/ 03 декабря 2010

У меня есть две версии одного и того же документа (скажем, D), содержащего многоязычный текст (английский и другие):

I.Один кодируется в ASCII с помощью кодовых точек Unicode, представленных в виде ссылок на символьные объекты (т. Е. Символы Unicode имеют форму & # N, где N - десятичный эквивалент шестнадцатеричного значения Unicode)

II.Другой - кодировка UTF-8.

Q 1:

У меня есть отдельный список слов (закодированных в UTF-8 и более чем на одном языке), которые я должен удалитьиз документа D. Как мне поступить?

Могу ли я использовать регулярные выражения для очистки D?Для документа типа I, я полагаю, что при формировании регулярного выражения я должен указать шаблоны & # N для каждого слова в списке.

Должна ли задача быть проще для документа типа II, теперь, когда я могу указывать неанглийские символы непосредственно в регулярном выражении (мой emacs настроен на использование этих неанглийских шрифтов)?

Q 2:

У меня есть огромные коллекции таких документов D.Какой должен быть лучший алгоритм удаления слов из каждого из этих документов?Поиск по столу прост, но, вероятно, самый медленный.Должен ли я пересмотреть каждый?

1 Ответ

1 голос
/ 03 декабря 2010

Я предлагаю сначала обработать объекты, чтобы два вида файлов выглядели одинаково. Когда вы закончите удаление, поместите первый набор обратно в их закодированную форму.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...