Как отфильтровать азиатский язык из RSS-канала? - PullRequest
1 голос
/ 02 августа 2009

Мне нравится отслеживать tasty.com / популярный RSS-канал. Однако в последнее время в статьях появляется все больше азиатских страниц. Поскольку я не понимаю никаких азиатских языков, я бы хотел как-то отфильтровать их от канала и сэкономить время.

Я пытался что-то приготовить, используя Yahoo pipe , но не смог заставить его работать.

Кто-нибудь есть идеи, как сделать эту работу?

Ответы [ 2 ]

1 голос
/ 02 августа 2009

Мне повезло на http://pipes.yahoo.com/pipes/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQ

Источник канала содержит всю информацию, но бит ключа запускает фильтр с регулярным выражением ^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\] ~] + $ `.

Это отфильтрует все каналы, которые используют что-либо кроме стандартного ASCII в заголовке. К сожалению, это означает, что он также будет отфильтровывать такие слова, как «резюме», но вам будет довольно легко настроить регулярное выражение так, чтобы оно включало обычные неанглийские символы из языков, которые вы знаете.

0 голосов
/ 02 августа 2009

Вы, вероятно, хотите пропустить заголовки, в которых более X% символов НЕ находятся в кодовых блоках, назначенных сценариям тех языков, которые вы можете понять. Например, если вы не можете читать греческий, русский, арабский, иврит, армянский, китайский, японский, корейский, индийский языки и т. Д., Отклоните заголовки, если более (скажем) 10% символов не находятся в диапазоне от U + 0000 до U + 0233. Это оставляет вас с латинским алфавитом. Идея оставить маржу в 10% для знаков препинания; также в технических статьях могут использоваться символы, отсутствующие в основном алфавите.

...