1 - Вы можете сделать это самостоятельно (трудный путь) - обнаружение как языка, так и кодовой страницы по частотам символов и n-грамм Вам понадобится много «обучающих» данных, но это выполнимо.
2 - Вы можете запустить Perl-скрипт для обнаружения (намного проще).