Кто-нибудь знает, как строятся данные ICU Charset Detector. И сложно ли добавить дополнительные языки?
Например, я видел в багтрекере, что билет для обнаружения тайского языка открыт с 2007 года, но ничего нового до сегодняшнего дня не было.
Спасибо
Я задам ваш вопрос в списке рассылки ICU или даже сообщу об ошибке и скажу, что вы готовы внести в работу / данные, чтобы это сделать. Я не смог найти билет, на который вы ссылались, но ICU имеет открытый исходный код, поэтому, если вы готовы предоставить время и данные, это будет иметь значение при реализации.