Мой набор данных содержит много текстов. Тексты, написанные полностью на иностранных языках, отбрасываются. Теперь все тексты написаны на английском языке sh, но у некоторых есть переводы, например, кто-то говорит на двух языках, который, кроме текста на английском языке sh, перевел текст на английском языке sh под текстом на английском языке sh в неанглийском sh тексте. Я хочу отфильтровать эти части текстов.
Все тексты находятся в одной переменной. Я попытался удалить эти тексты (используя функцию unid_tokens в tidytext) и с помощью пакета textcat для определения языка неиспользованных слов, но это дает мне самые противоречивые языки, от французского до словенского, несмотря на то, что соответствующие слова - Engli sh.
Код, который я использовал для этого обнаружения и обнаружения, выглядит следующим образом (я создал образец для производительности):
text_unnesting_tokens <- MyDF %>% tidytext::unnest_tokens(word, text)
sample <- text_unnesting_tokens[sample(nrow(text_unnesting_tokens), 5000), ]
sample$language <- textcat(sample$word, p = textcat::TC_char_profiles)