Question

Я работаю над проектом анализа текста в R, где я пытаюсь определить слова, которые, как правило, больше используются одной группой по сравнению с другой (на основе байесовской вероятности). Теперь у меня есть список со словами и загрузками слов (факторов). Когда я преобразую загрузки слов из фактора в число c, порядок меняется. Почему это так и как мне это решить?

Затем выполните следующий код:

words$top_words <- as.numeric(words$top_words)

Большое спасибо за вашу помощь!

Ronak Shah · Answer 1 · 24 января 2020

words$top_words - это коэффициент, следовательно, при преобразовании в число c они заменяются базовыми числами. Чтобы безопасно преобразовать коэффициенты в числа, мы можем сделать

words$top_words <- as.numeric(as.character(words$top_words))

akrun · Answer 2 · 24 января 2020

Также можно использовать levels, что будет быстрее

words$top_words <- as.numeric(levels(words$top_words)[words$top_words])

Изменение переменной с коэффициента на число c меняет порядок

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Изменение переменной с коэффициента на число c меняет порядок

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов