R рассматривает одинаковые значения коэффициента как разные значения - PullRequest
0 голосов
/ 07 ноября 2019

Я новый пользователь R, пытаюсь выполнить поднабор одного из моих столбцов. Однако некоторые значения отсутствуют / не заданы для нового подмножества.

Я пробовал разные варианты написания кода, но, похоже, он не работает (например:)

df_Location = df[df$Location == "Samarinda" | df$Location == "Samarinda " df$Location == "Samarinda. " df$Location == " Samarinda",]
df_Location
summary(df)

df_Location = df[df$Location == "Samarinda",]
df_Location
summary(df)

df_Location = df[df$Location == "Samarinda",]
df_Location
summary(df)

Эти коды привели только к подмножеству из 7 строк -> в исходных данных должно быть 37 строк

Когда я использовал rPivotTable, это то, что он показывает (Самаринда указана дважды, со значениями 30 и 7соответственно):

Samarinda   30
Samarinda   7
Totals  221

Кто-нибудь может посоветовать, как решить эту проблему?

Большое спасибо

Ответы [ 2 ]

0 голосов
/ 07 ноября 2019

Альтернативой grepping может быть пропуск строк через trimws, например:

df_Location = df[trimws(df$Location) == "Samarinda",]
0 голосов
/ 07 ноября 2019

Если вы уверены, что различия происходят от посторонних символов по краям строки, быстрый способ получить то, что вы хотите, - это отфильтровать строки, где df$Location содержит «Самаринду» где угодно:

df_Location = df[grepl("Samarinda", df$Location),]

Если вам необходимо точно определить, почему значения отличаются, быстрый способ найти пробелы в начале / конце

unique(paste("X", df$Location, "X", sep = ""))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...