Обработка данных в наборе данных - PullRequest
0 голосов
/ 01 апреля 2020

Я удалил данные с веб-сайта (сделал это с pandas и супом) и теперь готов очистить его.

Имя набора данных - datasetk

Первая проблема: существует числа, которые являются 11.0k например. Я хочу удалить k, а затем добавить два нуля и удалить десятичную дробь, чтобы иметь 11000 - 11 тысяч

Вторая проблема: есть числа, например, 5,0м. Я хочу удалить m, а затем добавить пять нулей и десятичное число, чтобы получить 5000000 - 5 миллионов

Я хочу сделать это в al oop, поэтому мне не нужно делать это вручную в python или R

Ответы [ 2 ]

0 голосов
/ 01 апреля 2020

Пакет, stringr, предоставляет функции, которые упрощают регулярные выражения. Вы можете добавлять или удалять текст по мере необходимости. Код ниже:

library(stringr)

people <- c("10,000", "200", "5K", "2000000", "2M")  # before using regex
print(people)

people <- str_replace(people, "K", "000")

people <- str_replace(people, "M", "000,000")

print(people)    # After manipulation with regex

Выход ниже

[1] "10,000"  "200"     "5K"      "2000000" "2M"     
[1] "10,000"   "200"      "5000"     "2000000"  "2000,000"
0 голосов
/ 01 апреля 2020

Вы можете использовать регулярные выражения для этого. Вот ссылка на вопрос, который похож на вашу проблему:

Преобразование строки 2,90K в 2900 или 5,2M в 5200000 в pandas массив данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...