У меня есть некоторые данные, которые имеют строковую переменную (US states
), соответствующую целочисленную переменную (enrollment
) и другую строку.
К сожалению, некоторые ячейки в переменной US states
имеют несколько перечисленных состояний, разделенных точкой с запятой. Я хотел бы разделить их на разные строки, а затем поделить соответствующую регистрацию поровну между этими штатами.
Например, у меня есть:
State Enrollment Severity
CA 100 Low
MA;PA 50 Medium
WA;OR;ID 120 High
И я хочу иметь возможность преобразовать это в:
State Enrollment Severity
CA 100 Low
MA 25 Medium
PA 25 Medium
WA 40 High
OR 40 High
ID 40 High
Я пытался разделить их с помощью команды split
, а затем (в запутанном виде, вычисляя соответствующую регистрацию), но я не совсем уверен, как получить их в новые строки, даже с reshape
.
EDIT:
Мне также хотелось бы, чтобы решение могло обрабатывать дублированные состояния.
Например:
State Enrollment Severity
CA 100 Low
MA;CA 50 Medium
WA;CA;ID 120 High
Преобразовано в:
State Enrollment Severity
CA 100 Low
MA 25 Medium
CA 25 Medium
WA 40 High
CA 40 High
ID 40 High