R: Объединение дублированных имен в df без потери разных идентификаторов, прикрепленных к дублирующимся именам - PullRequest
0 голосов
/ 10 апреля 2020

Итак, я пытаюсь создать справочную таблицу названий компаний и связанных идентификаторов, с которыми будут связаны несколько наборов данных. Я работаю в R, но думаю, что это больше вопрос о реляционных базах данных в целом.

У меня есть таблица с информацией, которую я буду использовать для построения этой справочной таблицы, T1. T1 содержит названия компаний и соответствующие идентификаторы. Многие из этих имен являются дубликатами, и столбец имен содержит также много опечаток. Поскольку все данные, которые должны быть связаны с этой таблицей, происходят из разных наборов данных, использование идентификаторов для объединения не будет работать, мне придется объединять по именам. Мне нужно будет очистить данные и объединить имена, чтобы у меня было по 1 названию на компанию, чтобы объединить другие наборы данных (например, «Siemens» вместо «Siemens AG», «Siemens GmBH» и «Siemens Mechanical Engineering Ltd.»). et c).

Моя проблема: часто, если у названия компании есть несколько записей, у нее также будет несколько разных идентификаторов, которые я не могу потерять, поскольку они ссылаются на другие соответствующие таблицы. Поэтому, если я просто создаю подмножество с использованием unique () в названиях компаний, я теряю много релевантных данных. Как можно добиться того, чтобы на одну компанию приходилось по 1 названию компании, но сохранить все связанные идентификаторы (либо в новых столбцах, либо в отдельной таблице)? У меня около 15.000 строк, поэтому я не могу сделать это вручную.

Я не смог найти подобный вопрос, потому что я не очень хорошо знаю, как сформулировать эту проблему очень хорошо, если на этот вопрос уже ответили подобным образом, я также очень благодарен за любые ссылки.

...