Геокодирование / сопоставление строк в кадре данных pandas - PullRequest
0 голосов
/ 25 мая 2020

Я работаю с pandas фреймом данных, который не содержит деталей, но требует наиболее точного геокодирования.

Всего около 2000 строк, и каждая строка представляет собой уникальное событие, которое произошло в США. Есть три столбца, которые могут предоставить информацию, полезную для геокодирования - все они являются строками.

Столбец 1 - это название штата.

Столбец 2 - это дескриптор места или организации, где произошли события.

Столбец 3 - имя источника новостей, сообщившего о событии.

Иногда столбец 2 и столбец 3 содержат текст, который может помочь в геокодировании округа, города, поселка, пари sh или правительства штата, где произошли события. Фрейм данных выглядит примерно так:

data = [['Alabama', 'City of Ozark Dale County', 'WTVY'], ['Alaska', 'Matanuska-Susitna Borough','Town of Mat-Su'], ['Arizona', 'Tuscon Unified School District', 'Tuscon News Now']]

df = pd.DataFrame(data, columns = ['State', 'Descriptor','Reported']) 

Каковы наилучшие методы определения местоположения каждого события и сопоставления его с кодом FIPS округа?

Это специфика c l oop, которую я мог бы использовать с каким-то другим набором данных, или есть служба или веб-сайт, которые точно соответствуют этим неоднозначным дескрипторам?

...