Синхронизация строкового индексирования 2 столбцов функций в машинном обучении с PySpark - PullRequest
0 голосов
/ 12 февраля 2019

Я пытаюсь выполнить анализ логистической регрессии для набора данных футбольных матчей, чтобы предсказать победителя и сравнить с меткой (фактические наблюдения).Среди различных функциональных столбцов у меня есть 2 столбца: team1 и team2 со строковыми входами играющих команд (всего 7 команд)

Мне нужно использовать StringIndexer для их индексации перед дальнейшим анализом сборки через VectorAssembler.ex - team1Indexer = StringIndexer (inputCol = 'team1', outputCol = 'team1index') team2Indexer = StringIndexer (inputCol = 'team2', outputCol = 'team2index')

, но здесь есть ловушка .. когда я выполняюиндексирование, для одной и той же команды в col team1 и team2 она предоставляет разные индексы.Следовательно, иногда в этих двух столбцах появлялись две команды сравнения, но в одной строке указывался один и тот же индекс (поскольку StringIndexer определяет индексы внутри), что практически невозможно.

запрос - как получить один и тот же индекс для одной команды, даже еслиданные появляются в разных столбцах.Есть ли положение для ручной индексации в ML?

...