Я относительно новичок в Python и очень плохо знаком с NLP (и nltk), и я искал в сети рекомендации, но не нашел полного решения. К сожалению, разреженный код, с которым я играю, находится в другой сети, но я включил пример электронной таблицы. Я хотел бы получить предлагаемые шаги на простом английском языке (более подробно, чем у меня ниже), чтобы я мог сначала попытаться написать сценарий самостоятельно на Python 3. Если бы вам не было просто помочь со сценарием ... в котором дело, спасибо.
Проблема: несколько столбцов другой надежной электронной таблицы очень неструктурированы и содержат от 500 до 5000 английских символов, которые рассказывают историю. Мне нужно существенно упорядочить его, вытащив измеримые данные. Мне нужно:
1) Поиск строки в предоставленном пользователем столбце неструктурированного свободного текста (пользователь вводит заголовок столбца) (я думаю, что я делаю это правильно)
2) Сделать эту строку НОВЫМ заголовком столбца в Excel (я думаю, что я делаю это правильно)
3) Захватите число перед строкой (это то место, где я застреваю. И, как вы увидите на листе, иногда между числом и текстом нет пробела, и, конечно, иногда есть орфографические ошибки)
4) Поместите это число в столбец NEW в той же строке (еще не дошли до этого шага)
Мне придется делать это несколько раз для нескольких ключевых слов, но я могу вычислить эту часть, как мне кажется, с помощью цикла или чего-то в этом роде. Большое спасибо за ваше время и опыт ...