У меня есть текстовый файл скрипта, и он упорядочен следующим образом:
0 "character one" "dialogue for character one."
1 "character two" "dialogue for character two."
2 "character one" "dialogue for character one again"
...
etc
Моя проблема заключается в том, что я хочу проанализировать этот текст, и мне нужно, чтобы он был в формате .csv, где символ находится впервый столбец, и все диалоги находятся во втором столбце.
Я прочитал .txt файл в панд так:
txt_ep_4 = pd.read_table('/Users/nathancahn/star_wars/0_data/ep_IV_script.txt')
, так что теперь у меня есть ряд данных панд (не фрейм данных) для взаимодействия.
В основном я пробовал разные методы разделения текста на столбцы с помощью Series.str.split (), но безуспешно.Я использовал series_txt_ep_4.str.split(pat=" ")
для обозначения разделения на пробел, но вместо этого он разделял на каждый пробел.
Опять же, мой идеальный вывод - первый столбец будет именем персонажа, а второй столбец - строкой диалога.связан с этим персонажем.