так что у меня есть df, который я получил из скребка спецификации, это немного ленивая обработка, когда я просто добавил все от веб-элемента в новую строку.
В любом случае, когда я присоединяюсь к строк и синтаксический анализ в предложения. Я получаю этот странный стиль форматированной строки. Я также теряю скобку, на которую укажу ниже.
df выглядит следующим образом:
main_data
0 Transformers: The Last Knight
1 Grosses
2 DOMESTIC (21.5%)
3 $130,168,683
4 INTERNATIONAL (78.5%)
5 $475,256,474
6 WORLDWIDE
7 $605,425,157Distributor
8 Paramount Pictures
9 See full company information
10 Opening
11 $44,680,073
12 4,069 theaters
Я добавил полосу до последней строки, а затем использовал этот код для объединения и синтаксического анализа и создания нового df следующим образом:
#Join/Split and Dataframe Creation
bom_join = ' '.join([x for x in df1['main_data]])
bom_join = bom_join.split('*')
bom_df = pd.DataFrame({'main_data': bom_join})
Тогда строки выглядят так ...
main_data
0 Transformers: The Last Knight Grosses DOMESTIC (21.5%)
130,168,683?????????????(78.5 475,256,474 WORLDWIDE
605,425,157???????????????????????????????????????????????????????????? 44,680,073 4,069 theaters
Budget $217,000,000 Release Date Jun 21, 2017 - Aug 24, 2017 MPAA PG-13 Running Time 2
hr 34 min Genres Action Adventure Sci-Fi In Release 194 days/27 weeks Widest Release
4,132 theaters IMDbPro See more details at IMDbPro Transformers: The Last Knight
Paramount Pictures 10.34%
Его только временное и косметическое c его нет, когда я смотрю на серию pandas .... и я в порядке с шумом в строке, я могу разобрать то, что мне нужно
, но кто-нибудь может объяснить, почему это не форматируется в первом кадре данных, форматируется в новом кадре данных.
Спасибо