Странный строковый формат (из селеновой очистки) появляется только после соединения и разделения - PullRequest
0 голосов
/ 21 июня 2020

так что у меня есть df, который я получил из скребка спецификации, это немного ленивая обработка, когда я просто добавил все от веб-элемента в новую строку.

В любом случае, когда я присоединяюсь к строк и синтаксический анализ в предложения. Я получаю этот странный стиль форматированной строки. Я также теряю скобку, на которую укажу ниже.

df выглядит следующим образом:

        main_data
 0  Transformers: The Last Knight
 1  Grosses
 2  DOMESTIC (21.5%)
 3  $130,168,683
 4  INTERNATIONAL (78.5%)
 5  $475,256,474
 6  WORLDWIDE
 7  $605,425,157Distributor
 8  Paramount Pictures
 9  See full company information
10  Opening
11  $44,680,073
12  4,069 theaters

Я добавил полосу до последней строки, а затем использовал этот код для объединения и синтаксического анализа и создания нового df следующим образом:

 #Join/Split and Dataframe Creation
 bom_join = ' '.join([x for x in df1['main_data]])
 bom_join = bom_join.split('*')
 bom_df = pd.DataFrame({'main_data': bom_join})

Тогда строки выглядят так ...

    main_data   
0   Transformers: The Last Knight Grosses DOMESTIC (21.5%)  
    130,168,683?????????????(78.5 475,256,474 WORLDWIDE 
    605,425,157???????????????????????????????????????????????????????????? 44,680,073 4,069 theaters 
    Budget $217,000,000 Release Date Jun 21, 2017 - Aug 24, 2017 MPAA PG-13 Running Time 2 
    hr 34 min Genres Action Adventure Sci-Fi In Release 194 days/27 weeks Widest Release 
    4,132 theaters IMDbPro See more details at IMDbPro  Transformers: The Last Knight    
    Paramount Pictures  10.34%

Его только временное и косметическое c его нет, когда я смотрю на серию pandas .... и я в порядке с шумом в строке, я могу разобрать то, что мне нужно

, но кто-нибудь может объяснить, почему это не форматируется в первом кадре данных, форматируется в новом кадре данных.

Спасибо

1 Ответ

0 голосов
/ 21 июня 2020

Это происходит от символов $ Когда я удаляю знаки $, форматирование возвращается к нормальному

bom_df['main_data'] = bom_df['main_data'].str.replace('$', '')
...