Я столкнулся с проблемой, которую не могу решить самостоятельно в отношении загружаемых файлов данных трендов в формате CSV из Google Insights for Search.
Мне лень переформатировать файлы, которые I4S дает мне вручную, что означает: извлечение раздела с фактическими данными трендов и переформатирование столбцов, чтобы я мог использовать его с программой моделирования, которую я делаю для школы.
Итак, я написал крошечный скрипт, который должен был сделать за меня работу: взять файл, сделать немного магии и дать мне новый файл в правильном формате.
То, что он должен делать, это читать содержимое файла, извлекать раздел трендов, разбивать его на новые строки, разбивать каждую строку, а затем переупорядочивать столбцы и, возможно, переформатировать их.
Если посмотреть на нетронутый CSV-файл I4S, он выглядит нормально, с символами CR LF при переносе строк (возможно, только потому, что я использую Windows).
Когда вы просто читаете содержимое, а затем записываете его в новый файл с помощью скрипта, между CR и LF появляются странные азиатские символы. Я попробовал скрипт с подобным вручную написанным файлом и даже попробовал CSV-файл из Google Trends, и он отлично работает.
Я использую Python и скрипт (фрагмент), который я использовал для следующего примера
выглядит так:
# Read from an input file
file = open(file,"r")
contents = file.read()
file.close()
cfile = open("m.log","w+")
cfile.write(contents)
cfile.close()
Кто-нибудь знает, почему эти персонажи появляются ??? Спасибо за помощь!
Я приведу вам пример:
Первые несколько строк CSV-файла I4S:
Web Search Interest: foobar
Worldwide; 2004 - present
Interest over time
Week foobar
2004-01-04 - 2004-01-10 44
2004-01-11 - 2004-01-17 44
2004-01-18 - 2004-01-24 37
2004-01-25 - 2004-01-31 40
2004-02-01 - 2004-02-07 49
2004-02-08 - 2004-02-14 51
2004-02-15 - 2004-02-21 45
2004-02-22 - 2004-02-28 61
2004-02-29 - 2004-03-06 51
2004-03-07 - 2004-03-13 48
2004-03-14 - 2004-03-20 50
2004-03-21 - 2004-03-27 56
2004-03-28 - 2004-04-03 59
Выходной файл при чтении и записи содержимого:
Web Search Interest: foobar
圀漀爀氀搀眀椀搀攀㬀 ㈀ 㐀 ⴀ 瀀爀攀猀攀渀琀ഀഀ
䤀渀琀攀爀攀猀琀 漀瘀攀爀 琀椀洀攀ഀഀ
Week foobar
㈀ 㐀ⴀ ⴀ 㐀 ⴀ ㈀ 㐀ⴀ ⴀ ऀ㐀㐀ഀഀ
2004-01-11 - 2004-01-17 44
㈀ 㐀ⴀ ⴀ㠀 ⴀ ㈀ 㐀ⴀ ⴀ㈀㐀ऀ㌀㜀ഀഀ
2004-01-25 - 2004-01-31 40
㈀ 㐀ⴀ ㈀ⴀ ⴀ ㈀ 㐀ⴀ ㈀ⴀ 㜀ऀ㐀㤀ഀഀ
2004-02-08 - 2004-02-14 51
㈀ 㐀ⴀ ㈀ⴀ㔀 ⴀ ㈀ 㐀ⴀ ㈀ⴀ㈀ऀ㐀㔀ഀഀ
2004-02-22 - 2004-02-28 61
㈀ 㐀ⴀ ㈀ⴀ㈀㤀 ⴀ ㈀ 㐀ⴀ ㌀ⴀ 㘀ऀ㔀ഀഀ
2004-03-07 - 2004-03-13 48
㈀ 㐀ⴀ ㌀ⴀ㐀 ⴀ ㈀ 㐀ⴀ ㌀ⴀ㈀ ऀ㔀 ഀഀ
2004-03-21 - 2004-03-27 56
㈀ 㐀ⴀ ㌀ⴀ㈀㠀 ⴀ ㈀ 㐀ⴀ 㐀ⴀ ㌀ऀ㔀㤀ഀഀ
2004-04-04 - 2004-04-10 69
㈀ 㐀ⴀ 㐀ⴀ ⴀ ㈀ 㐀ⴀ 㐀ⴀ㜀ऀ㘀㔀ഀഀ
2004-04-18 - 2004-04-24 51
㈀ 㐀ⴀ 㐀ⴀ㈀㔀 ⴀ ㈀ 㐀ⴀ 㔀ⴀ ऀ㔀ഀഀ
2004-05-02 - 2004-05-08 56
㈀ 㐀ⴀ 㔀ⴀ 㤀 ⴀ ㈀ 㐀ⴀ 㔀ⴀ㔀ऀ㔀㈀ഀഀ
2004-05-16 - 2004-05-22 54
㈀ 㐀ⴀ 㔀ⴀ㈀㌀ ⴀ ㈀ 㐀ⴀ 㔀ⴀ㈀㤀ऀ㔀㔀ഀഀ
2004-05-30 - 2004-06-05 74
㈀ 㐀ⴀ 㘀ⴀ 㘀 ⴀ ㈀ 㐀ⴀ 㘀ⴀ㈀ऀ㔀㜀ഀഀ
2004-06-13 - 2004-06-19 50
㈀ 㐀ⴀ 㘀ⴀ㈀ ⴀ ㈀ 㐀ⴀ 㘀ⴀ㈀㘀ऀ㔀㐀ഀഀ
2004-06-27 - 2004-07-03 58
㈀ 㐀ⴀ 㜀ⴀ 㐀 ⴀ ㈀ 㐀ⴀ 㜀ⴀ ऀ㔀㤀ഀഀ
2004-07-11 - 2004-07-17 59
㈀ 㐀ⴀ 㜀ⴀ㠀 ⴀ ㈀ 㐀ⴀ 㜀ⴀ㈀㐀ऀ㘀㈀ഀഀ