Question

Я пишу веб-мастер, и у меня есть таблица, полная ссылок на файлы .pdf, которые я хочу скачать, сохранить и затем проанализировать. Я использовал красивый суп, и у меня был суп найти все ссылки. Обычно они являются красивыми объектами для суповых меток, но я превратил их в строки. Строка на самом деле представляет собой кучу мусора с текстом ссылки, спрятанным в середине. Я хочу вырезать этот мусор и просто оставить ссылку. Затем я превращу их в список, и позже Python загрузит их. (Мой план заключается в том, чтобы python вел список имен ссылок в формате pdf для отслеживания того, что он скачал, и затем он может именовать файлы в соответствии с этими именами ссылок или их частью).

Но файлы .pdf имеют переменную длину имени, например ::100100

I_am_the_first_file.pdf
And_I_am_the_seond_file.pdf

и поскольку они существуют в таблице, у них есть куча ненужного текста:

a href =: //blah/blah/blah/I_am_the_first_file.pdf [плюс другие аннотации, которые случайно попадают в мою строку]
a href =: //blah/blah/blah/And_I_am_the_seond_file.pdf [плюс другие аннотации, которые случайно попадают в мою строку]

Таким образом, я хочу вырезать («нарезать») переднюю и последнюю части строки и просто оставить строку, которая указывает на мой URL (так, что далее является желаемым выводом для моей программы):

://blah/blah/blah/I_am_the_first_file.pdf
://blah/blah/blah/And_I_am_the_seond_file.pdf

Как видите, второй файл содержит больше символов в строке, чем первый. Так что я не могу сделать:

string[9:40]

или что-то еще, потому что это будет работать для первого файла, но не для второго.

Итак, я пытаюсь найти переменную для конца фрагмента строки, например:

string[9:x]

где x - это место в строке, оканчивающееся на «.pdf» (и я думал использовать для этого функцию string.index ('. Pdf').

Но t3h терпит неудачу, потому что я получаю ошибку, пытаясь использовать переменную для этого

("TypeError: 'int' object is unsubscriptable")

Вероятно, есть простой ответ и лучший способ сделать это, кроме как возиться со строками, но вы, ребята, намного умнее меня, и я подумал, что вы сразу узнаете.

Вот мой полный код:

import urllib, urllib2

from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("mywebsite.com")

soup = BeautifulSoup(page)

table_with_my_pdf_links = soup.find('table', id = 'searchResults')
#"search results" is just what the table i was looking for happened to be called.

for pdf_link in table_with_my_pdf_links.findAll('a'):
#this says find all the links and looop over them

   pdf_link_string = str(pdf_link)
#turn the links into strings (they are usually soup tag objects, which don't help me much that I know of)

   if 'pdf' in pdf_link_string:
#some links in the table are .html and I don't want those, I just want the pdfs.

      end_of_link = pdf_link_string.index('.pdf')
#I want to know where the .pdf file extension ends because that's the end of the link, so I'll slice backward from there

      just_the_link = end_of_link[9:end_of_link]
#here, the first 9 characters are junk "a href = yadda yadda yadda".  So I'm setting a variable that starts just after that junk and goes to the .pdf (I realize that I will actualy have to do .pdf + 3 or something to actually get to the end of string, but this makes it easier for now).

      print just_the_link
#I debug by print statement because I'm an amatuer

строка (вторая снизу), которая гласит: just_the_link = end_of_link[9:end_of_link]

возвращает ошибку (TypeError: 'int' object is unsubscriptable)

также, ":" должно быть двоеточием протокола передачи гипертекста, но это не позволит мне сообщить, что новички в / к не могут публиковать более 2 ссылок, поэтому я удалил их.

kindall · Answer 1 · 28 марта 2011

just_the_link = end_of_link[9:end_of_link]

Это ваша проблема, как говорится в сообщении об ошибке. end_of_link - это целое число - индекс ".pdf" в pdf_link_string, который вы вычислили в в предыдущей строке. Поэтому, естественно, вы не можете его разрезать. Вы хотите нарезать pdf_link_string.

Ichorus · Answer 2 · 28 марта 2011

Звучит как работа для регулярных выражений:

import urllib, urllib2, re

from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("mywebsite.com")

soup = BeautifulSoup(page)

table_with_my_pdf_links = soup.find('table', id = 'searchResults')
#"search results" is just what the table i was looking for happened to be called.

for pdf_link in table_with_my_pdf_links.findAll('a'):
#this says find all the links and looop over them

   pdf_link_string = str(pdf_link)
#turn the links into strings (they are usually soup tag objects, which don't help me much that I know of)


   if 'pdf' in pdf_link_string:
      pdfURLPattern = re.compile("""://(\w+/)+\S+.pdf""")
      pdfURLMatch = pdfURLPattern.search(line)

#If there is no match than search() returns None, otherwise the whole group (group(0)) returns the URL of interest.
      if pdfURLMatch:
         print pdfURLMatch.group(0)

Неприемлемая ошибка Int для среза строки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Неприемлемая ошибка Int для среза строки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы