Я подумываю о том, чтобы начать проект, чтобы я мог узнать больше и сохранить вещи, которые я выучил, от ржавчины.
Многие проекты будут новыми, поэтому я решил приехать сюда и спросить совета, что делать и как это делать.
Я наслаждаюсь фотошопом и играю с ним, поэтому я подумал, что смогу смешать свой проект с чем-то в этом роде. Поэтому я решил, что моя программа будет делать что-то вроде новых ресурсов для фотошопа, помещая их в свою папку на моем компьютере. (от deviantart на данный момент)
А сейчас я хочу сосредоточиться на такой странице:
http://browse.deviantart.com/resources/applications/psbrushes/?order=9
Я не очень хорошо понимаю, что происходит в html-источнике, поэтому немного сложно понять, что происходит.
Но допустим, я на этой странице, и у меня выбраны следующие опции:
Sorted by Popular
Sorted by All Time
Sorted by 24 Items Per Page
Моя цель - по отдельности перейти к каждому эскизу и получить следующее:
The Author
The Title
The Description
Download the File (create folder based on title name)
Download the Image (place in folder with the file above)
Create text file with the author, title, and description in it
Я хотел бы сделать это для каждого из 24 пунктов на странице, а затем перейти на следующую страницу и сделать то же самое. (Я думаю о том, чтобы просто просмотреть первые пять страниц, так как я не слишком заинтересован в том, чтобы попробовать не слишком популярные кисти)
Итак, я публикую это для чувства направления и, возможно, некоторой помощи о том, как разобрать такую страницу, чтобы получить то, что я ищу. Я уверен, что этот проект займет меня некоторое время, но я надеюсь, что он станет полезным в обучении меня.
Любая помощь и предложения всегда приветствуются.
.
.
РЕДАКТИРОВАТЬ
Каждая страница состоит из 24 из них:
<div class="tt-a" usericon="http://a.deviantart.net/avatars/s/h/shad0w-gfx.gif" collect_rid="1:19982524">
<span class="shad0w" style="background-image: url ("http://sh.deviantart.net/shad0w/x/107/150/logo3.png");">
<a class="t" title="Shad0ws Blood Brush Set by ~Shad0w-GFX, Jun 28, 2005" href="http://Shad0w-GFX.deviantart.com/art/Shad0ws-Blood-Brush-Set-19982524?q=boost%3Apopular+in%3Aresources%2Fapplications%2Fpsbrushes&qo-0">Shad0ws Blood Brush Set</a>
Я предполагаю, что я хочу получить всю свою информацию из:
<a class="t" ... >
Поскольку он содержит заголовок, автора и ссылку, по которой находится URL-адрес загрузки, и большое изображение.
Если это звучит правильно, как можно получить эту информацию для каждого объекта на странице. (24 на страницу) Я бы предположил, используя CyberNeko. Я просто не совсем уверен, как добраться до нужного уровня, где находится и для каждого из них на странице
.
.
РЕДАКТИРОВАТЬ # 2
У меня есть тестовый код, который выглядит следующим образом:
divs = []
client = new WebClient(BrowserVersion.FIREFOX_3)
client.javaScriptEnabled = false
page = client.getPage("http://browse.deviantart.com/resources/applications/psbrushes/?order=9&offset=0")
divs = page.getByXPath("//html/body/div[2]/div/div/table/tbody/tr/td[2]/div/div[5]/div/div[2]/span/a[@class='t']")
divs.each { println it }
XPath верен, но выводит:
<?xml version="1.0" encoding="UTF-8"?><a href="http://Shad0w-GFX.deviantart.com/
искусство / Shad0ws-Blood-Brush-Set-19982524? Д = подталкивание% 3Apopular + в% 3Aresources% 2Fapplicat
ion% 2Fpsbrushes & qo = 0 "class =" t "title =" Кровавая кисть Shad0ws, установленная ~ Shad0w-G
FX, 28 июня 2005 г. "> Набор кистей для крови Shad0ws
Можете ли вы объяснить, что мне нужно сделать, чтобы просто получить оттуда href? Есть ли простой способ сделать это с помощью HtmlUnit?