Я использовал rvest
для очистки страниц, и я знаю о преимуществах selectorGadget
.Однако на одной странице есть данные БЕЗ селекторов.Фрагмент HTML ниже.Страница здесь .Я пытаюсь вычистить список персонала на каждом из перечисленных джазовых альбомов.В приведенном ниже фрагменте HTML данные о персонале начинаются с "Sonny Rollins, tenor sax ..." Как видите, этот текст не окружен никакими селекторами CSS.Любой совет по соскобу это?
<h1>Blue Note Records Catalog: 4000 series</h1>
<div id="start-here"><!-- id="start-here" --></div>
<div id="catalog-data">
<h2>Modern Jazz 4000 series (12 inch LP)</h2>
<h3><a href="./album-index/#blp-4001" name="blp-4001">BLP 4001 Sonny
Rollins - Newk's Time <i>1959</i></a></h3>
Sonny Rollins, tenor sax; Wynton Kelly, piano #1,2,4-6; Doug Watkins, bass
#1,2,4-6; Philly Joe Jones, drums.
<div class="date">Van Gelder Studio, Hackensack, NJ, September 22,
1957</div>
<table width="100%">
<tr><td width="15%">1. tk.5<td>Tune Up
И т.д ...