У меня есть 40 тысяч статей, каждый из которых имеет разные сегменты.Каждый из них существует в виде словаря Python с ключами title
, caegory
, subcat
, content
и т. Д.
Как создать из них корпуса, при этом сохраняя разделениеподразделы каждой статьи, но у меня все еще есть это отношение, доступное для выполнения манипуляций с?другие заголовки, но также можно связать каждый заголовок с основным контентом.
Я хочу сделать пометки POS на этом, и я не хочу портить это, просто объединяя все подразделы.
Надеюсь, что это имеет смысл.
Спасибо.
edit:
Корпорация еще не создана.Я собираюсь сделать это из этого текста.Вот как выглядит запись в БД.
{'category': u'Pets',
'content': u"<p>Putting your dog(s) in outdoor dog kennels might seem like a cruel thing to do, but when you consider that they will be</p>.....",
'signature': u'<p>Find out more on <a target="_new" href="http://petadore.com/outdoor-dog- kennels-a-great-way-to-protect-your-dog-without-building-a-fence/">outdoor dog kennels</a> and r read many interesting articles on <a target="_new" href="http://petadore.com/">pet health care</a>.</p>',
'subcat': u'Dogs',
'title': u'Outdoor Dog Kennels & Enclosures'}
Как видите, это HTML.Я хотел бы также найти способ сохранить теги, чтобы я мог выполнять тесты текста, например, в тегах <li>
или <b>
.Хотя в идеальном мире.