НЛТК - Лучший способ структурировать корпорации? - PullRequest
2 голосов
/ 18 августа 2011

У меня есть 40 тысяч статей, каждый из которых имеет разные сегменты.Каждый из них существует в виде словаря Python с ключами title, caegory, subcat, content и т. Д.

Как создать из них корпуса, при этом сохраняя разделениеподразделы каждой статьи, но у меня все еще есть это отношение, доступное для выполнения манипуляций с?другие заголовки, но также можно связать каждый заголовок с основным контентом.

Я хочу сделать пометки POS на этом, и я не хочу портить это, просто объединяя все подразделы.

Надеюсь, что это имеет смысл.

Спасибо.

edit:

Корпорация еще не создана.Я собираюсь сделать это из этого текста.Вот как выглядит запись в БД.

{'category': u'Pets',
 'content': u"<p>Putting your dog(s) in outdoor dog kennels might seem like a cruel thing to     do, but when you consider that they will be</p>.....",
 'signature': u'<p>Find out more on <a target="_new" href="http://petadore.com/outdoor-dog-            kennels-a-great-way-to-protect-your-dog-without-building-a-fence/">outdoor dog kennels</a> and r   read many interesting articles on <a target="_new" href="http://petadore.com/">pet health     care</a>.</p>',
 'subcat': u'Dogs',
 'title': u'Outdoor Dog Kennels & Enclosures'}

Как видите, это HTML.Я хотел бы также найти способ сохранить теги, чтобы я мог выполнять тесты текста, например, в тегах <li> или <b>.Хотя в идеальном мире.

...