Как смоделировать разделение документов - PullRequest
0 голосов
/ 07 декабря 2018

Мне нужна небольшая помощь или идеи, как смоделировать мою проблему ML:
Предположим, у меня есть несколько документов, каждый из которых состоит из n страниц.Я хочу предсказать границы документа в куче страниц.

Поэтому я установил метку с именем «is_first_page», которая равна 1 для первой страницы документа и 0 или любой внутренней или последней странице.Таким образом, мой набор данных выглядит в основном так:

page_id, document_id, text, is_first_page
1,1, текст на странице1,1
2,1, текст на странице2,0
3,1, текст на странице 3,0
4,2, текст на странице 4,1
5,2, текст на странице 5,0
6,3, текст на странице 6,1
7,4,текст на странице 7,1
8,5, текст на странице 8,1
9,5, текст на странице 9,0
...

У меня два вопроса:

1) Проблема в некоторой степени связана с прогнозированием последовательности, поскольку каждый документ состоит из логического порядка.Это, однако, не временной ряд, и ist_first_page не является (предсказуемой) функцией page_id .... Тем не менее, мне интересно, стоит ли мне использовать LSTM для этой задачи.Предполагая, что ответ на этот вопрос положительный, мне не ясно, как он будет работать.

Я прошел учебник по теме «многие ко многим».Это предсказывает из x = "девушка заходит в бар, и она" последовательность "девушка зашла в бар, и она сказала".Это ясно для меня, но это не соответствует моей проблеме.Я не хочу предсказывать "в тексте на странице1" из "текста на странице1".Скорее, я хочу предсказать «1 0 0 1 0 1 1 1 0», используя последовательности из 9 текстов.С другой стороны, это также не сеть «многие к 1», поскольку каждая страница имеет ярлык «is_first_page» ... Любая идея будет принята с благодарностью ...

2) Я не уверен, какправильно оптимизировать сеть (т.е. минимизировать потери).В моем приведенном выше примере данных у меня 9 страниц, но только 5 документов.Таким образом, если одна отдельная страница неправильно классифицирована (скажем, страница 3), то 8/9 страниц являются правильными, но только 4 из 5 документов.По моему наивному мнению, функция потерь должна минимизировать последние ... Я много гуглил, но не смог найти подсказки, как написать функцию потерь, которая учитывает разные "строки" ...

Спасибо за любые драгоценные советы

Ян

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...