В приведенном ниже коде я пытаюсь загрузить файл h5 и классифицировать текст в категорию
Но проблема в том, как сопоставить эти слова с пакетом слов и получить позициючисла, которые являются входными данными для предиката
. Для генерации файла h5 я написал код, как показано ниже, текст маркируется, и меткам присваиваются 0 или 1
Генерируются токенизированные словасверху примерно так.
[[219, 1, 4, 3, 1821, 41, 288, 36], [33, 18, 1, 4, 14, 12, 563],[9, 28, 6, 214, 3, 1822, 388], [8, 11, 74, 30, 23], [13, 8, 1, 14, 12, 1823, 12, 187, 166, 7, 249, 1, 564, 565], [22, 29, 16, 566, 3, 861, 31, 862, 31, 67, 17, 122], [13, 8, 1, 14, 3, 348, 131, 31, 484, 148, 20, 63, 35, 153], [22, 86, 17, 567, 20, 17, 389, 3, 425], [13, 8, 1, 4, 14, 12, 56, 49, 3, 220, 1824, 680], [13, 9, 1, 4, 6, 63, 426, 3, 1825, 390], [13, 8, 1, 4, 221, 132, 5, 1158, 863, 41, 100, 154], [4, 3, 391, 41, 138, 1826, 1827], [13, 9, 1, 4, 6, 3, 1828, 143], [9, 11, 6, 101, 3, 1, 35, 123], [13, 8, 1, 4, 12, 260, 139, 3, 485, 179, 8, 144, 233, 215], [33, 18, 92, 11, 9, 11, 6, 140, 3, 1159, 1160, 100, 273], [9, 11, 6, 140, 30, 7, 261, 864], [13,8, 1, 4, 14, 12, 1829], [9, 11, 6, 75, 7, 274, 200, 349, 3, 1830, 350], [13, 9, 1, 4, 6, 3,1831, 1832, 201, 7, 1833, 1834, 145], [8, 1, ......