У меня есть некоторый аннотированный исходный код HTML, где код похож на то, что вы получите, используя requests
, а аннотации представляют собой метки с индексом символов, с которого начинается помеченный элемент, и
Например,исходный код может быть:
<body><text>Hello world!</text><text>This is my code. And this is a number 42</text></body>
, а метки могут быть, например:
[{'label':'salutation', 'start':12, 'end':25},
{'label':'verb', 'start':42, 'end':45},
{'label':'size', 'start':75, 'end':78}]
Ссылаясь на слова «Hello world», «is» и «42» соответственно.Мы заранее знаем, что метки не перекрываются.
Я хочу обработать исходный код и аннотации для получения списка токенов, подходящих для формата HTML.
Например, это можетсоздайте здесь что-то вроде этого:
['<body>', '<text>', 'hello', 'world', '</text>', '<text>', 'this', 'is', 'my', 'code', 'and', 'this', 'is', 'a', 'number', '[NUMBER]', '</text>', '</body>']
Кроме того, он должен сопоставить аннотации с токенизацией, создав последовательность меток той же длины, что и токенизация, например:
['NONE', 'NONE', 'salutation', 'salutation', 'NONE', 'NONE', 'NONE', 'verb', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'size', 'NONE', 'NONE']
Какой самый простой способ сделать это в Python?