В ряде моделей классификации текста и моделей встраивания в качестве токенов для анализа используются униграмма, биграмма и n-грамм. Я нашел способ использовать tfds.features.text.Tokenizer()
для извлечения слов или слов из текстовых данных. Тем не менее, я хотел посмотреть, есть ли способ использовать Tokenizer для извлечения биграмм или n-грамм из текста? Я проверил документацию и не увидел настройки для размера каждого n-грамма, но, возможно, я что-то пропустил.
Код для извлечения n-грамм взят из одного из учебных пособий на веб-сайте Tensorflow:
tokenizer = tfds.features.text.Tokenizer()
vocabulary_set = set()
for text_tensor, _ in all_labeled_data:
some_tokens = tokenizer.tokenize(text_tensor.numpy())
vocabulary_set.update(some_tokens)
vocab_size = len(vocabulary_set)
print(f'Vocabulary size is: {vocab_size}')