Tensorflow: токенизация би-грамм и н-грамм с использованием утилит Tensorflow Datasets - PullRequest
1 голос
/ 26 апреля 2019

В ряде моделей классификации текста и моделей встраивания в качестве токенов для анализа используются униграмма, биграмма и n-грамм. Я нашел способ использовать tfds.features.text.Tokenizer() для извлечения слов или слов из текстовых данных. Тем не менее, я хотел посмотреть, есть ли способ использовать Tokenizer для извлечения биграмм или n-грамм из текста? Я проверил документацию и не увидел настройки для размера каждого n-грамма, но, возможно, я что-то пропустил.

Код для извлечения n-грамм взят из одного из учебных пособий на веб-сайте Tensorflow:

tokenizer = tfds.features.text.Tokenizer()

vocabulary_set = set()

for text_tensor, _ in all_labeled_data:
    some_tokens = tokenizer.tokenize(text_tensor.numpy())
    vocabulary_set.update(some_tokens)

vocab_size = len(vocabulary_set)
print(f'Vocabulary size is: {vocab_size}')
...