Вопросы с тегом разметить

0 голосов

0 ответов

Lucene - получить позицию стоп-слова

Я использую Lucene StopAnalyzer для анализа строки The Brown Fox со стоп-словом the, поэтому она...

coderz / 08 ноября 2019

0 голосов

0 ответов

Как решить "TypeError: не может использовать строковый шаблон на байтовоподобном объекте"

Я пытаюсь токенизировать новостную статью, в которой я извлек текст из URL. Однако, когда я...

user12340901 / 08 ноября 2019

0 голосов

0 ответов

Что сложного в использовании «\\ A» в качестве разделителя

Я недавно узнал о токенизации и использовании разделителей для обозначения начала или конца любого...

MR3YY / 06 ноября 2019

0 голосов

0 ответов

Elasticsearch - объединить термины в один

Например, Elasticsearch токенизирует The Whole Foods Market в термины [the, whole, foods, market],...

coderz / 05 ноября 2019

0 голосов

1 ответ

Elasticsearch - токенизируйте термины заглавными буквами, например, «TheStarTech» => [The, Star, Tech]

Поддерживает ли Elasticsearch токенизатор для токенизации терминов заглавными буквами, например:...

coderz / 04 ноября 2019

0 голосов

1 ответ

Добавьте несколько пользовательских слов в токенизатор в Spacy

У меня есть предложение, и я хотел бы видеть ожидаемые токены следующим образом. Sentence:...

Dammio / 04 ноября 2019

0 голосов

4 ответов

как разбить строку в readlines и сохранить их в другом списке?

это мой код with open('file.txt', 'r') as source: # Indentation polTerm = [line

prasetya223 / 04 ноября 2019

1 голос

1 ответ

использование методов NLTK, таких как токенизация аннотированного текста

Скажем, у меня есть корпус аннотированного текста, где предложение выглядит примерно так: txt =...

user1172468 / 03 ноября 2019

0 голосов

0 ответов

Gatsby и GraphQL - заменить токен, встроенный в поле

На моем сайте Гэтсби я получаю экспорт контента для отдыха. JSON для каждого содержимого, которое я...

aniruddha / 01 ноября 2019

0 голосов

2 ответов

Поток токенизация с позиционными индексами в Java

При токенизации потока байтов в Java мне нужно извлечь информацию об индексах токенизированных слов

podludek / 30 октября 2019

0 голосов

1 ответ

Принудительное использование токенайзера Tensorflow для включения символа "Следующая строка"

Я пытаюсь использовать тензорный поток для моделирования персидской поэзии. Для этого мне нужно...

chikitin / 28 октября 2019

0 голосов

0 ответов

Как индексировать смешанный алфавитно-цифровой и японский в ElasticSearch

У меня есть индекс ElasticSearch, который в настоящее время использует токенайзер ICU с шириной cjk

Kevin Smith / 22 октября 2019

1 голос

1 ответ

Токенизация слов путем сохранения определенных слов с арифметическими и логическими операторами в Python 3?

При использовании нескольких предложений из большого корпуса мне нужно сохранить некоторые слова в...

Mishra S / 19 октября 2019

0 голосов

2 ответов

Токенизация корпуса из 10 документов в Python

Я новичок в кодировании на Python, поэтому выяснение того, как кодировать более сложные действия,...

Beginner_Learner19 / 18 октября 2019

0 голосов

0 ответов

Неизвестный токен с предложением

У меня огромный корпус текста, на котором я обучил предложение. Я хочу маркировать этот текст и...

elexhobby / 18 октября 2019

1 голос

0 ответов

Как провести лексический анализ и токенизацию запроса в javascript

У меня есть запрос, который заключается в следующем, где я хочу отделить ключевое слово, значение...

Shohel / 18 октября 2019

1 голос

0 ответов

Как преобразовать результат sent_tokenizer в список списков

Я запустил sent_tokenize для абзаца и смог извлечь предложение_токены. Затем мне нужно сохранить...

Tiffany / 18 октября 2019

0 голосов

0 ответов

Как отправить столбец

Я сделал обработку данных следующим образом введите описание изображения здесь . Ниже приведен код,...

권예준 / 17 октября 2019

0 голосов

1 ответ

Разделение строки на последовательности согласных гласных

Я пытаюсь разбить строку следующим образом: Ноль или более согласных, за которыми следует ноль или...

W. Zhu / 12 октября 2019

0 голосов

1 ответ

Xquery сохраняет пробелы во время токенизации

Я пытаюсь добиться ниже с помощью XQuery Ввод <DemoXML> This is a sample line one this is...

Ranjith Reddy / 11 октября 2019

0 голосов

1 ответ

Оптимизация токенинизации НЛТК

У меня есть функция синтаксического анализа NLTK, которую я использую для анализа текстового файла...

Jerry M. / 09 октября 2019

0 голосов

0 ответов

Безопасное удаление конечных пробелов из программы Python с использованием Python

Я хочу очистить конечный пробел из кода Python, чтобы он был хорошо отформатирован при сериализации...

Ark-kun / 08 октября 2019

0 голосов

0 ответов

Tokenization с исключением возвращает каждый токен обработчиком исключения

Существует популярный российский анализатор НЛП под названием PyMorphy2, который особенно хорошо...

zzHQzz / 06 октября 2019

1 голос

1 ответ

Самый быстрый способ токенизировать сигнал?

Мне нужно найти самый быстрый способ токенизации сигнала. Сигнал имеет вид: identifier:value...

quite68 / 04 октября 2019

0 голосов

2 ответов

xslt разделить по разделителю

Я не могу использовать tokenize (xslt 2.0) У меня проблема. Мне нужно разделить значение "Test...

user2351802 / 04 октября 2019