Вопросы с тегом разметить

0 голосов

1 ответ

SOLR Tokenizer "solr.SimplePatternSplitTokenizerFactory" разбивает неожиданные символы

У меня неожиданные результаты с solr.SimplePatternSplitTokenizerFactory .Используемый шаблон на...

sdamson / 26 февраля 2019

0 голосов

3 ответов

python: токенизировать список кортежей без цикла for

У меня есть список из 2 миллионов кортежей, где первый элемент - текст, а второй - целое число

Jack Reimer / 25 февраля 2019

0 голосов

1 ответ

Добавление значений во фрейм данных и экспорт

Я пытаюсь добавить два значения в виде списка в фрейме данных. Одно - это Предложение, а другое -...

adnan / 17 февраля 2019

0 голосов

2 ответов

Керас токенизация (подходит для текста)

Когда я запускаю этот скрипт -> tokenizer.fit_on_texts(df['text'].values) sequences =...

SAURAV SUMAN / 14 февраля 2019

0 голосов

0 ответов

Различные ответы с AntConc против моего токенизированного текста с использованием Python

Хорошо, так что я работал над токенизацией всего LOTR, Братства Кольца, И я думаю, что это работало...

Lexipaichnidi / 13 февраля 2019

0 голосов

1 ответ

Как я могу токенизировать массив объектов json?

Привет, мне нужно токенизировать массив объектов json, но я не уверен, как это сделать. В настоящее...

Euridice01 / 12 февраля 2019

0 голосов

0 ответов

Токенизация именованных объектов в Spacy

может кто-нибудь помочь, пожалуйста. Я пытаюсь токенизировать документ, используя Spacy,...

Fourthought / 12 февраля 2019

0 голосов

1 ответ

Как токенизировать пиньинь, предпочтительно используя вложенные, пересекающиеся группы регулярных выражений?

Я пытаюсь токенизировать китайскую нотацию пиньинь (без тонов).Рассмотрим следующий код: finals =...

d33tah / 09 февраля 2019

0 голосов

4 ответов

Как объединить разделительные столбцы в каждой строке?

Я очистил свой CSV-файл, который содержит 50000 строк текста и разбил токены на каждую строку

Adam Davies / 08 февраля 2019

0 голосов

1 ответ

Прочитайте CSV как текстовый файл и токенизируйте его

У меня был предыдущий вопрос, в котором было слишком много компонентов, поэтому мне было предложено...

Anthony Harmon / 05 февраля 2019

0 голосов

1 ответ

Java / Kotlin: токенизация строки, игнорирующая содержимое вложенных кавычек

Я хотел бы разделить символ пробелами, но оставить пробелы внутри кавычек (и самих кавычек)

wouldnotliketo / 04 февраля 2019

0 голосов

1 ответ

Однако, пытаясь разобрать слова в HashMap из входного потока (символ за символом), пробелы продолжают поступать?

Я пытаюсь разобрать слова из входного файла в хэш-карту, где каждое слово отображается в количество...

skidjoe / 31 января 2019

0 голосов

0 ответов

Разделять и группировать файлы с одинаковым пространством имен

Я работаю с приложением, которое обрабатывает XML-файл, который содержит большое количество заказов

DevidJ88 / 30 января 2019

0 голосов

0 ответов

Токенизация нескольких слов в Python

Я новичок в питоне.У меня есть большой набор данных из твиттера, и я хочу токенизировать его.но я...

mohammad karami / 29 января 2019

0 голосов

1 ответ

Как маркировать специальные символы в зависимости от пробелов (<> | и т. Д.)

Я обнаружил, что проект, выполненный несколько лет назад, нашел здесь , который выполняет простой...

M. Twain / 29 января 2019

0 голосов

0 ответов

Проблема с использованием предварительно обученного вектора.Проблема токенизации

Я использую предварительно обученные векторы для модели керас, и у меня проблема с преобразованием...

Nastja Kr / 25 января 2019

0 голосов

1 ответ

Пространственный токенизация объединяет неправильные токены

Я хотел бы использовать spacy для токенизации соскобов из Википедии. В идеале это будет работать...

lhk / 25 января 2019

0 голосов

1 ответ

Разбиение строки на соответствующие слова

После использования парсера PDF (pdfminer) и токенизации (пакет nltk) у меня есть несколько...

Evan Mata / 24 января 2019

0 голосов

1 ответ

Как токенизировать один столбец в CSV-файле с 2 столбцами, используя Pandas DataFrame

Я пытаюсь выполнить анализ настроений с помощью байесовского классификатора, и у меня есть файл CSV...

pumpmancarl / 24 января 2019

0 голосов

2 ответов

Разбить слова на слоги (символы гуджарати) для гуджарати

Я пытаюсь токенизировать слово Gujarati (язык Indian) в символы. Пример: word - слово, тогда я хочу...

doer_uvc / 24 января 2019

0 голосов

0 ответов

Пользовательский токенизатор Lucene Solr - Как включить специальные символы-разделители в качестве токенов?

Мне нужно написать токенайзер для файлов с исходным кодом в Solr, но у меня нет возможности...

Software Engineer / 23 января 2019

0 голосов

0 ответов

Как CountVectorizer работает после предварительной обработки?

Я сделал положительный и отрицательный отзыв, чтобы увидеть, как работает countvectorizer после...

Posi2 / 23 января 2019

0 голосов

1 ответ

Как я могу установить токенайзер в конфигеasticsearch.yml?

Каков правильный синтаксис для установки токенайзера Whitespace вместо стандартного в elasticsearch

Pim / 22 января 2019

0 голосов

1 ответ

Невозможно получить правильный результат от эластичного поиска на основе запроса и токенизации документа

Я пытаюсь реализовать поисковую систему, в которой мне нужно использовать Edge NGRAM Tokenizer

Parisa Payami / 19 января 2019

0 голосов

3 ответов

Есть ли лучший способ токенизировать некоторые строки?

Я пытался написать код для токенизации строк в python для некоторого НЛП и придумал этот код: str =...

loksoni / 15 января 2019