Вопросы с тегом разметить

0 голосов

1 ответ

Как искать несколько элементов в листе xlsx в python

Я беру ввод от пользователя и затем токенизирую его, токенизация прошла успешно, но проблема, с...

MSFast / 14 января 2019

0 голосов

1 ответ

Как разбить строки на основе списка глоссариев?

Приведен список глоссариев: glossaries = ['USA', '34'] Цель состоит в том,...

alvas / 14 января 2019

0 голосов

0 ответов

проблема с регулярным выражением токенизатора

У меня есть такой фрейм данных с текстом: suj rawText 0 01 PART1\ntext... PART2\ntext... 1 02...

Charlotte VAN DEN DRIESSCHE / 11 января 2019

0 голосов

0 ответов

Как анализировать данные WhoIs с помощью Tokenizer

Я пытаюсь сделать сборщик данных whois, я получил данные в следующем формате. Domain Name: google

nav / 09 января 2019

0 голосов

1 ответ

Как встроить синтаксический объект в другой в определениях языка TextMate, tmLanguage

Я пытаюсь поддержать Clojure игнорировать текстовую форму , #_, (своего рода комментарий) в VS Code...

PEZ / 08 января 2019

0 голосов

1 ответ

Как сопоставить выражение регулярного выражения и получить прецедентные слова

Я использую регулярное выражение для сопоставления определенных выражений в тексте. предположим,...

Berlines / 05 января 2019

0 голосов

0 ответов

Можно ли использовать только english.pickle в NLTK punkt word_tokenize для уменьшения размера пакета развертывания?

Я создал функцию AWS Lambda, которая использует NLTK и другие библиотеки, но сжатый размер и...

Insu Q / 05 января 2019

0 голосов

1 ответ

AttributeError при токенизации предложения

Когда я попробовал следующий код: tok_corp= [nltk.word_tokenize(sent.decode('utf-8')) for...

Tekna / 26 декабря 2018

0 голосов

1 ответ

строка токена в столбце строк файла .csv

У меня есть файл .csv, в котором столбец содержит строковые значения, такие как «St_So обновить...

Thyvapar / 24 декабря 2018

0 голосов

3 ответов

Чтение плохих CSV-файлов со значениями мусора

Я хочу прочитать CSV-файл, который имеет следующий формат, используя pandas: atrrth sfkjbgksjg...

Siddharth Bachoti / 24 декабря 2018

0 голосов

0 ответов

Escape Специальные символы в Super-CSV Bean Reader

При чтении файла через библиотеку super-csv я получаю сообщение об ошибке конца файла из-за...

rrunique / 21 декабря 2018

0 голосов

3 ответов

Проблема токенизации строки возникает при удалении повторяющихся слов из строки

В следующем коде я пытаюсь токенизировать строку и сохранять каждый токен в динамически...

wako / 18 декабря 2018

0 голосов

0 ответов

Шведская лемматизация

Я пытался найти лемматизатор для шведского без какого-либо успеха.Кто-нибудь знает что-нибудь об...

Stergios Efes / 18 декабря 2018

0 голосов

1 ответ

MeCab неправильно анализирует

Я скачал MeCab для разбора японского текста.Чтобы проверить это, я попытался сделать то, что...

capsulemage / 16 декабря 2018

0 голосов

1 ответ

Как добавить известные слова tokenizer keras python?

Я хочу преобразовать текст в последовательность, используя керас с индонезийскими языками.но...

Ibid Athoillah / 12 декабря 2018

0 голосов

1 ответ

Как добавить исключение токенайзера для пробелов в языковых моделях Spacy

Ниже приведен мой код, где я беру пользовательский ввод. import en_core_web_sm nlp = en_core_web_sm

venkatttaknev / 12 декабря 2018

0 голосов

1 ответ

UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xc3 в позиции 5: порядковый номер не в диапазоне (128)

В настоящее время я пишу программу, которая использует библиотеку Python NLTK, чтобы определить,...

T. Douglass / 10 декабря 2018

0 голосов

0 ответов

Ускорение построения токенов отсчитывается от корпуса

У меня есть большой корпус из 161 строки, соответствующей округам, следующим образом:...

Frederic Bastiat / 10 декабря 2018

0 голосов

0 ответов

Как построить парсер Java для векторов?

Я пытаюсь построить парсер для векторов (и в конечном итоге сделаю это для матриц) В моем тестовом...

Sukhrat Arziyev / 29 ноября 2018

0 голосов

2 ответов

Python Pandas NLTK Tokenize Column в Pandas Dataframe: ожидаемая строка или байтовоподобный объект

У меня есть следующий пример фрейма данных со столбцом 'problem_definition': ID problem_definition...

PineNuts0 / 28 ноября 2018

0 голосов

1 ответ

Как найти «num_words» или размер словаря токерайзера Keras, если он не назначен?

Так что, если бы я не передавал аргумент num_words при инициализации Tokenizer(), как мне найти...

karthiks / 28 ноября 2018

0 голосов

0 ответов

Эффективный ли счетчик времени (500 лучших слов) большого каталога в Python?

Я хочу вычислить первые 500 слов (с точки зрения вхождения) для всех файлов (максимум 15 000...

Mishra S / 26 ноября 2018

0 голосов

0 ответов

Как токенизировать массив и матрицу в Java?

Я создаю синтаксический анализатор Java, который будет выполнять некоторые математические операции...

Sukhrat Arziyev / 26 ноября 2018

0 голосов

0 ответов

Разбор пользовательских типов файлов

Каков наилучший способ чтения пользовательского типа файла и анализа его для моих пользовательских...

ApexModder / 22 ноября 2018

0 голосов

2 ответов

XSL и токенизировать со словом

Я бы хотел токенизировать строку со словом. Я использую str: tokenize (), но кажется, что...

Matt / 18 ноября 2018