Я беру ввод от пользователя и затем токенизирую его, токенизация прошла успешно, но проблема, с...
Приведен список глоссариев: glossaries = ['USA', '34'] Цель состоит в том,...
У меня есть такой фрейм данных с текстом: suj rawText 0 01 PART1\ntext... PART2\ntext... 1 02...
Я пытаюсь сделать сборщик данных whois, я получил данные в следующем формате. Domain Name: google
Я пытаюсь поддержать Clojure игнорировать текстовую форму , #_, (своего рода комментарий) в VS Code...
Я использую регулярное выражение для сопоставления определенных выражений в тексте. предположим,...
Я создал функцию AWS Lambda, которая использует NLTK и другие библиотеки, но сжатый размер и...
Когда я попробовал следующий код: tok_corp= [nltk.word_tokenize(sent.decode('utf-8')) for...
У меня есть файл .csv, в котором столбец содержит строковые значения, такие как «St_So обновить...
Я хочу прочитать CSV-файл, который имеет следующий формат, используя pandas: atrrth sfkjbgksjg...
При чтении файла через библиотеку super-csv я получаю сообщение об ошибке конца файла из-за...
В следующем коде я пытаюсь токенизировать строку и сохранять каждый токен в динамически...
Я пытался найти лемматизатор для шведского без какого-либо успеха.Кто-нибудь знает что-нибудь об...
Я скачал MeCab для разбора японского текста.Чтобы проверить это, я попытался сделать то, что...
Я хочу преобразовать текст в последовательность, используя керас с индонезийскими языками.но...
Ниже приведен мой код, где я беру пользовательский ввод. import en_core_web_sm nlp = en_core_web_sm
В настоящее время я пишу программу, которая использует библиотеку Python NLTK, чтобы определить,...
У меня есть большой корпус из 161 строки, соответствующей округам, следующим образом:...
Я пытаюсь построить парсер для векторов (и в конечном итоге сделаю это для матриц) В моем тестовом...
У меня есть следующий пример фрейма данных со столбцом 'problem_definition': ID problem_definition...
Так что, если бы я не передавал аргумент num_words при инициализации Tokenizer(), как мне найти...
Я хочу вычислить первые 500 слов (с точки зрения вхождения) для всех файлов (максимум 15 000...
Я создаю синтаксический анализатор Java, который будет выполнять некоторые математические операции...
Каков наилучший способ чтения пользовательского типа файла и анализа его для моих пользовательских...
Я бы хотел токенизировать строку со словом. Я использую str: tokenize (), но кажется, что...