Возможно, я пытаюсь работать со структурами данных, которые не соответствуют моим потребностям,...
В настоящее время я использую пользовательский корпус, который содержит документы с тегами class...
У меня есть пять таблиц, содержащих лексические данные.Я хочу отобразить предложения от корпуса к...
Я нашел аккуратный способ в стеке потока обработки многопеременной инструкции case с использованием...
взять выборку предложений из каждого из корпусов corpus1, corpus2 и corpus3 и отобразить среднюю...
У меня есть список HTML-файлов, я взял некоторые тексты из Интернета и заставил их читать с помощью...
Я построил данные, которые показывают все термины с пунктуацией и их частотой. Затем я должен...
Я сохраняю корпус ТМ в R. writeCorpus(as.character(thecrp), dirdst, filenames = NULL) Все нормально...
У меня есть следующая схема данных в БД mongo, которая содержит корпус документов. У меня есть 2...
Заранее спасибо за помощь.У меня есть файл CSV, в котором каждая строка является респондентом (n =...
У меня есть несколько строк текста, и я хочу удалить любое слово со специальными символами или...
У меня есть фрейм данных со следующими переменными: doc_id text URL author date forum Когда я...
Я пытаюсь использовать файл текстового корпуса ( Одно предложение в строке ), чтобы вычеркнуть из...
Я создал DocumentTermMatrix, похожий на тот, что приведен в этом посте: Сохранить идентификатор...
Кто-нибудь знает API Python Sketch Engine и может рассказать нам, как получить частоту n-грамма?...
Предоставляет ли Stanford CoreNLP гибкость для модели поезда для разрешения конференции на языке...
Я пытаюсь построить модель классификации намерений из речи (аудио), для которой мне нужны...
Я запускал этот код в прошлом, и он работал нормально. Через пару месяцев ядро продолжает умирать
Я ищу способ сравнить гистограммы слов по документам, принадлежащим к папке с несколькими...
У меня есть цикл while, который обрабатывает данные за несколько лет. За это время один атрибут в...
Я использую gensim для создания модели пакета слов и хочу выполнить нормализацию. Я нашел...
Я пытаюсь загрузить предварительно обученную модель word2vec, используя gensim.Хотя модель помечена...
При вводе: 1,aaaa,2018-11-03 2,bbbb,2018-02-03 Ожидаемый вывод Скрипт должен обрабатывать дату как...
У меня большой корпус, разбитый на файлы по 5K, я пытаюсь сгенерировать словарь на основе IDF с...
У меня есть параллельный переведенный корпус на английском-французском (text.en, text.fr), каждый...