Вопросы с тегом nlp

0 голосов

1 ответ

Как убрать пунктуацию списка в Python?

Я новичок в nltk и python.Мне было дано задание извлечь все тексты из URL.Я попытался и смог...

Mishra S / 11 июня 2018

0 голосов

0 ответов

Spacy |можно ли убрать жестко заданный предел длин в фразеометре?

Я использую библиотеку Spacy на python3.6, у меня есть массив из 700 терминов и PharseMatcher,...

Aviv / 11 июня 2018

0 голосов

0 ответов

Извлечение названий учебников и журнальных статей из различных программ

Я пытаюсь извлечь названия учебников и другие журнальные статьи в учебных программах, собранных из...

dbm / 11 июня 2018

0 голосов

1 ответ

Результаты Swift NSLinguisticTagger для языков, отличных от английского

В настоящее время я проверяю NSLinguisticTagger Свифта.Для целей тестирования я использовал код из...

Krid / 10 июня 2018

0 голосов

0 ответов

stemDocument в R слишком сильно сокращает некоторые слова.Как это настроить?

Я столкнулся с проблемой с функцией stemDocument в R. Как показано в следующих блоках, я правильно...

Wanshan / 10 июня 2018

0 голосов

2 ответов

Получить наиболее частые контексты между двумя словами в word2vec

Я уже построил свою собственную модель Skip-Gram, используя gensim word2vec.Я знаю, что могу...

dimasdmm / 10 июня 2018

0 голосов

2 ответов

Как обрабатывать несбалансированные данные этикетки с помощью FastText?

В FastText у меня несбалансированные метки.Как лучше всего справиться с этим?

Gil Lev / 10 июня 2018

0 голосов

1 ответ

Преобразование текстового документа в массив NSCY чисел в Python

У меня есть большой текстовый документ (UTF-8), который содержит буквы, цифры, пробелы, специальные...

borkbork / 10 июня 2018

0 голосов

0 ответов

Очистка (или предотвращение) лишних пробелов с PyPDF2

Я извлекал текст из PDF-файлов, используя PyPDF2.Однако, кажется, вводится ошибочный пробел между...

hipHopMetropolisHastings / 09 июня 2018

0 голосов

2 ответов

Лучший способ заменить предложения / абзацы строкой в Python

Как бы заменить все предложения и абзацы тегом <string> в текстовых файлах? Я хочу сохранить...

echan00 / 09 июня 2018

0 голосов

1 ответ

Python: как быстрее вычислить сходство по Jaccard

В lst_test содержится около 98 000 предложений (длина от 5 до 100 слов) и около 1000 предложений...

tktktk0711 / 09 июня 2018

0 голосов

0 ответов

getDependency для файла предложений

Я пытаюсь использовать анализатор зависимостей для каждого предложения.Я пробовал разбор coreNLP...

sampurna / 08 июня 2018

0 голосов

3 ответов

Gensim Word2Vec «Вы должны сначала создать словарный запас перед тренировкой модели»

Я пытаюсь соответствовать модели Word2Vec.Согласно документации для Word2Vec от Gensim нам не нужно...

Jonathan Scott / 08 июня 2018

0 голосов

1 ответ

Spacy - Tokenize строка в кавычках

Я использую spacy 2.0 и использую строку в кавычках в качестве ввода. Пример строки "The...

user007 / 08 июня 2018

0 голосов

1 ответ

Пакет R Lime для текстовых данных

Я изучал использование R lime на наборах текстовых данных для объяснения предсказаний модели...

Lacri Mosa / 08 июня 2018

0 голосов

1 ответ

Распознавание Python и имени для арабского языка

Я исполняю НЭР на арабском языке.Код выглядит следующим образом: from polyglot.text import Text...

rahulagnihotri / 08 июня 2018

0 голосов

1 ответ

Добавление объектов в классификатор NER NER Stanford

У меня очень простой способ извлечь имена, организации и местоположения из строки.Я использую...

Coesy / 07 июня 2018

0 голосов

1 ответ

NLP, spaCy: стратегия улучшения сходства документов

Фон одного предложения : у меня есть текстовые данные из автоматически транскрибированных...

tmo / 07 июня 2018

0 голосов

1 ответ

Как получить индекс токена в предложении в SPACY?

Есть ли элегантный способ получить индекс слова / токена в его предложении?Мне известны атрибуты...

Johannes Krämer / 07 июня 2018

0 голосов

1 ответ

Как кластеризовать именованную сущность с помощью StanfordNER с использованием Python

Stanford NER предоставляет банку NER для обнаружения POS-тегов и NER.Но я пытаюсь разобрать одну...

Rohit / 07 июня 2018

0 голосов

1 ответ

Эффективная реализация BPE с использованием очереди приоритетов

Я думаю, что это не строго BPE ( кодировка пары байтов ), но есть аналогичная идея, примененная к...

Keisuke Ueda / 07 июня 2018

0 голосов

2 ответов

Как извлечь текст, пока он не достигнет заглавного слова?питон

Это мой полный текст: RETENTION Liability in excess of the Retention The Retention shall be borne...

Raj Mehta / 06 июня 2018

0 голосов

0 ответов

Быстрый поиск строк в Tidy Corpus R

У меня аккуратный фрейм данных, созданный из текстового корпуса.Я хочу создать новую двоичную...

Garglesoap / 06 июня 2018

0 голосов

1 ответ

Применение сентиментального анализа TextBlob в Twitter Stream

В настоящее время я транслирую твиты и хочу применить сентиментальный анализ для каждого твита,...

Cris Pineda / 06 июня 2018

0 голосов

1 ответ

Удаление дублирующих линий и разделение параллельного корпуса

У меня есть параллельный переведенный корпус на английском-французском (text.en, text.fr), каждый...

lura.zanobia / 06 июня 2018