Вопросы с тегом текст добыча

0 голосов

0 ответов

R скрипт - ошибка PDF: недопустимый символ в шестнадцатеричной строке;когда я ищу ключевые слова

Я пытаюсь подсчитать количество ключевых слов в нескольких файлах PDF. library(tm)...

Daniel Meyer / 24 ноября 2018

0 голосов

1 ответ

Разделение и группировка простого текста (группировка текста по главам в кадре данных)?

У меня есть фрейм / таблица данных, куда я импортировал файл простого текста (txt).Текст очень...

Ryan / 21 ноября 2018

0 голосов

1 ответ

Удалить все знаки препинания из текста, включая апострофы для пакета tm

У меня есть вектор, состоящий из твитов (просто текст сообщения), который я очищаю для целей...

William / 20 ноября 2018

0 голосов

1 ответ

Найти бессмысленные слова в тексте

У меня есть набор данных с ответами пользователей, знают ли они бренд или нет. Некоторые...

Miguel A. Friginal / 19 ноября 2018

0 голосов

0 ответов

Транслитерация абзаца с индийского регионального языка на английский

Я хочу перевести ( Транслитерация ) абзаца с хинди (любой региональный язык) на английский,...

Vikram Singh Chandel / 19 ноября 2018

0 голосов

2 ответов

Хранить специальные символы в матрице частот слов

Я анализирую некоторые бренды в тексте, чтобы узнать, как KPI распознает рекламу. Однако бренды,...

Miguel A. Friginal / 18 ноября 2018

0 голосов

1 ответ

Подробности за «дополнением» применительно к моделированию темы

У меня есть вопрос о функции «аугмента» из учебника Силге и Робинсона «Текстовое копирование с...

Dave / 16 ноября 2018

0 голосов

0 ответов

Фильтр токенизировать слова по языку в rapidminer

У меня есть набор данных, в котором много твитов.это твиты на английском, арабском и китайском...

mahdi moghimi / 12 ноября 2018

0 голосов

1 ответ

Попытка удалить специальные символы и неанглийские слова из моих данных R

Я пытаюсь очистить свои данные для удаления; и.) специальные символы (например, + _), ii.)...

Emm / 09 ноября 2018

0 голосов

0 ответов

Как читать текст вложенных тегов привязки в HTML, используя Python

У меня есть несколько HTML-документов, и некоторые из них содержат много тегов привязки. Этот...

Aakanksha / 09 ноября 2018

0 голосов

1 ответ

Python Regex - извлечение текста между (несколькими) выражениями в текстовом файле

Я новичок в Python и был бы очень благодарен, если бы вы могли помочь мне с моей проблемой...

Dominik Scheld / 06 ноября 2018

0 голосов

1 ответ

Извлечение текста между любой комбинацией выражений (список)

Мне нужно извлечь текст между двумя выражениями (начало и конец) из текстового файла (начало и...

Dominik Scheld / 05 ноября 2018

0 голосов

0 ответов

Чтение текстового файла, содержащего таблицу с переменными пробелами и разделение столбцов

У меня есть несколько текстовых файлов с таблицей в них. Пример одного файла ниже: File_1:...

Gary / 04 ноября 2018

0 голосов

0 ответов

Я хочу найти похожие темы в train_dict для данного test_dict. У меня есть два словаря - train_dict...

user15051990 / 02 ноября 2018

0 голосов

0 ответов

Как устранить ошибку обработки нескольких файлов PDF в сценарии R

library(readtext) data_dir <- system.file("E:/project_refrences", package =...

Dilip Parmar / 24 октября 2018

0 голосов

1 ответ

Подмножество / выбрать из DFM, используя словарь в Quanteda

У меня есть набор текстов из разных стран.Я пытаюсь увидеть, как часто в текстах встречается...

NDG / 16 октября 2018

0 голосов

1 ответ

Косинусное сходство документов

Формат данных CSV Общее количество документов 500. Количество полей 10. просмотр данных я...

Shafi ullah / 09 октября 2018

0 голосов

1 ответ

Обнаружение ссылок на таблицы и изображения в тексте.

Я строю систему вопросов и ответов для конкретного домена.Я хотел определить, содержит ли абзац...

JALAJ GAMBHIR / 09 октября 2018

0 голосов

1 ответ

подставив несколько нграмм в квантеду

В своем тексте новостных статей я хотел бы перевести несколько разных нграмм, относящихся к одной и...

spindoctor / 05 октября 2018

0 голосов

1 ответ

Какой пакет R я могу использовать для подсчета появления уникальных строк в массиве

Мне нужно посчитать вхождение уникальных слов в серии слов и присвоить значение 1, когда в серии...

Chamil Rathnayake / 03 октября 2018

0 голосов

1 ответ

Объект 'Word2Vec' не имеет атрибута 'index2word'

Я получаю эту ошибку «AttributeError: у объекта« Word2Vec »нет атрибута« index2word »» в следующем...

Sina / 03 октября 2018

0 голосов

1 ответ

Соответствие предложения в R

У меня есть 2 таблицы.Таблица1 - это таблица меньшего размера со значениями около 10К.Таблица 1...

Rakesh Das / 01 октября 2018

0 голосов

0 ответов

Добавление пользовательских слов в лемматизатор WordNet nltk

Можно ли добавить пользовательские слова в лемматизатор nltk? Я пытаюсь лемматизировать слова из...

Mark / 01 октября 2018

0 голосов

1 ответ

Извлечение расчета эмоций для каждого ряда данных

У меня есть датафрейм со строками текста.Я хотел бы выделить для каждой строки текста вектор...

Kkyr / 30 сентября 2018

0 голосов

0 ответов

Обрезка файлов PDF не может обрезать текст для извлечения текста (textract и pdfminer)

Я использую библиотеку python PyPDF2, чтобы обрезать многие PDF-файлы, чтобы вырезать ненужную...

Ashley Liu / 30 сентября 2018