SCISPACY - превышена максимальная длина - PullRequest
0 голосов
/ 02 апреля 2020

При попытке использовать конвейер spaCy для получения биомедицинских данных я получаю следующую ошибку.

ValueError: [E088] Text of length 36325726 exceeds the maximum of 1000000. The v2.x parser and NER models require roughly 1GB of temporary memory per 100,000 characters in the input. This means long texts may cause memory allocation errors. If you're not using the parser or NER, it's probably safe to increase the `nlp.max_length` limit. The limit is in the number of characters, so you can check whether your inputs are too long by checking `len(text)`.

Примечание. При уменьшении размера он работает нормально. Но NLP - это все о больших данных :) (в основном)

Обновление: Итак, ошибка ValueError разрешена. Но SciSpacy использует слишком много вычислительной мощности и, таким образом, вынуждает Kaggle Kernel перезапускаться.

На данный момент я разбил свой набор данных (1919 статей на 15 отдельных элементов) только для достижения результата.

Но, пожалуйста, дайте мне знать, если есть какой-то другой способ, и если я что-то упускаю. Вот последнее ядро: Шнур-19

spacy

...