Question

При попытке использовать конвейер spaCy для получения биомедицинских данных я получаю следующую ошибку.

ValueError: [E088] Text of length 36325726 exceeds the maximum of 1000000. The v2.x parser and NER models require roughly 1GB of temporary memory per 100,000 characters in the input. This means long texts may cause memory allocation errors. If you're not using the parser or NER, it's probably safe to increase the `nlp.max_length` limit. The limit is in the number of characters, so you can check whether your inputs are too long by checking `len(text)`.

Примечание. При уменьшении размера он работает нормально. Но NLP - это все о больших данных :) (в основном)

Обновление: Итак, ошибка ValueError разрешена. Но SciSpacy использует слишком много вычислительной мощности и, таким образом, вынуждает Kaggle Kernel перезапускаться.

На данный момент я разбил свой набор данных (1919 статей на 15 отдельных элементов) только для достижения результата.

Но, пожалуйста, дайте мне знать, если есть какой-то другой способ, и если я что-то упускаю. Вот последнее ядро: Шнур-19

SCISPACY - превышена максимальная длина

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

SCISPACY - превышена максимальная длина

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы