spacy конвертировать conllul в формат spacy json - PullRequest
0 голосов
/ 15 ноября 2018

Я получаю данные от универсальных зависимостей. Я работаю в основном с индонезийцем (бахаса), поэтому я клонирую репо:

оба репо содержат файл bz2, и после распаковки я получаю содержащиеся в них файлы.все есть в формате conllul.поэтому я попытался преобразовать его в json-формат spacy с помощью команды:

python -m spacy convert thefile.conllul .

однако сообщение об ошибке выброса spacy:

Unknown format Can't find converter for conllul

как сделать преобразование?формат conllul и conll это одно и то же?если нет, то как мне конвертировать conllul в conll формат?спасибо заранее

1 Ответ

0 голосов
/ 16 ноября 2018

Хорошо, давайте немного уточним, прежде чем ответить на ваш вопрос.

Следующие утверждения верны:

  • Существуют различные форматы ConNLL
  • Различныеобщее для форматов то, что они получены из CoNLL конференции.
  • Spacy предоставляет через CLI конвертер для 2 различных форматов: простой формат conll и самый последний формат conllu.Вы можете найти больше о формате conll здесь и больше о формате conllu здесь
  • Conllul - это другой формат данных, представленный в 2018 году. Вы можете прочитать больше здесь
  • Spacy не поддерживает прямое преобразование между форматами conllul и json.

Имея все это в виду, ответ на ваш вопрос, я думаю, будет целесообразно использоватьформат conllu для вашего языка, который является стандартным способом работы с данными на естественном языке с помощью spacy.Я обнаружил, что в вашем наборе древовидной системы ud для вашего языка есть данные в формате.Вы можете скачать данные с здесь и затем использовать конвертер spacy для преобразования их в json.

Я действительно надеюсь, что это помогло.:)

...