Почему возникают ошибки при извлечении бизнес-описаний из отчетов 10-K с использованием пакета edgar R? - PullRequest
0 голосов
/ 06 июня 2019

Я пытаюсь извлечь бизнес-описания нескольких фирм из их отчетов 10-K, используя пакет R, edgar. Для этого я использую функцию getBusinDescr.

Поскольку я хочу бизнес-описания многих фирм (более 1000), я создал вектор cik-идентификатора фирм и позволил R загрузить описания более 1000 фирм, используя этот вектор. Проблема в том, что R прекрасно загружает нужные мне пломбы (отчеты по 10 К), в то время как не удается извлечь интересующий меня раздел. Он остановился на 61% в 2007 году и на 31% в 2011 году. Однако в 2010 году добыча отработана на 100%.

Подводя итог, добыча работает в течение определенных лет, но не работает в течение других лет. Мне любопытно узнать, откуда эта ошибка. Как вы думаете, это из-за доступности данных (то есть, некоторые фирмы не имеют описания бизнеса в течение нескольких лет) или из-за некоторых естественных ошибок от повторных попыток очистки? Пожалуйста, помогите мне интерпретировать и, надеюсь, исправить ошибку.

Просто, к вашему сведению, на моем Mac установлена ​​последняя версия R.

Код, который я использую:

# using edgar package on R
library(edgar)

# cikvector is a vector of multiple firms' identifier codes

# for year 2007
- filings.BusinDes.2007 <- getBusinDescr( cik.no=cikvector, filing.year=2007)
# for year 2008
filings.BusinDes.2008 <- getBusinDescr( cik.no=cikvector, filing.year=2008)

Идеальные результаты следующие:

Downloading fillings. Please wait...              
100%
Extracting 'Item 1' section...
100%
Business descriptions are stored in 'Business descriptions text' directory.

Ошибка, с которой я сталкиваюсь, заключается в следующем (хотя загрузка всех отчетов выполняется без проблем):

Downloading fillings. Please wait...     
100%
Extracting 'Item 1' section...                                                                                                             
**|  31%Error in (grep("<DOCUMENT>", filing.text, ignore.case = TRUE)[1]):    (grep("</DOCUMENT>",  : 
NA/NaN argument**
...