Я пытаюсь извлечь бизнес-описания нескольких фирм из их отчетов 10-K, используя пакет R, edgar
. Для этого я использую функцию getBusinDescr
.
Поскольку я хочу бизнес-описания многих фирм (более 1000), я создал вектор cik-идентификатора фирм и позволил R загрузить описания более 1000 фирм, используя этот вектор. Проблема в том, что R прекрасно загружает нужные мне пломбы (отчеты по 10 К), в то время как не удается извлечь интересующий меня раздел. Он остановился на 61% в 2007 году и на 31% в 2011 году. Однако в 2010 году добыча отработана на 100%.
Подводя итог, добыча работает в течение определенных лет, но не работает в течение других лет. Мне любопытно узнать, откуда эта ошибка. Как вы думаете, это из-за доступности данных (то есть, некоторые фирмы не имеют описания бизнеса в течение нескольких лет) или из-за некоторых естественных ошибок от повторных попыток очистки? Пожалуйста, помогите мне интерпретировать и, надеюсь, исправить ошибку.
Просто, к вашему сведению, на моем Mac установлена последняя версия R.
Код, который я использую:
# using edgar package on R
library(edgar)
# cikvector is a vector of multiple firms' identifier codes
# for year 2007
- filings.BusinDes.2007 <- getBusinDescr( cik.no=cikvector, filing.year=2007)
# for year 2008
filings.BusinDes.2008 <- getBusinDescr( cik.no=cikvector, filing.year=2008)
Идеальные результаты следующие:
Downloading fillings. Please wait...
100%
Extracting 'Item 1' section...
100%
Business descriptions are stored in 'Business descriptions text' directory.
Ошибка, с которой я сталкиваюсь, заключается в следующем (хотя загрузка всех отчетов выполняется без проблем):
Downloading fillings. Please wait...
100%
Extracting 'Item 1' section...
**| 31%Error in (grep("<DOCUMENT>", filing.text, ignore.case = TRUE)[1]): (grep("</DOCUMENT>", :
NA/NaN argument**