Это ответ на вопрос, предоставленный здесь при использовании sqldf()
https://stackoverflow.com/a/1820610
В моем конкретном случае у меня есть файл с разделителями табуляции с более чем 110 миллионами строк. Я хотел бы выбрать строки, которые соответствуют 4,6 миллионам идентификаторов тегов.
В следующем коде идентификаторы тегов находятся в tag.query
Однако, хотя пример будет работать с меньшим запросом, он не обрабатывает вышеприведенный более крупный пример:
sql.query <- paste('select * from f where v2 in (', tag.query, ')', sep='')
selected.df <- sqldf(sql.query, dbname = tempfile(), file.format = list(header = F, row.names = F, sep="\t", skip=line.where.header.is))
Есть предложения по альтернативным методам оценки?