Куда идет проект pydata BLAZE? - PullRequest
0 голосов
/ 06 декабря 2018

Я нахожу блестящую экосистему * удивительной, потому что она охватывает большинство случаев использования данных.В период 2015–2016 годов эти проекты, безусловно, вызывали большой интерес, но в последнее время они игнорировались.Я говорю это, глядя на коммиты на репозитории github.

Так что мой вопрос к сообществу:

- Что случилось в 2016 году, что привело к потере интереса?

-Есть ли другие библиотеки на основе Python, которые заменили Blaze?

Blaze экосистема:

  • Blaze: интерфейс для запроса данных в различных системах хранения
  • Dask: параллельные вычисления черезалгоритмы планирования задач и блокировки
  • Datashape: язык описания данных
  • DyND: библиотека C ++ для динамических многомерных массивов
  • Odo: миграция данных между различными системами хранения

ссылки: http://blaze.pydata.org/

1 Ответ

0 голосов
/ 06 декабря 2018

Я могу дать некоторую часть картины, хотя другие были более вовлечены.Blaze был одновременно зонтичным проектом для инкубирования идей разработки данных в выпущенные пакеты oss, и сам пакет фокусировался на символических манипуляциях с фреймами данных и переводил их в различные механизмы выполнения бэкэнда, в частности, в службы баз данных.Критически, Blaze хотел быть (началом) решения для очень широкого круга проблем!В частности, уровень перевода стал очень большим и сложным в обслуживании, и, пытаясь угодить всем, ограничил диапазон операций, которые мог бы предложить символический уровень.

С точки зрения зонтичного проекта Blaze был успешным,Многие идеи, которые начались в Blaze, проникли в экосистему.Вероятно, наиболее заметный проект Blaze - это Dask, который изначально планировался как уровень выполнения для Blaze, в котором реализован еще больший API операций с фреймами данных, а также другие высокоуровневые коллекции и произвольные манипуляции с графами.В Dask существуют даже полностью символические оптимизации, хотя, возможно, это не так полно.Работа над Blaze повлияла на другие проекты, устойчивые к Anaconda, такие как numba и bokeh, но я не буду говорить о них здесь.

Что касается datashape / dynd, это довольно многолюдное пространство со многими другимисвязанные проекты (xnd, uarray и т. д.) и идеи, которые можно условно представить как «numpy 2» (т. е. более полное, гибкое представление сложных макетов данных и их описание).Сообщество еще не приняло это, почти все используют систему типов numpy (заметное исключение из того, что делает стрелка внутри).

Наконец, для форматов данных и Odo, я призываю вас рассмотреть Intake, который может показаться преемником, который может предложить гораздо больше функциональных возможностей, таких как каталогизация источников данных, и делает это, ограничивая область действия стороной чтения.Большая сеть взаимодействий, то есть Odo, была также проблемой многих для многих, которую стало сложно поддерживать, и, упрощая вещи, Intake надеется стать де-факто слоем над библиотеками загрузки данных и основным способом описания местоположения., описание и параметризация данных.Однако Odo не умер, поэтому, если преобразование файлов именно то, что вам нужно, вы все равно можете его использовать.

...