Bistro – библиотека для обработки данных и потокового анализа
От: Александр Савинов Германия https://github.com/asavinov
Дата: 08.04.18 19:12
Оценка:
Библиотека для обработки данных Bistro Engine и библиотека для анализа потоковых данных Bistro Streams:

https://github.com/asavinov/bistro Bistro делает для обработки данных то, что колончатый подход сделал для баз данных

Этот проект может быть интересен тем, кто интересуется большими данными, потоковыми данными и обработкой данных вообще. Проект состоит из двух частей:


Основное отличие Bistro от других систем (включая SQL и map-reduce) в том, что он использует колончатый подход к обработке данных, а не операции с множествами. Если обычно, чтобы получить новые данные мы применяем операции к множествам (таблицы, коллекции и т.е.), то в Bistro мы определяем колонки на основе уже существующих колонок. Вычисление значений колонок соответствует вычислению запросов в обычных системах. Определение того, что делать с данными в Bistro выглядит примерно так:

column1.calc( <lambda> ); // Аналог вычисляемого атрибута 
column2.link(<lambda> ); // Аналог join 
column3.accu(<lambda> ); // Аналог group-by 
column4.rol(<lambda> ); // Скользящая агрегирование 
schema.eval(); // Аналог выполнения запроса
map-reduce data stream big data analytics
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.