Re[10]: Экзотические модели и языки запросов к базам данных
От: kl Германия http://stardog.com
Дата: 18.03.14 08:56
Оценка:
Здравствуйте, chukichuki, Вы писали:

C>Кстати, может подскажите что-нибудь почитать по внутренней организации распределенных RDF хранилищ? Возник вопрос относительно этой самой масштабируемости. Кругом пишут про RDF и всякие облачные технологии. Не могу себе представить как правильно RDF данные разложить на вычислительном кластере, чтобы обеспечить эту самую масштабируемость.

C>Получается, что типовой SPARQL-запрос -- это по сути куча "перевязок" между тройками. Если тройки как-то произвольно-равномерно распределять между узлами кластера, то интуитивно кажется, что при выполнении запроса сильно потеряем на пересылки промежуточных результатов этих "перевязок". Если тройки как-то объединять в связанные подграфы, а подграфы разместить каждый на отдельном узле, то рискуем не получить равномерного распределения данных между узлами кластера. Любопытная задача. Как-то было дело, столкнулся с проблемой обработки больших графов. Была идея использовать кластер. До практики дело, правда, не дошло. Хочется посмотреть как данную задачу решают в RDF-хранилищах.

Есть разные подходы, но пока развитие находится на этапе исследовательских статей и прототипов. Но есть и продукты, например, Virtuoso cluster или 4store. Я бы посоветовал сначала ознакомиться с базовыми способами хранения RDF и индексирования для быстрого выполнения запросов, тогда будут лучше понятны проблемы в распределенном случае. Есть вот уже ставший классикой open-source продукт — RDF-3X, предложенные там решения позже использовались в ряде коммерческих продуктов. Можно начать с их статьи на VLDB.
Что касается распределенности, то самых крупных проблемы две: 1) распределенное кодирование ресурсов (т.е. как эффективно распределить то, что в RDF-3X называется the Dictionary) и 2) распределение самих индексов (в отличие от реляционных БД, в большинстве нативных RDF СУБД индексы — это и есть данные, опять-таки смотри на RDF-3X). Естественно возникают сложности равномерности, нелокальности и т.д. Исследовательских статей много, из прикладных лучшее наверное 4store: The Design and Implementation of a Clustered RDF Store.
no fate but what we make
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.