Системы хранения данных бывают разных типов, в частности, это могут быть хранилища резервных копий. Подобные хранилища отличаются высокой плотностью хранения данных за счет сжатия и дедупликации. Основная идея дедупликации заключается в том, что входной набор данных разделяется системой на блоки и для каждого блока вычисляется подпись. Блок с уникальной подписью сохраняется в базу данных. Если в системе уже имеется некоторая подпись, то новый блок с такой подписью не сохраняется. На таких подписях в similarity based chunking определяется метрика, позволяющая оценить похожесть блоков.
Основными целями работы являются:
Более подробная информация по проекту тут.
2 курс, 3 курс, Бакалаврская ВКР
Гориховский Вячеслав Игоревич
YADRO