Deduplikacja danych w macierzach dyskowych

26 lutego, 2022

Deduplikacja danych w macierzach dyskowych

Deduplikacja danych w macierzach dyskowych

Skokowy wzrost przechowywanych danych jest od lat sygnalizowanym wyzwanie. IDC w 2018 roku prognozował, że w 2025 roku suma globalnych danych osiągnie 175 zettabajtów ( ~ 175* 1021 = 175 000 000 000 000 000 000 000 B). Portal statista na rok 2022 przedstawia 97 ZB danych, a w 2025 już 181 ZB. To oznacza, że w ciągu nadchodzących trzech lat liczba danych prawie się podwoi.

Raporty i konferencje organizowane przez kluczowych graczy rynku IT, pozwalają dostrzec globalne trendy i przygotować się na ich nadejście.
Jednak nasze „małe ojczyzny” IT, które mamy pod swoimi skrzydłami, często kształtują się w lokalnych warunkach, a budżety nie rosną równolegle z oczekiwaniami zarządu, użytkowników, klientów.

Macierz z deduplikacją

Czy w takiej sytuacji jesteśmy skazani na ciągłe „gonienie króliczka” i kreatywność dzięki, której (w pocie czoła) udaje się to wszystko „spiąć”?
Rozwiązaniem tego problemu może być zastosowanie macierzy z deduplikacją.
Takim sposobem, przy tej samem przestrzeni użytecznej macierzy, możemy wyzbyć się obaw o uruchomienie nowej usługi ze względu na brak zasobów dyskowych.

Czym jest deduplikacja?

Mówiąc najprościej, deduplikacja to eliminowanie powtarzających się bloków danych istniejących w określonym środowisku.
Bardziej obrazowym przykładem może być scenariusz, który zdarza się w każdej firmie. Ten sam plik został zapisany w różnych miejscach przez kilku użytkowników. Może się także zdarzyć, że pliki o różnej nazwie mają tożsamą zawartość. Proces deduplikacji to usuwanie niepotrzebnych kopii i zachowywanie w pamięci masowej tylko unikalnych segmentów danych.

Częstym rozwiązaniem jest stosowanie deduplikatorów jako repozytorium systemu kopii bezpieczeństwa.
Dlaczego nie wykorzystujemy znanej i sprawdzonej technologii w środowisku produkcyjnym?

  • Być może obawiamy się o wydajność?

    Zupełnie niepotrzebnie. Dyski SSD wprowadziły rewolucję w wydajności. Na tyle skuteczną, że inżynierowie odpowiedzialni za rozwój nowych technologii zwrócili uwagę, że ograniczeniem nie jest jedynie konstrukcja samego dysku, ale również sposób jego komunikacji z pozostałymi podzespołami macierzy czy serwera. Takim oto sposobem zlokalizowali i wykluczyli kolejne wąskie gardło, a mianowicie protokół transmisji. Zaimplementowali interfejs PCI Express , aby w pełni wykorzystać możliwości dysków Flash. Dyski NVMe wprowadziły wydajność na kolejny, jeszcze wyższy poziom.
  • Obawiamy się, że to technologia kosztowna i zarezerwowana jedynie dla dużych i bogatych firm?

    Jest ona tak długo rozwijana i na tyle rozpowszechniona, że te obawy również są bezpodstawne. Oczywiście, nie znajdziemy jej w każdym rozwiązaniu. Jednak odpowiednio adresując potrzeby, możemy znaleźć rozwiązania, które nie odbiegają znacznie od wcześniej ponoszonych kosztów, a są wyposażone w technologię która na dłuższą metę przyniesie nam sporo oszczędności.

Deduplikacja = Efektywność = Klucz do sukcesu!

Korzyści z deduplikacji możemy osiągnąć również w środowiskach hybrydowych. Wykorzystując macierze dyskowe z deduplikacją możemy uruchomić ją w trybie:

  • inline tzn. dane są deduplikowane podczas zapisu,
  • postprocess – dane są deduplikowane po zapisie.

Efektywność procesu deduplikacji jest opisywana terminem współczynnika deduplikacji. To stosunek danych przed procesem do pojemności danych po zastosowaniu opisywanej technologii. Jeżeli 1,5 TB danych po zdeduplikowaniu zajmuje 500 GB, to współczynnik deduplikacji wynosi 3:1.
W zależności od specyfiki danego środowiska te wartości mogą przyjmować różny współczynnik.

W wydajnych macierzach NetApp® All Flash domyślnie uruchomiona jest deduplikacja inline. Dzięki wysokiej wydajności nie wpływa to w negatywny sposób na pracujące systemy.

Wróć do listy bloga

Kontakt

Rozpocznijmy wspólny projekt.
Skontaktuj się z nami.





    Ważne: Użytkowanie strony oznacza zgodę na używanie plików Cookies i innych technologii. Więcej w polityce prywatności