Mediendaten, Verbindungsdaten, Trackingdaten, Benutzerprofile – jede Information benötigt Ressourcen zur Speicherung und weiteren Verarbeitung. Doch genau da stoßen aktuelle Informationssysteme schnell an ihre Grenzen – sowohl technisch als auch rechtlich.
Der Wunsch, unendlich viele Informationen zu sammeln, zu speichern und zu verarbeiten ist groß. Gerade private Wirtschaftsunternehmen wünschen sich besonders viele Informationen, um ihre Dienstleistungen und Produkte optimal an Trends, lokale oder globale Gegebenheiten, Bestandskunden und Interessenten anzupassen, aber auch Behörden bedienen sich immer größerer Datenmengen zur Strafverfolgung (z.B. im Rahmen der Vorratsdatenspeicherung) oder Überwachung (z.B. von Finanzmärkten).
In unserer volldigitalisierten Zeit ist die Sammlung von Informationen relativ leicht – das Speichern und Verarbeiten stellt jedoch moderne Systeme vor neue Herausforderungen. Die Kapazitätsgrenzen klassischer Systeme sind schnell erreicht – egal ob Datenbank, Dateisystem oder Rechenleistung. Normale Serversysteme sind für Big Data eher nicht geeignet, da man bei der Verwaltung von großen Datenmengen nicht einfach nur viel Festplattenplatz benötigt, sondern hier auch Datensicherheit, Backup, Geschwindigkeit und Skalierbarkeit eine entscheidende Rolle spielen. Daher sollte man bei der Speicherung von Big Data zu spezialisierten Storagesystemen greifen. Je mehr Festplatten im Einsatz sind, desto höher ist die Wahrscheinlichkeit, dass Platten ausfallen können. Deswegen muss auf die Datensicherheit auch ein besonderes Augenmerk geworfen werden. Einfach ein großes RAID-System zu benutzen ist nicht genug. Auch hier bieten spezialisierte Storagesysteme mehr als ein klassischer Server. Neben der Verwendung von mehreren RAID-Systemen, die zu einem großem zusammengefasst werden, greifen hier auch i.d.R. erweiterte Mechanismen, die einen schon vor dem tatsächlichem Ausfall von Hardware warnen und ggf. sogar schon beim Hersteller automatisch Ersatz anfordern. Hinzu kommen Techniken, mit denen die Daten effizient auf ein weiteres System gespiegelt werden können, um eine noch höhere Ausfallsicherheit zu gewährleisten.
Bereits im vergangenen Jahr haben Hersteller wie NetApp spezialisierte Storagesysteme für Big Data herausgebracht. Diese bieten eine sehr hohe Speicherdichte pro Höheneinheit und lassen sich problemfrei erweitern. Sie bringen auch entsprechende Technologien mit, mit denen sich das tatsächliche Datenvolumen durch Deduplizierung und Kompression noch weiter reduzieren lässt, ohne dass dadurch die Datenintegrität, Performance oder Verfügbarkeit beeinträchtigt wird. Diese Art von Optimierung wird auch 2013 weiter vorangetrieben werden.
Doch nicht nur eine einfache Skalierung durch Hardware hilft, große Datenmengen zu verarbeiten, nein, es müssen neue Ansätze her. Paralleles Rechnen, performanceoptimierte Dateisysteme und zugriffsoptimierte Datenbanken sind genauso ein Thema wie die Verteilung von Daten auf verschiedene Systeme und Standorte. Ergebnisse der Auswertungsoptimierung sind unter anderem das zunehmende Aufkommen von NoSQL-Datenbanken oder Software-Projekten mit (zunächst) völlig neuartigen Ansätzen in der Datenverarbeitung. Im Vordergrund steht der schnelle Zugriff auf alle Informationen und die Auswertung derselbigen - und dies möglichst automatisiert und in Echtzeit.
Neben den neuen Anforderungen an Hard- und Software können aber auch rechtliche Rahmenbedingungen die Speicherung von großen Datenmengen erfordern, einschränken oder sogar verpflichtend machen. Und auch Herausforderungen an den Betreiber der Datenverarbeitungsanlage stellen. Besonders personenbezogene Daten zum Beispiel für die Auswertung zu Marketingzwecken, aber auch die Erfassung von Daten zur Überwachung der Infrastruktur und der Abwehr von Gefahren für die Informationssysteme müssen sehr sensibel behandelt werden und deren datenschutzkonforme Speicherung kann Expertenkenntnisse erfordern. Hier sind umfangreiche Maßnahmen und eine enge Zusammenarbeit von Technikern, Entwicklern, Juristen und Datensammlern erforderlich, um ein Höchstmaß an Nutzen innerhalb der rechtlichen Rahmenbedingungen zu erreichen und dabei das Sicherheitsniveau der gespeicherten Daten maximal hoch zu halten.