Seit der Mensch beginnt, Wissen zu systematisieren, hat er das Bedürfnis, die umgebende Realität zu klassifizieren und zu definieren. Dazu führte er quantitative Methoden ein, um alles um ihn herum zu beschreiben.
Eine Datenbank ist ein IT-Tool, dessen Zweck es ist, nicht nur die Speicherung von Beschreibungen der interessierenden Realitäten einfach und effizient zu machen, sondern vor allem auch den korrelierten Abruf von Daten zur Gewinnung von Informationen.
Nehmen wir ein einfaches Beispiel. Produkte, die in einem Supermarkt verkauft werden, können durch Marke, Handelsname, Beschreibung und Preis beschrieben werden. Ein Stammkunde verfügt möglicherweise über eine „Treuekarte“, die mit einigen persönlichen Daten, der Zusammensetzung der Familieneinheit und Bildungsabschlüssen verknüpft ist. Jeder Supermarktbon verbindet den Kunden mit den Produkten, die er an einem bestimmten Datum und zu einer bestimmten Uhrzeit gekauft hat. Das sind die Daten.
Aber welche Informationen können wir extrahieren? Beispielsweise an welchem Wochentag wird am meisten Bier verkauft oder welche Art von Lebensmitteln werden von Familien gekauft, in denen mindestens ein Mitglied einen Hochschulabschluss hat?
Je mehr Details wir für eine bestimmte Realität speichern, desto größer ist die Möglichkeit, das System abzufragen, um wertvolle Informationen zu extrahieren. Im Englischen lautet das Verb, mit dem das Konzept der Infragestellung des Systems ausgedrückt wird query das eigentlich eine lateinische Wurzel hat, das Verb quaero (um etwas bitten). Das Geheimnis beim Erstellen einer Datenbank, die möglicherweise für eine Vielzahl von Abfragen verwendet werden kann, besteht darin, die beschreibenden Daten einer Realität in atomarer und nicht aggregierter Form darzustellen.
Im vorherigen Beispiel ist die Produktbeschreibung keine gute Methode, wenn wir Details wie zum Beispiel einfügen. das Gewicht eines Produkts oder die Anzahl der zusammengepackten Pakete. Daten, die nicht explizit katalogisiert sind, machen ihre Verarbeitung sehr komplex, da sie eine Interpretation des Inhalts erfordern.
Um die Datenkatalogisierung intuitiv zu gestalten, wird das Tabellenkonstrukt verwendet, bei dem eine interessierende Entität durch Zeilen (z. B. ein zum Verkauf stehendes Produkt, ein Patient usw.) und ihre Merkmale durch Spalten (z. B. Marke, Produktname, Preis) dargestellt werden , usw.). Eine Tabelle kann auch Beziehungen zwischen verschiedenen Entitäten darstellen. Wenn ich beispielsweise die Eigentumsverhältnisse eines Fahrzeugs darstellen muss, benötige ich lediglich eine Tabelle, in der in jeder Zeile die Steuernummer des Eigentümers und das Kennzeichen des Fahrzeugs angegeben sind, also die beiden Merkmale, die es mir ermöglichen, Eigentümer und Fahrzeug eindeutig zu identifizieren .
Das bisher beschriebene Modell ist das von Edgar Codd (IBM) vorgeschlagene relationale Datenmodell1), der immer noch den Standard für die Datendarstellung darstellt, auch dank der Einfachheit der Sprache, die zur Abfrage des Systems entwickelt wurde (SQL, manchmal auch als Akronym für Structured Query Language bezeichnet, obwohl dies in Wirklichkeit die Bezeichnung für den Standard ist). (Sprache zur Unterscheidung von dem von IBM verwendeten Handelsnamen SEQUEL).
Die Verfügbarkeit einer großen Menge detaillierter Informationen, die in einer relationalen Datenbank gespeichert sind, ermöglicht es Ihnen, nützliche Informationen für die Überwachung, Verwaltung und strategische Planung einer Organisation zu extrahieren. Beispielsweise ermöglicht die Aggregation der Einzeleinnahmen eines Handelsunternehmens oder der Gewinnschätzungen eines Studenten, die Gesamtentwicklung der Umsätze zu untersuchen (nach Zeitfenstern des Tages, nach Kundentyp usw.) oder der Studierendenverläufe (Hochschulprüfungsergebnisse nach Semester, nach Studiengang etc.). Diese Operationen werden in durchgeführt Data Warehousing, Archive, in denen Daten in aggregierter Form gespeichert werden. Die in einem Data Warehouse verwendeten Datenanalysetools werden aufgerufen Geschäftsanalytik und umfassen mehrere statistische und statistische Techniken Maschinelles Lernen. Der Begriff wurde in der Vergangenheit verwendet Data Mining Dies weist darauf hin, dass Daten eine Mine sind, aus der Wert gewonnen werden kann.
Das relationale Modell ermöglicht die effiziente Speicherung von Daten und die Durchführung verschiedener Arten von Korrelationen, jedoch mit einer intrinsischen Verarbeitungslangsamkeit aufgrund der Aufteilung der Informationen in verschiedene Tabellen, die mehrere Lesevorgänge aus dem Speichersystem erfordert, um das Ergebnis zu erzielen. NoSQL-Modelle haben sich in den letzten 20 Jahren verbreitet2 (Nicht nur SQL) ist auf die Speicherung von Aggregaten spezialisiert. Ein Beispiel aus dem E-Commerce-Bereich kann das Konzept verdeutlichen. Wenn wir nach einem Produkt suchen und verschiedene Alternativen vergleichen, haben wir die Möglichkeit, die gewünschten Eigenschaften auszuwählen. Dies ist eine typische Funktionalität relationaler Modelle, die Produkteigenschaften strukturiert speichern. Bei einem Fernseher können wir beispielsweise die Größe des Bildschirms, die Auflösung, das Vorhandensein oder Fehlen bestimmter Anschlüsse usw. auswählen. Wenn wir mit dem Kauf fortfahren, können wir einen Rabattcode oder ein Angebot des Tages verwenden. Alle diese Details werden in einem einzigen Element einer NoSQL-Datenbank gespeichert, das das Äquivalent der Quittung oder Rechnung darstellt. Tatsächlich wäre es mühsam, sich über das relationale Modell die Geschichte der verschiedenen Versionen der verkauften Produkte, Werbekampagnen und Rabattcodes zu merken.
In einer modernen Organisation finden wir daher verschiedene Datenbanken, die jeweils auf einen bestimmten Zweck spezialisiert sind: relationale Datenbanken zum Speichern aller Details einer bestimmten Realität und NoSQL-Datenbanken zur Darstellung von Aggregaten, die leicht abgerufen werden können, ohne dass die Informationen jedes Mal korreliert werden müssen. Man spricht daher oft vom polyglotten persistenten Auswendiglernen3.
Der Bedarf, Daten zu speichern und anschließend zu verarbeiten, hat heute dank der Entwicklung verschiedener Arten von Sensoren, die wir oft mit dem Oberbegriff bezeichnen, dramatisch zugenommen Internet der Dinge. In unserem täglichen Leben verwenden wir wahrscheinlich ein tragbares Gerät, um einige Parameter unserer Aktivität zu überwachen. Viele Fahrzeuge (Autos, Roller, Fahrräder usw.) ermöglichen das Speichern der zurückgelegten Strecke und des Verschleißes einiger Komponenten. In unseren Häusern gibt es Haushaltszähler smart denn sie übermitteln in konstanten Zeitabständen Informationen über den Verbrauch von Strom, Gas oder Wasser. Diese Daten sind sowohl für die sofortige Erkennung ungewöhnlicher oder gefährlicher Situationen relevant, vor allem aber sind sie nützlich, wenn sie aggregiert werden, um Trends und Gewohnheiten zu erkennen.
Diese Fülle an Daten, strukturiert und unstrukturiert, wird mit unterschiedlichen Modellen und Technologien (oft als „…“ bezeichnet) verwaltet Daten See), hat in den letzten Jahren die Berufsfigur hervorgebracht Datenwissenschaftler, also der Spezialist in der Datenkette von ihrer Produktion über ihre Filterung, Bereinigung und Aggregation bis hin zu den Abfragetechniken, die die Extraktion von Informationen ermöglichen.
Wir leben in der sogenannten Informationsgesellschaft4, wo die Speicherung, Darstellung und Korrelation zwischen Daten den wahren Reichtum ausmachen. Es ist kein Zufall, dass das Sprichwort im Jahr 2006 berühmt wurde „Daten sind das neue Öl“5, und in jüngerer Zeit das „Künstliche Intelligenz ist die neue Elektrizität“6.
1https://www.ibm.com/history/edgar-codd
2https://sheinin.github.io/nosql-database.org/
3https://martinfowler.com/articles/nosqlKeyPoints.html
4https://www.manuelcastells.info/en/
5https://www.sheffield.ac.uk/cs/people/academic-visitors/clive-humby
6https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity