Big Data: was sie sind und warum wir ohne sie nicht auskommen können

(Di Antonio Vecchio)
27 / 02 / 19

Als der neue Influenza-Stamm H2009N1 im 1 entdeckt wurde, wurde in den USA das übliche Überwachungs- und Beobachtungsverfahren aktiviert, bei dem alle Fälle an regionale Gesundheits- und Kontrollzentren gemeldet wurden.

Ein Kapillar- und Einlaufverfahren, das jedoch eine Einschränkung aufwies: Es zeichnete ein Bild der Entwicklung des Virus, immer zwei Wochen zu spät, verglichen mit der bedingten Situation.

Im gleichen Zeitraum die Zeitschrift Natur veröffentlichte einen Artikel, in dem einige Ingenieure von Google, verblüfft und allgemein ungläubig, behaupteten, die geografische Verbreitung von H1N1 anhand der im Internet verwendeten Schlüsselwörter ableiten und sogar vorhersagen zu können.

Ausgehend von den 50-Millionen von Wörtern, die von Usern in den USA am häufigsten verwendet werden, hatten die Mountain View-Gurus die am häufigsten verwendeten Bereiche in den von regionalen Gesundheitszentren gemeldeten Bereichen ermittelt, und durch die Verwendung von 450-Millionen verschiedener mathematischer Modelle konnte eine Korrelation zwischen den beiden aufgezeigt werden 45-Schlüsselwörter und Virenerweiterung.

Die Fakten bestätigten die Nachrichten, und zum ersten Mal konnte gezeigt werden, dass es möglich ist, die Ausbreitung eines Virus mit rein mathematischen Methoden vorherzusagen, wobei im Wesentlichen (riesige) Datenmengen verwendet werden, die von Computern mit ausreichender Rechenkapazität verarbeitet werden.

Diese Geschichte ist ein weiterer Beweis dafür, wie sehr die digitale Revolution gegründet wurde Informationstechnologie (IT) hat unsere Ära revolutioniert. Daraus entstand die so genannte "vierte industrielle Revolution", eine epochale Veränderung, die sich mit einer nie zuvor gesehenen Breite und Geschwindigkeit entwickelt und eine Vielzahl von Feldern wie nie zuvor investiert.

Künstliche Intelligenz (KI), Robotik, Biotechnologie, Nanotechnologie, Internet der Dinge (IoT), autonomes Fahren, Quantencomputer sind nur einige der Sektoren, die eine Phase ständigen Fortschritts durchlaufen, die aufgrund der Vielfalt und Tiefe der Ergebnisse und ihres Ergebnisses außergewöhnlich ist Entwicklungsgeschwindigkeit.

Unter dem Akronym IT konzentrieren wir uns oft auf die Technologie T, das heißt Computer: immer leistungsfähigere Maschinen, die in der Lage sind, die Rechenkapazität alle 18-Monate nach einem Gesetz - Moore - zu verdoppeln1 - Das, obwohl es an wissenschaftlichem Wert fehlt, wird noch durch weitere 50-Jahre der Beobachtung der Realität unterstützt.

Der Computer, der den 16 Apollo mit dem 1972 auf den Mond brachte, hatte weit weniger Leistung als jedes Smartphone, das wir heute in der Tasche haben, selbst das billigste. und selbst die fünf Bordcomputer des Shuttle Endeavor verfügten über insgesamt nur 2 MB RAM. Als weiterer Beweis ist die Gesamtleistung des 5mila-Desktop-Computers in den 80-Jahren geringer als bei einem aktuellen Tablet.

Abgesehen davon, dass die Bedeutung immer stärker werdender Maschinen nichts an Bedeutung verloren hat, liegt der wahre Wohlstand heute in den Daten, und zwar in den BIG DATA, die aus den Milliarden von Informationen abgeleitet werden, die jeden Augenblick durch unsere Klicks, Tweets und Kaufpräferenzen erzeugt werden.

Im ersten Quartal des 2018 hatte Facebook 2.19 Milliarden aktive Nutzer2, die wiederum mit 200 Milliarden anderer Personen im Netzwerk interagierten: eine Zahl, die über 20% der Weltbevölkerung liegt. Im selben Jahr waren YouTube eineinhalb Milliarden Nutzer, gefolgt von WhatsApp mit einer Milliarde und dreihundert Millionen.

Wichtige Zahlen, die eine unerschöpfliche Datenquelle erzeugen.

Das Web dagegen ist eine Umgebung, in der Millionen von Menschen einen wichtigen Teil ihres Alltags verbringen (in Italien durchschnittlich 6-Stunden pro Tag in 2018), um Meinungen, Emotionen, Vergnügen, Sorgen, Kaufpräferenzen auszutauschen. und noch viel mehr.

Eine Reihe von individuellen Verhaltensweisen, die "datiert" werden können registriert, analysiert und neu organisiert nach wissenschaftlichen Kriterien, die kontinuierlich Daten produzieren.

Zwei Beispiele, mehr als alle anderen, zeigen, wie die von uns gesuchten Ergebnisse in den Informationen verborgen sind.

In 2006 hat das AoL (Americaonline) -Portal für Wissenschaftler und Forscher eine Datenbank mit 20-Millionen von "Anfragen" veröffentlicht, die von 675-Tausenden von Benutzern innerhalb von drei Monaten erstellt wurden, und dies aus Gründen des Schutzes anonym gemacht Nutzer auf verschiedene Weise beteiligt. Nach ein paar Tagen war die 60-jährige Witwe aus Georgia, Thelma Arnold, jedoch zu Recht mit der 4417749-Benutzernummer verbunden und löste einen Streit aus, der zur Entlassung von drei AoL-Mitarbeitern führte.

Und selbst als Netflix die Präferenzen von rund einer halben Million anonymer Benutzer veröffentlichte, dauerte es nicht lange, bis eine Dame aus dem Mittleren Westen anhand von Name und Adresse erkannt wurde. Forscher der University of Texas haben später gezeigt, dass es tatsächlich möglich ist, einen Kanalbenutzer zu erkennen, indem nur 6-Filme auf 500 ausgewählt werden.

Aber nicht nur das Internet ist: Wir denken an die Kameras, überall auf den Straßen und Plätzen unserer Städte, und an die Art und Weise, mit der die Spuren hinterlassen werden, kann eine spezielle Gesichtserkennungssoftware (vor einigen Jahren eine englische Zeitung) nutzen Er entdeckte, dass weniger als 200 Meter von seinem Wohnhaus entfernt George Orwell, der Autor des dystopischen Buches "1984", nicht weniger als 30-Kameras gab.

Nach Berichten von Viktor Schonberger und Keneth Cukier in ihrer grundlegenden Arbeit3 (als primäre Quelle für diesen Artikel verwendet), wurden im 2012 so viele Daten erzeugt, dass sich beim Laden auf CD-ROM fünf parallele Stapel gebildet hätten, die den Mond erreichen könnten, während sie auf Papier gedruckt worden wären dreimal das gesamte Gebiet der USA abzudecken.

Beachten Sie, dass wir vor Jahren von 6 sprechen und dass sich die Daten jedes Jahr doppelt verdoppelt haben (im Durchschnitt alle drei Jahre verdoppelt).

Die Daten stellen das schwarze Gold unserer Zeit dar: ein unschätzbarer Wert für die Menge und die Vielfalt der Verwendungszwecke, die sich meist von denen unterscheiden, für die sie ursprünglich verwendet wurden. Tatsächlich stellen wir Informationen immer häufiger online zur Verfügung, deren Erhebung zum Zeitpunkt ihrer Erhebung noch unbekannt ist.

Sie speisen die neue Grenze der KI und bilden den ersten Treibstoff: Dank ihnen können sich die Computer weiterentwickeln und die äußere Realität "wahrnehmen".

Sie beginnen durch Roboter, autonome Aktionen auszuführen4, entschieden auf der Grundlage der von außen gesammelten und analysierten Situationsdaten (und nicht der empfangenen Programmierung).

Aber wie werden die GROSSEN DATEN verwendet? Bei der Anwendung mathematischer Methoden werden "Algorithmen" auf der Grundlage dessen, was Sie zu einem bestimmten Zeitpunkt entdecken möchten, eines bestimmten Phänomens ermittelt.

Die Algorithmen, die große Datenmengen ausnutzen, erlauben uns, "Korrelationen" zu sehen, verstanden als die Wahrscheinlichkeit, dass eine gegebene Beziehung zwischen den untersuchten Elementen wiederholt werden kann.

Was dann solche Bindungen durch reinen Zufall entstehen, beeinträchtigt nichts von der Gültigkeit der Studie selbst, denn Ungenauigkeit und Ungenauigkeit sind statistisch "Adjusted" im Verhältnis zur Anzahl der verfügbaren Daten.

Bei allem Respekt vor dem Kausalitätsprinzip, das in der Ära von SMALL DATA gut war, als das Verständnis auf einer sorgfältigen Analyse der (begrenzten) verfügbaren Elemente beruhte, die von "Experten" in dem jeweiligen untersuchten Sektor durchgeführt wurden.

In der Ära von BIG DATA wird das Verständnis von Phänomenen stattdessen mit Hilfe von "Data Scientist" - einem Mittelweg zwischen Programmierer, Mathematiker und Statistiker - und nicht von traditionellen Experten erreicht.

In der Tat liegt die Wahrheit bei großen Daten: Es ist kein Zufall, dass Algorithmen, die (probabilistische) Ergebnisse mit begrenzten Datenmengen unbefriedigend anbieten, Wunder bewirken, wenn sie auf größere Zahlen angewendet werden.

"Google Translator" liefert ein klares Beispiel dafür, wie das Wahrscheinlichkeitskriterium in Kombination mit der Informationsmenge zur Lösung eines komplexen Problems wie der Übersetzung angewendet werden kann.

Tatsächlich übersetzt das Programm nicht durch Anwendung der Grammatikregeln oder der Verwendung der gespeicherten Wörterbücher, sondern basiert auf der Wahrscheinlichkeit, dass der Inhalt eines bestimmten Dokuments entsprechend den grammatikalischen Strukturen und Bedeutungen von Wörtern, Verben und Adjektiven übersetzt werden kann, die in den Milliarden von Dokumenten vorhanden sind alle Sprachen, die er in Erinnerung hat.

Auf diese Weise gewann das Programm den Wettbewerb mit Microsoft und wurde schnell zum meistgebrauchten Übersetzer der Welt.

In diesem Zusammenhang stellt, wie bereits erwähnt, die Rechenleistung nur einen Teil des Prozesses dar, nicht einmal den wichtigsten, ebenso wie die von Zeit zu Zeit verwendeten Algorithmen. Der bestimmende Faktor bleibt die Anzahl der verfügbaren Daten: Je mehr Daten wir haben, desto größer sind die Chancen, das zu finden, wonach wir suchen.

Die BIG DATA "beflügeln" die vierte industrielle Revolution und ermöglichen ein besseres Verständnis der Welt. Sie zu beherrschen und in vollen Zügen zu nutzen, ist die Herausforderung, die uns erwartet.

3BIG DATA von Viktor Schonberger und Keneth Cukier - Garzanti 2013

4Ein System wird als "automatisiert" bezeichnet, wenn es hauptsächlich deterministisch wirkt und immer auf die gleiche Weise reagiert, wenn es denselben Eingaben unterliegt. Ein "autonomes" System dagegen begründet auf probabilistischer Basis: Nachdem es eine Reihe von Eingaben erhalten hat, erarbeitet es die besten Antworten. Im Gegensatz zu automatisierten Systemen kann ein autonomes System mit derselben Eingabe unterschiedliche Antworten liefern.

Foto: Emilio Labrador / NASA