Der Wert der Daten

(Di Georg Tosi)
16/02/22

Es ist allgemein bekannt, dass es im Internet viele Daten unterschiedlicher Art und Herkunft gibt. Daten, die allgemein über Browser verfügbar sind, die es uns ermöglichen, mit dem Netzwerk auf eine Weise zu interagieren, die nur textuell (z. B. Lesen eines Artikels) oder sogar multimedial (Audio, Video und Streaming) sein kann.

Es scheint daher, dass all diese Daten für jeden verfügbar sind und verwendet werden können, um Informationen zu extrahieren, die uns bei unseren täglichen Entscheidungen helfen können.

In Wirklichkeit sind die Dinge nicht so transparent und einfach. Die Methoden zur Nutzung dieser Daten sind in der Tat auf die Interaktivität ausgelegt, die die Mensch-Maschine-Beziehung auszeichnet. Schwierigkeiten treten auf, wenn Sie diese Daten wiederverwenden möchten, um sie auf personenbezogene Weise zu verarbeiten, um Informationen zu extrahieren, die für den einzelnen Benutzer von besonderem Interesse sind.

Zur Verdeutlichung beziehen wir uns auf den Fall der Aktienkurse beliebiger Märkte (Borsa Italiana, Nyse oder Nasdaq ...): Es gibt eine Vielzahl von Seiten, die die Analyse der Wertentwicklung einer Aktie (TICKER) ermöglichen und insgesamt bereitstellen Reihe zusammenhängender Daten der Wert, die gehandhabten Mengen, die täglichen Höchst- und Mindestwerte und so weiter. Die Schnittstelle zu diesen Daten ist, wie gesagt, die typische Schnittstelle der Mensch-Maschine-Interaktion: der Browser.

Wenn ich diese Daten lokal verarbeiten wollte, um Informationen von meinem Interesse zu extrahieren, wird die Sache erheblich komplizierter. Um auf dieselben Daten über eine programmatische Schnittstelle zuzugreifen, stehen zwei Methoden zur Verfügung: die Bahnkratzen oder Zugriff über eine spezifische Datenschnittstelle wie API REST (Representational State Transfer) oder SOAP (Simple Object Access Protocol), wobei REST die mit Abstand am weitesten verbreitete und genutzte Lösung ist.

Analysieren wir kurz die beiden Alternativen. Der Bahnkratzen basiert auf der Nachahmung menschlichen Verhaltens, indem die interessierende Webseite an den Client übertragen wird und dann darauf eingegriffen wird, um nach den interessierenden Daten zu suchen, indem a identifiziert wird Anleitungen bekannte Anerkennung. Verwenden Sie beispielsweise bestimmte HTML-Tags, mit denen Sie die für die Absicht der HTML-Seite relevanten Daten identifizieren können.

Zwar gibt es Bibliotheken in verschiedenen Programmiersprachen (JavaScript, Python, Java, …), die irgendwie das Identifizieren und Wiedererkennen der jeweiligen Daten erleichtern, aber das Vorgehen ist nicht unmittelbar und fehleranfällig. Wenn sich die Quell-HTML-Seite ändert, ist es außerdem möglich, dass die Skript entwickelt ist falsch, weil die Anleitungen Wiedererkennung (z. B. das Tag, das die Daten identifiziert, hat sich geändert) kann diese Lösung daher, obwohl möglich, aufgrund der Komplexität der Implementierung und der strikten Abhängigkeit von der Struktur der HTML-Seite problematisch sein.

Die auf einer programmatischen Schnittstelle API REST (oder SOAP) basierende Lösung ist absolut robuster und einfacher zu implementieren.

Die Aufgabe dieser Schnittstellen besteht darin, die Zugriffsmethoden auf Daten zu standardisieren. Bei REST-Schnittstellen wird daher die HTTP-Technologie verwendet und die angeforderten Daten werden über GETs auf bestimmten URLs gelesen, die so konstruiert sind, dass die interessierenden Daten eindeutig identifiziert werden.

Als Beispiel melde ich die URL für den Zugriff auf die REST-Schnittstelle des Währungsumrechnungsdienstes der Bank von Italien.

https: //tassidicambio.bancaitalia.it/terzevalute-wf-web/rest/v1.0/dailyRates?referenceDate= {Datum} & baseCurrencyIsoCode = {fvon} ¤cyIsoCode = {zu} & lang = {“es“}

Die fett gedruckten Begriffe werden verwendet, um die beteiligten Währungen und das Bewertungsdatum des Umtauschverhältnisses zu definieren. Eine GET-Operation für diese URL gibt dann den gesuchten Wert zurück. Diese Operation kann aus jeder Programmiersprache (Python, Javascript, C#,…) durch die Verwendung entsprechender Bibliotheken einfach implementiert werden.

Obwohl es viele kostenlose Dienste gibt, die auf dieser Art von Schnittstelle basieren, ist es interessant festzustellen, dass es viele Websites gibt, die Finanzinformationen gegen Gebühr anbieten. Dabei handelt es sich in der Regel um besonders detaillierte Daten, die einen vollständigen Überblick über Aspekte rund um Finanzinformationen zu Märkten und Unternehmen weltweit bieten. Ich möchte betonen, dass viele dieser Websites, insbesondere diejenigen, die sich auf wirtschaftliche und finanzielle Aspekte beziehen, vollen Zugriff nur gegen eine Art Abonnement bieten.

Grundsätzlich ist die Nutzung von Daten über eine programmatische Schnittstelle kostenpflichtig. Was hilft, ein Grundkonzept zu untermauern, das oft übersehen wird: Im Internet liegt der wahre Wert in den Daten. Wenn die aggregierten und nutzbaren, aber immer noch öffentlichen Daten börsennotierter Unternehmen einen bestimmten Wert haben und Gegenstand von Abonnementangeboten sind, können wir uns vorstellen, welchen Wert unsere personenbezogenen Daten haben, die wir mehr oder weniger wissentlich an eine Vielzahl von Unternehmen geliefert haben dass sie E-Commerce-Websites oder soziale Netzwerke verwalten.

Referenzen

Eine der vielen Websites, die abonnementbasierte Finanzinformationen anbieten https://site.financialmodelingprep.com/developer/docs/pricing

Vertiefung der REST-Schnittstelle https://www.ibm.com/cloud/learn/rest-apis