4. Kleiner Diskurs über Daten-Quellen – the stock exchange project

„Es gibt unternehmensinterne und unternehmensexterne Daten“, stellt Kevin Gossling, Mit-Gründer des Startups fusionbase.com und einer unserer Partner bei „The Stock Exchange Project“, beim Zoom-Meeting in seiner Kurzeinführung zum Thema Datenquellen fest. Denn externe Daten – und darum geht es hier – kann man in drei Gruppen unterteilen:

Offene Daten (OpenData)
Das sind frei verwendbare und frei verfügbare Daten. Häufig von Behörden, Hochschulen, Forschungs- und Bildungseinrichtungen, Wissenschaftlern, Nicht-Regierungs-Organisationen (NGOs) veröffentlicht. Ein Beispiel: Das Statistische Bundesamt.
Öffentliche Daten (Public Data)
Das sind frei verfügbare Daten, die allerdings unter Umständen eingeschränkt verwendbar sind. Also Daten, die zwar technisch abgerufen werden können, ihre Verwendung und ihre Veröffentlichung aber nicht geklärt sind. „Rechtlich häufig Graubereich“, sagt Kevin. Copyright-Rechte, Lizenz- und andere Rechte müssten beachtet werden. Beispiel: Öffentliche Social Media Profile.
Kommerzielle Daten (Commercial Data)
Hier handelt es sich um lizenzierbare Daten, also um Daten, die von Unternehmen, NGO’s oder teilweise auch Behörden vermarktet und verkauft werden. Beispiel: Adress- oder Unternehmensdaten

Das war der einfache Teil. Denn externe Daten verstreuen sich über tausende Quellen weltweit. und beinahe jede Quelle hat ein anderes Format: z.B. CSV, Excel, Webseite oder (eher selten) eine technische Schnittstelle (API).

„Aufgrund von Formaten wie Excel, Webseiten etc. sind die Daten nicht maschinenlesbar, das heisst, sie können nicht direkt von einer Software gelesen oder in einer Datenbank verarbeitet werden, ohne sie vorher zu reinigen“, sagt Kevin. Oft sei unklar, wann sich Quellen aktualisieren. Bedeutet: Man müsste täglich oder häufiger schauen, wann eine neue Version veröffentlicht wird.

Diese Probleme zu lösen, ist der Job seiner Firma Fusionbase. Und so machen die das:

Fusionbase baut einen Katalog mit mehreren Tausend Datenquellen, die sich intuitiv über ein Web-Interface entdecken lassen.
Dabei werden alle Formate vereinheitlicht und die Daten über eine Schnittstelle (API) angeboten.
Über die API von Fusionbase können die Daten so ganz einfach, teilweise mit wenigen Klicks, mit Software-Tools wie etwa das von AX Semantics oder anderen verbunden werden.
Fusionbase’s Technologie erkennt automatisiert Änderungen in einer Webseite, Datei oder API und extrahiert neue Daten sofort und stellt sie dann in einem versionierten Data-Stream zur Verfügung.

Einen kleinen Überblick zu Datenquellen finden Sie auf unserer Dossier-Seite >>>

Und der Vollständigkeit halber: Unsere Nasdaq-Daten sind ordentlich lizenziert. Dazu später mehr.