Jede bedeutende Internet-Anwendung besitzt heutzutage eine spezialisierte Datenbank: Google (web crawl), Yahoo (directory und web crawl), Amazon’s Produktdatenbank, eBay’s Produkt- und Verkäuferdatenbank, MapQuest’s Kartendatenbank, Napster’s verteilte Songdatenbank. Wie Hal Varian in einer persönlichen Unterhaltung im letzten Jahr anmerkte, “SQL ist das neue HTML”. Datenbankmanagement ist eine Kernkompetenz von Web 2.0 Firmen, so sehr dass wir diese Anwendungen z.T. eher als “Infoware” denn als bloße Software bezeichnen.
Dies führt zu einer Schlüsselfrage: Wem gehören diese Daten?
In der Internet-Ära konnte man bereits einige Fälle beobachten, wo die Kontrolle über Datenbanken zur Marktkontrolle und großen finanziellen Einnahmen geführt hat. Das Monopol für die Registrierung von Domainnamen, ursprünglich von der US-Regierung an die Firma Network Solutions gewährt (welche später von VeriSign gekauft wurde), war eine der ersten großen Geldquellen des Internet. Während sich darüber streiten lässt, ob Geschäftsvorteile durch die Kontrolle von Software APIs in den Zeiten des Internet schwieriger zu erreichen sind, sind die Vorteile der Kontrolle wichtiger Datenquellen unstrittig, vor allem wenn ihre Erstellung teuer ist oder sie empfänglich für immer größer werdende Rückflüsse durch Netzwerkeffekte sind.
Ein Blick auf die Copyright-Hinweise am Ende jeder Karte von MapQuest (z.B. maps.yahoo.com) zeigt stets die Zeile “Maps copyright NavTeq, TeleAtlas” oder (beim neuen Satellitenbild-Service) “Images copyright Digital Globe”. Diese Firmen tätigten substantielle Investments in ihre Datenbanken (NavTeq allein spricht von 750 Millionen Dollar für den Aufbau ihrer Adress-Datenbanken; Digital Globe bezahlte rund 500 Millionen für den eigenen Satelliten zur Verbesserung Ihrer regierungsunabhängigen Bilder). NavTeq ging sogar so weit, Intel’s bekanntes “Intel Inside”-Logo zu imitieren: Autos mit Navigationssystemen tragen den Aufdruck “NavTeq Onboard”. Daten sind in der Tat das “Intel Inside” dieser Anwendungen, die alleinige Einkommensquelle in Systemen, deren Software-Infrastruktur größtenteils Open Source oder auf andere Weise öffentlich ist.
Der derzeit heiß umkämpfte Markt der Kartendienste zeigt, wie die Missachtung der Bedeutung von Kerndaten einer Applikation die Wettbewerbsposition schwächen kann. MapQuest war 1995 der erste Anbieter eines Kartendienstes, aber als später Yahoo, Microsoft und schließlich Google hinzukamen, konnten sie leicht eine vergleichbare Anwendung bereitstellen, indem sie ganz einfach dieselben Daten lizenzierten.
Ganz anders die Position von Amazon. Genau wie seine Mitbewerber, z.B. Barnesandnoble, bezog Amazon die ursprüngliche Datenbasis vom ISBN Registrar R.R. Bowker. Aber im Gegensatz zu MapQuest erweiterte Amazon diese Basis unaufhörlich, fügte Cover, Inhaltsverzeichnisse, Indizes und Samples hinzu. Darüber hinaus, und wohl noch bedeutsamer, machten sie sich die Käuferbeteiligung zunutze, sodass heute (nach zehn Jahren) Amazon, und nicht Bowker, die wichtigste Quelle für bibliographische Daten zu Büchern darstellt, eine Referenz für Schüler, Studenten, Bibliothekare und natürlich Käufer.
Amazon führte außerdem ein eigenes, proprietäres Identifikationssystem ein, die ASIN. Diese ist gleich der ISBN für Produkte, die mit einer solchen versehen wurden, und stattet alle anderen Produkte mit einer Nummer aus einem äquivalenten Namensraum aus. Im Endeffekt hat sich Amazon seine Datenzulieferer einverleibt und erweitert.
Man stelle sich nun vor, MapQuest hätte seine Nutzer zur Erhöhung des Informationsgehaltes seiner Karten eingesetzt, indem sie Kommentare und Hinweise hinzugefügt hätten. Der Markteintritt wäre für Mitbewerber, die nur die Basisdaten lizenzieren könnten, ungleich schwieriger geworden.
Die kürzlich erfolgte Einführung von Google Maps bietet ein gutes Anschauungsbeispiel für den Wettbewerb zwischen Anwendungsverkäufern und ihren Datenzulieferern. Google’s einfach gehaltenes Programmierungsmodell hat dazu geführt, dass viele sogenannter Mashups entstanden sind, die Google Maps mit anderen, über das Internet verfügbaren Datenquellen verknüpfen. Paul Rademacher’s housingmaps.com, welches Google Maps mit dem Immobilienmarkt von Craigslist verbindet, ist eines der prominentesten Beispiele für ein solches Mashup.
Zur Zeit sind viele Mashups noch innovative Experimente einiger Hacker, aber bald schon werden unternehmerische Aktivitäten in diesem Bereich folgen. Und bereits jetzt ist zu beobachten, dass zumindest für einen Teil der Entwickler Google die Rolle des bevorzugten Datenzulieferers von NavTeq übernommen hat. Es ist zu erwarten, dass man in den nächsten Jahren in zunehmendem Maße Marktkämpfe zwischen den Datenlieferanten und den Anwendungsentwicklern sehen wird, da beide Parteien realisieren, wie wichtig bestimmte Arten von Daten für die Erstellung erfolgreicher Web 2.0 Dienste sind.
Das Rennen um die wichtigsten Daten hat begonnen, vor allem um geographische, persönliche, terminliche - man denke an öffentliche Veranstaltungen etc. - und produktspezifische. In vielen Fällen, in denen die Erstellung der Daten signifikante Kosten verursacht, mag sich die Gelegenheit für ein Vorgehen á la “Intel Inside” ergeben, mit einer einzelnen Quelle für die Daten. In anderen Fällen wird die Firma zum Gewinner, die zuerst durch Nutzeraggregation eine kritische Masse erreicht und die aggregierten Daten in einen Systemdienst umwandelt.
Zum Beispiel können auf dem Gebiet der persönlichen Daten Paypal, Amazon’s 1-Click sowie die Millionen Nutzer von Kommunikationssystemen legitime Wettbewerber bei der Erstellung einer netzwerkweiten Identitätsdatenbank darstellen. Diesbezüglich könnte Google’s kürzlich erfolgter Versuch, Handynummern als Identifikator für Gmail-Accounts zu verwenden, als Schritt in Richtung Einverleibung und Erweiterung des Telefonnetzes angesehen werden. Inzwischen erkunden Startups wie Sxip das Potential verbundener Identitäten in Bezug auf eine Art “distributed 1-click”, welches ein nahtloses Identitäts-Subsystem für Web 2.0 werden könnte. Im Bereich terminlicher Daten ist EVDB ein Versuch zur Generierung des weltgrößten “shared” Kalenders via Wiki-artiger Architektur.
Während die Entscheidung über den Erfolg eine jeden dieser Startups und Ansätze noch aussteht, ist es bereits klar absehbar, dass Standards und Lösungen in diesen Bereichen, die bestimmte Klassen von Daten in verlässliche Subsysteme des “Betriebssystems Internet” umwandeln, die nächste Generation von Anwendungen prägen.
Ein weiterer Punkt sollte in Bezug auf Daten angesprochen werden, nämlich die Bedenken der Nutzer bzgl. ihrer Privatsphäre und ihre Rechte an den eigenen Daten. In vielen der frühen Webanwendungen wird dem Copyright nur wenig Bedeutung beigemessen. Zum Beispiel erhebt Amazon Anspruch auf jede veröffentlichte Beurteilung, aber aufgrund mangelnder Durchsetzung können die Leute ein- und dieselbe Beurteilung auch an anderer Stelle posten. Da die Firmen allerdings nun zu erkennen beginnen, dass die Kontrolle über Datenbestände die Quelle ihrer Geschäftsvorteile bildet, werden wir womöglich verstärkte Versuche erleben, diese Kontrolle zu erlangen.
So wie das Aufkommen proprietärer Software zur Entwicklung freier Software führte, erwarten wir das Erscheinen freier Datenbestände als Reaktion auf proprietäre Datenbanken. Man sieht bereits erste Anzeichen dieser Gegenbewegung bei Wikipedia, den Creative Commons und in Software-Projekten wie Greasemonkey, die Nutzern die Kontrolle darüber gestatten, wie Daten auf ihrem Computer dargestellt werden sollen.


