schema.org: Sieht so das Web 3.0 aus?

Jeden Tag werden allein in Deutschland weit über 100 Millionen Suchanfragen nur bei Google gestartet. Die ausgelieferten Ergebnisse basieren auf komplizierten Algorithmen, mit denen die Suchmaschine zwar die Relevanz einer Zeichenkette berechnen kann, deren Sinn ihr aber verborgen bleibt. Die Idee des Semantic Web und der weltweiten Vernetzung von Daten aufgrund ihrer Bedeutung ist jetzt über elf Jahre alt. In Zukunft könnte schema.org die passende Grundlage bieten. Henry Zeitler wirft einen Blick in die Sterne.

Diesen Artikel habe ich für die Webkrauts verfasst. schema.org: Sieht so das Web 3.0 aus?

Das semantische Web steht für ein Konzept, das es Maschinen erlaubt, in menschlicher Sprache formulierte Informationen verarbeiten zu können. Dazu werden die vorhandenen Texte mit weiteren Daten ergänzt, die ihre Bedeutung (Semantik) eindeutig festlegen. Ein Beispiel wären »Chips«, die mit der Zuordnung <Lebensmittel> ergänzt werden, um sie von Computerchips unterscheiden zu können. Dabei konkurrieren derzeit drei Arten dieser Zusätze miteinander: RDFa (Resource Description Framework – in – attributes, eine Empfehlung des W3C), Microformat (z. B. hCard oder hAtom) und Microdata (eine HTML5-Spezifikation der WHATWG).

Am 2. Juni 2011 verkündeten die heiligen drei Könige der Suchmaschinen – Google, Yahoo! und Bing – in ungewohnter Eintracht die Unterstützung von schema.org und entfesselten erneut die Diskussion um RDFa, Microformat und Microdata. Die Einführung des Microdata-Formats wird dem User einen Grund zum Jubeln geben, einige Verfechter von RDFa und Microformat fühlen sich jedoch übergangen und so mancher Online-Journalist sieht sich in der Existenz bedroht. Verwirrt? Für einen kurzen Überblick folgt dem Stern ☆!

☆ Das semantische Web

Die Idee des Semantic Web wurde erstmalig von Tim Berners-Lee im Jahre 2001 beschrieben. Bedeutung und Zusammenhänge von textlichen Inhalten auf Internetseiten sollen den Maschinen zugänglich und verarbeitbar gemacht werden. Zum Beispiel kann der Crawler einer Suchmaschine anhand der Auszeichnung eines Textes mit <h3> zwar erkennen, dass es sich um eine Überschrift handelt und sie entsprechend werten, allerdings hat er keine Vorstellung von seiner Bedeutung. Durch den Einsatz von Annotationen (z. B. mit schema.org) sind Maschinen in der Lage, die textlichen Inhalte zu strukturieren und nach ihrer Bedeutung zu indizieren. Auf diese Weise können weltweit und sprachübergreifend Beziehungen zwischen Daten und Informationen geknüpft werden.

In dem nachfolgenden Video auf TED spricht Tim Berners-Lee über Linked Data und die Idee des Semantic Web: Tim Berners-Lee on the next Web

☆ Das semantische Web und seine Entwickler

Die Community rund um das Semantic Web ist im Streit um die Standardisierung der Syntax in verschiedene Lager gespalten. Es gibt Verfechter vom RDFa, Microdata und Microformats.

Mit der Entscheidung von Google, sich auf eine Technik zu konzentrieren, vergrößert sich die Kluft zwischen den Parteien. schema.org baut auf der Microdata-Syntax auf und dieses Markup wird nun von den Suchmaschinen bevorzugt behandelt. Dazu kommt, dass die unterschiedliche Syntax nicht gleichzeitig verwendet werden sollte, da es sonst zu einem Fehler im Parser der Suchmaschinen kommen kann und somit die Inhalte nicht richtig interpretiert werden. Google verspricht zwar, dass die anderen Formate noch berücksichtigt werden, empfiehlt aber einen Wechsel zu schema.org.

☆ Das semantische Web und schema.org

Schauen wir uns schema.org und seine Rich Snippets noch einmal etwas genauer an. Wie bereits erwähnt, entspricht die grundlegende Syntax von schema.org dem Format von Microdata. Ein einfaches Beispiel für die Verwendung des Markups sieht so aus:

<div itemscope itemtype="http://schema.org/Event">
	<h3>Frohe </span itemprop="name">Weihnachten</span><...h3>
	<p>
	  	...Und viele Geschenke vom <span itemprop="performers"
                itemscope itemtype ="http://schema.org/Person"><span itemprop="name">
                Christkind</span>
		</span> wünschen euch allen die <span itemprop="attendees"
                itemscope itemtype ="http://schema.org/Organization">Webkrauts
                </span>!
	</p>
</div>

Das Element mit dem Attribut itemscope umgibt den kompletten Informationsblock. Stößt der Parser der Suchmaschine auf dieses Attribut, so weiß er, dass es sich um ein Microdata-Format handelt und erwartet dann eine weiterführende URL. Diese in itemtype enthaltene URL verweist nun auf den entsprechenden Eintrag unter schema.org und vermittelt der Suchmaschine die Bedeutung der enthaltenen Information. In diesem Beispiel handelt es sich um einen Event. Die nachfolgenden Tags spezifizieren die einzelnen Informationen mit Hilfe von itemprop nach Bezeichnung (name), Ausführende Person (performer), Teilnehmer (attendees) und den Verschachtelungen mit wiederum ihren entsprechenden Spezifizierungen.
Ein gutes Tool, um die Implementierung zu prüfen und zu sehen, wie die rich snippet datas von den Suchmaschinen ausgelesen werden, bietet Google neuerdings selbst an. Das Rich Snippets Testing Tool in den Webmaster Tools.

Noch ein Beispiel, das häufig Anwendung findet, ist die Visitenkarte auf Internetseiten. Hier ist das Microformat hCard derzeit weit verbreitet. Um die unterschiedliche Arbeitsweise von schema.org und vCard aufzuzeigen, hier ein direkter Vergleich.

vCard:

<address class="vcard">
	<span class="fn">Weihnachtsmann</span>
	<span class="street-address">Christkindlweg 1</span>
	<span class="postal-code">2412</span> <span class="locality">Nordpol</span>
	E-mail: <a href="mailto:wunschliste@weihnachtsmann.gl" class="email">
        wunschliste@weihnachtsmann.gl</a>
</address>

schema.org:

<address itemscope itemtype="http://schema.org/Person">
	<span itemprop="name">Weihnachtsmann</span>
        <div itemprop="address" itemscope itemtype="http://schema.org/PostalAddress">
	    <span itemprop="streetAddress">Christkindlweg 1</span>
	    <span itemprop="postalCode">2412</span> <span itemprop="addressLocality">
            Nordpol</span>
        </div>
	E-mail: <a href="mailto:wunschliste@weihnachtsmann.gl" itemprop="email">
        wunschliste@weihnachtsmann.gl</a>
</address>

Da vCard mit Klassen arbeitet, können die Attribute direkt im Stylesheet weiterverwendet werden. Im Gegensatz dazu wird schema.org lediglich auf die HTML-Elemente aufgesattelt und dient somit nicht zusätzlich der Formatierung der Elemente.
Einen sehr guten Überblick über die Häufigkeit der Verwendung von hCard und schema.org in Internetseiten und deren Ranking gibt es auf der Seite von blekko.com in dem Artikel Sites using Schema.org vs sites using hCard microformat (Stand: 15. Sep 2011).

Eine detailierte Anleitung mit vielen praktischen Beispielen zur Verwendung von schema.org findet ihr in der Dokumentation.
schema.org startete mit 300 Schemas und am Anfang ist es schwierig, sich einen Überblick zu verschaffen. Aber bei den 300 Schemas soll es auch nicht bleiben. Der sogenannte Extension Mechanism macht schema.org zu einem offenen Standard und ermutigt Webmaster, eigene Schemas zu erstellen und zu implementieren. Diese können auf schema.org vorgestellt und dann vielleicht einmal zu einem festen Bestandteil des Vokabulars werden.
Es zeigt sich, dass die drei Institutionen hinter schema.org großes Interesse daran haben, Synergien zu entwickeln und dadurch seine Implementierung voranzutreiben. Letztlich wird sich der wahre Mehrwert erst durch den Grad der Verbreitung weltweit ergeben.

☆ Das semantische Web und seine Journalisten

Einige Vertreter des Online-Journalismus fühlen sich durch die Verbreitung eines standardisierten Formats bedroht (Dilemma schema.org). Der Grund dafür liegt in der Weiterverwertung der durch Suchmaschinen automatisiert ausgelesenen Informationen aus Artikeln. Dienste wie Google News sammeln nämlich diese Informationen und geben sie komprimiert über die Suche aus. Der User ist nun nicht mehr gezwungen, die Internetseite selbst zu besuchen, um die gewünschten Informationen zu erhalten – Klickzahlen und somit Provisionen werden sinken. Von Robotorjournalisten ist da die Rede, die bald die menschlichen Kollegen ersetzen könnten.

☆ Das semantische Web und seine Benutzer

Und die lachenden Dritten sind also die Benutzer. Google konstatiert, alles würde nur zum Wohle des Users passieren, denn durch die vermehrte Implementierung des schema.org-Markups werden die angeforderten Informationen von den Suchmaschinen direkter und ausführlicher ausgeliefert. Die stärkere Strukturierung der Inhalte wird die Erstellung von Relationen zwischen Daten und damit deren weltweite, logische Verknüpfung erleichtern. Tim Berners-Lees Idee des Semantic Web lernt jetzt laufen.

☆ Fazit

An die Anwendung von schema.org werden sich Webworker wohl erst noch gewöhnen müssen. Fakt ist, dass es sich nun um das Format der Wahl der größten Suchmaschinen handelt und somit wohl einen wichtigen Baustein der SEO darstellt. Aber kann sich der Standard auch auf lange Sicht halten oder wird er bald in Vergessenheit geraten? Das wird davon abhängen, ob er von Webworkern weltweit angenommen wird oder nicht.

☆ Weiterführende Links:


Kommentare (0)



Einen Kommentar schreiben





Ich sage… Erlaubte Tags: