Gabi und Sascha
Kategorien : Alle | Berlin | Bücher | Fotografie | Java | Linkhalde | Weichware | Verfassung

Ich habe mir einmal die Tags bei Technorati angeschaut. Die Tags erlauben es Content zu klassifizieren. Um dies zu erreichen muss z.B. innerhalb der Seite nur ein Hyperlink auf die Technorati Tagliste gesetzt werden. Um einen Tag als solchen zu qualifizieren muss der Link nur dass Relationenattribut rel mit dem Wert tag bekommen. Der Wert des Attributes ist in der XHTML Spezifikation als CDATA definiert. Demnach kann also fast jeder beliebige Text innerhalb dieses Attributes stehen. Das Linkziel kann in einem solchen Fall als Typisierung des Links gesehen werden. Leider fängt dann damit auch das Problem an, die Technorati, auf seiner Hilfeseite demonstriert. Dort wird ein solcher Tag auf Chihuahuas bei flickr.com demonstriert:

<a href="" rel="tag">Chihuahua</a>

Das Tag besagt nicht, was gemeint ist. Dies erschliesst sich dem Leser erst, wenn er auf den Link klickt. In diesem Fall ist die Hundrasse Chihuahua gemeint. Bei Technorati und anderen wird dies dann entsprechend dem Tag in einer Kategorie abgelegt. Problematisch dabei ist die Tatsache, dass Chihuahua so noch kein eindeutiges ist. Chihuahua ist auch ein Staat in . Somit hat man ein semantisches Problem zwar kann eine sogenannte Kategrorienwolke gebaut werden, indem auch Tags zu z.B. Hund oder Mexiko eingebaut werden. Aber es ist nicht ersichtlich wie diese Tags zusammenhängen.

Ein Lösung würde es sein hierarchische Tags zu verwenden. Diese werden von Technorati und anderen auch unterstützt. Also z.B.

<a href="" rel="tag">Chihuahua</a>

Dies würde ein paar semantische Probleme beheben, aber immer noch nicht optimal sein. Die vor dem Hintergrund, dass Menschen unterschiedliche Wahrnehmungen ihrer Umwelt haben. Auch hier ein Beispiel: Ich bin Softwareentwickler, vornehmlich im Bereich Java und dort J2EE. Eine Hierarchie bei mir könnte als Tag so aussehen:

<a href="" rel="tag">J2EE</a>

Meschen, die sich allgemein mit Programmiersprachen beschäftigen haben vielleicht nicht diese differenzierte Sichtweise wie ich auf Java. Sie haben eher den folgenden Aufbau:

<a href="" rel="tag">Java</a>

oder

<a href="" rel="tag">J2EE</a>

So baut sich mit der Zeit ein heiloses durcheinander an unterschiedlichen Hierarchien auf und im Grunde ist man wieder bei Null. Informationen werden nicht mehr einfach gefunden und/oder sind nicht semantisch zu finden. Ein Hypethema, auf welches sich viele Blogger stürzen, weil es sich vermeintlich grossartig anhört aber womöglich nur dazu dient ein Unternehmen zu pushen, welches von anderen Unternehmen gekauft werden will.

Das ist eigentlich ziemlich schade, denn es gibt schon Lösungen für die Probleme, die allerdings etwas komplexer sind. Beispielsweise bietet das dmoz open directory project eine ausgereifte an, die die meisten alltäglichen Klassifizierungsprobleme lösen kann. Die DMOZ Taxonomie liegt dabei in RDF vor. Dies hätte also ein paar Vorteile gegenüber der naturgemäss flachen Hierarchie, die bei der Technorati Technologie entsteht:

  1. Saubere hierarchische Struktur
  2. Mehrsprachig und mit Querverweisen
  3. In RSS 1.0 als Taxonomy Modul einbaubar
  4. Kompatibel mit der Semantic Web Initiative des W3C

Wo ist, da ist auch . Die RDF Beschreibung ist mit 68 Megabyte () ziemlich gross. Ausserdem ist RDF eher etwas für Maschinen, weniger für Menschen. Aber auch das Problem kann lösen. Die DMOZ Klassifizierung kommt unter einer sehr liberalen Lizenz. So könnte sich z.B. Technorati hinsetzen und einen Webservice aufbauen, der es Blogsoftwareanbietern leicht macht eine API einzubauen, die es ermöglich durch die DMOZ Taxonomie zu navigieren und entsprechende Tags zu generieren. Allerdings vermute ich, dass dies dem Technorati Geschäftsmodell zuwider läuft.


Das "semantische Problem", dass du da ansprichst, ist für mich keines. Das hängt aber von der jeweiligen Auffassung von dem was Semantik ist und was Sprache ist zusammen. Während du davon ausgehst, dass ein Wort bereits eine Bedeutung hat und dass das worauf das Wort zeigt der Bedeutung zu entsprechen hat, ist meine Auffassung von Sprache eher die, dass Bedeutung erst durch den jeweiligen und wiederholten Gebrauch des Wortes generiert wird. Hierarchische Tags führen meines Erachtens an der Sache vollkommen vorbei. Denn wenn tausend Leute sagen ein "chihuahua" ist ein Eierlikör, dann ist es eben ein Eierlikör. Tags sind nicht dafür da, eine Bedeutung zu vermitteln, oder die hinlänglichen Bedeutungen unserer Sprache nachzuahmen, sondern eben erst Bedeutungen zu generieren. Hierarchien würden dem nur im Wege stehen.
Deine Beschreibung ist okay. Hierarchische System an sich sind auch nicht der Weisheit letzter Schluss. Man hat schon sehr schnell gemerkt, dass Taxonomien Probleme haben, weil man mit ihnen die reale Welt eben nicht komplett abbilden kann. Mit würden zumindest noch Synonyme und Homonyme abgebildet werden können. Allerdings sind auch diese wieder nicht perfekt, da sie im Grunde eine Erweiterung von Taxonomien mit unterschiedlichen sematischen Abhängigkeiten sind. Deswegen kommen seit neuesten auf. Gerade mit diesen kannst du zum Beispiel das Eierlikör/Chihuahua-Problem recht elegant lösen.

All diese Erweiterungen sind nützlich, haben aber ein klitzekleines Problem: ihre Anwendung ist momentan für den normalen Anwender noch viel zu komplex. Deswegen schlage ich Taxonomien als einfachsten Mittel der etwas besseren Klassifizierung vor. Das sie nicht perfekt sind ist mir durchaus bewusst.

Wenn Tags aber nicht dazu da sind eine Bedeutung zu vermitteln, als einen Begriff zu klssifizieren, sie aber auch für die Verschlagwortung zu komplex sind, dann sollte man auf sie ganz verzichten oder sie zumindest nicht bei grösseren Sites agregieren (Technorati). Aus Tags eine Bedeutung generieren halte ich für nicht sehr sinnig. Da fehlt mir einfach de Fantasie, wie dass sinnvoll gehen soll.