topicmap.a7111.com:   topic maps   web ontology language   taxonomie   ontologie   semanitsche anwendungen

Menü


Kontakt:
topicmap7@a7111.com

Semantische Konzepte

„Die Sprache verbirgt Überraschungen, diesen Topos hört man gewöhnlich unter Literatinnen und in Kreisen schöngeistiger Gelehrter. Workshops zur Semiologie digitaler Systeme sind nicht der Ort, an dem man sie erwartet. In diesem Kontext sind solche Überraschungen eher verpönt. Sie sind der Grund für Fehlfunktionen eines Programms.“ „Wissensmanagement ist als Wort schon ein Paradoxon. Wissen, als zur Anwendung gebrachte Information, existiert nur in den Köpfen von Menschen. Wissen ist nicht fassbar, nicht zählbar und ohne den Kontext des Wissensträgers ist es oft wertlos.
In Hinsicht auf ein Management von Wissen spricht man demnach zum einen von gezieltem Manage­ment von Informationen erweitert um den Human Ressources Aspekt.“

:: Bedeutung der Begriffe, Begriffe der Bedeutung


Die inhaltliche Bedeutung, die einem Wort zugeordnet wird und so einen Begriff bildet ist relativ zum sprachlichen Kontext. Ein Poet in Ausübung seiner Berufung verbindet mit dem Wort Licht eine andere inhaltliche Bedeutung als ein Physiker als Physiker. Auf alltagsprachlicher Basis besteht die unausgesprochene Vereinbarung, Worte in ihrer allgemeinsten Bedeutung zu verwenden, sozusagen auf einen kleinsten gemeinsamen Nenner zu reduzieren. Steckt man den oben erwähnten Physiker und den Poeten gemeinsam in einen dunklen Raum, so werden sie wahrscheinlich auf alltagsprach­licher Basis darin übereinstimmen, dass etwas mehr Licht nicht schaden könnte - Licht in seiner allgemeinsten Bedeutung, als Gegensatz zu Dunkelheit.

Für Informationstechnologie ist dieses Phänomen insofern relevant, wenn es darum geht digitale Systeme so zu konzipieren, dass sie automatisch Begriffe miteinander verknüpfen, ähnlich der menschlichen Weise des Schlussfolgerns, und eine einheitliche Terminologie dafür Grundvoraus­setzung ist. Begriffe aus dem Erfahrungsbereich sind generell kaum objektivierbar, sondern an ein denkendes Subjekt gebunden, an sein Verständnis eines Begriffes, also welche inhaltliche Bedeutung es einem Wort zuordnet.

Stonehenge, Steinkreis, archäologische Stätte und Kultobjekt Ein Beispiel zur Erläuterung: Der mathematische Kreis ist kein erfahrungsweltlicher Gegenstand – seine Definition ist exakt festlegbar, erschöpft sich in der Beschreibung seiner Form und ist objektiv. Bei dem archäologischen Begriff „Steinkreis“, also eine Sache aus unserer Erfahrungswelt, liegt der Fall schon wesentlich komplizierter. Wie gelangt man zu einer Definition von Steinkreis, und zwar im archäologischen Sinne, die das allgemeinste Wesentliche erfasst, und dennoch exakt genug ist, dass ein digitales System damit arbeiten kann. Die bloße Angabe von Material (Stein) und Form (rund), die bis zu einem gewissen Grade naturwissenschaftlich erfassbar und somit objektivierbar sind, reicht nicht aus. Wenn man draußen im Garten zehn Steinchen halbwegs kreisförmig anordne, so ist das noch nicht Stonehenge. Was einen Steinkreis wie Stonehenge zu einem archäologischen Interessensgegenstand macht,
ist sein Errichtungszweck. Um diesen zu definieren, muß man wiederum eine Menge Begriffe ver­wenden, die noch problematischer festzulegen sind als „Steinkreis“. Religion und Kult zum Beispiel.

::: Metadaten und Metasprachen

:::: Metadaten, Semantische Anreicherung von Dokumenten

Metadaten sind dem Wortsinn nach „Daten über Daten“. Das bekannteste Vokabular für Metadaten ist Dublin Core mit einem definierten Satz an Attributen für eine einheitliche Kategorisierung von Webseiten. Diese Attribute sind allerdings vorwiegend von administrativen Nutzen und bieten kaum Hilfe für eine inhaltliche Charakterisierung von Dokumenten.

Das folgende HTML-Codebeispiel zeigt die formale Beschreibung einer Buch-Publikation eines Verlages mit Dublin-Core Metadaten:

Dublin-Core Metadaten

:::: Meta-Sprachen, Semantische Dokumente

Meta-Sprachen wie die Extensible Markup Language XML gehen eine Schritt weiter und erlauben, Dokumente vollständig nach semantischen Gesichtspunkten zu modellieren. Im einfachsten Fall erfindet man das passende Markup-Vokabular, wie das kleine Hello-World Beispiel zeigt:

XML Dokument

In der Praxis finden sich natürlich wesentlich komplexere Dokumentmodelle, wie ein Ausschnitt aus dem für Digitale Signaturen relevanten XMLDSig-Schema zeigt (nachfolgende Abbildung). Hier ist bereits erkennbar, dass die gewählte Semantik nur mehr bedingt für den menschlichen Leser gedacht ist und die maschinelle Verarbeitbarkeit im Vordergrund steht.

XML Schema



:: Weiterführende Konzepte


Neben der grundsätzlichen Möglichkeit, Dokumente gezielt durch Metadaten anzureichern und damit für Maschinen „verständlicher“ zu machen, sind für zukünftige Anwendungen Beschreibungskonzepte interessant, die unabhängig von den beschriebenen Dokumentressourcen existieren. Die entsprechenden Konzepte sind in der folgenden Grafik dargestellt und nachfolgend im Detail beschrieben.

Semantische Reichhaltigkeit (nach R. Höhn)



::: Index, Kontrolliertes Vokabular

In praktisch jedem Wissensbereich kommen unterschiedliche Begriffe vor, die ein und dasselbe Ding bezeichnen. Dabei kann es sich um Synonyme handeln, um entartetes Kauderwelsch, oder um fremdsprachliche Ausdrücke, die parallel zur deutschen Übersetzung verwendet werden. Ein kontrolliertes Vokabular ist die pragmatische Einigung auf ein gemeinsam verwendetes Vokabular bzw. auf eine einheitliche Schreibweise von Begriffen, z.B „Benutzer statt User oder Client“.

Für den Begriff „Dummheit“ finden sich zum Beispiel weit über 100 Synonyme (die nachfolgend als Abbildung und nicht als Text dargestellt werden, um diese Webseite nicht bei Suchmaschinen in Verruf zu bringen):

Synonyme für Dummheit (Quelle: wortschatz.uni-leipzig.de)

::: Taxonomie

Taxonomien gehen einen Schritt weiter. Hier werden die Begriffe nach logischer Zusammengehörigkeit hierarchisch geordnet, ähnlich den „Gelben Seiten“ in einem Telefonbuch. Taxonomien findet man praktisch überall, zum Beispiel für die Kategorisierung von Lebewesen in der Biologie, in Produktkatalogen, oder wie die nachfolgende Abbildung zeigt,
für die lexikalische Beschreibung von Städten.

Städtebuch

Das abgebildete „Österreichische Städtebuch“ verwendet eine aus über 80 definierten Begriffen bestehende Systematik, die als Entitäten in eine Document Type Definition (DTD) eingebettet sind. Aus dieser Systematik wird sowohl die sichtbare Kapitelstruktur wie auch die funktionelle Navigation innerhalb der Webseite erzeugt. Das eigentlich Interessante an diesem Konzept ist, dass die semantische Anreicherung der Stadtbeschreibungen nicht durch eingebettete Metadaten im XML-Dokument, sondern durch externe, in Kategorien geordnete Begriffs-Entitäten erfolgt.

::: Thesaurus

Thesauri sind eine formale Erweiterung von Taxonomie-Strukturen. Neben der hierarchischen Aufteilung in Kategorien weisen Thesauri zusätzliche Elemente zur Beschreibung von begrifflichen Zusammenhängen auf, unter anderem:
  • BT: Broader term, bezeichnet den übergeordneten Begriff, also die Kategorie;
  • NT: Narrower term, verweist auf untergeordnete Begriffe;
  • SN: Definiert den Gültigkeitsbereich (Scope) des Begriffes;
  • USE: Verweist auf synonyme Begriffe, die vorzugsweise zu verwenden sind;
  • UF: Verweist auf synonyme Begriffe, die nicht verwendet werden sollen;
  • RT: Related term, verweist auf verwandte Begriffe, die weder übergeordnet
    noch untergeordnet sind.

::: Ontologie

Der Begriff Ontologie stammt aus der Philosophie und beschreibt den Zweig der Metaphysik, der sich mit dem Wesen des Seins befasst. In der Informatik wird unter einer Ontologie die konzeptuelle Formalisierung eines Wissensbereiches verstanden, also ein weit über Taxonomien und Thesauri hinausgehender Ansatz, Wissen für Menschen und Rechner eindeutig zu beschreiben:

An ontology is a formal, explicit specification of a
shared conceptualization for a domain of interest

Ontologien basieren auf dem Strukturkonzept von Taxonomien und erweitern dieses mit weiterführenden Beziehungsstrukturen, Regeln und Axiome. Wenn nur einfache Beziehungen in der Art von broader/narrower term dargestellt werden, spricht man von leichtgewichtigen Ontologien und verwendet sie im Sinne von Taxonomien. Schwergewichtige Ontologien bieten wesentlich mehr Möglichkeiten und erfordern auch erheblich mehr Aufwand bei der Modellierung. Die W3C-Recommendation OWL unterscheidet zum Beispiel zwischen drei Ontologiemodellen:
  • OWL-Lite: leichtgewichtige Ontologie, einfache Regeln (constraints) sind formulierbar;
  • OWL-DL: schwergewichtige Ontologie, vielfältige Modellierungsmöglichkeiten,
    die Verwendbarkeit des Modelles wird garantiert (all computations will finish in finite time);
  • OWL Full: schwergewichtige Ontologie mit zusätzlichen Modellierungsmöglichkeiten,
    allerdings ohne die bei OWL-DL erwähnte Garantie der Verwendbarkeit.
Ontologien bestehen im Wesentlichen aus:
  • Begriffen: Begriffe werden auch als Klassen bezeichnet, sie beschreiben gemeinsame
    Eigenschaften und können in einer Klassenstruktur mit Über- und Unterklasse angeordnet
    sein (z.B. Stadt - Land);
  • Instanzen: Instanzen repräsentieren konkrete Objekte, die von allgemeinen Klassen
    abgeleitet werden (z.B. Stadt - Wien);
  • Relationen: Relationen beschreiben Beziehungen, die zwischen Klassen bestehen,
    z.B. Stadt liegt in Land, oder Land enthält Stadt. Genau so wie Begriffe können auch
    Beziehungen Eigenschaften haben, z.B. „transitive“ oder „symmetrische“ Beziehung;
  • Axiome: Axiome sind Aussagen, die immer wahr sind. Diese werden dazu verwendet,
    Wissen zu repräsentieren, das nicht aus anderen Begriffen abgeleitet werden kann.
Bei der Ontologie-Modellierung geht man üblicherweise von einer „offenen Welt“-Annahme aus, was unter anderem bedeutet, dass Ontologien von anderen Ontologien verwendet oder sogar erweitert werden können. Dieser Mechanismus ist besonders wichtig, da damit die weite Verbreitung und der gegenseitige Nutzen gefördert wird. Es ist aber auch abzusehen, dass bei der Zusammenführung unabhängig entstandener Ontologien widersprüchliche Szenarien entstehen können. Dies betrifft insbesonders den anwendungsspezifischen Teil einer Ontologie, der zwischen allgemeinen Über­begriffen (Upper Domain Ontology) und formalisierten Grundbegriffen (Lower Domain Ontology) im sogenannten „Chestnut-Modell“ eingebettet ist (nach Staab [24]).

Konsistente Ontologien sind vermutlich nur durch gemeinsames Design (collaborative approach) und durch konsequente Verwendung von publizierten Upper- und Midlevel-Ontologien beziehungsweise von Published Subjects machbar (siehe Folgekapitel).

Das nachfolgende Kapitel beschäftigt sich mit den zugehörigen Standards & Initiativen.

... weiter mit Standards & Initiativen