Suche

» erweiterte Suche » Sitemap

Natur / Technik


» Bild vergrößern
» Blick ins Buch
» weitere Bücher zum Thema


» Buch empfehlen
» Buch bewerten
Produktart: Buch
Verlag:
disserta Verlag
Imprint der Bedey & Thoms Media GmbH
Hermannstal 119 k, D-22119 Hamburg
E-Mail: info@diplomica.de
Erscheinungsdatum: 03.2013
AuflagenNr.: 1
Seiten: 188
Abb.: 59
Sprache: Deutsch
Einband: Paperback

Inhalt

In der heutigen Informationsgesellschaft erweist sich der effiziente Umgang mit dem Produktionsfaktor Wissen als entscheidender Wettbewerbsfaktor. Aufgrund der geringeren Halbwertszeit des Wissens tritt das reine Faktenlernen zunehmend in den Hintergrund und das Lernen von Zusammenhängen gewinnt an Bedeutung. Diese Studie beschreibt einen auf der deutschen Wikipedia basierenden Prototyp, der zum einen zum automatisierten Abfragen von Zusammenhängen genutzt werden kann und zum anderen ein neuartiges didaktisches Konzept zum Lernen von Assoziationen einführt. Zur Definition von Wissensdomänen werden Algorithmen vorgestellt, welche die einem Wikipedia-Artikel zugeordneten Kategorien auf vordefinierte Hauptkategorien aggregieren. Da Daten zu inhaltlichen Zusammenhängen zwischen verschiedenen Wikipedia-Einträgen bisher noch nicht erhoben wurden, stellt diese Arbeit solche Assoziationen anhand der semantischen Ähnlichkeit her. Die im entwickelten Prototyp implementierten Konzepte ermöglichen das spielerische Lernen von Zusammenhängen durch die Bearbeitung zufälliger oder vordefinierter Navigationsaufgaben.

Leseprobe

Textprobe: Kapitel 5.3, Bestimmung von Ähnlichkeiten zwischen Wikipedia-Artikeln: Vor einer Einführung in die genutzten Konzepte zur Ähnlichkeitsbestimmung bei Texten sei zunächst definiert, wie der verwendete Begriff der Ähnlichkeit im gegebenen Kontext zu verstehen ist: Wikipedia-Artikel werden als einander ähnlich klassifiziert, wenn eine signifikante semantische Relation nachweisbar ist. Dabei bedeutet signifikant in diesem Zusammenhang, dass über die Ähnlichkeit von Artikeln nicht binär entschieden werden kann vielmehr erfolgt die Zuweisung eines Wertes innerhalb eines festen Intervalls, um den Grad der Ähnlichkeit anhand dieses Maßes definieren und später vergleichen zu können. Die o. g. Auslegung orientiert sich eng an der sogenannten Assoziationshypothese, die besagt, dass bei der Erstellung von Texten gedankliche Assoziationen einfließen, die sich in der Verwendung wiederkehrender Begriffe in verschiedenen Texten niederschlagen. Das vermehrte Auftreten bestimmter Wörter in verschiedenen Kontexten wird als Kookkurrenz bezeichnet, die statistisch auf Basis von Worthäufigkeiten nachweisbar ist. Eine solche Häufung mündet in der Schlussfolgerung, dass oft kookkurrierende Worte in einer assoziativen Relation stehen müssen (Giuliano 1964). Die genannte Theorie war Gegenstand vieler Forschungsarbeiten, bis es (Wettler et al. 1993) im Jahr 1993 gelang, sie methodisch zu verifizieren. Eine Übertragung der Assoziationshypothese auf die Artikel der Wikipedia hätte zur Folge, dass die Artikelinhalte über das verwendete Vokabular beschreibbar würden. Mit Ausnahme der den Artikeln zugewiesenen Kategorien (vgl. Kapitel 4.2) existieren in der Wikipedia bisher jedoch keinerlei Verfahren, um den Inhalt eines Artikels anhand bestimmter Schlagwörter zu charakterisieren. Einzig die interne Verlinkung von Artikeln untereinander könnte als eine semantische Relation gedeutet werden, die in vielen Fällen jedoch sehr schwach ausgeprägt ist (vgl. dazu das Beispiel zu ‘Willy Brandt’ in Kapitel 5.1). (Medelyan et al. 2009) unterzogen die interne Linkstruktur der englischen Wikipedia einer genauen Untersuchung und beschrieben sie als ‘hyperlinked structure of web pages, a microcosm of the web’ (Medelyan et al. 2009, S. 15). Grundsätzlich bietet die reichhaltige Verlinkung der Inhalte untereinander - im Schnitt besitzt jeder Artikel 25 Links zu anderen Artikeln (Medelyan et al. 2009, S. 7) - vielfältige Zusatz-informationen, doch diese Daten können eher als Basis für Web-Structure-Mining-Methoden genutzt werden, um beispielsweise bedeutendere Artikel anhand der Anzahl der auf sie verweisenden Links von nebensächlichen Einträgen zu differenzieren (für weitere Klassifikationsmethoden siehe auch (Markovitch, Gabrilovich 2006)). Wegen fehlender Möglichkeiten zur Ermittlung eines semantisch ähnlichen Textes zu einem vorgegebenen Ausgangsdokument erweisen sich diese Methoden für die behandelte Problemstellung als ungeeignet. (Strube, Ponzetto 2006) nutzten die Wikipedia lediglich als Vergleichsmaßstab für entwickelte Ähnlichkeitsmaße und betrachteten stets nur einen geringen Ausschnitt des Gesamtdatenbestandes, den sie für ihre Benchmarks heranzogen. (Milne 2007) analysierte die Linkstruktur losgelöst von inhaltlichen Konzepten der Artikel und arbeitet demnach ebenfalls allein auf der strukturellen Ebene des Informationsbestandes. In der wissenschaftlichen Forschung erfolgte die Anwendung von Web Content Mining-Methoden zur Ähnlichkeitsbestimmung zwischen verschiedenen Wikipedia-Artikeln somit bisher nicht in ausreichendem Maße, um sie zur Lösung der bearbeiteten Problemstellung heranziehen zu können. Der Gewinn der angestrebten Erkenntnisse erfordert daher neben der Verwendung spezieller Werkzeuge auch die Entwicklung eines eigenen Verfahrens. 5.4, Vorstellung Findlink-Programm: Zur Bestimmung der Ähnlichkeit zwischen Wikipedia-Artikeln wird im Versuchskontext auf ein Programm namens Findlink zurückgegriffen. Es wurde seinerzeit durch die Firma connex GmbH, Hildesheim, in Kooperation mit dem damaligen Institut für Mathematik der Universität Hildesheim entwickelt. Findlink nutzt verschiedene Mechanismen zur Berechnung der Ähnlichkeit, von denen viele an klassische Werkzeuge des Information Retrieval angelehnt sind. Die einzelnen Konzepte werden im Abschnitt 5.4.1 vorgestellt. Für Simpedia mussten Schnittstellen geschaffen werden, um Daten zwischen Wikipedia, Findlink und eigenen Skripten austauschen zu können. Die Präsentation dieser Schnittstellen sowie die vorgenommenen Erweiterungen der Wikipedia-Datenbank zur Aufnahme eigener Zusatzinformationen erfolgt in Unterkapitel 5.4.2, in dem auch die genaue Einbindung von Findlink in die Problemstellung skizziert wird. Außerdem umfasst dieser Abschnitt eine Einführung in die Konfigurationsparameter von Findlink sowie eine Beschreibung der zur Prozessoptimierung durchgeführten Vorarbeiten.

Über den Autor

Dr. Marcel Minke, geboren 1980 in Hildesheim, studierte Informationsmanagement und Informationstechnologie mit den Schwerpunkten Datenbanken, Web-Programmierung und Data Mining und schloss sein Studium an der Universität Hildesheim 2006 mit einem Master of Science ab. Seit 2009 Leiter einer IT-Beratungsfirma mit dem Schwerpunkt Online-Befragungen (auf Basis der Open-Source Umfragesoftware Limesurvey ) arbeitete er berufsbegleitend an seiner Promotion am Institut für Mathematik und Angewandte Informatik der Universität Hildesheim. Die 2012 erfolgreich abgeschlossene Dissertation bildet die Basis dieses Buches, in das die während der Promotion gewonnenen Erkenntnisse rund um die Online-Enzyklopädie Wikipedia einfließen.

weitere Bücher zum Thema

Bewerten und kommentieren

Bitte füllen Sie alle mit * gekennzeichenten Felder aus.