Information Retrieval

Aus Online Marketing Wiki
Wechseln zu: Navigation, Suche


Information Retrieval bedeutet Informationsrückgewinnung und ist die Auswertung unsortierter Daten. Dieser Bereich beschäftigt sich mit der computergestützten Suche nach komplexen Inhalten. Vergleichbar ist diese Arbeit mit der von Suchmaschinen, die das World Wide Web nach Informationen durchsuchen. Ziel ist es, bestehende Daten, die in großen Datenbanken für normale Nutzer nicht direkt aufrufbar sind, aufzufinden.

Anwendungsbereich

IP-Techniken werden in verschiedenen Bereichen verwendet. Die Internetsuche mit Hilfe von Suchmaschinen bildet hierbei einen großen Anteil, aber auch digitale Bibliotheken und Bildsuchmaschinen verwenden Methoden des Datenabrufs. Die Schwierigkeit gespeicherte und komplexe Informationen aufzurufen liegt zum einen an der Unsicherheit und zum anderen an der Vagheit. Mit Unsicherheit ist gemeint, dass Datenbanken unvollständige Angeben über den Inhalt der enthaltenen Dokumente aufweisen. Dadurch entstehen fehlerhafte Antworten. Mit Vagheit ist gemeint, dass die Suchanfragen von Usern oft zu vage Bedingungen enthalten, da sie die Art der gesuchten Informationen nicht genau bestimmen können.

Modelle

Es gibt verschiedene Modelle wie gefundene Daten indexiert werden können. Alle verfolgen jedoch das gleiche Ziel: relevante Daten aufführen und irrelevante Daten nicht.

Boolesches Modell: Boolesche Operatoren wie „und“, „oder“, „nicht“ usw., werden eingesetzt um Anfragen mit exakter Syntax zu stellen. Dadurch können jedoch keine partiellen Treffer mehr erzielt werden. Auch eine Gewichtung der einzelnen Begriffe ist nicht mehr möglich, wodurch das Ergebnis kein Ranking ist.

Vektorraum Modell: Bei diesem Modell wir ein Dokument in einen Vektor transformiert, wodurch es mit anderen Dokumenten verglichen werden kann. Dadurch können die Vektoren mit der Suchanfrage verglichen und Ähnlichkeiten festgestellt werden. Es ist also ein Ranking und eine Ähnlichkeitssuche mit eingeschlossen. Negativ bei diesem Modell ist, dass keine Begriffe ausgeschlossen werden können. Mit Hilfe der Termenfrequenz und IDF kann die Lage der Dokumente im Vektorraum bestimmt werden.

Probabilistisches Modell: Zu jedem Dokument wird ein Wahrscheinlichkeitswert errechnet, der aussagt, wie relevant er in Bezug auf die Suche ist. Entscheidender Punkt ist die Anzahl und Häufigkeit der Suchbegriffe im Dokument. Am Ende spiegelt eine Liste die Wahrscheinlichkeiten wieder.