IDF

Aus Online Marketing Wiki
Wechseln zu: Navigation, Suche

Die inverse Dokumentshäufigkeit (englisch Inverse Document Frequency; kurz: IDF) dient u.a. in der Informationswissenschaft der Ermittlung von Worthäufigkeiten in Dokumenten. Dabei wird beispielsweise einem Wort, das nur in wenigen Dokumenten enthalten ist, eine höhere Relevanz beigemessen als einem Wort, das in nahezu jedem Dokument vorkommt. IDF und WDF werden gemeinsam zur Gewichtung von Worten in Dokumenten bei der Indexierung herangezogen.


Die Formel zur Berechnung der IDF lautet:

(BILD)


(BILD) bezeichnet die Anzahl der Dokumente und (BILD) die Anzahl der Dokumente, die den Term (BILD) enthalten. Wenn die Dokumentenhäufigkeit wächst, wird der Bruch kleiner.