Gabi und Sascha
Tags - Kategorien : Alle | Berlin | Bücher | Fotografie | Java | Linkhalde | Weichware | Verfassung

Habe heute auf 17.021.733 Medline Abstracts 3 Java Satzzerleger angewendet. Stand des Datenumfangs ist von Ende November 2007. Die Titel der Abstracts wurden als Sätze an die Abstract-Texte angehängt. Für die Satzzerlegung wurde verwendet:

  • der BreakIterator aus Java 5
  • der BreakIterator aus dem ICU-Projekt (Version 3.8.1)
  • dem LingPipe SentenceChunker von Alias-I mit MedlineSentenceModel (Version 3.2.0)

Ergebnis

Sätze

SentencerSätze
java.text.BreakIterator88.334.044
com.ibm.icu.text.BreakIterator89.406.705
com.aliasi.sentences.SentenceChunker87.880.299

Unterschiede

 Java BreakIteratorICU BreakIteratorLingPipe SentenceChunker
Java 5 BreakIterator  1,21%-0,51%
ICU BreakIterator-1,20% -1,71%
LingPipe SentenceChunker 0,52% 1,74% 

Fazit

Ich gehe davon aus, dass weniger Sätze eine exaktere Zerlegung bedeutet. Aus dieser Sicht ist das Werkzeug LingPipe am effektivsten. Der ICU BreakIterator das schlechteste Werkzeug. Bei den Kosten von US$ 9.500 bis US$ 44.000 für LingPipe ist die um ca. 0,5% schlechtere Performanz des Java BreakIterators tolerierbar. Dies gilt auch in Hinblick auf das Ziel: Entity Oriented Search