Habe heute auf 17.021.733 Medline Abstracts 3 Java Satzzerleger angewendet. Stand des Datenumfangs ist von Ende November 2007. Die Titel der Abstracts wurden als Sätze an die Abstract-Texte angehängt. Für die Satzzerlegung wurde verwendet:
- der
BreakIteratoraus Java 5 - der
BreakIteratoraus dem ICU-Projekt (Version 3.8.1) - dem LingPipe
SentenceChunkervon Alias-I mitMedlineSentenceModel(Version 3.2.0)
Ergebnis
Sätze
| Sentencer | Sätze |
|---|---|
java.text.BreakIterator | 88.334.044 |
com.ibm.icu.text.BreakIterator | 89.406.705 |
com.aliasi.sentences.SentenceChunker | 87.880.299 |
Unterschiede
Java BreakIterator | ICU BreakIterator | LingPipe SentenceChunker | |
|---|---|---|---|
Java 5 BreakIterator | 1,21% | -0,51% | |
ICU BreakIterator | -1,20% | -1,71% | |
LingPipe SentenceChunker | 0,52% | 1,74% |
Fazit
Ich gehe davon aus, dass weniger Sätze eine exaktere Zerlegung bedeutet. Aus dieser Sicht ist das Werkzeug LingPipe am effektivsten. Der ICU BreakIterator das schlechteste Werkzeug. Bei den Kosten von US$ 9.500 bis US$ 44.000 für LingPipe ist die um ca. 0,5% schlechtere Performanz des Java BreakIterators tolerierbar. Dies gilt auch in Hinblick auf das Ziel: Entity Oriented Search
Geschrieben von sascha am 2. Februar 2008 18:21:14 CET
