Језичка лабораторија

Über das Projekt

Einleitung

Das Ziel des Sprachlabors ist ein grammatisches Wörterbuch der serbischen Sprache in elektronischer Form zu entwerfen und verbessern und es lizenzfrei zu veröffentlichen. Das Wörterbuch kann weiter als Grundlage für die Weiterentwicklung anderer Projekte benutzt werden (Rechtschreibprüfung, Textanalysatoren, automatische Übersetzer, Grammatikprüfprogramme und ähnliche fortgeschrittene Werkzeuge).

Das Wörterbuch

Das Wörterbuch ist eine Liste der im Lauf des Projekts gesammelten Wörter. Für jedes Wort ist es möglich alle eingetragenen Formen anzusehen, und für jede Form ist die Anzahl der Aussagen sowie ihr Gewicht aufrufbar. Das Gewicht stellt ihr gesamtes Gewicht dar – es besteht die Möglichkeit, dass einigen NutzerInnen mehr Gewicht gegeben wird als anderen (z. B. dass ein Eintrag von ihnen so viel „Gewicht“ hat wie zwei Einträge von anderen NutzerInnen), dieses Model wurde aber nur in den Anfängen des Wörterbuchs benutzt, als es nur wenige NutzerInnen gab.

Im Lauf der bisherigen Arbeit stellten wir fest, dass die NutzerInnen weniger als 1 % Fehler machen; sicherheitshalber benutzen wir die feste Zahl von genau 1 %. Das heißt dass, wenn eine Behauptung eine entsprechende Aussage hat, kann die Wahrscheinlichkeit der Richtigkeit auf 99 geschätzt werden, bzw. 99,99 % für zwei gleiche Aussagen und 99,9999 % für drei Aussagen, was wir für eine befriedigende Richtigkeit für die praktische Anwendung (ein Fehler pro einer Million Beispiele) halten. Dies bezieht sich natürlich auf versehentliche Tippfehler und Ähnliches, nicht auf systematische Fehler, die aus verschiedenen grammatischen Gefühlen unterschiedlicher NutzerInnen entstanden sind.

Das Wörterbuch kann man auch für weitere Computerbearbeitung mit dem gleichen Inhalt im XML oder MULTEXT-East Format übernehmen. XML und MULTEXT-East Wörterbücher beinhalten nur die Aussagen mit einem Gewicht von 3 oder mehr, wobei das „rohe“ XML Wörterbuch alle Aussagen beinhaltet.