[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[Frunge] Blacken: Kurze Statusmeldung
From: |
Dennis Heidsiek |
Subject: |
[Frunge] Blacken: Kurze Statusmeldung |
Date: |
Mon, 19 Oct 2009 14:26:43 +0200 |
User-agent: |
Thunderbird 2.0.0.23 (Windows/20090812) |
Moin allerſeits,
mit dieſer E-Mail will ich Euch nur eben einen kurzen Überblick über den
derzeitigen Stand der Blacken-Entwicklung geben:
• Die Arbeit am Buildprozeſs iſt im Prinzip abgeſchloſſen: Kompilieren,
Optimieren, Packen, Dokumentation erzeugen, … läuft alles über ant <Enter>.
• Die Kommandozeilenſchnittſtelle iſt derzeitig quaſi im Betaſtadium:
Alſo vorhanden, im Prinzip auch ſchon irgendwie benutzbar, aber auch
noch längſt nicht voll ausgereift.
• Der TeX-Silbentrennungsalgorithmus iſt zwar bereits in ziemlich naiver
Art und Weiſe implementiert und produziert auch ſchon ziemlich gute
Ergebniſſe (java -jar blacken.jar -vt), was ſpäter für die korrekte
›Ligaturiſierung‹ (Po Bli, aber Brot-zeit der Kauf-leute) wichtig iſt,
aber die Laufzeit iſt derzeitig noch abſolut grottig. Hier iſt alſo noch
viel Optimierungsbedarf, insbeſondere was paſſende Datenſtrukturen angeht.
• Als Dateiformat wird derzeitig ausſchließlich UTF-8 kodierter
PlainText unterſtützt. Andere Dateiformate und Kodierungen (TeX, HTML,
ANSI, UNZ, …) ſind zwar angedacht, haben aber derzeitig noch keine
Priorität.
• Dasſelbe gilt für die Textnormaliſierung.
• Kommen wir alſo zum Herz von Blacken, den Sprachſpezifiſchen
›Brechern‹ (im Quelltext Converter genannt):
– Lt. der Wikipedia ſteht im Lateiniſchen nur am Ende eines Wortes s und
ſonſt immer ſ … wenn das ſtimmt, wäre das damit die erſte vollſtändig
und korrekt implementierte Sprache :-)
– Andere Sprachen (Spaniſch, Italieniſch, …) ſind zwar einen Tick
komplizierter, können aber vorausſichtlich auch ›direkt‹ und
›hundertprozentig‹ umgeſetzt werden :-).
– Engliſch müſſte prinzipiell auch noch in dieſe Kategorie fallen :-).
– Für Sprachen, die auch Wortbeſtandteile oder Silben miteinbeziehen
(Niederländiſch, Dänisch, …), muſs erſt die Silbentrennung brauchbar
gemacht werden.
– Deutſch hat die komplizierteſten Regeln und ſtellt damit quaſi den
›heiligen Gral‹ dar ;-).
‣ Aus dieſem Grund habe ich hier die Liſte der Teſtfälle weiter
ausgebaut (es ſind jetzt über 220), damit man hier den (Miſs-)Erfolg in
Prozent angeben kann.
‣ Für die Identität ergibt ſich etwa (Correct: 32,23% = 126/391, s:
100,00% = 126/126, ſ: 0,00% = 0/265), d.h. er ſetzt zwar überall
korrekt das s , aber nirgendswo das ſ. Insgeſamt kommen ſo die 32 %
zuſtande … quaſi eine untere Schranke :-).
• Anſonſten bin ich noch auf TextCat geſtoſſen: Das iſt eine
intereſſante kleine und freie Bibliothek, die quaſi die Häufigkeiten der
n-Gramme eines Textes mit einem gegebenen ›Fingerabdruck‹ abgleicht und
ſo automatiſch die Sprache (Deutſch, Engliſch, Spaniſch, …) des Textes
beſtimmen kann. Wenn wir dann noch ›gebrochene‹ Fingerabdrücke erſtellen
würden, könnte Blacken einen gegeben Text ganz ohne Hilfe des Benutzers
klaſſifizieren :-) – auch wenn das derzeitig natürlich noch
Zukunftsmuſik iſt.
• Als ſehr praktiſch hat ſich auch www.gutenberg.org herausgeſtellt:
Hier warten Texte verſchiedenſter Sprachen darauf, im Ramen der
Blacken-Perfektionierung gebrochen zu werden: Derzeitig benutze ich »De
bello Gallico«¹ als Teſtfall für Latein, »Don Quijote de la Mancha« für
Spaniſch und »A Christmas Carol/Eine Weihnachtsgeschichte« für
Engliſch/Deutſch.
Viele Grüſʒe,
Dennis
¹ Das ſieht dann etwa ſo aus:
GALLIA eſt omnis diviſa in partes tres, quarum unam incolunt Belgae,
aliam Aquitani, tertiam qui ipſorum lingua Celtae, noſtra Galli
appellantur. Hi omnes lingua, inſtitutis, legibus inter ſe differunt.
Wer will, kann auch gerne die reſtlichen 168 KB bekommen ;-).
- [Frunge] Blacken: Kurze Statusmeldung,
Dennis Heidsiek <=