frunge-internal
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[Frunge] Blacken: Kurze Statusmeldung


From: Dennis Heidsiek
Subject: [Frunge] Blacken: Kurze Statusmeldung
Date: Mon, 19 Oct 2009 14:26:43 +0200
User-agent: Thunderbird 2.0.0.23 (Windows/20090812)

Moin allerſeits,


mit dieſer E-Mail will ich Euch nur eben einen kurzen Überblick über den derzeitigen Stand der Blacken-Entwicklung geben:

• Die Arbeit am Buildprozeſs iſt im Prinzip abgeſchloſſen: Kompilieren, Optimieren, Packen, Dokumentation erzeugen, … läuft alles über ant <Enter>. • Die Kommandozeilenſchnittſtelle iſt derzeitig quaſi im Betaſtadium: Alſo vorhanden, im Prinzip auch ſchon irgendwie benutzbar, aber auch noch längſt nicht voll ausgereift. • Der TeX-Silbentrennungsalgorithmus iſt zwar bereits in ziemlich naiver Art und Weiſe implementiert und produziert auch ſchon ziemlich gute Ergebniſſe (java -jar blacken.jar -vt), was ſpäter für die korrekte ›Ligaturiſierung‹ (Po Bli, aber Brot-zeit der Kauf-leute) wichtig iſt, aber die Laufzeit iſt derzeitig noch abſolut grottig. Hier iſt alſo noch viel Optimierungsbedarf, insbeſondere was paſſende Datenſtrukturen angeht. • Als Dateiformat wird derzeitig ausſchließlich UTF-8 kodierter PlainText unterſtützt. Andere Dateiformate und Kodierungen (TeX, HTML, ANSI, UNZ, …) ſind zwar angedacht, haben aber derzeitig noch keine Priorität.
• Dasſelbe gilt für die Textnormaliſierung.
• Kommen wir alſo zum Herz von Blacken, den Sprachſpezifiſchen ›Brechern‹ (im Quelltext Converter genannt): – Lt. der Wikipedia ſteht im Lateiniſchen nur am Ende eines Wortes s und ſonſt immer ſ … wenn das ſtimmt, wäre das damit die erſte vollſtändig und korrekt implementierte Sprache :-) – Andere Sprachen (Spaniſch, Italieniſch, …) ſind zwar einen Tick komplizierter, können aber vorausſichtlich auch ›direkt‹ und ›hundertprozentig‹ umgeſetzt werden :-).
– Engliſch müſſte prinzipiell auch noch in dieſe Kategorie fallen :-).
– Für Sprachen, die auch Wortbeſtandteile oder Silben miteinbeziehen (Niederländiſch, Dänisch, …), muſs erſt die Silbentrennung brauchbar gemacht werden. – Deutſch hat die komplizierteſten Regeln und ſtellt damit quaſi den ›heiligen Gral‹ dar ;-). ‣ Aus dieſem Grund habe ich hier die Liſte der Teſtfälle weiter ausgebaut (es ſind jetzt über 220), damit man hier den (Miſs-)Erfolg in Prozent angeben kann. ‣ Für die Identität ergibt ſich etwa (Correct: 32,23% = 126/391, s: 100,00% = 126/126, ſ: 0,00% = 0/265), d.h. er ſetzt zwar überall korrekt das s , aber nirgendswo das ſ. Insgeſamt kommen ſo die 32 % zuſtande … quaſi eine untere Schranke :-). • Anſonſten bin ich noch auf TextCat geſtoſſen: Das iſt eine intereſſante kleine und freie Bibliothek, die quaſi die Häufigkeiten der n-Gramme eines Textes mit einem gegebenen ›Fingerabdruck‹ abgleicht und ſo automatiſch die Sprache (Deutſch, Engliſch, Spaniſch, …) des Textes beſtimmen kann. Wenn wir dann noch ›gebrochene‹ Fingerabdrücke erſtellen würden, könnte Blacken einen gegeben Text ganz ohne Hilfe des Benutzers klaſſifizieren :-) – auch wenn das derzeitig natürlich noch Zukunftsmuſik iſt. • Als ſehr praktiſch hat ſich auch www.gutenberg.org herausgeſtellt: Hier warten Texte verſchiedenſter Sprachen darauf, im Ramen der Blacken-Perfektionierung gebrochen zu werden: Derzeitig benutze ich »De bello Gallico«¹ als Teſtfall für Latein, »Don Quijote de la Mancha« für Spaniſch und »A Christmas Carol/Eine Weihnachtsgeschichte« für Engliſch/Deutſch.


Viele Grüſʒe,
Dennis


¹ Das ſieht dann etwa ſo aus:

GALLIA eſt omnis diviſa in partes tres, quarum unam incolunt Belgae,
aliam Aquitani, tertiam qui ipſorum lingua Celtae, noſtra Galli
appellantur. Hi omnes lingua, inſtitutis, legibus inter ſe differunt.

Wer will, kann auch gerne die reſtlichen 168 KB bekommen ;-).





reply via email to

[Prev in Thread] Current Thread [Next in Thread]