[Frunge] Blacken: Kurze Statusmeldung

frunge-internal

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[Frunge] Blacken: Kurze Statusmeldung

From:	Dennis Heidsiek
Subject:	[Frunge] Blacken: Kurze Statusmeldung
Date:	Mon, 19 Oct 2009 14:26:43 +0200
User-agent:	Thunderbird 2.0.0.23 (Windows/20090812)

Moin allerſeits,

mit dieſer E-Mail will ich Euch nur eben einen kurzen Überblick über denderzeitigen Stand der Blacken-Entwicklung geben:

• Die Arbeit am Buildprozeſs iſt im Prinzip abgeſchloſſen: Kompilieren,Optimieren, Packen, Dokumentation erzeugen, … läuft alles über ant <Enter>.• Die Kommandozeilenſchnittſtelle iſt derzeitig quaſi im Betaſtadium:Alſo vorhanden, im Prinzip auch ſchon irgendwie benutzbar, aber auchnoch längſt nicht voll ausgereift.• Der TeX-Silbentrennungsalgorithmus iſt zwar bereits in ziemlich naiverArt und Weiſe implementiert und produziert auch ſchon ziemlich guteErgebniſſe (java -jar blacken.jar -vt), was ſpäter für die korrekte›Ligaturiſierung‹ (Po Bli, aber Brot-zeit der Kauf-leute) wichtig iſt,aber die Laufzeit iſt derzeitig noch abſolut grottig. Hier iſt alſo nochviel Optimierungsbedarf, insbeſondere was paſſende Datenſtrukturen angeht.• Als Dateiformat wird derzeitig ausſchließlich UTF-8 kodierterPlainText unterſtützt. Andere Dateiformate und Kodierungen (TeX, HTML,ANSI, UNZ, …) ſind zwar angedacht, haben aber derzeitig noch keinePriorität.

• Dasſelbe gilt für die Textnormaliſierung.

• Kommen wir alſo zum Herz von Blacken, den Sprachſpezifiſchen›Brechern‹ (im Quelltext Converter genannt):– Lt. der Wikipedia ſteht im Lateiniſchen nur am Ende eines Wortes s undſonſt immer ſ … wenn das ſtimmt, wäre das damit die erſte vollſtändigund korrekt implementierte Sprache :-)– Andere Sprachen (Spaniſch, Italieniſch, …) ſind zwar einen Tickkomplizierter, können aber vorausſichtlich auch ›direkt‹ und›hundertprozentig‹ umgeſetzt werden :-).

– Engliſch müſſte prinzipiell auch noch in dieſe Kategorie fallen :-).

– Für Sprachen, die auch Wortbeſtandteile oder Silben miteinbeziehen(Niederländiſch, Dänisch, …), muſs erſt die Silbentrennung brauchbargemacht werden.– Deutſch hat die komplizierteſten Regeln und ſtellt damit quaſi den›heiligen Gral‹ dar ;-).‣ Aus dieſem Grund habe ich hier die Liſte der Teſtfälle weiterausgebaut (es ſind jetzt über 220), damit man hier den (Miſs-)Erfolg inProzent angeben kann.‣ Für die Identität ergibt ſich etwa (Correct: 32,23% = 126/391, s:100,00% = 126/126, ſ: 0,00% = 0/265), d.h. er ſetzt zwar überallkorrekt das s , aber nirgendswo das ſ. Insgeſamt kommen ſo die 32 %zuſtande … quaſi eine untere Schranke :-).• Anſonſten bin ich noch auf TextCat geſtoſſen: Das iſt eineintereſſante kleine und freie Bibliothek, die quaſi die Häufigkeiten dern-Gramme eines Textes mit einem gegebenen ›Fingerabdruck‹ abgleicht undſo automatiſch die Sprache (Deutſch, Engliſch, Spaniſch, …) des Textesbeſtimmen kann. Wenn wir dann noch ›gebrochene‹ Fingerabdrücke erſtellenwürden, könnte Blacken einen gegeben Text ganz ohne Hilfe des Benutzersklaſſifizieren :-) – auch wenn das derzeitig natürlich nochZukunftsmuſik iſt.• Als ſehr praktiſch hat ſich auch www.gutenberg.org herausgeſtellt:Hier warten Texte verſchiedenſter Sprachen darauf, im Ramen derBlacken-Perfektionierung gebrochen zu werden: Derzeitig benutze ich »Debello Gallico«¹ als Teſtfall für Latein, »Don Quijote de la Mancha« fürSpaniſch und »A Christmas Carol/Eine Weihnachtsgeschichte« fürEngliſch/Deutſch.



Viele Grüſʒe,
Dennis


¹ Das ſieht dann etwa ſo aus:

GALLIA eſt omnis diviſa in partes tres, quarum unam incolunt Belgae,
aliam Aquitani, tertiam qui ipſorum lingua Celtae, noſtra Galli
appellantur. Hi omnes lingua, inſtitutis, legibus inter ſe differunt.


Wer will, kann auch gerne die reſtlichen 168 KB bekommen ;-).

[Prev in Thread]

Current Thread

[Next in Thread]

[Frunge] Blacken: Kurze Statusmeldung, Dennis Heidsiek <=
- [Frunge] Re: Blacken: Kurze Statusmeldung, Christian Kluge, 2009/10/19
  - Re: [Frunge] Re: Blacken: Kurze Statusmeldung, Dennis Heidsiek, 2009/10/21

Prev by Date: Arch GNU/Linux (was: Re: [Frunge] Blacken)
Next by Date: [Frunge] OT: Vier kleine Fundſtücke
Previous by thread: Re: [Frunge] Brechprogramm
Next by thread: [Frunge] Re: Blacken: Kurze Statusmeldung
Index(es):
- Date
- Thread