Zeichensatzdetektor

Mal ein, zugegeben sehr unschöner und keinesfalls professioneller, Ansatz, den Zeichensatz eines Textes zu identifizieren

#!/usr/bin/perl
use strict;
use Unicode::MapUTF8 qw(to_utf8 from_utf8 utf8_supported_charset);
my $uuml = 'ü'; # Erwartetes Zeichen
my $code = 129; # Code des unbekannen Zeichensatzzeichens
my
[weiterlesen] “Zeichensatzdetektor”

XML::LibXML Zeichensatzprobleme

Es gibt bei LibXML und XSLT-Transformation probleme, wenn im Text Steuerzeichen unter HEX 19 existieren. Die Konvertierung ist z.B. mit die abgebrochen, als das Zeichen 0B (vertikaler Tabulator) im Text auftauchte.

Derzeit ist die einzige Lösung, das Zeichen händisch zu … [weiterlesen] “XML::LibXML Zeichensatzprobleme”