data.hackr

ein kleines blog ueber small data


Iconv

apropos pandoc : ein problem, über das man beim fröhlichen konvertieren eher früher als später stolpern wird, sind charakter-encodings, die dann irgendwelche fehler produzieren.

apple hat zum glück ein eingebautes tool namens iconv mit dem man die input-files zunächst auf utf-8 normalisieren kann, was dann oft das problem behebt.

iconv -f iso-8859-1 -t utf-8 test.xml > test.utf-8.xml

konvertiert zb ein iso-8859-1 dokument in ein utf-8, im xml-file sollte man dann auch in der deklaration das encoding entsprechend anpassen.

bonustipp: iconv konvertiert anscheinend nur, wenn es etwas zu konvertieren gibt; dokumente, die zb in us-ascii herumliegen, bleiben unberührt, weil us-ascii ein subset von utf-8 sind. wenn man also nach einem

file -I test.utf-8.xml

test.utf-8.xml: application/xml; charset=utf-8

sehen will, dann muss man das dokument vor dem konvertieren mit einem umlaut oder so befüllen, den man danach wieder entfernen kann.

☍ 05.08.2014 # osx utils cli