Index of /docs/chaosseminar/charset-encoding-font/
ChaosSeminar
CCC Ulm
2016-10
Charsets, Encodings and Fonts
=============================
Dieser Vortrag bringt Licht in die Verwirrungen und das Unwissen im
Themenfeld um Zeichensaetze (Charsets), Zeichenkodierungen (Encodings)
und Schriften (Fonts).
Fonts:
https://en.wikipedia.org/wiki/Computer_font
http://www.linuxlibertine.org/
http://www.linuxlibertine.org/uploads/pics/HT-Word2003-454x66px.png (Hinting)
http://heirloom.sourceforge.net/doctools/otfdump.1.html
Zeichensaetze:
https://de.wikipedia.org/wiki/Zeichensatz
https://en.wikipedia.org/wiki/Code_point
https://de.wikipedia.org/wiki/ASCII
https://tools.ietf.org/html/rfc20
http://man7.org/linux/man-pages/man7/ascii.7.html
http://worldpowersystems.com/archives/codes/X3.4-1963/index.html
https://en.wikipedia.org/wiki/EBCDIC
https://en.wikipedia.org/wiki/File:Blue-punch-card-front-horiz_top-char-contrast-stretched.png
(macht das Layout von EBCDIC verstaendlich)
https://en.wikipedia.org/wiki/Unicode
(ISO 10646 definiert sowohl ein Charset als auch mehrere Encodings)
http://man7.org/linux/man-pages/man7/unicode.7.html
https://en.wikipedia.org/wiki/Plane_(Unicode)#Basic_Multilingual_Plane
https://de.wikipedia.org/w/index.php?title=Datei:Roadmap_to_Unicode_BMP_multilingual.svg&lang=de
Encodings:
https://en.wikipedia.org/wiki/Character_encoding
https://en.wikipedia.org/wiki/UTF-8
https://tools.ietf.org/html/rfc3629
http://man7.org/linux/man-pages/man7/utf-8.7.html
http://doc.cat-v.org/bell_labs/utf-8_history
https://en.wikipedia.org/wiki/UTF-16 (Gibt's in LE und BE)
https://tools.ietf.org/html/rfc2781
https://en.wikipedia.org/wiki/UTF-32
https://en.wikipedia.org/wiki/UTF-7
https://tools.ietf.org/html/rfc2152
https://en.wikipedia.org/wiki/UTF-9
https://tools.ietf.org/html/rfc4042 (Vom 1. April 2005)
Sollte man ausrotten:
https://en.wikipedia.org/wiki/Byte_order_mark
Unicode-Zeichen und deren Repraesentation in verschiedenen Kodierungen:
http://www.fileformat.info/
http://www.fileformat.info/info/unicode/char/0041/index.htm
http://www.fileformat.info/info/unicode/char/1f582/index.htm
Wie man's richtig macht:
http://doc.cat-v.org/plan_9/4th_edition/papers/utf
Guter Uebersichtsartikel. Der Hauptfokus ist zwar auf Windows gelegt
(weil dort der Bedarf am groessten ist), aber es wird viel allgemeines
Wissen vermittelt:
http://utf8everywhere.org/
Ein Klassiker von Blogpost, wenn auch technisch nicht unbedingt der
exakteste:
http://www.joelonsoftware.com/articles/Unicode.html
Eine Erklaerung der Situation der Schriftsysteme in Ostasien (der Titel
passt nicht unbedingt zum Inhalt):
http://www.hastingsresearch.com/net/04-unicode-limitations.shtml
Auch Google vermischt Charsets und Encodings:
https://googleblog.blogspot.de/2010/01/unicode-nearing-50-of-web.html
Was zur Folge hatte, dass diese abgeleitete Grafik jahrelang in der
Wikipedia zu finden war -- Im Namen Unicode, im Inhalt UTF-8:
https://commons.wikimedia.org/wiki/File:UnicodeGrow2b.png
Bei PHP muss man der Charset-Methode ein Encoding uebergeben. Man hat
einfach den Fehler von Mysql uebernommen, Charsets und Encodings in
einen Topf zu werfen:
http://php.net/manual/en/mysqli.set-charset.php
http://dev.mysql.com/doc/refman/5.7/en/charset-charsets.html
Wir sollten uns mit der groessten Anstrengung bemuehen, Charsets und
Encodings auseinander zu halten und als orthogonal zueinander
anzusehen. (Orthogonalitaet ist eine so wertvolle Eigenschaft; sie
sollte geschaetzt und angestrebt werden.) 90% der Verwirrung im Gebiet
um Charsets und Encodings stammt daher, dass die beiden nicht so klar
getrennt werden wie es ihre Natur ist. Es ist notwendig, dass wir
anfangen, die zwei Dinge explizit auseinander zu halten, auf dass wir
es der zukuenftigen Informatikwelt ermoeglichen, in diesem Thema klar
zu sehen!
Vortragsseite mit Videomitschnitt:
http://wiki.ulm.ccc.de/ChaosSeminar/2016/10_charset-encoding-font