#language cs ## 20160504 AK ---- '''česky''' | [[UnicodeTaskForce|english]] ---- ## stránka byla přejmenována z Unicode = Unicode pro CAcert = [plán činností] === Nejprve musíme prozkoumat === * možnosti pro UTF-8 ve všech standardech (OpenPGP, X.509, PKIX, ...?) * schopnost spolupráce pro UTF-8 s existujícím softwarem (how much breaks, when we deploy them?) * jak musíme konfigurovat OpenSSL pro tuto funkčnost? * OpenSSL načítá uživatelské údaje ze souboru; má-li tento soubor kódovou stránku utf-8, předpokládá se, že bude fungovat v Unixu. === Dále musíme prozkoumat === * jak to PHP a naše e-mailové systémy správně dělají (Encoding Subject: a jiné hlavičky jsou v UTF-8 dost divné) === Pak musíme prozkoumat === * jak to správně dělá MySQL * UTF-8 podpora našeho PDF generátoru === Další činnosti === * Musíme vypracovat způsob migrace obsahu existující databáze MySQL do UTF-8 * Musíme pracovat i na bezpečnostních aspektech UTF-8: zneužití UTF-8 (například zatoulaný znak \x00 uvnitř znaků UTF-8): * http://unicode.org/reports/tr36/ * Potom musíme pracovat na zabezpečení homografů UTF-8 [homograf jsou slova stejně psaná, ale jinak vyslovovaná a s různým významem]. * Měli bychom implementovat podobný bezpečnostní mechanismus, jako měl Konqueror, aby tiskl znaky UTF-8 tučně. * Pak musíme prozkoumat bezpečnostní aspekty Punycode. * Pokud bude to vše dobře fungovat, můžeme naplánovat migraci... * ...a pak ji provést. * A pak budeme doufat, že to funguje. == OpenPGP == OpenPGP je v tomto směru poměrně dobré, protože standard OpenPGP definuje UTF-8 jako jediné možné kódování. (Je asi několik málo aplikací, které to ještě nedělají správně, ale aspoň standard je jasný). == X.509 == Myslím si, že u X.509 je typ řetězce UTF8-String, který lze použít, ale o kompatibilitě aplikací toho moc nevím. Slyšel jsem, že existuje několik málo standardů, které vyžadují v určitých polích jiné typy řetězců než UTF8-String, takže je nezbytné prozkoumat standardy. == PHP == utf8_decode == Zneužití Unicode == Musíme vyhledat zneužití Unicode, která se stala jiným softwarům a ověřit podprogramy zpracující Unicode, které jsou implementovány v softwaru, který používáme, abychom zjistili, zda mohou být zneužity. Jeden z možných problémů je posloupnost bytů (Začátek-znaku-Unicode, 0x00). Jiným častým problémem jsou ne-unicodové byty uvnitř předpokládaného řetězce Unicode, na nichž například KDE často havaruje. CO DÁL: * perldoc perlunicode * perldoc charnames * perldoc utf8 * HTML::Entity * Encode::Byte * URI::Escape == Je potřebná pomoc == Chcete-li nám v "komandu" Unicode pomoci, kontaktujte nás laskavě! ---- . CategorySoftware