uni2ascii a ascii2uni konverzi mezi UTF-8 Unicode a některé z celé řady 7-bitových ASCII ekvivalenty, včetně: hexadecimální a desetinná HTML číselný znak odkazy, U útěků, standardní hexadecimální, a surový hexadecimální.
Takové ASCII ekvivalenty jsou užitečné, když včetně textu Unicode v zdroj programu, při zadávání textu do webových programů, které jsou schopny provést znakovou sadu Unicode, ale nejsou 8-bit bezpečné, a při ladění.
Unicode unikne K dispozici jsou:
- Hexadecimální Odkazy číselného znaku HTML (např)
Desetinná číselný znak odkazy HTML (např ȳ) -
- U-útěky, jak je používán v Pythonu (např. U00E9)
- U-útěky v rámci BMP a U-útěky mimo BMP, např u00E9 ale U00010024.
- U -escapes (např. U 00E9)
- U-útěky (např. U00E9)
- U-útěky (např. U00E9)
- U-útěky uvnitř lomených závorek (např.)
- X-útěky (např. X00E9)
- X-útěky se šlemi (např. X {} 00E9)
- Standardní hexadecimální (např. 0x00E9)
- Raw hexadecimální (např. 00E9)
uni2ascii přijímá příkazového řádku příznak určující, zda se má generovat velká písmena AF nebo nižší-case af jako šestnáctkové číslice, protože některé některé programy přijímají pouze jedno nebo druhé. ascii2uni přijímá jeden.
V případě uni2ascii standardně, tak znaky mimo rozsah ASCII jsou převedeny. I v případě, ASCII znaky jsou také převedeny, nové řádky jsou zachovány, pokud jejich převod je výslovně požaduje. Vesmírné znaky jsou také zachovány, pokud konverze je výslovně požaduje. V případě tří ne-ASCII mezer (Etiopština slovo prostor, Ogham prostor, a ideografické prostor), je-li prostor znaky nejsou převedeny, tyto jsou nahrazeny ASCII prostoru (0x20) tak, že se udržuje výkonem v rozmezí 7- bit rozsah ASCII.
Tento balíček obsahuje čtyři programy. Hlavní program je uni2ascii. Je napsán v C a musí být sestaven. uni2html.py je předchůdcem uni2ascii. Jak je napsán v Pythonu, to nemusí být sestaveny a měl by běžet na téměř všechny současné počítače. uni2ascii je jinak v tom, že superior:
- To vytváří širší škálu výstupních formátů.
- To je přibližně 20 krát rychleji.
- To se zabývá vstup v plném rozsahu 32 bitů Unicode. Na rozdíl od toho uni2html zpracovává jen
Základní Multilingual Plane (rovina 0), protože v současné době reprezentuje Python kódování Unicode textu interně pomocí 16-bit celé číslo. Pokud máte text v, řekněme, Linear B nebo ugaritština, budete potřebovat uni2ascii.
To dělá lepší práci hlášení chyb. V případě, že dojde k chybě v jeho vstupu, jako je mal-tvořil UTF-8, oznámí umístění došlo k chybě a to jak pokud jde o počet znaků od začátku souboru (začínající v 0 ° C), a, pokud jde o počet bajtů od začátku souboru (také začínajícího na 0). (Počty znaků a bajtů počty jsou obecně nejsou stejné, protože kódování UTF-8 znaků zabírá od jednoho do čtyř bytů.) Pouze verze zprávy Python počet znaků. uni2ascii také poskytuje informace o povaze chyby.
Třetí program, ascii2uni, je inverzní uni2ascii. Přijímá text obsahující řadu ASCII reprezentace znaků Unicode a generuje UTF-8 Unicode.
Čtvrtý program ascii2uni.py, čte 7-bit ASCII obsahující u-utekl Unicode, jak je používán v Pythonu a Tcl, a převádí jej na UTF-8 Unicode. Je to původní program, jehož ascii2uni je zobecněním
Co je nového v této verzi:.
- Opravena chyba v uni2ascii ve které v některých případech je počet střídání byla příliš vysoká, kterým Debian chybě # 626268.
- Patched zvládnout situaci v NetBSD, který postrádá getline.
- vyjasněny sémantiku čistého možností, jak konverzi znaků v ASCII rozsahu, než prostoru a řádkem. Opravena chyba, ve kterém to bylo správně implementován za typy UTF8.
Co je nového ve verzi 4.17:
- Přidáno do uni2ascii následující převody k nejbližšímu ascii ekvivalent: U 2022 kulka do "o", U + 00B7 střední tečka na období, U + 0085 další řádek na nový řádek, U + 2028 oddělovač linky na nový řádek.
Co je nového ve verzi 4.16:
- Formát Q pracuje opět v ascii2uni .
- Přidaný U + 2033 DOUBLE PRIME postavám převedeny na nejbližší ascii ekvivalent za použití formátu e v uni2ascii.
Co je nového ve verzi 4.15:
- Přejmenovaný endian.h aby u2a_endian.h o vyloučení konfliktu s externí endian.h.
- Odstraněno kopie GNU getline z ascii2uni.c, protože je standardně k POSIX2008.
Co je nového ve verzi 4.14:
- Opravena chyba, která bránila použití formátu Q v uni2ascii.
- Opravena chyba, ve kterém ascification z U + 2502 a U + 2503 přidán uvozovky na výstup.
- Opravena chyba, ve kterém volba -a S generované & quot; převedené tolik znaky & quot; linka pro každý znak v důsledku odchodu do ladění kódu.
Co je nového ve verzi 4.13:
- Opravena chyba, která způsobila nadměrný počet znaků, se změnil na ASCII být hlášeny.
Co je nového ve verzi 4.12:
- Oba programy nyní umožňují název vstupní soubor, které mají být specifikovány na příkazového řádku, aniž by přesměrování.
Co je nového ve verzi 4.11:
- Tato verze přidává podporu pro & lt; XX & gt; & lt; XX & gt; a formátů% uXXXX.
Co je nového ve verzi 4.10:
- Tato verze opravuje chybu, která dělala argument Y, aby -a vlajka ascii2uni no-op, a opravuje manuálové stránky a pomoc pro argumenty Y a Q na -a pro oba programy.
- Argument Y je nyní chyba uni2ascii.
- Informace o verzi a akční souhrny jsou více informativní.
Komentáře nebyl nalezen