Bienvenido a Internet ■Volver al BBS■ Hilo completo ▼Bajar▼

■ Este hilo se encuentra guardado en el archivo

Manifiesto del utf-8 (8 respuestas)

1 : root@bienvenidoainternet.org:~# : 16/10/20(vie)09:25:34 ID:43iMSRGy0!

2 : root@bienvenidoainternet.org:~# : 16/10/20(vie)11:15:11 ID:IO3p7ldf0

tl;dr

3 : root@bienvenidoainternet.org:~# : 16/10/20(vie)13:28:30 ID:9hiGMxnhQ

Creo que hoy en día está más que claro y se conocen las obviedades de por qué usar esta codificación u otra, siempre dentro de Unicode, pero gracias. Aquí hago de abogado del diablo.

El propio texto muestra que UTF-16 todavía sigue siendo más eficiente para textos puramente planos asiátcos (sin etiquetas html, etc.), pero aun así en las conclusiones indica de forma completamente opinionada que UTF-16 (o UCS-2) es peor.

Hay muchas formas de definir la codificación que utiliza un documento, además es bastante eficaz utilizar sistemas de detección como los de ICU (ucsdet, etc.) en caso de que no venga definido en el bloque BOM o en algún otro sistema que defina la codificación del contenido. La norma no indica que no sea recomendado usar BOM con UTF-16, por lo que se podría usar solo para estos casos.

Algo offtopic: la palabra manifiesto parece mágica. Usemos más la lógica y las razones técnicas que dejarnos llevar por la palabra "manifiesto" y textos elegantes que parecen papers escritos con la plantilla predeterminada de TeX a PDF.

4 : : 16/10/20(vie)13:35:08 ID:???T

Hechos y lógica.

5 : root@bienvenidoainternet.org:~# : 16/10/20(vie)16:44:05 ID:uZgfp4ny0

>en las conclusiones indica de forma completamente opinionada que UTF-16 (o UCS-2) es peor.
>UCS-2
Obsoleto cuando se dieron cuenta que con 16 bits no alcanzaba. Solo los sistemas legados lo usan y "si es que".
>UTF-16 es lo peor.
Porque es un cacho, tienes dos endianness, y encima cualquier cosa que salga del BMP pasa a consumir 32 bits.
Cada vez que alguien me sale con que UTF-16 es de 16 bits mi respuesta es:
>????
(U+1F602 = 3D D8 02 DE en UTF-16)

6 : root@bienvenidoainternet.org:~# : 16/10/20(vie)16:49:55 ID:uZgfp4ny0

Y olvidé mencionar los bugs de los motores de texto y cadenas al parsear UTF-16 como los de Apple.

7 : root@bienvenidoainternet.org:~# : 16/10/20(vie)17:40:26 ID:27SHnea00

Unicode es una mierda y los emojis también.

8 : root@bienvenidoainternet.org:~# : 18/10/20(dom)17:20:58 ID:bSa2lNq2i!

Verdad que con 8 bits bastan.
Hasta que llega un cliente con nombre centroeuropeo o vietnamita y te pone problemas porque no puedes poner su nombre en la aplicación sin deformarlo.
Concuerdo con los emojis en todo caso.
2 KB

■ Este hilo se encuentra guardado en el archivo

weabot.py ver 0.10.9 Bienvenido a Internet BBS/IB