nixp.ru v3.0

18 октября 2017,
среда,
21:41:08 MSK

DevOps с компанией «Флант»
Anarchist написал 16 августа 2005 года в 15:35 (430 просмотров) Ведет себя как мужчина; открыл 258 тем в форуме, оставил 4097 комментариев на сайте.

Весьма интересное мнение о причине возникновения проблемы кодировок.

Статья.

Интересно насколько соответствуют действительности замечания о работе международных организаций по стандартизации.

ЗЫ: В Японию что-ли перебираться?..

rgo
В 1967-м году ISO * выпускает рекомендацию ISO 646, которая фактически сделала систему ASCII уже международным стандартом. И это при том, что система ASCII заведомо не удовлетворяла самым очевидным требованиям, предъявляемым к системе кодирования символов, пригодной для международного применения.

хе-хе, что за очевидные требования? чтобы все иероглифы ею кодировались? Тогда это было не просто не очевидно — это никому не надо было. Даже японцам.

Развитие кодовых таблиц, происходило следом за расширением областей применения компьютера, но не опережая. И это по-моему естественно. А то, что M$ подкололо пользователей кириллицы и добавила две кодовые таблицы к общей неразберихе… Это конечно упущение ГОСТа, но ты сам подумай — кто такой ГОСТ и кто M$. У ГОСТа не было шансов. А то что M$ подкалывает и по сей день, не давая пользователю качественной поддержки многоязычности… Так это уже пользователь виноват — его никто не заставляет пользоваться виндой и молчать, вместо того чтобы выходить на улицы с транспорантами и требовать соблюдения прав потребителя.

И ещё, имхо, автор привнёс бы в решение проблемы кодировок гораздо больший вклад, если бы просто написал статью, о том как надо писать программу говорящую на всех языках. Причём не просто «use wchar_t» или «use gettext», «use iconv», а как всё это можно использовать одновременно, причём и в *nix и в win.

NB У меня нет проблем с кодировками, мне emacs хватает и для латиницы, и для кириллицы, и набора математических формул с греческими и более заковыристыми буквами, и для изучения японского, и для автоматического определения кодировки конкретного файла.

Случается иногда какая-нить лажа, но иногда и kernel panic бывает.

Anarchist
rgo
хе-хе, что за очевидные требования? чтобы все иероглифы ею кодировались? Тогда это было не просто не очевидно — это никому не надо было. Даже японцам.

Ты явно не читал статью.

Кстати, рекомендую принят к сведению, что число символов только основанных на латинице алфавитов европейских языков несколько превышает стандартные 26 символов английского алфавита.

rgo
Развитие кодовых таблиц, происходило следом за расширением областей применения компьютера, но не опережая. И это по-моему естественно. А то, что M$ подкололо пользователей кириллицы и добавила две кодовые таблицы к общей неразберихе… Это конечно упущение ГОСТа, но ты сам подумай — кто такой ГОСТ и кто M$. У ГОСТа не было шансов. А то что M$ подкалывает и по сей день, не давая пользователю качественной поддержки многоязычности… Так это уже пользователь виноват — его никто не заставляет пользоваться виндой и молчать, вместо того чтобы выходить на улицы с транспорантами и требовать соблюдения прав потребителя.

Маханием транспарантами ты ничего не добъешься.

А в силу инертности и положения на рынке тебя ЗАСТАВЯТ работать с виндой.

rgo
И ещё, имхо, автор привнёс бы в решение проблемы кодировок гораздо больший вклад, если бы просто написал статью, о том как надо писать программу говорящую на всех языках. Причём не просто «use wchar_t» или «use gettext», «use iconv», а как всё это можно использовать одновременно, причём и в *nix и в win.

Давай проведем голосование сколько пользователей винды (чистых) знают такое матерное слово iconv (кстати исторически так сложилось, что лично я предпочитаю re).

rgo
NB У меня нет проблем с кодировками, мне emacs хватает и для латиницы, и для кириллицы, и набора математических формул с греческими и более заковыристыми буквами, и для изучения японского, и для автоматического определения кодировки конкретного файла.

Случается иногда какая-нить лажа, но иногда и kernel panic бывает.

Угу.

Сказал бы чем ты при этом пользуешься…

Набирать текст японскими иероглифами в консоли не пробовал?

Автоопределение кодировки далеко не всегда работает корректно.

rgo
Anarchist
Ты явно не читал статью.

Что значит не читал? Ты на дату обратил внимание? ASCII был принят в 1963 году, окончательный вариант в 1968. Кому тогда нужны были иероглифы? Или многоязыковый набор. А вот лишний байт на символ (может даже бит) — это было жестоко.

Anarchist
Кстати, рекомендую принят к сведению, что число символов только основанных на латинице алфавитов европейских языков несколько превышает стандартные 26 символов английского алфавита.

Ну и что. Думаешь кто-нибудь сильно задумывался тогда о том, что текстовые данные внутри компьютера могут не просто передавать смысл, а ещё и позволять красиво рисовать символы (то есть со всеми точечками-рюшечками)?

Anarchist
Маханием транспарантами ты ничего не добъешься.

А в силу инертности и положения на рынке тебя ЗАСТАВЯТ работать с виндой.

Давай проведем голосование сколько пользователей винды (чистых) знают такое матерное слово iconv (кстати исторически так сложилось, что лично я предпочитаю re).

да. как это не грустно — заставят. но никто мне не помешает использовать iconv и emacs даже в винде.

Anarchist
Угу.

Сказал бы чем ты при этом пользуешься…

emacs. Для математики tex.

Anarchist
Набирать текст японскими иероглифами в консоли не пробовал?

мне не нужно ядро, которое будет пользовать файлы шрифтов размерами в длинные сотни килобайт, при этом используя для рендеринга код в длинные тысячи строк. поэтому я с готовностью жертвую такой возможностью. пускай M$ занимается такими извращениями. Ну или японцы, если им это необходимо. Хотя (к сведению) в японии, используется три набора иероглифов: hiragana, katakana и kanji. первые два — фонетические наборы, каждый из которых состоит из 46 иероглифов, и позволяет свободно записать любое японское слово. На счёт, автоматичесткой трансляции kanji иероглифа в hiragana или katakana (без того чтобы образованный японец морщился при виде такого текста) я не совсем уверен, но мне кажется можно, и не сложно.

Anarchist
Автоопределение кодировки далеко не всегда работает корректно.

Да, для plain-text файла.

Anarchist
rgo
Что значит не читал? Ты на дату обратил внимание? ASCII был принят в 1963 году, окончательный вариант в 1968. Кому тогда нужны были иероглифы? Или многоязыковый набор. А вот лишний байт на символ (может даже бит) — это было жестоко.

Угу.

И все разработки в области ИТ ведутся в САСШ, а странам отличным от бывших английских колоний собственная письменность не нужна.

Иероглифы — вероятно, символы отличные от стандартного аглицкого алфавита — нужны.

Подсказываю: в свое время когда в СССР велись собственные разработки существовали и основанные на КИРИЛЛИЦЕ языки программирования.

rgo
Ну и что. Думаешь кто-нибудь сильно задумывался тогда о том, что текстовые данные внутри компьютера могут не просто передавать смысл, а ещё и позволять красиво рисовать символы (то есть со всеми точечками-рюшечками)?

Исходя из этого ты считаешь, что можно и нужно сокращать число символов в алфавите (обращаю внимание: о рюшах речи не идет: просто о кодировании символов)?

rgo
да. как это не грустно — заставят. но никто мне не помешает использовать iconv и emacs даже в винде.

Угу…

Только это сопряжено с некоторым геммороем.

rgo
emacs. Для математики tex.

Я надеюсь строго в plain TeX?

rgo
Да, для plain-text файла.

Даже для него автоопределение кодировки не всегда работает корректно.

rgo

Не туда нас понесло… Я хотел, всего лишь, сказать, что заговор найти может кто угодно в любой проблеме, а вот сделать мир лучше (например, написать руководство, которое поможет решить эту проблему) гораздо сложнее.