nixp.ru v3.0

27 мая 2017,
суббота,
05:34:09 MSK

DevOps с компанией «Флант»
Аватар пользователя DimkaS
DimkaS написал 4 декабря 2007 года в 23:14 (528 просмотров) Ведет себя как мужчина; открыл 84 темы в форуме, оставил 922 комментария на сайте.

Почему кодировка виндовая?

Дмитрий Шурупов

Блин. Сколько можно эту тему поднимать?..

Потому что мне так когда-то было удобно.

А что с ней не так?

Anarchist
Dmitry Shurupov
А что с ней не так?

Идеологически неправильно и вообще, с учётом тематики форума, должно быть стыдно!!!

Надеюсь, что в очередной версии сайта это будет исправлено.

sarel

Хы

А вот мне пофиг какая кодировка.

(ИМХО Unix пользователю должно быть пофиг)…

Anarchist
sarel
(ИМХО Unix пользователю должно быть пофиг)…

ИМХО категорически неверное. Даже скажу: порочное.

С точки зрения возможности прочтения — оно конечно пофиг…

Но вот с идеологической точки зрения — ни фига не пофиг!!! :)

Дмитрий Шурупов

> Надеюсь, что в очередной версии сайта это будет исправлено.

Ага. UTF-8.

А эта ваша «идеологически правильная» KOI8-R — костыль не меньше CP1251. Впрочем, уже обсуждали, спорить в очередной раз ни о чем не хочу.

Anarchist
Dmitry Shurupov
А эта ваша «идеологически правильная» KOI8-R — костыль не меньше CP1251. Впрочем, уже обсуждали, спорить в очередной раз ни о чем не хочу.

Ага.

А UTF8 — тоже костыль.

Не меньший, чем KOI8-R.

Дмитрий Шурупов

> А UTF8 — тоже костыль.

> Не меньший, чем KOI8-R.

Здесь уже не согласен. Да и в любом случае — идеологически он ГОРАЗДО более правильный.

Dmitry.Stolyarov

Все ША!!! А то возьмем и прикрутим 8-байтный ЮНИКОД!!!!

Anarchist
Dmitry Shurupov
> А UTF8 — тоже костыль.

> Не меньший, чем KOI8-R.

Здесь уже не согласен. Да и в любом случае — идеологически он ГОРАЗДО более правильный.

Вот именно поэтому он и является идеологически порочным.

Программную статью читал?

Dmitry.Stolyarov
Все ША!!! А то возьмем и прикрутим 8-байтный ЮНИКОД!!!!

Ну, как там с 8-байтным — не знаю.

А вот на идеологическую правильность наиболее обоснованно претендует 4-х байтный.

И начнёт тогда Гений активно использовать иероглифы в текстах статей :)))

Anarchist
Dmitry Shurupov
> А UTF8 — тоже костыль.

> Не меньший, чем KOI8-R.

Здесь уже не согласен.

Хорошо, расскажи сказку о том, как в UTF8 реализована полноценная реализация кириллицы (заметь, что о поддержке ни словенского алфавита, ни глаголицы я пока не говорю).

И в чём же тогда «преимущества» UTF8? в том, что из двух полезных вещей оставили одну? Причём поленую не (с)только нам (а полезную нам убрали)?

decvar
начнёт тогда Гений активно использовать иероглифы в текстах статей

матерные? ;)

Anarchist
decvar
матерные? ;)

Кстати, надо бы составить библиотечку :)

И вообще — проработать тему нецензурной лексики в письменной традиции языков, использующих иероглифическую письменность :)

Дмитрий Шурупов

> Хорошо, расскажи сказку о том, как в UTF8 реализована полноценная реализация кириллицы (заметь, что о поддержке ни словенского алфавита, ни глаголицы я пока не говорю).

Ну началось… Хорошо хоть, что про глаголицу не начал. Анархист, привет. На сайте русский язык и английский. ВСЕ!

Для этих целей UTF-8 прекрасно подходит. Унифицирует работу с текстовыми данными.

Anarchist
Dmitry Shurupov
Ну началось… Хорошо хоть, что про глаголицу не начал. Анархист, привет. На сайте русский язык и английский. ВСЕ!

Кириллица (в полном объёме) к русскому языку, надо полагать, не относится? ;)

И в чём же с такими требованиями заключается преимущество UTF8 над KOI8-R?

Дмитрий Шурупов

> Кириллица (в полном объёме) к русскому языку, надо полагать, не относится? ;)

Опять сплошные голословные утверждения с пафосным налетом? КАКИЕ ПРОБЛЕМЫ С КИРИЛЛИЦЕЙ У UTF-8? Только по фактам, а не по очередным личным и теоретическим псевдозагонам. Не один год с UTF работаю — что-то не наблюдаю.

> И в чём же с такими требованиями заключается преимущество UTF8 над KOI8-R?

Да хотя бы тупо технически: в ней нет символов правильных кавычек (елочек), вложенных кавычек и тире, используемых в типографии применительно к _русскому языку_! И о какой тогда лучшей поддержке русского языка кодировкой, созданной специально для этого, можно вообще говорить?

А мне вот по ряду причин хочется в базе хранить уже все правильные символы.

Anarchist
Dmitry Shurupov
> Кириллица (в полном объёме) к русскому языку, надо полагать, не относится? ;)

Опять сплошные голословные утверждения с пафосным налетом? КАКИЕ ПРОБЛЕМЫ С КИРИЛЛИЦЕЙ У UTF-8? Только по фактам, а не по очередным личным и теоретическим псевдозагонам. Не один год с UTF работаю — что-то не наблюдаю.

И по конкретике: у символа «ять» какой код? :)

metal
Anarchist
И в чём же с такими требованиями заключается преимущество UTF8 над KOI8-R?

Как минимум в UTF8 есть буква «Ё», а это важная буква!

metal
Anarchist
И по конкретике: у символа «ять» какой код? :)

Ѣ, ѣ (название: ять, слово мужского рода) — буква исторической кириллицы и глаголицы.

Наверное все-таки исторические буквы не самое необходимое в современном языке.

И встречный вопрос какой символ у этой буквы в koi8r?

P.S. Не прижилась это буква в cp1251:) так что только коды.

Anarchist
metal
Ѣ, ѣ (название: ять, слово мужского рода) — буква исторической кириллицы и глаголицы.

Наверное все-таки исторические буквы не самое необходимое в современном языке.

Без прошлого нет [преемственности] будущего.

metal
И встречный вопрос какой символ у этой буквы в koi8r?

P.S. Не прижилась это буква в cp1251:) так что только коды.

Нету. Но я же не говорю о преимуществе KOI8-R в данном контексте.

А в UTF-8, надо полагать, есть? И буква 'хер' (в начертании глаголицы) тоже есть? ;)

Тогда сдаюсь :)))

metal
Anarchist
А в UTF-8, надо полагать, есть? И буква 'хер' (в начертании глаголицы) тоже есть? ;)

Тогда сдаюсь :)))

UTF-8 не идеален, но ничего явно лудшего пока нет.

Anarchist
metal
UTF-8 не идеален, но ничего явно лудшего пока нет.

UTF32

Ты же в курсе главной фичи и «преимущества», заставляющего ограничиваться UTF8.

metal

В тему, популярность кодировок для корейского языка по поисковикам:

1) euc-kr

2) utf-8

3) ks_c_5601-1987

attila
Наверное все-таки исторические буквы не самое необходимое в современном языке.

Сорри, что если несколько неуклюже встреваю в вашу ученую дискуссию, но лингвистический термин «современный русский язык» — это последние двести лет. Например, Н. В. Гоголь и А. А. Блок писали именно на современном русском языке.

Иметь возможность цитировать классическую русскую литературу — это гуд.

Uncle Theodore

Кого-то Вы мне напоминаете, друг мой Аттила…

Хм.

А почему двести лет, а не сто сорок восемь лет три месяца и два дня?

Good Luck,

UT

attila

Согласен, что правильнее было написать не «двести лет», а два столетия. Большой точности тут нет.

Современный русский литературный язык — язык русской литературы — сформировался примерно на рубеже XVIII—XIX веков на базе московского диалекта. Последующие его изменения были несущественны.

Поэтому, ИМХО, наличие букв «И десятеричное», «Ять», «Фита», «Ижица» — довольно актуально. А вот без упразднённых Петром I букв вполне можно обойтись. Так же как и, например, без «среднеанглийских» «Ash», «Thorn», «Eth», «Yogh».

Да, и кого же я всё-тки Вам напоминаю? Интересно же…

Uncle Theodore
attila
Да, и кого же я всё-тки Вам напоминаю? Интересно же…

Да знавал я тут одного Аттилу. Он тоже интересовался русским языком. В основном, правда, изящной поэзией и Гофманом. А также ятями с ижицами. Ну да ладно.

Язык языком, а вот русский алфавит и грамматика были реформированы в начале прошлого века, буквы, о которых Вы говорите, из него были исключены, и нет никакого смысла поддерживать их использование.

Good Luck,

UT

Anarchist
Uncle Theodore
Язык языком, а вот русский алфавит и грамматика были реформированы в начале прошлого века, буквы, о которых Вы говорите, из него были исключены, и нет никакого смысла поддерживать их использование.

Ага…

А оригиналы, после «адаптации» к «современному языку» уничтожать.

Вы случаем не являетесь законспирированным сотрудником Министерства Правды? ;)

(если кто совершенно внезапно не в курсе — Джордж Оруэлл, «1984»)

Uncle Theodore
Anarchist
Вы случаем не являетесь законспирированным сотрудником Министерства Правды? ;)

(если кто совершенно внезапно не в курсе — Джордж Оруэлл, «1984»)

Анархист, спокойствие, только спокойствие. :) Прогулки перед сном и много витаминов. И все будет хорошо. :) Даже без ятя, фиты и ижицы.

Good Luck,

UT

Dr. Evil

Дима, покажи статистику посещений пользователями с различными кодировками на nixp.ru. Счетчик mail.ru умеет собирать такую статистику.

Это поможет выявить самую популярную кодировку и, видимо, её признать стандартом.

ЗЫ: уверен, что это будет cp1251.

metal
Dr. Evil
Дима, покажи статистику посещений пользователями с различными кодировками на nixp.ru. Счетчик mail.ru умеет собирать такую статистику.

Это поможет выявить самую популярную кодировку и, видимо, её признать стандартом.

ЗЫ: уверен, что это будет cp1251.

Ты хочешь сказать что мой броузер может сдать любому сайту, используемую у меня на машине локаль? Очень интересно, я думал такое подобные программы не умеют.

Anarchist
metal
Ты хочешь сказать что мой броузер может сдать любому сайта, используемую у меня на машине локаль? Очень интересно, я думал такое подобные программы не умеют.

Присоединяюсь к этому вопросу.

pol

может — только эти данные очень и очень не точные

Dr. Evil

да, может. кроме этого можно узнать и версию браузера, и тип ОС и даже разрешение экрана, которое у тебя установлено.

большой брат следит за Вами. :)

Дмитрий Шурупов

Э… Версия браузера, ОС, разрешение экрана — да. Локаль — нет.

Dr. Evil
Dmitry Shurupov
Э… Версия браузера, ОС, разрешение экрана — да. Локаль — нет.

ой, да, локаль показать нельзя. :(

я тут обшибся :(

хотя, если у тебя Windows XP, то в 99,9% случаев у тебя cp1251 :)

metal
Dr. Evil
хотя, если у тебя Windows XP, то в 99,9% случаев у тебя cp1251 :)

Думаешь у нас тут в основном оно тусуется?

Дмитрий Шурупов

В основном или нет, но очень много…

По статистике за декабрь на nixp.ru:

Win XP — 43,3%

Win Longhorn — 2,4%

Win 2003 — 2,4%

Win 2000 — 2,0%

Win NT — 0,5%

Win 98 — 0,3%

(Все Win — 51,4%)

Mac — 0,6%

Linux — 23,9%

FreeBSD — 0,9%

«Unknown Unix system» — 0,1%

«Неизвестно» — 22,7%

Dr. Evil

у кого ещё есть вопросы по кодировкам? :)

думаю, что на многих сайтах в сети Интернет будет подобная статистика.

из этого всего можно сделать такой вывод: многие кричат, что Linux рулит, а сами сидят в Windows

metal
Dr. Evil
можно сделать такой вывод: многие кричат, что Linux рулит, а сами сидят в Windows

Сюда разные люди ходят, не только те, кто считают, что Linux рулит:) Я бы сказал очень специфичная статистика, на других ресурсах, Win побольше будет. Вот больше всего озадачило неизвестно, что-то очень много.

Дмитрий Шурупов

Да что за бредовые беседы про кодировки?!

UTF-8 устроит всех. Всё.

Anarchist
metal
Вот больше всего озадачило неизвестно, что-то очень много.

Ничего удивительного.

Просто нормальный уровень паранойи.

Думается мне, если я скажу браузеру отдавать в поле «ОС» что-нибудь нецензурное в KOI8-R, меня также посчитают как «неизвестно».

attila

Кстати, о поэзии.

Вот в английском языке есть буква «N с тильдой"? Вроде как нет. Но это отнюдь не означает, что можно писать по-аглицки без этой буквы. Потому как Киплинг:

With my «Tinka-tinka-tinka-tinka-tink!»

[Oh, the axe has cleared the mountain, croup and crest!]

And we ride the iron stallions down to drink,

Through the cañons to the waters of the West!

Хотя в словарях написано «canyon».

А по-русски:

И когда Париж огромный

Весь оденется в туман,

В мутный вечер, на диван

Лягу я в мансарде темной,

И напомнят мне оне

И волны морской извивы,

И дрожащий луч на дне,

И узлистый ствол оливы,

Вечер в комнате простой,

Силуэт седой колдуньи…

Вот слово «оне». Такого слова в русском языке нет и никогда не было, не могло быть и не будет. Если бы Поэт захотел, он бы, конечно, использовал и не такое слово; но если уж он обошелся слова существующими, то какой деспот имеет право коверкать произведение искусства, наполняя его словами измышлёнными и несуществующими?

Вот в итальянском языке некоторое время назад вышла из упортебления буква «J». Но все прозведения классиков набираются с использованием этой буквы, несмотря на изменения грамматики и алфавита.

Вот что писал про обычные 8-битные кодировки князь Багратион графу Аракчееву:

… и вся главная квартира немцами заполнена, так что русскому жить невозможно


.

Вывод: без Юникода жить нельзя.

Anarchist
attila
Вот что писал про обычные 8-битные кодировки князь Багратион графу Аракчееву:

Ну, в реале не немцами, а англичанами…

attila
Вывод: без Юникода жить нельзя.

Вывод #2:

Этот Юникод никоим образом не должен быть UTF8, потому что оный:

1. Не обеспечивает выполнения всех требований.

2. Разрабатывался в превую очередь с учётом выгодной самизнаетекому совместимости с ANSCII.

decvar
выгодной самизнаетекому совместимости с ANSCII.

например мне )))

Anarchist
decvar
например мне )))

У тебя аглицкий проходит по статье «родной язык"? ;)

Не знал, не знал…

attila

Английский-неанглийский, но С — родной для любого *nixоида

:)

Я полагаю, что увеличивать размер кода ядра в 4 раза, только для поддержки дальневосточных символов — это не самое мудрое решение. :)

Dmitry.Stolyarov

1) соотношение английских/других символов на странице сайта (в html коде) (даже с учетом верстки на мега-дивах)? (сейчас — 1 к 5)

2) во сколько раз больше байт данных придётся передавать при использовании UTF-32? (в 3.3 раза)

3) cp1251, koi8-r, cp866 и все другие одно-байтные кодировки так же как и UTF-8 совместимы с ASCII? (да)

Anarchist, ты предлагаешь использовать UTF-32?

Просто не обломает сделать поддержку и его… специально для Anarchist`ов… пускай гоняют лишний трафик..

P.S. Сравним время, затрачиваемое на: «конвертацию UTF-8 в UTF-32 на клиенте» и «передачу лишних 70% данных по сети».

Anarchist
Dmitry.Stolyarov
1) соотношение английских/других символов на странице сайта (в html коде) (даже с учетом верстки на мега-дивах)? (сейчас — 1 к 5)

А что такое «мега-дива».

Dmitry.Stolyarov
2) во сколько раз больше байт данных придётся передавать при использовании UTF-32? (в 3.3 раза)

3) cp1251, koi8-r, cp866 и все другие одно-байтные кодировки так же как и UTF-8 совместимы с ASCII? (да)

Детские болезни.

+ шкурные интересы разработчика (и тех, кто над ним).

Dmitry.Stolyarov
Anarchist, ты предлагаешь использовать UTF-32?

Нет, я просто рассуждаю об идеологически правильной кодировке.

Dmitry.Stolyarov
Просто не обломает сделать поддержку и его… специально для Anarchist`ов… пускай гоняют лишний трафик..

Лучше продумай отработку ввода символов, отсутствующих на клавиатуре.

В стиле TeX.

Например '\degree’. И т.д.

Dmitry.Stolyarov
P.S. Сравним время, затрачиваемое на: «конвертацию UTF-8 в UTF-32 на клиенте» и «передачу лишних 70% данных по сети».

Не раньше, чем начнём в массовом порядке использовать символы, отсутствующие в UTF8.

Gluck
Anarchist
Нет, я просто рассуждаю об идеологически правильной кодировке.

Если уж копать в идеологию, то суть идеологии *nix-систем — это СВОБОДА! Свобода выбора. Поэтому идеологически — любая выбранная кодировка — это личное дело человека, который стоит перед выбором ее, и не может диктоваться кем-либо еще!

Из сего следует, что в *nix-системах любая кодировка идеологически правильна!