DimkaS
написал 4 декабря 2007 года в 23:14 (1649 просмотров)
Ведет себя
как мужчина; открыл 84 темы в форуме, оставил 922 комментария на сайте.
Почему кодировка виндовая?
Последние комментарии
- OlegL, 17 декабря в 15:00 → Перекличка 21
- REDkiy, 8 июня 2023 года в 9:09 → Как «замокать» файл для юниттеста в Python? 2
- fhunter, 29 ноября 2022 года в 2:09 → Проблема с NO_PUBKEY: как получить GPG-ключ и добавить его в базу apt? 6
- Иванн, 9 апреля 2022 года в 8:31 → Ассоциация РАСПО провела первое учредительное собрание 1
- Kiri11.ADV1, 7 марта 2021 года в 12:01 → Логи catalina.out в TomCat 9 в формате JSON 1
ecobeing.ru
Экология и вегетарианство на благо всем живым существам Планеты.
Блин. Сколько можно эту тему поднимать?..
Потому что мне так когда-то было удобно.
А что с ней не так?
Идеологически неправильно и вообще, с учётом тематики форума, должно быть стыдно!!!
Надеюсь, что в очередной версии сайта это будет исправлено.
Хы
А вот мне пофиг какая кодировка.
(ИМХО Unix пользователю должно быть пофиг)…
ИМХО категорически неверное. Даже скажу: порочное.
С точки зрения возможности прочтения — оно конечно пофиг…
Но вот с идеологической точки зрения — ни фига не пофиг!!! :)
> Надеюсь, что в очередной версии сайта это будет исправлено.
Ага. UTF-8.
А эта ваша «идеологически правильная» KOI8-R — костыль не меньше CP1251. Впрочем, уже обсуждали, спорить в очередной раз ни о чем не хочу.
Ага.
А UTF8 — тоже костыль.
Не меньший, чем KOI8-R.
> А UTF8 — тоже костыль.
> Не меньший, чем KOI8-R.
Здесь уже не согласен. Да и в любом случае — идеологически он ГОРАЗДО более правильный.
Все ША!!! А то возьмем и прикрутим 8-байтный ЮНИКОД!!!!
Вот именно поэтому он и является идеологически порочным.
Программную статью читал?
Ну, как там с 8-байтным — не знаю.
А вот на идеологическую правильность наиболее обоснованно претендует 4-х байтный.
И начнёт тогда Гений активно использовать иероглифы в текстах статей :)))
Хорошо, расскажи сказку о том, как в UTF8 реализована полноценная реализация кириллицы (заметь, что о поддержке ни словенского алфавита, ни глаголицы я пока не говорю).
И в чём же тогда «преимущества» UTF8? в том, что из двух полезных вещей оставили одну? Причём поленую не (с)только нам (а полезную нам убрали)?
матерные? ;)
Кстати, надо бы составить библиотечку :)
И вообще — проработать тему нецензурной лексики в письменной традиции языков, использующих иероглифическую письменность :)
> Хорошо, расскажи сказку о том, как в UTF8 реализована полноценная реализация кириллицы (заметь, что о поддержке ни словенского алфавита, ни глаголицы я пока не говорю).
Ну началось… Хорошо хоть, что про глаголицу не начал. Анархист, привет. На сайте русский язык и английский. ВСЕ!
Для этих целей UTF-8 прекрасно подходит. Унифицирует работу с текстовыми данными.
Кириллица (в полном объёме) к русскому языку, надо полагать, не относится? ;)
И в чём же с такими требованиями заключается преимущество UTF8 над KOI8-R?
> Кириллица (в полном объёме) к русскому языку, надо полагать, не относится? ;)
Опять сплошные голословные утверждения с пафосным налетом? КАКИЕ ПРОБЛЕМЫ С КИРИЛЛИЦЕЙ У UTF-8? Только по фактам, а не по очередным личным и теоретическим псевдозагонам. Не один год с UTF работаю — что-то не наблюдаю.
> И в чём же с такими требованиями заключается преимущество UTF8 над KOI8-R?
Да хотя бы тупо технически: в ней нет символов правильных кавычек (елочек), вложенных кавычек и тире, используемых в типографии применительно к _русскому языку_! И о какой тогда лучшей поддержке русского языка кодировкой, созданной специально для этого, можно вообще говорить?
А мне вот по ряду причин хочется в базе хранить уже все правильные символы.
И по конкретике: у символа «ять» какой код? :)
Как минимум в UTF8 есть буква «Ё», а это важная буква!
Ѣ, ѣ (название: ять, слово мужского рода) — буква исторической кириллицы и глаголицы.
Наверное все-таки исторические буквы не самое необходимое в современном языке.
И встречный вопрос какой символ у этой буквы в koi8r?
P.S. Не прижилась это буква в cp1251:) так что только коды.
Без прошлого нет [преемственности] будущего.
Нету. Но я же не говорю о преимуществе KOI8-R в данном контексте.
А в UTF-8, надо полагать, есть? И буква 'хер' (в начертании глаголицы) тоже есть? ;)
Тогда сдаюсь :)))
UTF-8 не идеален, но ничего явно лудшего пока нет.
UTF32
Ты же в курсе главной фичи и «преимущества», заставляющего ограничиваться UTF8.
В тему, популярность кодировок для корейского языка по поисковикам:
1) euc-kr
2) utf-8
3) ks_c_5601-1987
Сорри, что если несколько неуклюже встреваю в вашу ученую дискуссию, но лингвистический термин «современный русский язык» — это последние двести лет. Например, Н. В. Гоголь и А. А. Блок писали именно на современном русском языке.
Иметь возможность цитировать классическую русскую литературу — это гуд.
Кого-то Вы мне напоминаете, друг мой Аттила…
Хм.
А почему двести лет, а не сто сорок восемь лет три месяца и два дня?
Good Luck,
UT
Согласен, что правильнее было написать не «двести лет», а два столетия. Большой точности тут нет.
Поэтому, ИМХО, наличие букв «И десятеричное», «Ять», «Фита», «Ижица» — довольно актуально. А вот без упразднённых Петром I букв вполне можно обойтись. Так же как и, например, без «среднеанглийских» «Ash», «Thorn», «Eth», «Yogh».
Да, и кого же я всё-тки Вам напоминаю? Интересно же…
Да знавал я тут одного Аттилу. Он тоже интересовался русским языком. В основном, правда, изящной поэзией и Гофманом. А также ятями с ижицами. Ну да ладно.
Язык языком, а вот русский алфавит и грамматика были реформированы в начале прошлого века, буквы, о которых Вы говорите, из него были исключены, и нет никакого смысла поддерживать их использование.
Good Luck,
UT
Ага…
А оригиналы, после «адаптации» к «современному языку» уничтожать.
Вы случаем не являетесь законспирированным сотрудником Министерства Правды? ;)
(если кто совершенно внезапно не в курсе — Джордж Оруэлл, «1984»)
Анархист, спокойствие, только спокойствие. :) Прогулки перед сном и много витаминов. И все будет хорошо. :) Даже без ятя, фиты и ижицы.
Good Luck,
UT
Дима, покажи статистику посещений пользователями с различными кодировками на nixp.ru. Счетчик mail.ru умеет собирать такую статистику.
Это поможет выявить самую популярную кодировку и, видимо, её признать стандартом.
ЗЫ: уверен, что это будет cp1251.
Ты хочешь сказать что мой броузер может сдать любому сайту, используемую у меня на машине локаль? Очень интересно, я думал такое подобные программы не умеют.
Присоединяюсь к этому вопросу.
может — только эти данные очень и очень не точные
да, может. кроме этого можно узнать и версию браузера, и тип ОС и даже разрешение экрана, которое у тебя установлено.
большой брат следит за Вами. :)
Э… Версия браузера, ОС, разрешение экрана — да. Локаль — нет.
ой, да, локаль показать нельзя. :(
я тут обшибся :(
хотя, если у тебя Windows XP, то в 99,9% случаев у тебя cp1251 :)
Думаешь у нас тут в основном оно тусуется?
В основном или нет, но очень много…
По статистике за декабрь на nixp.ru:
Win XP — 43,3%
Win Longhorn — 2,4%
Win 2003 — 2,4%
Win 2000 — 2,0%
Win NT — 0,5%
Win 98 — 0,3%
(Все Win — 51,4%)
Mac — 0,6%
Linux — 23,9%
FreeBSD — 0,9%
«Unknown Unix system» — 0,1%
«Неизвестно» — 22,7%
у кого ещё есть вопросы по кодировкам? :)
думаю, что на многих сайтах в сети Интернет будет подобная статистика.
из этого всего можно сделать такой вывод: многие кричат, что Linux рулит, а сами сидят в Windows
Сюда разные люди ходят, не только те, кто считают, что Linux рулит:) Я бы сказал очень специфичная статистика, на других ресурсах, Win побольше будет. Вот больше всего озадачило неизвестно, что-то очень много.
Да что за бредовые беседы про кодировки?!
UTF-8 устроит всех. Всё.
Ничего удивительного.
Просто нормальный уровень паранойи.
Думается мне, если я скажу браузеру отдавать в поле «ОС» что-нибудь нецензурное в KOI8-R, меня также посчитают как «неизвестно».
Кстати, о поэзии.
Вот в английском языке есть буква «N с тильдой"? Вроде как нет. Но это отнюдь не означает, что можно писать по-аглицки без этой буквы. Потому как Киплинг:
Хотя в словарях написано «canyon».
А по-русски:
Вот слово «оне». Такого слова в русском языке нет и никогда не было, не могло быть и не будет. Если бы Поэт захотел, он бы, конечно, использовал и не такое слово; но если уж он обошелся слова существующими, то какой деспот имеет право коверкать произведение искусства, наполняя его словами измышлёнными и несуществующими?
Вот в итальянском языке некоторое время назад вышла из упортебления буква «J». Но все прозведения классиков набираются с использованием этой буквы, несмотря на изменения грамматики и алфавита.
Вот что писал про обычные 8-битные кодировки князь Багратион графу Аракчееву:
.
Вывод: без Юникода жить нельзя.
Ну, в реале не немцами, а англичанами…
Вывод #2:
Этот Юникод никоим образом не должен быть UTF8, потому что оный:
1. Не обеспечивает выполнения всех требований.
2. Разрабатывался в превую очередь с учётом выгодной самизнаетекому совместимости с ANSCII.
например мне )))
У тебя аглицкий проходит по статье «родной язык"? ;)
Не знал, не знал…
Английский-неанглийский, но С — родной для любого *nixоида
:)
Я полагаю, что увеличивать размер кода ядра в 4 раза, только для поддержки дальневосточных символов — это не самое мудрое решение. :)
1) соотношение английских/других символов на странице сайта (в html коде) (даже с учетом верстки на мега-дивах)? (сейчас — 1 к 5)
2) во сколько раз больше байт данных придётся передавать при использовании UTF-32? (в 3.3 раза)
3) cp1251, koi8-r, cp866 и все другие одно-байтные кодировки так же как и UTF-8 совместимы с ASCII? (да)
Anarchist, ты предлагаешь использовать UTF-32?
Просто не обломает сделать поддержку и его… специально для Anarchist`ов… пускай гоняют лишний трафик..
P.S. Сравним время, затрачиваемое на: «конвертацию UTF-8 в UTF-32 на клиенте» и «передачу лишних 70% данных по сети».
А что такое «мега-дива».
Детские болезни.
+ шкурные интересы разработчика (и тех, кто над ним).
Нет, я просто рассуждаю об идеологически правильной кодировке.
Лучше продумай отработку ввода символов, отсутствующих на клавиатуре.
В стиле TeX.
Например '\degree’. И т.д.
Не раньше, чем начнём в массовом порядке использовать символы, отсутствующие в UTF8.
Если уж копать в идеологию, то суть идеологии *nix-систем — это СВОБОДА! Свобода выбора. Поэтому идеологически — любая выбранная кодировка — это личное дело человека, который стоит перед выбором ее, и не может диктоваться кем-либо еще!
Из сего следует, что в *nix-системах любая кодировка идеологически правильна!