nixp.ru forum cp1251??? — Форум Sex &amp;amp; Drugs &amp;amp; Rock’N&#039;Roll (nixp.ru)

Dmitry Shurupov
А эта ваша «идеологически правильная» KOI8-R — костыль не меньше CP1251. Впрочем, уже обсуждали, спорить в очередной раз ни о чем не хочу.

Ага.

А UTF8 — тоже костыль.

Не меньший, чем KOI8-R.

Ответить Цитировать

7

Дмитрий Шурупов 15:03, 5 декабря 2007

> А UTF8 — тоже костыль.

> Не меньший, чем KOI8-R.

Здесь уже не согласен. Да и в любом случае — идеологически он ГОРАЗДО более правильный.

Ответить Цитировать

8

Dmitry.Stolyarov 15:10, 5 декабря 2007

Все ША!!! А то возьмем и прикрутим 8-байтный ЮНИКОД!!!!

Ответить Цитировать

9

Anarchist 15:24, 5 декабря 2007

Dmitry Shurupov
> А UTF8 — тоже костыль.
> Не меньший, чем KOI8-R.

Здесь уже не согласен. Да и в любом случае — идеологически он ГОРАЗДО более правильный.

Вот именно поэтому он и является идеологически порочным.

Программную статью читал?

Dmitry.Stolyarov
Все ША!!! А то возьмем и прикрутим 8-байтный ЮНИКОД!!!!

Ну, как там с 8-байтным — не знаю.

А вот на идеологическую правильность наиболее обоснованно претендует 4-х байтный.

И начнёт тогда Гений активно использовать иероглифы в текстах статей :)))

Ответить Цитировать

10

Anarchist 09:41, 7 декабря 2007

Dmitry Shurupov
> А UTF8 — тоже костыль.
> Не меньший, чем KOI8-R.

Здесь уже не согласен.

Хорошо, расскажи сказку о том, как в UTF8 реализована полноценная реализация кириллицы (заметь, что о поддержке ни словенского алфавита, ни глаголицы я пока не говорю).

И в чём же тогда «преимущества» UTF8? в том, что из двух полезных вещей оставили одну? Причём поленую не (с)только нам (а полезную нам убрали)?

Ответить Цитировать

11

decvar 13:21, 7 декабря 2007

начнёт тогда Гений активно использовать иероглифы в текстах статей

матерные? ;)

Ответить Цитировать

12

Anarchist 13:33, 7 декабря 2007

decvar
матерные? ;)

Кстати, надо бы составить библиотечку :)

И вообще — проработать тему нецензурной лексики в письменной традиции языков, использующих иероглифическую письменность :)

Ответить Цитировать

13

Дмитрий Шурупов 14:40, 7 декабря 2007

> Хорошо, расскажи сказку о том, как в UTF8 реализована полноценная реализация кириллицы (заметь, что о поддержке ни словенского алфавита, ни глаголицы я пока не говорю).

Ну началось… Хорошо хоть, что про глаголицу не начал. Анархист, привет. На сайте русский язык и английский. ВСЕ!

Для этих целей UTF-8 прекрасно подходит. Унифицирует работу с текстовыми данными.

Ответить Цитировать

14

Anarchist 14:42, 7 декабря 2007

Dmitry Shurupov
Ну началось… Хорошо хоть, что про глаголицу не начал. Анархист, привет. На сайте русский язык и английский. ВСЕ!

Кириллица (в полном объёме) к русскому языку, надо полагать, не относится? ;)

И в чём же с такими требованиями заключается преимущество UTF8 над KOI8-R?

Ответить Цитировать

15

Дмитрий Шурупов 15:08, 7 декабря 2007

> Кириллица (в полном объёме) к русскому языку, надо полагать, не относится? ;)

Опять сплошные голословные утверждения с пафосным налетом? КАКИЕ ПРОБЛЕМЫ С КИРИЛЛИЦЕЙ У UTF-8? Только по фактам, а не по очередным личным и теоретическим псевдозагонам. Не один год с UTF работаю — что-то не наблюдаю.

> И в чём же с такими требованиями заключается преимущество UTF8 над KOI8-R?

Да хотя бы тупо технически: в ней нет символов правильных кавычек (елочек), вложенных кавычек и тире, используемых в типографии применительно к _русскому языку_! И о какой тогда лучшей поддержке русского языка кодировкой, созданной специально для этого, можно вообще говорить?

А мне вот по ряду причин хочется в базе хранить уже все правильные символы.

Ответить Цитировать

16

Anarchist 15:58, 7 декабря 2007

Dmitry Shurupov
> Кириллица (в полном объёме) к русскому языку, надо полагать, не относится? ;)
Опять сплошные голословные утверждения с пафосным налетом? КАКИЕ ПРОБЛЕМЫ С КИРИЛЛИЦЕЙ У UTF-8? Только по фактам, а не по очередным личным и теоретическим псевдозагонам. Не один год с UTF работаю — что-то не наблюдаю.

И по конкретике: у символа «ять» какой код? :)

Ответить Цитировать

17

metal 16:57, 7 декабря 2007

Anarchist
И в чём же с такими требованиями заключается преимущество UTF8 над KOI8-R?

Как минимум в UTF8 есть буква «Ё», а это важная буква!

Ответить Цитировать

18

metal 16:59, 7 декабря 2007

Anarchist
И по конкретике: у символа «ять» какой код? :)

Ѣ, ѣ (название: ять, слово мужского рода) — буква исторической кириллицы и глаголицы.

Наверное все-таки исторические буквы не самое необходимое в современном языке.

И встречный вопрос какой символ у этой буквы в koi8r?

P.S. Не прижилась это буква в cp1251:) так что только коды.

Ответить Цитировать

19

Anarchist 11:16, 10 декабря 2007

metal
Ѣ, ѣ (название: ять, слово мужского рода) — буква исторической кириллицы и глаголицы.
Наверное все-таки исторические буквы не самое необходимое в современном языке.

Без прошлого нет [преемственности] будущего.

metal
И встречный вопрос какой символ у этой буквы в koi8r?
P.S. Не прижилась это буква в cp1251:) так что только коды.

Нету. Но я же не говорю о преимуществе KOI8-R в данном контексте.

А в UTF-8, надо полагать, есть? И буква 'хер' (в начертании глаголицы) тоже есть? ;)

Тогда сдаюсь :)))

Ответить Цитировать

20

metal 11:22, 10 декабря 2007

Anarchist
А в UTF-8, надо полагать, есть? И буква 'хер' (в начертании глаголицы) тоже есть? ;)
Тогда сдаюсь :)))

UTF-8 не идеален, но ничего явно лудшего пока нет.

Ответить Цитировать

21

Anarchist 11:36, 10 декабря 2007

metal
UTF-8 не идеален, но ничего явно лудшего пока нет.

UTF32

Ты же в курсе главной фичи и «преимущества», заставляющего ограничиваться UTF8.

Ответить Цитировать

22

metal 18:21, 12 декабря 2007

В тему, популярность кодировок для корейского языка по поисковикам:

1) euc-kr

2) utf-8

3) ks_c_5601-1987

Ответить Цитировать

23

attila 02:14, 22 декабря 2007

Наверное все-таки исторические буквы не самое необходимое в современном языке.

Сорри, что если несколько неуклюже встреваю в вашу ученую дискуссию, но лингвистический термин «современный русский язык» — это последние двести лет. Например, Н. В. Гоголь и А. А. Блок писали именно на современном русском языке.

Иметь возможность цитировать классическую русскую литературу — это гуд.

Ответить Цитировать

24

Uncle Theodore 03:26, 22 декабря 2007

Кого-то Вы мне напоминаете, друг мой Аттила…

Хм.

А почему двести лет, а не сто сорок восемь лет три месяца и два дня?

Good Luck,

UT

Ответить Цитировать

25

attila 12:22, 22 декабря 2007

Согласен, что правильнее было написать не «двести лет», а два столетия. Большой точности тут нет.

Современный русский литературный язык — язык русской литературы — сформировался примерно на рубеже XVIII—XIX веков на базе московского диалекта. Последующие его изменения были несущественны.

Поэтому, ИМХО, наличие букв «И десятеричное», «Ять», «Фита», «Ижица» — довольно актуально. А вот без упразднённых Петром I букв вполне можно обойтись. Так же как и, например, без «среднеанглийских» «Ash», «Thorn», «Eth», «Yogh».

Да, и кого же я всё-тки Вам напоминаю? Интересно же…

Ответить Цитировать

26

Uncle Theodore 22:58, 22 декабря 2007

attila
Да, и кого же я всё-тки Вам напоминаю? Интересно же…

Да знавал я тут одного Аттилу. Он тоже интересовался русским языком. В основном, правда, изящной поэзией и Гофманом. А также ятями с ижицами. Ну да ладно.

Язык языком, а вот русский алфавит и грамматика были реформированы в начале прошлого века, буквы, о которых Вы говорите, из него были исключены, и нет никакого смысла поддерживать их использование.

Good Luck,

UT

Ответить Цитировать

27

Anarchist 09:21, 24 декабря 2007

Uncle Theodore
Язык языком, а вот русский алфавит и грамматика были реформированы в начале прошлого века, буквы, о которых Вы говорите, из него были исключены, и нет никакого смысла поддерживать их использование.

Ага…

А оригиналы, после «адаптации» к «современному языку» уничтожать.

Вы случаем не являетесь законспирированным сотрудником Министерства Правды? ;)

(если кто совершенно внезапно не в курсе — Джордж Оруэлл, «1984»)

Ответить Цитировать

28

Uncle Theodore 11:54, 24 декабря 2007

Anarchist
Вы случаем не являетесь законспирированным сотрудником Министерства Правды? ;)
(если кто совершенно внезапно не в курсе — Джордж Оруэлл, «1984»)

Анархист, спокойствие, только спокойствие. :) Прогулки перед сном и много витаминов. И все будет хорошо. :) Даже без ятя, фиты и ижицы.

Good Luck,

UT

Ответить Цитировать

29

Dr. Evil 21:43, 24 декабря 2007

Дима, покажи статистику посещений пользователями с различными кодировками на nixp.ru. Счетчик mail.ru умеет собирать такую статистику.

Это поможет выявить самую популярную кодировку и, видимо, её признать стандартом.

ЗЫ: уверен, что это будет cp1251.

Ответить Цитировать

30

metal 22:57, 24 декабря 2007

Dr. Evil
Дима, покажи статистику посещений пользователями с различными кодировками на nixp.ru. Счетчик mail.ru умеет собирать такую статистику.
Это поможет выявить самую популярную кодировку и, видимо, её признать стандартом.

ЗЫ: уверен, что это будет cp1251.

Ты хочешь сказать что мой броузер может сдать любому сайту, используемую у меня на машине локаль? Очень интересно, я думал такое подобные программы не умеют.

Ответить Цитировать

31

Anarchist 09:06, 25 декабря 2007

metal
Ты хочешь сказать что мой броузер может сдать любому сайта, используемую у меня на машине локаль? Очень интересно, я думал такое подобные программы не умеют.

Присоединяюсь к этому вопросу.

Ответить Цитировать

32

pol 17:58, 25 декабря 2007

может — только эти данные очень и очень не точные

Ответить Цитировать

33

Dr. Evil 18:00, 25 декабря 2007

да, может. кроме этого можно узнать и версию браузера, и тип ОС и даже разрешение экрана, которое у тебя установлено.

большой брат следит за Вами. :)

Ответить Цитировать

34

Дмитрий Шурупов 18:10, 25 декабря 2007

Э… Версия браузера, ОС, разрешение экрана — да. Локаль — нет.

Ответить Цитировать

35

Dr. Evil 18:23, 25 декабря 2007

Dmitry Shurupov
Э… Версия браузера, ОС, разрешение экрана — да. Локаль — нет.

ой, да, локаль показать нельзя. :(

я тут обшибся :(

хотя, если у тебя Windows XP, то в 99,9% случаев у тебя cp1251 :)

Ответить Цитировать

36

metal 19:54, 25 декабря 2007

Dr. Evil
хотя, если у тебя Windows XP, то в 99,9% случаев у тебя cp1251 :)

Думаешь у нас тут в основном оно тусуется?

Ответить Цитировать

37

Дмитрий Шурупов 20:32, 25 декабря 2007

В основном или нет, но очень много…

По статистике за декабрь на nixp.ru:

Win XP — 43,3%

Win Longhorn — 2,4%

Win 2003 — 2,4%

Win 2000 — 2,0%

Win NT — 0,5%

Win 98 — 0,3%

(Все Win — 51,4%)

Mac — 0,6%

Linux — 23,9%

FreeBSD — 0,9%

«Unknown Unix system» — 0,1%

«Неизвестно» — 22,7%

Ответить Цитировать

38

Dr. Evil 22:59, 25 декабря 2007

у кого ещё есть вопросы по кодировкам? :)

думаю, что на многих сайтах в сети Интернет будет подобная статистика.

из этого всего можно сделать такой вывод: многие кричат, что Linux рулит, а сами сидят в Windows

Ответить Цитировать

39

metal 23:47, 25 декабря 2007

Dr. Evil
можно сделать такой вывод: многие кричат, что Linux рулит, а сами сидят в Windows

Сюда разные люди ходят, не только те, кто считают, что Linux рулит:) Я бы сказал очень специфичная статистика, на других ресурсах, Win побольше будет. Вот больше всего озадачило неизвестно, что-то очень много.

Ответить Цитировать

40

Дмитрий Шурупов 08:31, 26 декабря 2007

Да что за бредовые беседы про кодировки?!

UTF-8 устроит всех. Всё.

Ответить Цитировать

41

Anarchist 09:08, 26 декабря 2007

metal
Вот больше всего озадачило неизвестно, что-то очень много.

Ничего удивительного.

Просто нормальный уровень паранойи.

Думается мне, если я скажу браузеру отдавать в поле «ОС» что-нибудь нецензурное в KOI8-R, меня также посчитают как «неизвестно».

Ответить Цитировать

42

attila 16:54, 26 декабря 2007

Кстати, о поэзии.

Вот в английском языке есть буква «N с тильдой"? Вроде как нет. Но это отнюдь не означает, что можно писать по-аглицки без этой буквы. Потому как Киплинг:

With my «Tinka-tinka-tinka-tinka-tink!»
[Oh, the axe has cleared the mountain, croup and crest!]

And we ride the iron stallions down to drink,

Through the cañons to the waters of the West!

Хотя в словарях написано «canyon».

А по-русски:

И когда Париж огромный
Весь оденется в туман,

В мутный вечер, на диван

Лягу я в мансарде темной,

И напомнят мне оне

И волны морской извивы,

И дрожащий луч на дне,

И узлистый ствол оливы,

Вечер в комнате простой,

Силуэт седой колдуньи…

Вот слово «оне». Такого слова в русском языке нет и никогда не было, не могло быть и не будет. Если бы Поэт захотел, он бы, конечно, использовал и не такое слово; но если уж он обошелся слова существующими, то какой деспот имеет право коверкать произведение искусства, наполняя его словами измышлёнными и несуществующими?

Вот в итальянском языке некоторое время назад вышла из упортебления буква «J». Но все прозведения классиков набираются с использованием этой буквы, несмотря на изменения грамматики и алфавита.

Вот что писал про обычные 8-битные кодировки князь Багратион графу Аракчееву:

… и вся главная квартира немцами заполнена, так что русскому жить невозможно

.

Вывод: без Юникода жить нельзя.

Ответить Цитировать

43

Anarchist 17:02, 26 декабря 2007

attila
Вот что писал про обычные 8-битные кодировки князь Багратион графу Аракчееву:

Ну, в реале не немцами, а англичанами…

attila
Вывод: без Юникода жить нельзя.

Вывод #2:

Этот Юникод никоим образом не должен быть UTF8, потому что оный:

1. Не обеспечивает выполнения всех требований.

2. Разрабатывался в превую очередь с учётом выгодной самизнаетекому совместимости с ANSCII.

Ответить Цитировать

44

decvar 17:33, 26 декабря 2007

выгодной самизнаетекому совместимости с ANSCII.

например мне )))

Ответить Цитировать

45

Anarchist 12:07, 28 декабря 2007

decvar
например мне )))

У тебя аглицкий проходит по статье «родной язык"? ;)

Не знал, не знал…

Ответить Цитировать

46

attila 14:24, 28 декабря 2007

Английский-неанглийский, но С — родной для любого *nixоида

:)

Я полагаю, что увеличивать размер кода ядра в 4 раза, только для поддержки дальневосточных символов — это не самое мудрое решение. :)

Ответить Цитировать

47

Dmitry.Stolyarov 05:40, 4 января 2008

1) соотношение английских/других символов на странице сайта (в html коде) (даже с учетом верстки на мега-дивах)? (сейчас — 1 к 5)

2) во сколько раз больше байт данных придётся передавать при использовании UTF-32? (в 3.3 раза)

3) cp1251, koi8-r, cp866 и все другие одно-байтные кодировки так же как и UTF-8 совместимы с ASCII? (да)

Anarchist, ты предлагаешь использовать UTF-32?

Просто не обломает сделать поддержку и его… специально для Anarchist`ов… пускай гоняют лишний трафик..

P.S. Сравним время, затрачиваемое на: «конвертацию UTF-8 в UTF-32 на клиенте» и «передачу лишних 70% данных по сети».

Ответить Цитировать

48

Anarchist 14:33, 9 января 2008

Dmitry.Stolyarov
1) соотношение английских/других символов на странице сайта (в html коде) (даже с учетом верстки на мега-дивах)? (сейчас — 1 к 5)

А что такое «мега-дива».

Dmitry.Stolyarov
2) во сколько раз больше байт данных придётся передавать при использовании UTF-32? (в 3.3 раза)
3) cp1251, koi8-r, cp866 и все другие одно-байтные кодировки так же как и UTF-8 совместимы с ASCII? (да)

Детские болезни.

+ шкурные интересы разработчика (и тех, кто над ним).

Dmitry.Stolyarov
Anarchist, ты предлагаешь использовать UTF-32?

Нет, я просто рассуждаю об идеологически правильной кодировке.

Dmitry.Stolyarov
Просто не обломает сделать поддержку и его… специально для Anarchist`ов… пускай гоняют лишний трафик..

Лучше продумай отработку ввода символов, отсутствующих на клавиатуре.

В стиле TeX.

Например '\degree’. И т.д.

Dmitry.Stolyarov
P.S. Сравним время, затрачиваемое на: «конвертацию UTF-8 в UTF-32 на клиенте» и «передачу лишних 70% данных по сети».

Не раньше, чем начнём в массовом порядке использовать символы, отсутствующие в UTF8.

Ответить Цитировать

49

Gluck 04:12, 10 января 2008

Anarchist
Нет, я просто рассуждаю об идеологически правильной кодировке.

Если уж копать в идеологию, то суть идеологии *nix-систем — это СВОБОДА! Свобода выбора. Поэтому идеологически — любая выбранная кодировка — это личное дело человека, который стоит перед выбором ее, и не может диктоваться кем-либо еще!

Из сего следует, что в *nix-системах любая кодировка идеологически правильна!

Ответить Цитировать

nixp.ru forum cp1251??? 0

Offtopic → Sex & Drugs & Rock’N'Roll