OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 2 3 
Послать Тему Печать
Замеченные баги (Прочитано 32608 раз)
slava_kry
Активист
***
Вне Форума



Сообщений: 355
Re: Замеченные баги
Ответ #60 - 25.04.2016 :: 20:27:48
 
@
AAW
Спасибо, попробую.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3824
Екатеринбург
Пол: male
Re: Замеченные баги
Ответ #61 - 21.11.2018 :: 15:16:05
 
Вадим, что-то у меня в ЛС переписка с относительно новыми юзерами не хочет формироваться. По кнопке "Показать все сообщения, полученные и отправленные". Даёт "Internal Server error". Починить бы.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
truf
Активист
***
Вне Форума



Сообщений: 215
Re: Замеченные баги
Ответ #62 - 18.04.2019 :: 10:17:50
 
А нет ли на сайте проблемы с русскими именами файлов в zip архивах?
Лично у меня вот это: http://publ.lib.ru/ARCHIVES/L/''Lekcii_obschestv_''/''LORPNZ.VORPNZ''._Egolin_A.M._A.S.Pushkin_-_velikiy_poet_russkogo_naroda.(1949).[djv-fax].zip
Содержит файлы с именами в такой кодировке, что пришлось долго подбирать архиватор для распаковки.
Имена файлов кодированы в zip, возможно zip создавался прямо на сервере, где сбита кодировка, средствами CMS.
Или у меня что-то глючит. Другого архива с русским в именах содержимого для эксперимента не нашел.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3824
Екатеринбург
Пол: male
Re: Замеченные баги
Ответ #63 - 18.04.2019 :: 10:56:12
 
truf
посмотрел сейчас вот эти на мобильном диске:
Sterman_L.S..._Teplovye_i_atomnye_elektrostancii.(1982).[djv-fax].zip
Yurkevich_G.P._Sistemy_upravleniya_energeticheskimi_reaktorami.(2001).[djv-fax].zip
Sovremennaya_teoriya_fil'trov_i_ih_proektirovanie.(1977).[djv-fax].zip
Shul'c_Dj.V._Moya_jizn'_sredi_indeycev.(1965).[djv-fax].zip
Ruhadze_A.A._Sobytiya_i_lyudi.(2016).[djv].zip
Проблем вроде нет, тоталкоммандер и rar внутри русские буквы видят, файлы извлекаются корректно.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
truf
Активист
***
Вне Форума



Сообщений: 215
Re: Замеченные баги
Ответ #64 - 18.04.2019 :: 11:51:50
 
@
AAW

В общем, вскрытие показало, что в этих архивах для хранения имен файлов используется кодировка CP866 (DOS), а по идее (по стандарту) должен быть UTF-8. Я своим сжал - у меня имена кодирует в UTF-8.
Но у меня linux, и для линукса это, оказывается, старая известная проблема с архивами, поступающими с Windows систем: https://mirror.lorwiki.org.ru/wiki/%D0%9A%D0%BE%D0%B4%D0%B8%D1%80%D0%BE%D0%B2%D0...

Я поставил виндовый winrar через wine - он тоже показывает крокозябры. Если вы смотрите на той же машине,на которой архивы создавались, то я бы рекомендовал потестировать на другой windows машине или не из total commander, может быть проблема имеет место быть не только на линуксах, но и на других windows системах. Потому что CP866, как я понимаю, уже редкость. И Windows, если не из терминала смотреть, должен ожидать там либо Unicode либо CP1251.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3824
Екатеринбург
Пол: male
Re: Замеченные баги
Ответ #65 - 18.04.2019 :: 12:51:22
 
truf
я указал те имена, которые явно сдёргивал с библиотеки. Их можно там найти. Вам же не хватало примеров для дальнейшей проверки.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
truf
Активист
***
Вне Форума



Сообщений: 215
Re: Замеченные баги
Ответ #66 - 18.04.2019 :: 12:57:16
 
@
AAW

Я проверил первые 2 из писка, прежде чем ответить. Там был CP866 и у меня они отображали имена крокозябрами.
Если не вы занимаетесь архивированием, то ок. Мое дело сообщить.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 887
Россия
Пол: male
Re: Замеченные баги
Ответ #67 - 18.04.2019 :: 18:53:03
 
truf писал(а) 18.04.2019 :: 10:17:50:
А нет ли на сайте проблемы с русскими именами файлов в zip архивах?
Лично у меня вот это: http://publ.lib.ru/ARCHIVES/L/''Lekcii_obschestv_''/''LORPNZ.VORPNZ''._Egolin_A.M._A.S.Pushkin_-_velikiy_poet_russkogo_naroda.(1949).[djv-fax].zip
Содержит файлы с именами в такой кодировке, что пришлось долго подбирать архиватор для распаковки.
Имена файлов кодированы в zip, возможно zip создавался прямо на сервере, где сбита кодировка, средствами CMS.
Или у меня что-то глючит. Другого архива с русским в именах содержимого для эксперимента не нашел.

Да, есть такое. Я раньше на это не обращал внимания, хотя сомнения относительно русских имен файлов были. Теперь вижу, что допустил промашку. Надо как-то исправлять...
Для Виндовых систем кодировка имен файлов в архивах по барабану. Они все читают. Но на Виндовс свет клином не сошелся. Надо чтобы и другие ОС читали архивы легко.
Нужна какая-нибудь программа, которая бы слету перепаковала все архивы библиотеки в нужном формате имен файлов.
Я для упаковки использую ТоталлКоммандер и его внутренний упаковщик. Сейчас я его настроил так, чтобы он правильно упаковывал файлы с названиями кириллицей, в UTF-8. Но как им сделать групповую перепаковку множества файлов пока не знаю. Может кто подскажет?
Наверх
 
WWW  
IP записан
 
truf
Активист
***
Вне Форума



Сообщений: 215
Re: Замеченные баги
Ответ #68 - 18.04.2019 :: 20:46:29
 
@
Вадим

Групповую может и не нужно. Я могу, скорее всего, написать программу, автоматически определяющую кодировку имен файлов в zip архивах и сохраняющую список тех, что имеют не UTF-8.
Возможно, доработав, чтобы перепаковать такие архивы сразу же. Напишу на Qt, будет exe'шник с простым gui.

Но чем точно не хочется заниматься, так это парсить сайт и качать эти zip файлы. Так что ее нужно будет запустить локально и натравить на нужную папку с архивами.
И лучше наверное это делать на локальной копии файлов, расположенных на сервере, а потом по логам перезалить измененные. А не непосредственно на сервере.  На сервере скорее всего линукс сконфигурированный с ограничением на запуск сторонней фигни, и с этим бороться не хочется.

Если интересно - пинганите меня в ЛС.
Наверх
 
 
IP записан
 
truf
Активист
***
Вне Форума



Сообщений: 215
Re: Замеченные баги
Ответ #69 - 19.04.2019 :: 20:59:36
 
@
Вадим

Поковырялся сегодня - чем дальше в лес, тем толще партизаны. Предлагаю zip файлы пока не трогать, т.к. проблема по всей видимости на моей стороне.
Да, в zip'e имена файлов в CP866, но начав писать программу и запросив данные по zip'у через библиотеку libzip, я, внезапно, получил имена файлов в UTF-8.
Оказалось, что по спецификации zip, начиная с какой-то версии формата (~2007 года), он может дополнительно к Native имени файла хранить и его UTF-8 версию. Для этого добавляется специальный "Info-ZIP Unicode Path Extra Field" (п. 4.6.9) https://pkware.cachefly.net/webdocs/casestudies/APPNOTE.TXT
Если имя и так в UTF-8 - то оно не добавляется.
Так вот в zip'е, на котором я тренировался, это дополнительное поле присутствует и libzip просто отдает его вместо оригинального CP866.

Я с удивлением снова полез в свой архиватор, который тоже написан с использованием libzip - и опа, там все показывается верно. Итого, либо за ночь поменялись zip архивы (я перекачивал файлы заново) - но это вряд ли. Либо был баг в моей системе - а как раз вчера я обновился с Kubuntu 18.10 до Kubuntu 19.04, потому и zip'ы перекачивал. Вчера новая версия Kubuntu вышла. Либо это эффект от замены системного libzip'а, на свежескачанный и собранный мною из исходников, что я сделал в процессе отладки.

В любом случае, необходимость перепаковывать архивы под большим вопросом. Я еще поразбираюсь, если косяк с отображением не пропал напрочь и удастся найти концы.
Наверх
 
 
IP записан
 
truf
Активист
***
Вне Форума



Сообщений: 215
Re: Замеченные баги
Ответ #70 - 19.04.2019 :: 23:43:28
 
UPD: Ага, вот на этом http://publ.lib.ru/ARCHIVES/R/RUHADZE_Anri_Amvros%27evich/Ruhadze_A.A._Sobytiya_...
проблема воспроизводится. "Info-ZIP Unicode Path Extra Field" в нем нет, значит первый файл все таки за ночь обновили. Тогда есть смысл копать дольше. Я продолжаю.
Наверх
 
 
IP записан
 
Страниц: 1 2 3 
Послать Тему Печать