СОСО - Нужен ли новый формат сохранения страниц?
|
BIV 06/02/04 11:17 AM |
|
С момента выхода первой версии программки "СОСО" прошло около 3-х месяцев. За это время мне написали достаточное число писем, что бы выявить 2 главные ошибки в работе программы: 1. Не отлаженный механизм перехвата диалога. 2. Проблемы по работе с утилитой "htm2chm".
Первая ошибка относительно легко исправляется, что я и сделаю в следующей версии. А вот со второй есть проблема. Т.к. "htm2chm" это отдельная программа, то взаимодействие с ней очень ограниченно фактически только запуск с параметрами и проверка на завершение работы(кстати, не стабильно работает). Т.е. отсутствие контроля - первая причина нестабильности. Решить её можно двумя путями.
Первый путь: Купить у автора "htm2chm" его собственный класс и скомпилировать страницу, но "СОСО" распространяется бесплатно и поддерживается на чистом энтузиазме, поэтому вариант с покупкой отпадает.
Второй путь: Проанализировав возможности формата CHM и прочитав письма, я пришел к вопросу, который хочу задать всем поклонникам Оперы: "А нужен ли именно CHM формат, может быть придумать новый ?"
Предлагаю следующее: Новый формат - по сути обычный ZIP-архив с дополнительным информационным файлом внутри и другим расширением.
Алгоритм работы: Порядок упаковки тот же, что и в случае с CHM, только выполнять его будет сама СОСО. А вот для просмотра потребуется программка, которая просто-напросто распакует файлы во временную папку и запустит браузер.
Сравним возможности CHM и гипотетического формата.
CHM: + Для просмотра не требуется спец. утилит т.к. они уже присутствуют в Windows. + Поддержка сжатия. - Опера "не понимает" данный формат, т.е. мы добиваемся сохранения страниц из Оперы, а просмотреть их в любимом браузере не можем. - Сложно найти бесплатные библиотеки для компиляции. +/- Создан фирмой "MicroSoft". +/- Сомнительна возможность просмотра файлов в альтернативных ОС, например, в Linux-e. Новый формат: + Поддержка нескольких уровней сжатия. + Опера и любой другой браузер смогут "просматривать" файлы этого формата. + Для распаковки (в случае отсутствия оригинальной утилиты) можно воспользоваться обычным архиватором, понимающим ZIP-архивы. + Найти бесплатные библиотеки для сжатия не составляет большого труда. + Распаковать будет возможно в любой ОС поддерживающей ZIP, т.е. почти в любой. - Для удобного просмотра (аналогично CHM) требуется оригинальная утилита и её регистрация в системе (т.е. связывание с конкретным расширением). - Т.к. файлы распаковываются во временный каталог, то в браузере в адресной строке будет прописан не путь к файлу нашего формата, а к страничке, которая лежит во временной папке.
Можно конечно сделать вывод по количеству плюсов, но мне не хотелось бы быть субъективным, поэтому пишите свои мнения и пожелания, свои за и против.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
chrom 06/02/04 01:36 PM |
|
А я вот думаю, может прочитав топик _//forum.myopera.net/showflat.php?Cat=&Number=11204&page=0&view=collapsed&sb=5&o=&fpart=1_ о Сохранении Web страниц в Опере, выйти на форум ребят, _//www.attack.ru/forums/index.php?showtopic=63&st=45_ , той проги и скооперироваться и вместе создать шедевр.У них определенные трудности, думаю что совместная работа будет продуктивнее и эффективнее. А Опера станет еще эффективнее и работа более удобной. А в перспективе выход на мировой уровень.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
BIV 06/02/04 04:20 PM |
|
Erworld Mht Processor (http://erworld.narod.ru/pro.exe) сохраняет в своём формате отображаемую в Опере страницу, но для этого он скачивает из Интернета эту же страницу повторно(т.е. трафик удваивается:один раз Оперой, второй - EMP), используя стандартный класс IE(т.е. почти все дырки "Ослика" остаются активными). При этом формат не позволяет использовать сжатие, так как является языком разметки. Его единственное достоинство "Всё в одном".
А с разработчиками я в любом случае пообщаюсь. Если они используют стандартный класс "Ослика", то связывать с Оперой не имеет смысла.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
chrom 06/02/04 04:39 PM |
|
Так в том то и дело, что сейчас они пишут новую версию, в которой по моему совету все должны сделать как положено, т.е сохранять должно с кэша. В том то и трудность. И формат какой то у них, плотнее чем обычные, и быстрее открывается. Еще бы Опера смогла его открывать, может какой плагин для этой проги написать,было бы классно. Поэтотму я и прошу, может можно будет им помочь. Такой проги пока не существует и Вы были бы первыми.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
BIV 06/02/04 05:38 PM |
|
А если кеш выключен? Например, у меня в мобильной версии Оперы так и сделано, а сохранять всё равно хотелось бы.
Ваше желание я понял и полностью поддерживаю, просто размышляю и пытаюсь найти узкие места программы и формата.
Плагин для отображения теоретически сделать можно (на досуге начал разбираться).
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
chrom 06/03/04 08:01 AM |
|
Я рад, что Вы столь конструктивно подошли к вопросу. Осталось состыковаться через форум с разработчиками.:))
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
kRuSHa 06/09/04 11:38 AM |
|
mht, кстати, тоже в линухе без осла вряд ли пойдёт.
а нафига осёл в линухе?
и новый формат тоже без плагина не заканает. а с плагином нормально бы было.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
fov 06/12/04 02:51 AM |
|
С зипом идея хорошая. Все-таки сцепка из двух независимых программ - дело темное. Кстати, а почему именно зип? Нет ли открытых алгоритмов, более компактно жмущих текст/html? Так сказать, в порядке бреда...
Короче, я обеими руками за второй вариант.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
kRuSHa 06/14/04 10:13 AM |
|
а зип разве не открытый?
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
steap 06/14/04 04:48 PM |
|
имхо, лучше всего сделать плагин для Оперы. Для сжатия наверное нужно использовать rar. 2BIV: А ты на чем пишешь? Может я смогу помочь?
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
steap 06/14/04 04:50 PM |
|
Забыл ещё сказать, что самое главное, чтобы всё открывалось как под Виндой, так и в Линуксе...
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
BIV 06/15/04 01:13 PM |
|
RAR-формат не подходит, т.к. для сжатия требуется лицензия, которая стоит денег. А в Линуксе файл нового формата в любом случа откроется, т.к. он не подразумевает изменения самого формата ZIP, он просто является надстройкой.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
netman 06/15/04 02:38 PM |
|
Имхо, самое оптимальное решение, это делать новый стандарт, на основе "архива", RAR стоит денег, а зип? Ведь кроме зипа и рара, существует ешё множество форматов архива.
P.S. А можно сделать так, чтобы скажем в вашей програме был исполняемый файл, к нему можно было обратится через command line? Тем самый, можно будет встроить в меню оперы, и ещё, например чтобы этот исполняемый файл, брал настройки из ini файла, если они потребуются.
А то, постоянно висящая программа в трее, только для сохранений в опере, это не очень удобно, да и не очень рационально.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
BIV 06/15/04 03:42 PM |
|
Насколько мне известно, zip открытый формат и нисколько не стоит. А вообще вопрос не принципиальный, просто zip наиболее распространён и открыть его без труда может практически любая ОС(не без помощи конечно популярных программ).
Проблема выбора формата в принципе упирается в возможности реализовать его в своей программе, т.е. в существовании библиотеки (в виде dll, lib или source), которая позволяет использовать тот или иной формат.
Если кто-нибудь найдёт библиотеку для популярного, быстрого и качественного формата написанную желательно на С++(это в случае source), то отсылайте мне на ящик _mailto:batata@mail.ru_.
Полностью согласен с Netman`ом (см. P.S.), именно так и будет в новой версии.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
steap 06/15/04 06:06 PM |
|
Посмотри (может что найдешь): _//www.codenet.ru/progr/formt/_ _//sources.codenet.ru/index.php?cid=20&o=0&my=0_ _//www.codenet.ru/progr/packing/_
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
aga 06/15/04 08:02 PM |
|
а разьве опера может открывать mht? есть только программка для сохранения страниц из оперы в этот формат. получается та же история, что и с chm - невозможность открыть в любимом браузере.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
AlexxO 06/16/04 12:20 PM |
|
А разобрались уже как из dcache4.url достать имена файлов, где хранятся элементы кэша?
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
Stinger 06/16/04 05:18 PM |
|
Пока Opera Software не создали(или не ипользовали существующий) формат сохранения страниц в единственный файл, вариант сохранения в ZIP-архивированный файл самый лучший. Тем более zip понимают все современные операционные системы, а в некоторые из них он даже встроен по умолчанию.
А реально ли написать плагин на Оперу, чтобы та понимала и открывала файлы этого формата?
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
kRuSHa 06/17/04 06:29 AM |
|
да, зиповать было бы неплохо.
думаю, плагин написать мона. хотя сам не умею ;-))
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
Kildor 07/09/04 06:42 PM |
|
Эх, есть такой классный формат 7z, который тоже бесплатен, опен сорс, а по сжатию часто обгоняет рар... но его не все понимают к сожалению..
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
fov 07/10/04 04:17 AM |
|
А очень ли необходимо сжатие? Я вот тут покумекал и выходит следующее.
1. Если я сохраняю с помощью СОСО - значит сохраняю файл с джипегами. В противном случае можно воспользоваться обычным сохраненеием.
2. В документе хтмл + джипеги 90 процентов веса приходится на картинки, которые не сжимаются.
3. То есть, применяя сжатие, мы выигрываем в лучшем случае около 10 - 15 процентов дискового пространства, что несерьезно.
4. И теряем такую важную и необходимую вещь как поиск по тексту среди сохраненных документов.
Чесс слово, я бы отключил любое сжатие, и предпочел бы, чтобы все хранилось в прямом виде. А вы как считаете?
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
drronnie 07/10/04 07:45 PM |
|
Господин BIV, в первую очередь обращаюсь к Вам, но не только... Я сам тоже занимался этой проблемой... у меня сжималось в CHM при помощи HTML Help Workshop (хотя это не столь важно), а программа не резидентно сидела а запускалась из панели инструментов, получая через командную строку адрес файла странички... Но проблема немножко серьёзнее - с картинками... а после некоторых исследований я выяснил в чём геморрой... Значит так: Когда мы сохраняем страничку, которую открыли с диска - всё ОК, все ссылки на каринки есть... а вот когда мы пытаемся сохранить страничку только что загруженную из Интернета - возникает следующая проблема: страничка живёт в кеше, а в её коде ссылки на картинки выглядят как "http://www.kakoj-to_sajt.ru/kartiniki/kartinka_2.jpg", поэтому мы не знаем где её взять и остаётся только загрузить из Инета (что недопустимо при заданных условиях)... И ещё, когда Оперой сохраняем страничку с картинками бывает (и часто) что сохраняются не все картинки, а ещё им присваиваются дурацкие имена... (с кучей 0 и 1)
Теперь по поводу нового формата... Вы меня простите господа, но у него я вижу только один плюс, в сжатии. Всё! В остальном и CHM и планирующийся новый формат уступают страничке, которая созранена в обычном HTML... Только не в том дурацком виде (все файлы в одной папке) как сохраняет любимая Опера, а в том например, как сохраняет Mozilla или IE.
Теперь по поводу того, что сказал fov "С зипом идея хорошая. Все-таки сцепка из двух независимых программ - дело темное. Кстати, а почему именно зип? Нет ли открытых алгоритмов, более компактно жмущих текст/html? Так сказать, в порядке бреда...
Короче, я обеими руками за второй вариант."
Лучше всего жал (и жмёт) HA... был такой архиватор в светлые времена ДОСа, который лучше всего сжимает текст. Однако заметьте: во-первых ZIP самый распространённый (а универсальность наверно стоит на первом месте), во-вторых нам прийдётся сжимать кроме текста ещё и картинки, в-третьих по ZIP'у больше всего инфы и т.п. Так что если уж и новый формат - то жать в ЗИП! Я настаиваю!!!
По-моему вообще было бы лучше всего сделать программу, которая сохраняет из Оперы так же как IE
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
Mongoose 07/11/04 03:24 PM |
|
В ответ на: Лучше всего жал (и жмёт) HA
Жал. Сейчас лучше жмёт RAR. Даже фидошная BOOK перешла с HA на RAR.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
creatop 07/12/04 07:05 AM |
|
Господа, не забывайте про TGZ. Уж ZIP то он точно в разы делает при сжатии текстов/картинокк. К тому же куча ebook-ов по сети ходит именно так заархивенных..
И еще совет - поройтесь на sourceforge.net - там дофига открытих проектов, в том числе и для работы с архивами..
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
drronnie 07/12/04 10:39 AM |
|
Ну это не столь важно... господин fov говорит, что мол 90% - картинки, которые (увы) не жмуться... стоит ли сжимать? Плюс к этому - отсутствие поиска по тексту... отсюда следует, что от сжатия больше минусов нежели плюсов... По моему основная проблема состоит в том, чтоб привести документ в такой вид, как сохраняет IE или Mozilla (тобто "файл+папка с остальными файлами") А если уж и нужно сжимать - то это не проблема, потом можно приделать такую фичу... согласны все? Господин BIV?
2Mongoose: Помнится как то по мылу я спрашивал на счёт такой фичи, как "повесить два действия на одну кнопку в тулбаре"... Вот типа того проблема и становится... сохраняем оперой, а потом обрабатываем полученный файл...
Я вот именно сейчас работаю над этим преобразованием... Только из-за моих поверхностных знаний в синтаксисе HTML не всё так просто получается ... но кое что получается !!!
P.S. "... не всё так просто получается ... но кое что получается !!!" - похоже на слова песни из одного хорошего мультика "... Я безпороден - это минус, но благороден это плюс!!!!!"
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
drronnie 07/13/04 10:37 PM |
|
Господа, попробуйте и оцените.... (прикреплённый файл)
Там в readme всё написано
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
m1kky 07/14/04 01:47 PM |
|
БЛИН! БЛИН! БЛИН! Зачем вы велосипед придумываете??? Нельзя ли лучше пытаться привести сохранённую страницу к виду IE, т.е.
<сохранённый_файл>.html [ПАПКА<сохранённый_файл>.files]
равзе так не проще??... надо всего-лишь все ссылки на странице перевести на эту папку и всё...
Оффлайн эксплореры как вообще локализую ссылки? также почти..
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
drronnie 07/14/04 02:30 PM |
|
В ответ на: БЛИН! БЛИН! БЛИН! Зачем вы велосипед придумываете??? Нельзя ли лучше пытаться привести сохранённую страницу к виду IE, т.е.
<сохранённый_файл>.html [ПАПКА<сохранённый_файл>.files]
равзе так не проще??... надо всего-лишь все ссылки на странице перевести на эту папку и всё...
попробуй прикреплённый файл к моему сообщению перед вашим!
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
sgerasch 07/15/04 07:34 AM |
|
Я конечно дико извиняюсь,но... Существует такая программа: Local Website Archive
Local Website Archive offers a fast and easy way to store websites from your browser or other online tools permanently for future reference.
Information on the web often vanishes quickly, sometimes before you even have a chance to make use of it. Let Local Website Archive store the information you're interes В кратце- Сохраняет html странички, может делать архивы страниц, встраивается в Оперу: Item, "Сохранить в АРХИВ" = Execute program,"C:\Program Files\Local Website Archive\wsarc_add.exe" Item, "Открыть АРХИВ" = Execute program,"C:\Program Files\Local Website Archive\wsarc.exe"
Проблемма только в регистрации, без регистрации сохраняет только 100 страниц. Кроме Оперы, поддерживает кучу браузеров. Экспортирует как ZIP и EXE. И еще куча полезностей.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
steap 07/15/04 06:52 PM |
|
Нашел в Линуксе интересный формат для сжатия - "bz2". Сейчас тестирую. Сжал html + графика - всего 941 файл (3,7 мб (3 840 867 б)). Из всех файлов: html, htm, php - 182 файла, графика - 350 файлов и остальные - текстовые файлы. При сжатии zip'ом получилось 1,9 мб (2 022 318 б). При сжатии с помощью gz - 1,6 мб (1 716 563 б). bz2 - 1,5 мб (1 601 913 б). А, чуть не забыл... rar - 1,8 мб (1 915 818 б). Вот!
В справке про bz2 пишут: "bzip2 compresses files using the Burrows-Wheeler block sorting text compression algorithm, and Huffman coding. Compression is generally considerably better than that achieved by more conventional LZ77/LZ78-based compressors, and approaches the performance of the PPM family of statistical compressors."
gz: "Gzip reduces the size of the named files using Lempel-Ziv coding (LZ77). Whenever possible, each file is replaced by one with the extension .gz, while keeping the same ownership modes, access and modi- fication times. (The default extension is -gz for VMS, z for MSDOS, OS/2 FAT, Windows NT FAT and Atari.) If no files are specified, or if a file name is "-", the standard input is compressed to the standard output. Gzip will only attempt to compress regular files. In particu- lar, it will ignore symbolic links."
P.S. Судя по тому, что bzip входит в состав Linux Fedora Core 2, он является бесплатным. Вот его сайт: _//sources.redhat.com/bzip2_
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
Ilya 07/16/04 12:23 PM |
|
А вот ещё ссылки по теме: 1. Bzip2 for Windows - _//gnuwin32.sourceforge.net/packages/bzip2.htm_ 2. Bzip2 Howto - _//fetter.org/Bzip2-HOWTO/Bzip2-HOWTO.html_
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
BIV 07/16/04 07:09 PM |
|
Спасибо за ссылку, я действительно впервые узнал об этой программе. Теперь есть на кого равняться
Прога хороша, но она использует для закачки опять же компоненту IE. Т.о. мы пользуемся нашим конкурентом (по отношению к Опере), который дыряв и к тому же скачивает страницы ещё раз из сети, что удваивает затраченный трафик. Да и просит за это 144 убиенных енота.
Хотя это тоже решение.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
Ilya 07/17/04 03:51 AM |
|
Не понял, какая программа требует IE и стоит 144 енота? bzip2 совершенно бесплатна и мультисистемна.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
drronnie 07/17/04 01:01 PM |
|
Уважаемый, я если правильно понял bzip - это архиватор... А WLA - это именно прога, которая интегриться в Оперу и др., и рульно сэйвит паги, но закачивает их по своему через осликовский движок....
Правильно, да?
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
BIV 07/18/04 08:20 AM |
|
>drronnie: правильно.
>Ilya: я отвечал sgerasch`у. А за информацию про bzip спасибо, я рассмотрю этот вариант.
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
drronnie 07/18/04 05:16 PM |
|
Хе, 90%... А попробуй с этого ж форума страничку с факом сохранить.... там одна страничка мегабайт весит...
|
Re: СОСО - Нужен ли новый формат сохранения страниц?
|
fov 08/17/04 02:28 AM |
|
4 drronnie Ну да, согласен, случаи - они разные бывают Впрочем, поиск по тексту - ценность "вечная", а мегабайты дешевеют на глазах. Ну его на фиг, это сжатие. Слишком часто возникает ситуевина, когда название файла не помнишь, а по содержанию запросто находишь. Я бы, если бы владел искусством программирования сделал бы так - все файлы, составляющие страничку склеиваются в один, а при просмотре восстанавливаются. Как-то так в почте файлы приложенные пересылаются, если я не глючу. Кстати, если просто положить файлики в "zip без сжатия" - все прекрасно ищется. А далее - можно предоставить пользователю настройку степени сжатия от нулевой (если нужен поиск) до максимальной (если нужна компактность).
|