myoperam СОСО - Нужен ли новый формат сохранения страниц?
ВНИМАНИЕ! ОСТЕРЕГАЙТЕСЬ МОШЕННИКОВ!
Помните, что все браузеры Opera АБСОЛЮТНО БЕСПЛАТНЫ.
Загружайте новые версии ТОЛЬКО С ОФИЦИАЛЬНОГО САЙТА или с ресурсов, которым ДОВЕРЯЕТЕ!


Предыдущее | Следующее | Архив форума | operaman.ru | Поиск
СОСО - Нужен ли новый формат сохранения страниц? BIV  06/02/04 11:17 AM


С момента выхода первой версии программки "СОСО" прошло около 3-х месяцев. За это время мне написали достаточное число писем, что бы выявить 2 главные ошибки в работе программы:
1. Не отлаженный механизм перехвата диалога.
2. Проблемы по работе с утилитой "htm2chm".

Первая ошибка относительно легко исправляется, что я и сделаю в следующей версии. А вот со второй есть проблема. Т.к. "htm2chm" это отдельная программа, то взаимодействие с ней очень ограниченно фактически только запуск с параметрами и проверка на завершение работы(кстати, не стабильно работает). Т.е. отсутствие контроля - первая причина нестабильности. Решить её можно двумя путями.

Первый путь:
Купить у автора "htm2chm" его собственный класс и скомпилировать страницу, но "СОСО" распространяется бесплатно и поддерживается на чистом энтузиазме, поэтому вариант с покупкой отпадает.

Второй путь:
Проанализировав возможности формата CHM и прочитав письма, я пришел к вопросу, который хочу задать всем поклонникам Оперы: "А нужен ли именно CHM формат, может быть придумать новый ?"

Предлагаю следующее:
Новый формат - по сути обычный ZIP-архив с дополнительным информационным файлом внутри и другим расширением.

Алгоритм работы:
Порядок упаковки тот же, что и в случае с CHM, только выполнять его будет сама СОСО. А вот для просмотра потребуется программка, которая просто-напросто распакует файлы во временную папку и запустит браузер.

Сравним возможности CHM и гипотетического формата.

CHM:
+ Для просмотра не требуется спец. утилит т.к. они уже присутствуют в Windows.
+ Поддержка сжатия.
- Опера "не понимает" данный формат, т.е. мы добиваемся сохранения страниц из Оперы, а просмотреть их в любимом браузере не можем.
- Сложно найти бесплатные библиотеки для компиляции.
+/- Создан фирмой "MicroSoft".
+/- Сомнительна возможность просмотра файлов в альтернативных ОС, например, в Linux-e.

Новый формат:
+ Поддержка нескольких уровней сжатия.
+ Опера и любой другой браузер смогут "просматривать" файлы этого формата.
+ Для распаковки (в случае отсутствия оригинальной утилиты) можно воспользоваться обычным архиватором, понимающим ZIP-архивы.
+ Найти бесплатные библиотеки для сжатия не составляет большого труда.
+ Распаковать будет возможно в любой ОС поддерживающей ZIP, т.е. почти в любой.
- Для удобного просмотра (аналогично CHM) требуется оригинальная утилита и её регистрация в системе (т.е. связывание с конкретным расширением).
- Т.к. файлы распаковываются во временный каталог, то в браузере в адресной строке будет прописан не путь к файлу нашего формата, а к страничке, которая лежит во временной папке.

Можно конечно сделать вывод по количеству плюсов, но мне не хотелось бы быть субъективным, поэтому пишите свои мнения и пожелания, свои за и против.


Re: СОСО - Нужен ли новый формат сохранения страниц? chrom  06/02/04 01:36 PM

А я вот думаю, может прочитав топик _//forum.myopera.net/showflat.php?Cat=&Number=11204&page=0&view=collapsed&sb=5&o=&fpart=1_ о Сохранении Web страниц в Опере, выйти на форум ребят, _//www.attack.ru/forums/index.php?showtopic=63&st=45_ , той проги и скооперироваться и вместе создать шедевр.У них определенные трудности, думаю что совместная работа будет продуктивнее и эффективнее.
А Опера станет еще эффективнее и работа более удобной. А в перспективе выход на мировой уровень.

Re: СОСО - Нужен ли новый формат сохранения страниц? BIV  06/02/04 04:20 PM

Erworld Mht Processor (http://erworld.narod.ru/pro.exe) сохраняет в своём формате отображаемую в Опере страницу, но для этого он скачивает из Интернета эту же страницу повторно(т.е. трафик удваивается:один раз Оперой, второй - EMP), используя стандартный класс IE(т.е. почти все дырки "Ослика" остаются активными). При этом формат не позволяет использовать сжатие, так как является языком разметки. Его единственное достоинство "Всё в одном".

А с разработчиками я в любом случае пообщаюсь. Если они используют стандартный класс "Ослика", то связывать с Оперой не имеет смысла.

Re: СОСО - Нужен ли новый формат сохранения страниц? chrom  06/02/04 04:39 PM

Так в том то и дело, что сейчас они пишут новую версию, в которой по моему совету все должны сделать как положено, т.е сохранять должно с кэша. В том то и трудность. И формат какой то у них, плотнее чем обычные, и быстрее открывается. Еще бы Опера смогла его открывать, может какой плагин для этой проги написать,было бы классно. Поэтотму я и прошу, может можно будет им помочь. Такой проги пока не существует и Вы были бы первыми.

Re: СОСО - Нужен ли новый формат сохранения страниц? BIV  06/02/04 05:38 PM

А если кеш выключен? Например, у меня в мобильной версии Оперы так и сделано, а сохранять всё равно хотелось бы.

Ваше желание я понял и полностью поддерживаю, просто размышляю и пытаюсь найти узкие места программы и формата.

Плагин для отображения теоретически сделать можно (на досуге начал разбираться).

Re: СОСО - Нужен ли новый формат сохранения страниц? chrom  06/03/04 08:01 AM

Я рад, что Вы столь конструктивно подошли к вопросу. Осталось состыковаться через форум с разработчиками.:))

Re: СОСО - Нужен ли новый формат сохранения страниц? kRuSHa  06/09/04 11:38 AM

mht, кстати, тоже в линухе без осла вряд ли пойдёт.

а нафига осёл в линухе?

и новый формат тоже без плагина не заканает. а с плагином нормально бы было.

Re: СОСО - Нужен ли новый формат сохранения страниц? fov  06/12/04 02:51 AM

С зипом идея хорошая. Все-таки сцепка из двух независимых программ - дело темное. Кстати, а почему именно зип? Нет ли открытых алгоритмов, более компактно жмущих текст/html? Так сказать, в порядке бреда...

Короче, я обеими руками за второй вариант.



Re: СОСО - Нужен ли новый формат сохранения страниц? kRuSHa  06/14/04 10:13 AM

а зип разве не открытый?

Re: СОСО - Нужен ли новый формат сохранения страниц? steap  06/14/04 04:48 PM

имхо, лучше всего сделать плагин для Оперы. Для сжатия наверное нужно использовать rar.
2BIV: А ты на чем пишешь? Может я смогу помочь?

Re: СОСО - Нужен ли новый формат сохранения страниц? steap  06/14/04 04:50 PM

Забыл ещё сказать, что самое главное, чтобы всё открывалось как под Виндой, так и в Линуксе...

Re: СОСО - Нужен ли новый формат сохранения страниц? BIV  06/15/04 01:13 PM

RAR-формат не подходит, т.к. для сжатия требуется лицензия, которая стоит денег.
А в Линуксе файл нового формата в любом случа откроется, т.к. он не подразумевает изменения самого формата ZIP, он просто является надстройкой.

Re: СОСО - Нужен ли новый формат сохранения страниц? netman  06/15/04 02:38 PM

Имхо, самое оптимальное решение, это делать новый стандарт, на основе "архива", RAR стоит денег, а зип? Ведь кроме зипа и рара, существует ешё множество форматов архива.


P.S. А можно сделать так, чтобы скажем в вашей програме был исполняемый файл, к нему можно было обратится через command line? Тем самый, можно будет встроить в меню оперы, и ещё, например чтобы этот исполняемый файл, брал настройки из ini файла, если они потребуются.
А то, постоянно висящая программа в трее, только для сохранений в опере, это не очень удобно, да и не очень рационально.

Re: СОСО - Нужен ли новый формат сохранения страниц? BIV  06/15/04 03:42 PM

Насколько мне известно, zip открытый формат и нисколько не стоит.
А вообще вопрос не принципиальный, просто zip наиболее распространён и открыть его без труда может практически любая ОС(не без помощи конечно популярных программ).

Проблема выбора формата в принципе упирается в возможности реализовать его в своей программе, т.е. в существовании библиотеки (в виде dll, lib или source), которая позволяет использовать тот или иной формат.

Если кто-нибудь найдёт библиотеку для популярного, быстрого и качественного формата написанную желательно на С++(это в случае source), то отсылайте мне на ящик _mailto:batata@mail.ru_.

Полностью согласен с Netman`ом (см. P.S.), именно так и будет в новой версии.


Re: СОСО - Нужен ли новый формат сохранения страниц? steap  06/15/04 06:06 PM

Посмотри (может что найдешь):
_//www.codenet.ru/progr/formt/_
_//sources.codenet.ru/index.php?cid=20&o=0&my=0_
_//www.codenet.ru/progr/packing/_

Re: СОСО - Нужен ли новый формат сохранения страниц? aga  06/15/04 08:02 PM

а разьве опера может открывать mht? есть только программка для сохранения страниц из оперы в этот формат. получается та же история, что и с chm - невозможность открыть в любимом браузере.

Re: СОСО - Нужен ли новый формат сохранения страниц? AlexxO  06/16/04 12:20 PM

А разобрались уже как из dcache4.url достать имена файлов, где хранятся элементы кэша?

Re: СОСО - Нужен ли новый формат сохранения страниц? Stinger  06/16/04 05:18 PM

Пока Opera Software не создали(или не ипользовали существующий) формат сохранения страниц в единственный файл, вариант сохранения в ZIP-архивированный файл самый лучший. Тем более zip понимают все современные операционные системы, а в некоторые из них он даже встроен по умолчанию.

А реально ли написать плагин на Оперу, чтобы та понимала и открывала файлы этого формата?

Re: СОСО - Нужен ли новый формат сохранения страниц? kRuSHa  06/17/04 06:29 AM

да, зиповать было бы неплохо.

думаю, плагин написать мона. хотя сам не умею ;-))

Re: СОСО - Нужен ли новый формат сохранения страниц? Kildor  07/09/04 06:42 PM

Эх, есть такой классный формат 7z, который тоже бесплатен, опен сорс, а по сжатию часто обгоняет рар...
но его не все понимают к сожалению..



Re: СОСО - Нужен ли новый формат сохранения страниц? fov  07/10/04 04:17 AM

А очень ли необходимо сжатие? Я вот тут покумекал и выходит следующее.

1. Если я сохраняю с помощью СОСО - значит сохраняю файл с джипегами. В противном случае можно воспользоваться обычным сохраненеием.

2. В документе хтмл + джипеги 90 процентов веса приходится на картинки, которые не сжимаются.

3. То есть, применяя сжатие, мы выигрываем в лучшем случае около 10 - 15 процентов дискового пространства, что несерьезно.

4. И теряем такую важную и необходимую вещь как поиск по тексту среди сохраненных документов.

Чесс слово, я бы отключил любое сжатие, и предпочел бы, чтобы все хранилось в прямом виде. А вы как считаете?

Re: СОСО - Нужен ли новый формат сохранения страниц? drronnie  07/10/04 07:45 PM

Господин BIV, в первую очередь обращаюсь к Вам, но не только...
Я сам тоже занимался этой проблемой... у меня сжималось в CHM при помощи HTML Help Workshop (хотя это не столь важно), а программа не резидентно сидела а запускалась из панели инструментов, получая через командную строку адрес файла странички... Но проблема немножко серьёзнее - с картинками... а после некоторых исследований я выяснил в чём геморрой...
Значит так: Когда мы сохраняем страничку, которую открыли с диска - всё ОК, все ссылки на каринки есть... а вот когда мы пытаемся сохранить страничку только что загруженную из Интернета - возникает следующая проблема: страничка живёт в кеше, а в её коде ссылки на картинки выглядят как "http://www.kakoj-to_sajt.ru/kartiniki/kartinka_2.jpg", поэтому мы не знаем где её взять и остаётся только загрузить из Инета (что недопустимо при заданных условиях)...
И ещё, когда Оперой сохраняем страничку с картинками бывает (и часто) что сохраняются не все картинки, а ещё им присваиваются дурацкие имена... (с кучей 0 и 1)

Теперь по поводу нового формата... Вы меня простите господа, но у него я вижу только один плюс, в сжатии. Всё! В остальном и CHM и планирующийся новый формат уступают страничке, которая созранена в обычном HTML... Только не в том дурацком виде (все файлы в одной папке) как сохраняет любимая Опера, а в том например, как сохраняет Mozilla или IE.

Теперь по поводу того, что сказал fov
"С зипом идея хорошая. Все-таки сцепка из двух независимых программ - дело темное. Кстати, а почему именно зип? Нет ли открытых алгоритмов, более компактно жмущих текст/html? Так сказать, в порядке бреда...

Короче, я обеими руками за второй вариант."

Лучше всего жал (и жмёт) HA... был такой архиватор в светлые времена ДОСа, который лучше всего сжимает текст. Однако заметьте: во-первых ZIP самый распространённый (а универсальность наверно стоит на первом месте), во-вторых нам прийдётся сжимать кроме текста ещё и картинки, в-третьих по ZIP'у больше всего инфы и т.п. Так что если уж и новый формат - то жать в ЗИП! Я настаиваю!!!

По-моему вообще было бы лучше всего сделать программу, которая сохраняет из Оперы так же как IE

Re: СОСО - Нужен ли новый формат сохранения страниц? Mongoose  07/11/04 03:24 PM

В ответ на:
Лучше всего жал (и жмёт) HA
Жал. Сейчас лучше жмёт RAR. Даже фидошная BOOK перешла с HA на RAR.

Re: СОСО - Нужен ли новый формат сохранения страниц? creatop  07/12/04 07:05 AM

Господа, не забывайте про TGZ.
Уж ZIP то он точно в разы делает при сжатии текстов/картинокк.
К тому же куча ebook-ов по сети ходит именно так заархивенных..

И еще совет - поройтесь на sourceforge.net - там дофига открытих проектов, в том числе и для работы с архивами..

Re: СОСО - Нужен ли новый формат сохранения страниц? drronnie  07/12/04 10:39 AM

Ну это не столь важно... господин fov говорит, что мол 90% - картинки, которые (увы) не жмуться... стоит ли сжимать? Плюс к этому - отсутствие поиска по тексту... отсюда следует, что от сжатия больше минусов нежели плюсов...
По моему основная проблема состоит в том, чтоб привести документ в такой вид, как сохраняет IE или Mozilla (тобто "файл+папка с остальными файлами") А если уж и нужно сжимать - то это не проблема, потом можно приделать такую фичу... согласны все? Господин BIV?

2Mongoose: Помнится как то по мылу я спрашивал на счёт такой фичи, как "повесить два действия на одну кнопку в тулбаре"... Вот типа того проблема и становится... сохраняем оперой, а потом обрабатываем полученный файл...

Я вот именно сейчас работаю над этим преобразованием... Только из-за моих поверхностных знаний в синтаксисе HTML не всё так просто получается ... но кое что получается !!!

P.S. "... не всё так просто получается ... но кое что получается !!!" - похоже на слова песни из одного хорошего мультика "... Я безпороден - это минус, но благороден это плюс!!!!!"

Re: СОСО - Нужен ли новый формат сохранения страниц? drronnie  07/13/04 10:37 PM

Господа, попробуйте и оцените.... (прикреплённый файл)
Там в readme всё написано

Re: СОСО - Нужен ли новый формат сохранения страниц? m1kky  07/14/04 01:47 PM

БЛИН! БЛИН! БЛИН! Зачем вы велосипед придумываете??? Нельзя ли лучше пытаться привести сохранённую страницу к виду IE, т.е.

<сохранённый_файл>.html
[ПАПКА<сохранённый_файл>.files]

равзе так не проще??... надо всего-лишь все ссылки на странице перевести на эту папку и всё...

Оффлайн эксплореры как вообще локализую ссылки? также почти..

Re: СОСО - Нужен ли новый формат сохранения страниц? drronnie  07/14/04 02:30 PM

В ответ на:
БЛИН! БЛИН! БЛИН! Зачем вы велосипед придумываете??? Нельзя ли лучше пытаться привести сохранённую страницу к виду IE, т.е.

<сохранённый_файл>.html
[ПАПКА<сохранённый_файл>.files]

равзе так не проще??... надо всего-лишь все ссылки на странице перевести на эту папку и всё...

попробуй прикреплённый файл к моему сообщению перед вашим!

Re: СОСО - Нужен ли новый формат сохранения страниц? sgerasch  07/15/04 07:34 AM

Я конечно дико извиняюсь,но...
Существует такая программа:
Local Website Archive

Local Website Archive offers a fast and easy way to store websites from your browser or other online tools permanently for future reference.

Information on the web often vanishes quickly, sometimes before you even have a chance to make use of it. Let Local Website Archive store the information you're interes
В кратце-
Сохраняет html странички, может делать архивы страниц, встраивается в Оперу:
Item, "Сохранить в АРХИВ" = Execute program,"C:\Program Files\Local Website Archive\wsarc_add.exe"
Item, "Открыть АРХИВ" = Execute program,"C:\Program Files\Local Website Archive\wsarc.exe"

Проблемма только в регистрации, без регистрации сохраняет только 100 страниц.
Кроме Оперы, поддерживает кучу браузеров.
Экспортирует как ZIP и EXE.
И еще куча полезностей.


Re: СОСО - Нужен ли новый формат сохранения страниц? steap  07/15/04 06:52 PM

Нашел в Линуксе интересный формат для сжатия - "bz2". Сейчас тестирую. Сжал html + графика - всего 941 файл (3,7 мб (3 840 867 б)). Из всех файлов: html, htm, php - 182 файла, графика - 350 файлов и остальные - текстовые файлы. При сжатии zip'ом получилось 1,9 мб (2 022 318 б). При сжатии с помощью gz - 1,6 мб (1 716 563 б). bz2 - 1,5 мб (1 601 913 б). А, чуть не забыл... rar - 1,8 мб (1 915 818 б). Вот!

В справке про bz2 пишут:
"bzip2 compresses files using the Burrows-Wheeler block sorting text
compression algorithm, and Huffman coding. Compression is generally
considerably better than that achieved by more conventional
LZ77/LZ78-based compressors, and approaches the performance of the PPM
family of statistical compressors."

gz:
"Gzip reduces the size of the named files using Lempel-Ziv coding
(LZ77). Whenever possible, each file is replaced by one with the
extension .gz, while keeping the same ownership modes, access and modi-
fication times. (The default extension is -gz for VMS, z for MSDOS,
OS/2 FAT, Windows NT FAT and Atari.) If no files are specified, or if
a file name is "-", the standard input is compressed to the standard
output. Gzip will only attempt to compress regular files. In particu-
lar, it will ignore symbolic links."

P.S. Судя по тому, что bzip входит в состав Linux Fedora Core 2, он является бесплатным. Вот его сайт: _//sources.redhat.com/bzip2_

Re: СОСО - Нужен ли новый формат сохранения страниц? Ilya  07/16/04 12:23 PM

А вот ещё ссылки по теме:
1. Bzip2 for Windows - _//gnuwin32.sourceforge.net/packages/bzip2.htm_
2. Bzip2 Howto - _//fetter.org/Bzip2-HOWTO/Bzip2-HOWTO.html_

Re: СОСО - Нужен ли новый формат сохранения страниц? BIV  07/16/04 07:09 PM

Спасибо за ссылку, я действительно впервые узнал об этой программе. Теперь есть на кого равняться

Прога хороша, но она использует для закачки опять же компоненту IE.
Т.о. мы пользуемся нашим конкурентом (по отношению к Опере), который дыряв и к тому же скачивает страницы ещё раз из сети, что удваивает затраченный трафик. Да и просит за это 144 убиенных енота.

Хотя это тоже решение.



Re: СОСО - Нужен ли новый формат сохранения страниц? Ilya  07/17/04 03:51 AM

Не понял, какая программа требует IE и стоит 144 енота?
bzip2 совершенно бесплатна и мультисистемна.

Re: СОСО - Нужен ли новый формат сохранения страниц? drronnie  07/17/04 01:01 PM

Уважаемый, я если правильно понял bzip - это архиватор...
А WLA - это именно прога, которая интегриться в Оперу и др., и рульно сэйвит паги, но закачивает их по своему через осликовский движок....

Правильно, да?

Re: СОСО - Нужен ли новый формат сохранения страниц? BIV  07/18/04 08:20 AM

>drronnie: правильно.

>Ilya: я отвечал sgerasch`у. А за информацию про bzip спасибо, я рассмотрю этот вариант.

Re: СОСО - Нужен ли новый формат сохранения страниц? drronnie  07/18/04 05:16 PM

Хе, 90%... А попробуй с этого ж форума страничку с факом сохранить.... там одна страничка мегабайт весит...

Re: СОСО - Нужен ли новый формат сохранения страниц? fov  08/17/04 02:28 AM

4 drronnie
Ну да, согласен, случаи - они разные бывают Впрочем, поиск по тексту - ценность "вечная", а мегабайты дешевеют на глазах. Ну его на фиг, это сжатие. Слишком часто возникает ситуевина, когда название файла не помнишь, а по содержанию запросто находишь. Я бы, если бы владел искусством программирования сделал бы так - все файлы, составляющие страничку склеиваются в один, а при просмотре восстанавливаются. Как-то так в почте файлы приложенные пересылаются, если я не глючу. Кстати, если просто положить файлики в "zip без сжатия" - все прекрасно ищется. А далее - можно предоставить пользователю настройку степени сжатия от нулевой (если нужен поиск) до максимальной (если нужна компактность).


operaman.ru - Home


Rambler's Top100