See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
DjVu — Википедия

DjVu

Материал из Википедии — свободной энциклопедии

DjVu
Расширение имени файла: .djvu, .djv
Тип MIME: image/vnd.djvu
Type code: DJVU
Разработчик: ATT Research
Тип формата: Графические форматы

DjVu (от фр. déjà vu «уже виденное») — технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов — книг, журналов, рукописей и пр., где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов где важное значение имеет не только содержание, а цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами.

DjVu стал основой для нескольких библиотек научных книг, правомерность существования некоторых из них, впрочем, вызывает сомнения с точки зрения законов об авторских правах. Огромное количество книг в этом формате доступно в файлообменных сетях.

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах.

Содержание

[править] Используемые технологии

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.

Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. Однако, при этом не стоит забывать, что в DjVu используется сжатие данных с потерями. Для особо важных документов, возможно, будет разумнее использовать более «надёжные» форматы: PNG, JPEG 2000, TIFF (постепенно «сходит со сцены») и т. п. Выигрыш объёма в этом случае составит всего 4−10 раз.

В основе формата DjVu лежат несколько технологий, разработанных в AT&T Labs. Это:

  • алгоритм отделения текста от фона на отсканированном изображении;
  • вейвлетный алгоритм сжатия фона IW44;
  • алгоритм сжатия чёрно-белых изображений JB2;
  • универсальный алгоритм сжатия ZP;
  • алгоритм распаковки «по запросу»;
  • алгоритм «маскировки» изображений;

[править] Текстовое представление изображений DjVu

Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы. (Используется для лёгкого копирования текста из документа при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста - выполнение оптического распознавания (в сторонних программах).

[править] Лицензионная информация

AT&T продали технологию компании LizardTech, которая пытается использовать её для своих коммерческих интересов, но, благодаря открытости формата[источник?], для создания и просмотра документов DjVu существует свободное программное обеспечение, доступное для различных платформ.

[править] См. также

[править] Ссылки

  • DjVuLibre — reference-реализация, распространяется на условиях GPL
  • DJVU — формат для электронных библиотек. Алгоритмы и достоинства, программы и использование, руководства пользователя.
  • DjVu: Краткое техническое введение. Рассказ о формате и программном обеспечении DjVuLibre.
  • Дежавю или DjVu: ликбез. Сборник статей о технологии DjVu.
  • DjVu.org Англоязычный портал DjVu-сообщества.
  • any2djvu. Online сервис позволяющий конвертировать различные документы в формат DjVu. В качестве входных документов могут быть представлены как локальные файлы, так и файлы указанные по URL.
  • Сравнение DjVu-кодеров. Оценка степени компрессии бесплатных программ для создания DjVu.
  • Plug-in для веб-браузеров Plug-in от компании Lizardtech.
  • WinDjView - программа, поддерживающая просмотр DjVu с русскоязычным текстовым слоем (автор - Andrew Zhezherun)
  • OpenDjVu - другой проект просмотрщика DjVu-документов с русскоязычным текстовым слоем (автор - Dmitriy Gar’kaev)


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -