『Amebaなう』リアルタイム検索機能に Apache Solr と MessagePack を採用

ミニブログサービス「Amebaなう」に検索機能を追加　Apache Solrのカスタマイズにより検索パフォーマンスが大幅向上
検索機能は、当社の研究開発組織「インキュベーションラボラトリー」が開発し、Apache Solrをベースに、検索インデックス作成アルゴリズムの効率化や、データを高速かつ効率的に保存できる技術仕様「MessagePack」と各種圧縮アルゴリズムを組み合わせる等の対応を行いました。

MessagePack と各種圧縮アルゴリズムを組み合わせることで、インデックスサイズを80%程度に圧縮することが可能になったようです。

MessagePack を使うと、配列やMapなどの構造を、非常にコンパクトに保存することができます。例えば、[1,2,3]という3つの整数からなる配列はたったの4バイト、{"a":null}という連想配列はたったの4バイトで保存することが可能です。もしこれが JSON だと、それぞれ7バイトと10バイトも必要になります。

さらに Deflate などで圧縮すれば、非常に高い圧縮率が得られるという寸法です。先のjust_do_neetさんのブログによれば、作成速度も検索速度も、それほど速度劣化は起こっていないようです。

他に MessagePack を使ってデータサイズを圧縮している事例には、Data::Modelがあります。

kumofs での Data::Model の使い方

KVSに保存するデータのスキーマをあらかじめ定義しておき、キー名を整数に変換するなどの変換を施すことで、空間効率を飛躍的に高めています：

例えば、上記のコードを使った場合に以下のようなデータ構造だった場合に
{

    file_id    => 'dankogai',

    media_type  => 1,

    client_type => 5,

    is_broken   => undef,

},
…
Key を任意の値に変換してから直列化をかけます。
Data::Model 標準のシリアライザの MessagePack では、数値をとても効率よく直列化してくれるので、 media_type だとかいう長ったらしい key name を 2 とか言う数値に変換してしまいます。
2 とかという小さい値だと直列化後も1バイトしか容量食わなくて嬉しいんです！
実際、上のほうで書いてるデータ例だと以下の用になります。
{

    2 => 1,

    3 => 5,

},

これを MessagePack でシリアライズすると、元のデータは5バイトという驚異的なサイズとなって kumofs の value に格納されます。
memcachedにデータを保存する場合でも、このように空間効率を高めることで、キャッシュ可能なデータ量を増やすことができます：Data::Model::Driver::Memcachedで超効率データ保存

このように MessagePack は、速いだけでなく「小さい」という利点があります。MessagePack は JSON と型システムが同じ*1なので、JSON を使うところを単に MessagePack を使うようにするだけで、キャッシュのヒット率を向上させられたり、トラフィック量やCPU使用率を減らせるかもしれません。

それでは、MessagePack を使ったプログラミングをお楽しみください^^;

*1:整数、浮動小数点数、文字列、配列、連想配列、nil。JSON との互換性が高い点は MessagePack の大きな利点です。他のシリアライズ形式、例えば Protocol Buffers には配列配列型や連想配列がなく、Avro は値の型が異なる連想配列（{a:["string",10], b:20, ...} のような）を扱えません。

Blog by Sadayuki Furuhashi

Treasure Data MessagePack Embulk Fluentd @twitter

『Amebaなう』リアルタイム検索機能に Apache Solr と MessagePack を採用