データ転送ミドルウェア勉強会

Treasure Data, Inc. 古橋貞之です。
来たる1月27日、新しいOSSツール Embulk をリリースします。

EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。
入力元、出力先、ファイルフォーマット、圧縮方式などをプラグインで拡張することができ、S3上のCSVファイル、PostgreSQL、Elasticsearch、Salesforce.com、Treasure Dataなど、異種のストレージやサービスの間でデータを転送・同期することが可能になります。

Fluentdとは異なって、1発実行、あるいは1時間や1日毎で実行するバルク処理に特化しており、

などの拡張を備えています。

  • 1回で使い捨てられる割には面倒すぎるデータ変換スクリプト
  • 中途半端なエラー処理実装でかろうじて運用され続けるcronスクリプト
  • 本気で作ってみたけど特定用途向きすぎて再利用できないデータ同期アプリケーション

これらの経験知をプラグインとしてパッケージ化し、人類共通の資産として評価・再利用・継続的な改善を可能にするツールです。

1月27日の勉強会では、Fluentdのえらい人である @repeatedly からFluentdのv1に向けたロードマップについて、データ転送の大御所 小野和俊さんからHULFTについての解説もあります。

会場は、新宿・渋谷・品川・丸の内のどこからも行きやすいSAPジャパンビル:

データ転送ミドルウェア勉強会 - dots.[ドッツ]


講演者枠も1つ空いています。データ転送について一言ある方を募集中です。 @repeatedly@frsyuki までご連絡ください。


ちなみに、その前の1/20にはPresto meetupもあります:

Presto Meetup - dots.[ドッツ]