データ転送ミドルウェア勉強会
Treasure Data, Inc. 古橋貞之です。
来たる1月27日、新しいOSSツール Embulk をリリースします。
EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。
入力元、出力先、ファイルフォーマット、圧縮方式などをプラグインで拡張することができ、S3上のCSVファイル、PostgreSQL、Elasticsearch、Salesforce.com、Treasure Dataなど、異種のストレージやサービスの間でデータを転送・同期することが可能になります。
Fluentdとは異なって、1発実行、あるいは1時間や1日毎で実行するバルク処理に特化しており、
などの拡張を備えています。
- 1回で使い捨てられる割には面倒すぎるデータ変換スクリプト
- 中途半端なエラー処理実装でかろうじて運用され続けるcronスクリプト
- 本気で作ってみたけど特定用途向きすぎて再利用できないデータ同期アプリケーション
- …
これらの経験知をプラグインとしてパッケージ化し、人類共通の資産として評価・再利用・継続的な改善を可能にするツールです。
1月27日の勉強会では、Fluentdのえらい人である @repeatedly からFluentdのv1に向けたロードマップについて、データ転送の大御所 小野和俊さんからHULFTについての解説もあります。
会場は、新宿・渋谷・品川・丸の内のどこからも行きやすいSAPジャパンビル:
データ転送ミドルウェア勉強会 - dots.[ドッツ]
講演者枠も1つ空いています。データ転送について一言ある方を募集中です。 @repeatedly か @frsyuki までご連絡ください。
ちなみに、その前の1/20にはPresto meetupもあります:
Presto Meetup - dots.[ドッツ]