全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch
February 10, 2014 at 01:05 AM | categories: solr, aws, elasticsearch, web |Elasticsearch、Solr、及び Amazon CloudSearchの比較検討を行った。
目次
候補の選定方法
候補を選定するにあたって、以下の特徴をもっていることを前提とした。 LuceneやGroongaを使えば何でもできるが、ここでは対象としない。
- ウェブベースのインターフェースを持つ
- インデックスの更新はほぼリアルタイムに反映される
- スケールアウトが容易
Solr
https://lucene.apache.org/solr/
Luceneをバックエンドにした全文検索システム。バージョン4になってから大幅に機能が増強された。
長所
- 実績が十分ある
- 機能豊富
短所
- クラスタを構築して運用するには手間がかかりそう
- SolrCloudはzookeeperに依存するためサーバ台数もかさむ
Elasticsearch
Solrと同じくLuceneをバックエンドにした全文検索システム。開発者の言1によると、Solrより洗練された分散モデルで2 、使いやすいAPIを備えている。
長所
- アーキテクチャやUIが今風
- クラスタの構築が簡単
- KibanaやLogstashと連携できる
- Percolate APIというpush通知のような機能を簡単に実装するためのものがある
短所
- 後発な分ノウハウの蓄積にやや不安が残る
- 未実装機能がいくらかある(あった。現時点(2014-02-09)では機能的にはほぼ追いついているように見える http://solr-vs-elasticsearch.com/ )
Amazon CloudSearch
http://aws.amazon.com/jp/cloudsearch/
AWS上で提供されている全文検索システム。EC2と同じく時間とトラフィックで課金される。現時点ではまだベータ。
長所
- 自動的にスケーリングしてくれる(エントリ数、リクエスト数に応じてインスタンスが自動的に増える)
- pdfやdocをそのまま送るだけでも適当にうまくやってくれる
- DynamoDBのデータをそのまま流してインデックスできる
短所
- 現状では東京リージョンがない
- テキスト解析のカスタマイズが限定的。現状、Stemming, Stopwords, Synonymsのみカスタム可能。
- N-gramとか形態素解析は自前で処理してからアップロードする必要がある
- ヒット位置を取る方法がない
- テキスト本文をインデックスと一緒に格納することはできない
比較項目別のまとめ
拡張性
SolrもElasticsearchもLuceneをバックエンドにしているので、Luceneでできることは基本的にはどちらでもできるはず。 Amazonは現状ではあまり拡張性はない。
性能
基本性能はSolrもElasticsearchも大差はなさそう。 Amazonは自動的にノードが追加されるので性能の問題はなさそう。ただし、ノードが自動追加されるタイミングとその時の挙動は未確認。
安定性
数年先行している分Solrがよいと思われるが、Elasticsearchも既に十分本番稼動実績はある。 Amazonはベータなので未知数。
リアルタイムデータ更新
いずれもほぼリアルタイムに更新できる。
日本語対応
SolrとElasticsearchはほぼ同等。kuromojiやmecabをつかえば形態素解析もできる。 Amazonはそれ自体では対応していないが、Luceneのtokenizer等を使って自前で前処理することで対応は可能。
スケーラビリティ
Amazonは完全に自動的にスケールアウトしてくれる。 Elasticsearchはインデックスのシャード数を作成時に決めておく必要があるが、スケールアウトは容易だと思われる。 Solrはv4からはElasticsearchと大体同等のスケーラビリティを備えるようになった。
参考リンクまとめ
- http://stackoverflow.com/questions/10213009/solr-vs-elasticsearch
- http://stackoverflow.com/questions/2271600/elasticsearch-sphinx-lucene-solr-xapian-which-fits-for-which-usage
- http://blog.kakipo.com/trouble-with-fluentd-and-elasticsearch/
- https://github.com/atilika/kuromoji
- http://www.elasticsearch.org/blog/percolator/
- http://blog.feedbin.me/2013/11/10/powering-actions-with-elasticsearch-percolate/
- http://docs.aws.amazon.com/cloudsearch/latest/developerguide/text-processing.html
- http://blog.mikemccandless.com/2011/06/lucenes-near-real-time-search-is-fast.html
- https://wiki.apache.org/solr/Solr4.0
- http://www.slideshare.net/kucrafal/battle-of-the-giants-apache-solr-vs-elasticsearch
所感
後発な分Elasticsearchが一番洗練されているように思います。 Solrは無難に導入できそうですが、スケールアウトが必要になったとき手間がかかりそうです。 Amazonはメリットも多いですが、現状では制限が多いので使いづらいと思います。
追記
- 2014/02/12 23:59:13: ElasticSearch → Elasticsearchに直しました
-
http://stackoverflow.com/questions/2271600/elasticsearch-sphinx-lucene-solr-xapian-which-fits-for-which-usage ↩
-
昔のSolrは単純なレプリケーションとシャーディングしかなかったので、クラスタを構築するのは大変だった ↩
About Me
mojavy |
Recent posts
95/5 Mbps とは
(August 30, 2015 at 04:22 PM)組み込み用プログラミング言語のパフォーマンス比較
(April 21, 2015 at 01:10 AM)最近読んだ本
(April 05, 2015 at 01:23 PM)Phabricatorを使ったワークフローについて
(March 02, 2015 at 08:55 PM)dnsimpleでダイナミックDNSをつかう
(December 23, 2014 at 08:02 PM)www2014のアドテク関連のResearch Trackメモ
(October 06, 2014 at 09:05 PM)flappymacs がMELPAに登録されました
(July 16, 2014 at 01:07 AM)EmacsでFlappy Birdっぽいもの書きました
(July 10, 2014 at 08:01 PM)
Recent Popular posts
Popular posts
Categories
- C (rss) (3)
- R (rss) (1)
- adtech (rss) (1)
- advent calendar (rss) (2)
- algorithms (rss) (2)
- android (rss) (2)
- aws (rss) (1)
- blog (rss) (2)
- blogofile (rss) (3)
- books (rss) (1)
- c++ (rss) (1)
- chef (rss) (4)
- common lisp (rss) (10)
- debian (rss) (2)
- dns (rss) (1)
- elasticsearch (rss) (1)
- elf (rss) (1)
- elisp (rss) (1)
- emacs (rss) (5)
- english (rss) (1)
- game (rss) (2)
- gearman (rss) (1)
- git (rss) (1)
- github (rss) (1)
- gitlab (rss) (1)
- golang (rss) (2)
- history (rss) (1)
- impress.js (rss) (1)
- internet (rss) (1)
- ios (rss) (3)
- jekyll (rss) (1)
- jenkins (rss) (1)
- linux (rss) (4)
- lisp (rss) (2)
- ltsv (rss) (1)
- lua (rss) (1)
- mac (rss) (3)
- mach-o (rss) (1)
- memo (rss) (2)
- mustache (rss) (1)
- note (rss) (1)
- objective-c (rss) (4)
- os (rss) (1)
- osx (rss) (2)
- others (rss) (1)
- paco (rss) (1)
- pdf (rss) (1)
- php (rss) (2)
- postfix (rss) (1)
- programming (rss) (12)
- project management (rss) (1)
- python (rss) (5)
- quicklinks (rss) (6)
- raspberry pi (rss) (2)
- redmine (rss) (1)
- reveal.js (rss) (1)
- ruby (rss) (10)
- sbcl (rss) (2)
- security (rss) (1)
- shell (rss) (2)
- smtp (rss) (1)
- solr (rss) (1)
- statistics (rss) (2)
- tips (rss) (10)
- tmux (rss) (3)
- toml (rss) (1)
- tools (rss) (1)
- twitter (rss) (1)
- ubuntu (rss) (1)
- unix (rss) (5)
- v8 (rss) (1)
- web (rss) (7)
- xcode (rss) (1)
- zeromq (rss) (2)
Archives
- August 2015 (1)
- April 2015 (2)
- March 2015 (1)
- December 2014 (1)
- October 2014 (1)
- July 2014 (3)
- March 2014 (6)
- February 2014 (4)
- November 2013 (3)
- October 2013 (4)
- September 2013 (2)
- July 2013 (2)
- June 2013 (2)
- May 2013 (1)
- April 2013 (6)
- March 2013 (3)
- February 2013 (8)
- January 2013 (5)
- December 2012 (1)
- November 2012 (6)
- October 2012 (7)
- August 2012 (1)
- July 2012 (9)
- June 2012 (1)
- April 2012 (1)
- December 2011 (2)
- November 2011 (2)