NoSQL

NoSQL(一般に "Not only SQL" と解釈される)とは、関係データベース管理システム (RDBMS) 以外のデータベース管理システムを指すおおまかな分類語である。関係データベースを杓子定規に適用してきた長い歴史を打破し、それ以外の構造のデータベースの利用・発展を促進させようとする運動の標語としての意味合いを持つ。関係モデルではないデータストアの特徴として、固定されたスキーマに縛られないこと、関係モデルの結合操作を利用しないこと、水平スケーラビリティが確保しやすい事が多いこと、高度なトランザクション処理を利用できないものが多いことなどが挙げられる。学術的な世界では、この種のデータベースのことを構造型ストレージ (structured storage) と呼ぶことが多い[1][2][3][4]

NoSQL系データベース管理システムは、データの格納および取得が高度に最適化されているものが多い。その最適化のために機能性を最小限にしているものもある。その最たる例が、「値」およびそれを取得するための「キー」だけを格納できるKey-Value型データベースである。NoSQL系データベースは、関係データベースのような汎用性は欠くものの、その制約された条件下ではRDBMSより高いパフォーマンスを持つ。そのためビッグデータ系ソリューションでしばしば活用される。

NoSQL系データベース管理システムが有用な場面は、関係モデルを必要としないデータを扱う時や、大量のデータを扱う時である。用途は多様であり、数百万のkey-valueペアを格納したり、数10個程度の連想配列を格納したり、数百万の構造的データを格納したりと、様々に使われる。この構造は、大規模なデータを統計的に解析したり、増えつづける情報をリアルタイムに解析するのにも便利である。

産業界での有名な実装として、GoogleBigTableアマゾンAmazon DynamoDBなどがある。オープンソースの実装も数多く存在し、例えばMongoDBRedisApache HBaseHypertable[5], Apache Cassandraなどがある。

歴史

NoSQLという用語は1998年、SQLインタフェースを持たない軽量な関係データベースのオープンソースソフトウェアの名前として最初に用いられた。その著者Carlo StrozziはNoSQL運動について、「関係モデル全体と一線を画すものであるから、『NoREL』などと名づけられるべきだった」と主張している[6]。この用語は、Last.fmのJohan Oskarssonの呼びかけによって2009年初頭に開催されたオープンソースの分散データベースについての会合において、Rackspace英語版の従業員Eric Evansによって再導入された[7]。この名前はMySQLMS SQLPostgreSQLなど関係データベースのシステムで広く用いられていた命名法を参照して付けられたものであり、ACID保証を提供しないような非関係型の分散データストアの勃興を表現する意図が込められていた。

NoSQL運動が普及するに従い、その名前のもつネガティブな印象(SQLは不要である、など)が問題となり議論が起こっている。Eric EvansはNoSQLをNot only SQLバクロニムとして理解するのが好ましいとしている[8]

アーキテクチャ

現代的な関係データベースは、小規模の高頻度なトランザクションか、巨大だが書き込みをほとんど伴わないトランザクションに最適化されて設計されているため、近年必要とされてきている大規模データに基づく (data-intensive) 応用事例では性能が劣化してしまう[9]。そのような応用の例として、検索のための文書のインデキシング、トラフィックの高いウェブサイトのサーバストリーミングデータの配布などがあり、Diggのgreen badge[10]、Facebookのインボックスの検索、eBayのシステム全体などがその実例である。

NoSQLのアーキテクチャにおいては、結果整合性のみを保証するなどして一貫性の保証を弱く設計したり、トランザクションをひとつのデータアイテムに限るという制限を設けたりすることが多い。補助的なミドルウェアの層を付加することによって完全なACID保証を提供している場合もある[11]

いくつかのNoSQLシステムは分散アーキテクチャを採用している。そのようなシステムでは、多くの場合は分散ハッシュテーブルを用いて、データを複数のサーバに冗長性を持たせながら配置する。これにより、サーバを追加するだけでシステムを容易にスケールアップさせることができ、障害への耐性も強くなる[12]

分類

NoSQL には、主要なものとして、以下のものがある[13]

  • キー・バリュー型 (Key Value Store) - キーに対してバリュー(値)という単純な構造。Basho Riak, Redis,Amazon DynamoDBなど。大半はバリューとして単純なバイナリデータ (BLOB) のみが格納できるが、Redisのようにリスト、マップ、ソート済みセットといったリッチなデータ構造をサポートするものもある。またバリューに加えて、タグやメタデータと呼ばれる追加情報が格納できるものも多い。日本発のものには okuyama, Hibari などがある。
  • ソート済みカラム指向 - 行キーに対してカラム(名前と値の組み合わせ)の集合を持つ。行ごとに好きな名前のカラムを好きな数だけ格納できる。カラムはカラム名によってソートされるため、例えばカラム名に時刻を使うことで1行の中に時系列のデータを格納することができる。Apache Cassandra, Apache HBaseなど。
  • ドキュメント指向(Document-oriented、Document store) - XMLJSONといった、 スキーマレスでデータ構造が柔軟なもの。MongoDBApache CouchDBAmazon DocumentDBなど。XMLデータベースなどのシステムでは、XQueryを利用できるものもある。
  • グラフ指向 - ノード(頂点)とエッジ(辺)とプロパティ(属性)の3つの要素から構成され、ノード間の関係を管理することに特化したデータベース。Neo4jAmazon Neptuneなど。

オープンソースのプロジェクト一覧

実装例

ドキュメントストア

名称 言語 補足
BaseX Java, XQuery XMLデータベース
Cloudant英語版 Erlang, Java, Scala, C JSONストア(オンラインサービス)
Clusterpoint英語版 C++ XML, 全文検索
Couchbase Server Erlang, C, C++ JSONとバイナリドキュメント
Apache CouchDB Erlang JSONデータベース
djondb[14][15][16] C++ JSON, ACIDドキュメントストア
Solr Java サーチエンジン
Elasticsearch Java JSON, サーチエンジン
eXist英語版 Java, XQuery XMLデータベース
Jackrabbit英語版 Java Java Content Repository英語版実装
IBM Lotus Notes and IBM Lotus Domino Lotus Script, Java, IBM X Pages, その他 MultiValue英語版
MarkLogic Server英語版 XQuery, Java, REST JSON対応のXMLデータベース, テキスト, バイナリ
MongoDB C++, C#, Go BSONストア(JSONのバイナリフォーマット)
ObjectDatabase++英語版 C++, C#, TScript英語版 C++ネイティブクラスのバイナリ
Oracle NoSQL Database英語版 Java, C
CoreFoundation Property list C, C++, Objective-C JSON, XML, バイナリ
Sedna英語版 XQuery, C++ XMLデータベース
SimpleDB Erlang オンラインサービス
TokuMX英語版 C++, C#, Go MongoDBとフラクタルツリーインデックス
OpenLink Virtuoso英語版 C++, C#, Java, SPARQL ミドルウェアデータベースエンジンのハイブリッド

ドキュメントストア+キーバリューストア+グラフ

名称 言語 補足
OrientDB英語版 Java JSON, SQLサポート
ArangoDB英語版 C++
FoundationDB 英語版

グラフ

名称 言語 補足
AllegroGraph英語版 SPARQL RDFグラフストア
IBM DB2 SPARQL RDFグラフストアを追加したDB2 10
DEX/Sparksee英語版 Java, C++, .NET, Python ハイパフォーマンスグラフデータベース英語版
FlockDB英語版 Scala
InfiniteGraph英語版 Java ハイパフォーマンス, スケーラブル, 分散型グラフデータベース
Neo4j Java
OpenLink Virtuoso英語版 C++, C#, Java, SPARQL ミドルウェアデータベースエンジンのハイブリッド
Sones GraphDB英語版 C# GraphQLと呼ばれるクエリー言語を備えたグラフデータベース
Sqrrl Enterprise英語版 Java セルレベルのセキュリティに特化した分散型, リアルタイムグラフデータベース
OWLIM英語版 Java, SPARQL 1.1 推論付きRDFグラフストア

トリプル/クアッドストア (RDF) データベース

キーバリューストア

eventually consistent

ヒエラルキー

RAMキャッシュ

ソリッドステート・回転ディスク

ordered

オブジェクトデータベース

タビュラー

タプルストア

ホスト型

マルチバリューデータベース

参考文献

  1. ^ Hamilton, James (2009年11月3日). “Perspectives: One Size Does Not Fit All”. 2009年11月13日閲覧。
  2. ^ Lakshman, Avinash; Malik, Prashant. Cassandra — A Decentralized Structured Storage System. Cornell University. http://www.cs.cornell.edu/projects/ladis2009/papers/lakshman-ladis2009.pdf 2009年11月13日閲覧。. 
  3. ^ Chang, Fay; Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber. Bigtable: A Distributed Storage System for Structured Data. Google. http://labs.google.com/papers/bigtable-osdi06.pdf 2009年11月13日閲覧。. 
  4. ^ Kellerman, Jim. “HBase: structured storage of sparse data for Hadoop”. 2009年11月13日閲覧。
  5. ^ Toptal - The Definitive Guide to NoSQL Databases
  6. ^ NoSQL Relational Database Management System: Home Page”. Strozzi.it (2007年10月2日). 2010年3月29日閲覧。
  7. ^ NOSQL 2009”. Blog.sym-link.com (2009年5月12日). 2010年3月29日閲覧。
  8. ^ NoSQL: What's in a name?”. Eric Evans's Weblog (2009年10月30日). 2010年5月31日閲覧。
  9. ^ Agrawal, Rakesh et al. (2008). “The Claremont report on database research”. SIGMOD Record (ACM) 37 (3): 9--19. doi:10.1145/1462571.1462573. ISSN 0163-5808. http://doi.acm.org/10.1145/1462571.1462573. 
  10. ^ Looking to the future with Cassandra | Digg About”. About.digg.com (2009年9月9日). 2010年3月29日閲覧。
  11. ^ 例:CloudTPS: Scalable Transactions for Web Applications in the Cloud”. Globule.org. 2010年3月29日閲覧。
  12. ^ Cassandra: Structured Storage System over a P2P Network” (PDF). 2010年3月29日閲覧。
  13. ^ Database Landscape Map – December 2012
  14. ^ The enterprise class NoSQL database. djondb. Retrieved on 2013-09-18.
  15. ^ http://tinman.cs.gsu.edu/~raj/8711/sp13/djondb/Report.pdf
  16. ^ Undefined Blog: Meeting with DjonDB. Undefvoid.blogspot.com. Retrieved on 2013-09-18.
  17. ^ Riak: An Open Source Scalable Data Store” (28 November 2010). 28 November 2010閲覧。
  18. ^ Tweed, Rob; George James (2010年). “A Universal NoSQL Engine, Using a Tried and Tested Technology” (PDF). p. 25. 2014年3月14日閲覧。 “Without exception, the most successful and well-known of the NoSQL databases have been developed from scratch, all within just the last few years. Strangely, it seems that nobody looked around to see whether there were any existing, successfully implemented database technologies that could have provided a sound foundation for meeting Web-scale demands. Had they done so, they might have discovered two products, GT.M and Caché.....*”

関連項目