Apache Hive

Hive
最新版	4.0.1 / 2024年10月2日 (9か月前)
リポジトリ	git.apache.org/hive.git;
プログラミング; 言語	Java
対応OS	クロスプラットフォーム
サポート状況	開発中
ライセンス	Apache License 2.0
公式サイト	hive.apache.org
	テンプレートを表示

Apache Hive はHadoopの上に構築されたデータウェアハウス構築環境であり、データの集約・問い合わせ・分析を行う^[1]。Apache Hiveは当初はFacebookによって開発されたが、その後Netflixのようにさまざまな団体が開発に参加し、またユーザーとなった^[2]^[3]。 Hive はAmazon Web ServicesのAmazon Elastic MapReduceにも含まれている^[4]。

特徴と機能

Apache HiveはHadoop互換のファイルシステム（たとえばAmazon S3)に格納された大規模データセットの分析を行う。使用には、map/reduceを完全にサポートしたSQLライクな「HiveQL」という言語を用いる。クエリの高速化のため、ビットマップインデックスを含めたインデクス機能も実装している^[5]。

標準設定では、Hiveはメタデータを組み込みApache Derbyデータベースに格納するが、オプションとしては別に用意したクライアント・サーバデータベース（たとえばMySQL）に格納させることもできる^[6]。

現在、Hiveがサポートするファイルフォーマットは3種類あり、それらはTEXTFILE, SEQUENCEFILE および RCFILEである^[7]^[8]。

Hiveが提供する機能には他には次のようなものがある^[9]:

高速化のためのインデックス作成
別の種類のストレージタイプ。たとえばプレーンテキスト・RCFile・HBaseなど
クエリ実行時のセマンティックチェック時間を大幅に短縮するため、メタデータを関係データベース管理システム (RDBMS) に格納する機能
Hadoop環境に格納された圧縮データを扱う機能
日付型・文字列型を扱ったり他のデータ操作を可能とする組み込みユーザ定義関数（UDF)。組み込み関数で用意されていない機能もユーザが自作UDFを作成することで対応することが可能
SQLライクなクエリ言語(Hive QL)。これは内部的にMap/Reduceジョブに変換される

HiveQL

HiveQLはSQLに基づいているものの、厳密にはSQL-92をフルサポートしてはいない。たとえばSQLにない複数テーブルインサートやcreate table as selectは可能だが、インデクスに関しては限定的なサポートに留まっている^[10]。また、HiveQLはトランザクションやマテリアライズドビューの機能はもたず、副問い合わせのサポートも限定的である。^[11]^[12]。

内部的には、コンパイラがHiveQL文をMap/Reduceジョブの有向非巡回グラフに変換し、それがHadoopに渡され実行される^[13]。

参照

^ Venner, Jason (2009). Pro Hadoop. Apress. ISBN 978-1-4302-1942-2
^ Use Case Study of Hive/Hadoop
^ OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix" - YouTube
^ Amazon Elastic MapReduce Developer Guide
^ Working with Students to Improve Indexing in Apache Hive
^ Lam, Chuck (2010). Hadoop in Action. Manning Publications. ISBN 1-935182-19-6
^ Facebook's Petabyte Scale Data Warehouse using Hive and Hadoop
^ Yongqiang He, Rubao Lee, Yin Huai, Zheng Shao, Namit Jain, Xiaodong Zhang and Zhiwei Xu. “RCFile: A Fast and Space-efﬁcient Data Placement Structure in MapReduce-based Warehouse Systems” (PDF). 4,Nov. 2012閲覧。エラー: 閲覧日が正しく記入されていません。
^ Hive – The next generation data warehouse
^ また、外部結合はLEFTしかできない・JOINのON節での不等式やBetweenの使用に制限がある・timestamp型はUNIX TIMEなので1970年以前や2037年以後の日付が使えない・CSVから文字列フィールドをLOAD DATAする場合、ENCLOSED指定が出来ないので二重引用符等は事前に削除する必要がある・その場合でも明示的にNULLを指定したい場合には「\N」という特殊な文字列を入れておく必要がある、などがあり使用には注意を要する（日本語訳者による追記。いずれもバージョン0.9.0の場合）
^ White, Tom (2010). Hadoop: The Definitive Guide. O'Reilly Media. ISBN 978-1-4493-8973-4
^ Hive Language Manual
^ Hive A Warehousing Solution Over a MapReduce Framework

外部リンク

公式ウェブサイト
Hive A Warehousing Solution Over a MapReduce Framework - Original paper presented by Facebook at VLDB 2009
Using Apache Hive With Amazon Elastic MapReduce (Part 1) and Part 2 - YouTube, presented by an AWS Engineer

この項目は、FOSSに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（Portal:FOSS）。

[1] Venner, Jason (2009). Pro Hadoop. Apress. ISBN 978-1-4302-1942-2

[2] Use Case Study of Hive/Hadoop

[3] OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix" - YouTube

[4] Amazon Elastic MapReduce Developer Guide

[5] Working with Students to Improve Indexing in Apache Hive

[6] Lam, Chuck (2010). Hadoop in Action. Manning Publications. ISBN 1-935182-19-6

[7] Facebook's Petabyte Scale Data Warehouse using Hive and Hadoop

[8] Yongqiang He, Rubao Lee, Yin Huai, Zheng Shao, Namit Jain, Xiaodong Zhang and Zhiwei Xu. “RCFile: A Fast and Space-efﬁcient Data Placement Structure in MapReduce-based Warehouse Systems” (PDF). 4,Nov. 2012閲覧。エラー: 閲覧日が正しく記入されていません。

[9] Hive – The next generation data warehouse

[10] また、外部結合はLEFTしかできない・JOINのON節での不等式やBetweenの使用に制限がある・timestamp型はUNIX TIMEなので1970年以前や2037年以後の日付が使えない・CSVから文字列フィールドをLOAD DATAする場合、ENCLOSED指定が出来ないので二重引用符等は事前に削除する必要がある・その場合でも明示的にNULLを指定したい場合には「\N」という特殊な文字列を入れておく必要がある、などがあり使用には注意を要する（日本語訳者による追記。いずれもバージョン0.9.0の場合）

[11] White, Tom (2010). Hadoop: The Definitive Guide. O'Reilly Media. ISBN 978-1-4493-8973-4

[12] Hive Language Manual

[13] Hive A Warehousing Solution Over a MapReduce Framework

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

表話編歴 Apacheソフトウェア財団
トップレベルプロジェクト	Accumulo（英語版） ActiveMQ Airflow Ambari（英語版） Ant Aries（英語版） Arrow Apache HTTP Server APR Avro Axis Axis2 Beam Bloodhound（英語版） Brooklyn（英語版） Buildr（英語版） Calcite（英語版） Camel（英語版） Cassandra Cayenne（英語版） Chemistry（英語版） CloudStack（英語版） Cocoon Cordova CouchDB cTAKES（英語版） CXF（英語版） Derby Directory（英語版） Drill Druid（英語版） Empire-db（英語版） Felix（英語版） Flex Flink（英語版） Flume（英語版） FreeMaker（英語版） Geronimo Giraph（英語版） Gump（英語版） Hadoop HBase Helix（英語版） Hive Impala（英語版） Jackrabbit（英語版） James Jena（英語版） Jini（英語版） JMeter（英語版） Kafka Kudu（英語版） Kylin（英語版） Lucene Mahout Maven MINA（英語版） mod perl（英語版） MyFaces（英語版） NetBeans Nutch（英語版） NuttX（英語版） OFBiz（英語版） Oozie（英語版） OpenEJB OpenJPA OpenNLP OpenOffice ORC（英語版） PDFBox（英語版） Parquet（英語版） Phoenix（英語版） POI Pig（英語版） Pinot（英語版） Pivot Qpid（英語版） Roller RocketMQ（英語版） Samza（英語版） ServiceMix（英語版） Shiro（英語版） SINGA（英語版） Sling（英語版） Solr Spark Storm（英語版） SpamAssassin Struts 1 Struts 2（英語版） Subversion Apache Superset SystemDS（英語版） Tapestry Thrift Tika（英語版） Tomcat Traffic Server（英語版） Turbine（英語版） UIMA（英語版） Velocity Wicket Xalan Xerces XMLBeans Yetus（英語版） ZooKeeper
Commons	BCEL（英語版） BSF（英語版） Collections Daemon（英語版） DBUtils Email IO Jelly（英語版） Lang Apache Commons Logging（英語版） Math
Incubator	MXNet（英語版） Taverna（英語版）
その他のプロジェクト	Apache Batik Chainsaw（英語版） FOP Ivy（英語版） log4j
Attic	Abdera（英語版） Apex（英語版） AxKit Beehive（英語版） Bluesky（英語版） iBATIS c++ Standard Library（英語版） Cactus（英語版） Click（英語版） Continuum（英語版） Deltacloud（英語版） Etch（英語版） Excalibur（英語版） Forrest（英語版） Hama（英語版） Harmony HiveMind（英語版） Jakarta Lenya（英語版） Marmotta（英語版） ODE（英語版） Shale（英語版） Slide（英語版） Shindig（ハンガリー語版） Stanbol（英語版） Tuscany（英語版） Wave（英語版） Wink（英語版） XML
ライセンス	Apache License
Category Commons



最新版	4.0.1 / 2024年10月2日 (9か月前) (2024-10-02)
リポジトリ	git.apache.org/hive.git
プログラミング言語	Java
対応OS	クロスプラットフォーム
サポート状況	開発中
ライセンス	Apache License 2.0
公式サイト	hive.apache.org
テンプレートを表示

Apache Hive

特徴と機能

HiveQL

関連項目

参照

外部リンク