Apache Hive | ||
---|---|---|
Información general | ||
Tipo de programa | gestión de datos | |
Desarrollador | Apache Software Foundation | |
Lanzamiento inicial | 9 de noviembre de 2011 | |
Licencia | Apache License 2.0 | |
Estado actual | Activo | |
Información técnica | ||
Programado en | Java | |
Plataformas admitidas | máquina virtual Java | |
Versiones | ||
Última versión estable | 2.0.1 ( 25 de mayo de 2016 (8 años, 5 meses y 28 días)) | |
Enlaces | ||
Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar agrupación, consulta, y análisis de datos.[1] Inicialmente desarrollado por Facebook, Apache Hive es ahora utilizada y desarrollado por otras empresas como Netflix y la Financial Industry Regulatory Authority (FINRA).[2][3] Amazon mantiene una derivación de software de Apache Hive incluida en Amazon Elastic MapReduce en sus servicios Amazon Web Services.[4]
Apache Hive soporta el análisis de grandes conjuntos de datos almacenados bajo HDFS de Hadoop y en sistemas compatibles como el sistema de archivos Amazon S3. Ofrece un lenguaje de consultas basado en SQL llamado HiveQL[5] con esquemas para leer y convertir consultas de forma transparente en MapReduce, Apache Tez[6] y tareas Spark. Los tres motores de ejecución pueden correr bajo YARN. Para acelerar las consultas, Hive provee índices, que incluyen índices de bitmaps.[7] Otras características de Hive incluyen:
Por defecto, Hive almacena sus metadatos en una base de datos apache Derby, pero puede ser configurado para usar MySQL.[8]