El ARM Cortex-A78 es una microarquitectura que implementa la ARMv8.2-A conjunto de instrucciones de 64-bits diseñado por ARM Holdings' Austin centro listo para ser distribuido entre los dispositivos de alta gama en 2020-2021.[1]
El ARM Cortex-A78 es el sucesor del ARM Cortex-A77. Puede ser emparejada con los CPUs ARM Cortex-X1 y/o ARM Cortex-A55 en una configuración DynamIQ para ofrecer tanto rendimiento como eficiencia. El procesador también tiene un 50% más de ahorro de energía que su predecesor.
El Cortex-A78 es un decodificador de 4 anchos out-of-order con un diseño macro-OP (MOPs) de 1.5K de caché. Puede obtener 4 instrucciones y 6 Mops por ciclo. Y renombrar y enviar 6 Mops, y 13 µops por ciclo. El tamaño de la ventana de fuera de servicio es de 160 entradas. Y el backend es de 13 puertos de ejecución con una profundidad de 13 etapas y las latencias de ejecución consisten en 10 etapas.[2][3]
El procesador está construido sobre una hoja de ruta estándar de la Corteza-A y ofrece un conjunto de chips de 2,1GHz (5 nm) que lo hace mejor que su predecesor de las siguientes maneras:
También hay una mayor escalabilidad con el apoyo adicional de la Unidad Dinámica Compartida para DynamIQ en el chipset. Un L1 más pequeño de 32KB cache de la configuración de cache L1 de 64KB es opcional. Para compensar esta memoria L1 más pequeña, el predictor de rama es mejor para cubrir los patrones de búsqueda irregulares y es capaz de seguir dos ramas tomadas por ciclo, lo que resulta en menos pérdidas de caché L1 y ayuda a ocultar las burbujas de la tubería para mantener el núcleo bien abastecido. La tubería es un ciclo más largo comparado con el A77, lo que asegura que el A78 alcance un objetivo frecuencia del reloj de alrededor de 3 GHz. El A78 es un diseño de 6 instrucciones por ciclo.
ARM también introdujo una segunda unidad múltiple entera en la unidad de ejecución y una Unidad de Generación de Direcciones de carga adicional (AGU) para aumentar tanto la carga de datos como el ancho de banda en un 50%. Otras optimizaciones del conjunto de chips incluyen instrucciones fundidas y mejoras en la eficiencia de los programadores de instrucciones, estructuras de renombramiento de registros y el búfer de reordenación.
El caché L2 es variable hasta 512KB y tiene el doble de ancho de banda para maximizar el rendimiento, mientras que el caché L3 compartido es variable hasta 4MB, el doble que el de las generaciones anteriores. Una Unidad Dinámica Compartida (DSU) también permite una configuración de 8MB con las ARM Cortex-X1.[2][3][4][5]
El Cortex-A78 está disponible como núcleo SIP para los licenciatarios, y su diseño lo hace adecuado para la integración con otros núcleos SIP (por ejemplo, GPU, controlador de pantalla, DSP, procesador de imágenes, etc.) en un muerto que constituye un sistema en un chip. (SoC).