Loading…
Thumbnail Image

Energy efficient hardware architectures for memory prohibitive deep neural networks

Shivapakash, Suhas

Deep Neural Networks (DNN) form the backbone of modern Artificial Intelligence (AI) systems. However, due to the high computational complexity and divergent shapes and sizes. Dedicated hardware accelerators are required to achieve very high performance and energy efficiency across various DNNs to enable AI in real-world applications. To address this problem and improve the DNN processor’s energy efficiency, we introduce the multi-bit accelerator. The multi-bit accelerator achieves the energy-efficient goals for a low-power DNN processor by truncating the preceding layer’s partial sums (PSums) before feeding it as an input to the next layer. The Row Stationary (RS) dataflow method is used to implement the design. We start inferencing with the high order bit-width, like 32 bits for the first convolution layers, and sequentially truncate the bits on the MSB/LSB of the integer and the LSB of the fraction part. Even with the sequential truncation, the processor could achieve a top-1 accuracy of up to 14 bits and a top-5 accuracy of up to 10 bits. The proposed truncation scheme helped in reducing the resource utilization by 73.25% for LUTs (Lookup tables), 68.76% for FFs (Flip Flops), and 74.60% for BRAMs (Block RAMs), and 79.425% for DSPs (Digital Signal Processors). The multi-bit accelerator could achieve an overall throughput of 223.39 GOPS on a Virtex Ultra Scale FPGA. The corresponding ASIC version implemented on the GF 22nm FDSOI could achieve an overall throughput of 2.03 TOPS/W with a total power consumption of 791mW and an overall area of 1.2mm x 1.2mm. In order to further improve energy efficiency and area efficiency, we introduce a hardware-software co-designed FantastIC4 accelerator to handle the compact representations of the fully connected layers and reduce the total number of required multipliers to four. In order to make the DNN models amenable for efficient execution, the DNN models are trained to handle the 4-bit quantization. The FantastIC4 accelerator achieves a very high throughput of 2.45 TOPS due to the extreme compression of the models with an overall power consumption of 3.6W on a Virtex Ultrascale FPGA. The equivalent ASIC version implemented on a GF 22nm FDSOI achieves a very high energy efficiency of 20.17 TOPS/W. When compared to other accelerators designed for the Google Speech Command (GSC) dataset, FantastIC4 is better by 51x in terms of throughput and 145x in terms of area efficiency (GOPS/mm2).
Tiefe neuronale Netze bilden das Rückgrat moderner Systeme der Künstlichen Intelligenz (KI). Aufgrund der hohen Berechnungskomplexität und der unterschiedlichen Formen und Größen sind jedoch spezielle Hardwarebeschleuniger erforderlich. Dedizierte Hardware Beschleuniger sind erforderlich, um eine sehr hohe Leistung und Energieeffizienz bei verschiedenen DNNs zu erreichen, um eine KI in realen Anwendungen zu ermöglichen. Um dieses Problem zu lösen und die Energieeffizienz des DNN prozessors zu verbessern, führen wir den Multi-Bit Beschleuniger ein. Der Multi-Bit Beschleuniger erreicht die energieeffizienten Ziele für einen stromsparenden DNN Prozessor, indem er die Partialsummen (PSums) der vorhergehenden Schicht abschneidet, bevor er sie als Eingabe für die nächste Schicht verwendet. Zur Implementierung des Entwurfs wird die Zeile Stationär Datenflussmethode verwendet. Wir beginnen die Inferenz mit einer Bitbreite hoher Ordnung wie 32 bits für die ersten Faltungsschichten und schneiden die bits am MSB/LSB der Ganzzahl und am LSB des Bruchteils sequentiell ab. Selbst mit der sequentiellen Abschneidung konnte der Prozessor eine Top-1 Genauigkeit von bis zu 14 bits und eine top-5 Genauigkeit von bis zu 10 bits erreichen. Das vorgeschlagene Abschneidungsschema trug dazu bei, die Ressourcennutzung bei LUTs (Lookup-Tabellen) um 73,25%, bei FFs (Flip Flops) um 68,76%, bei BRAMs (Block-RAMs) um 74,60% und bei DSPs (Digitalen Signal Prozessoren) um 79,425% zu reduzieren. Der Multi-Bit Beschleuniger konnte auf einem Virtex Ultra Scale FPGA einen Gesamtdurchsatz von 223,39 GOPS erreichen. Die entsprechende ASIC Version, die auf dem GF 22nm FDSOI implementiert wurde, konnte einen Gesamtdurchsatz von 2,03 TOPS/W bei einer Gesamtleistungsaufnahme von 791mW und einer Gesamtfläche von 1,2mm x 1,2mm erreichen. Um die Energie- und Flächeneffizienz weiter zu verbessern, führen wir einen von Hardware und Software gemeinsam entwickelten FantastIC4 Beschleuniger ein, der die kompakten Darstellungen der vollständig verknüpften Schichten verarbeitet und die Gesamtzahl der erforderlichen Multiplikatoren auf vier reduziert. Um die DNN Modelle für eine effiziente Ausführung geeignet zu machen, werden die DNN Modelle für die 4-Bit Quantisierung trainiert. Der FantastIC4 Beschleuniger erreicht aufgrund der extremen Komprimierung der Modelle einen sehr hohen Durchsatz von 2,45 TOPS bei einer Gesamtleistungsaufnahme von 3,6 W auf einem Virtex Ultrascale FPGA. Die äquivalente ASIC Version, die auf einem GF 22nm FDSOI implementiert ist, erreicht eine sehr hohe Energieeffizienz von 20.17 TOPS/W. Im Vergleich zu anderen Beschleunigern, die für den Google Speech Command (GSC) Datensatz entwickelt wurden, ist FantastIC4 beim Durchsatz um das 51-fache und bei der Flächeneffizienz um das 145-fache besser (GOPS/mm2).