Tech

YOLOv5 บนซีพียู: แบ่งเบา ๆ เพื่อให้ได้ประสิทธิภาพระดับ GPU

ประสาทเมจิก |

ตัดและหาปริมาณ YOLOv5 เพื่อเพิ่มประสิทธิภาพ 10 เท่าด้วยไฟล์โมเดลที่เล็กกว่า 12 เท่า

Neural Magic ปรับปรุง ประสิทธิภาพของแบบจำลอง YOLOv5 บนซีพียูโดยใช้เทคนิคการตัดแต่งกิ่งและการหาปริมาณที่ล้ำสมัยรวมกับ DeepSparse Engine. ในบล็อกโพสต์นี้ เราจะกล่าวถึงวิธีการทั่วไปของเราและสาธิตวิธีการ:

  • ใช้ประโยชน์จากที่เก็บ Ultralytics YOLOv5 ด้วย การกระจัดกระจายของ SparseML สูตร เพื่อสร้างแบบจำลอง YOLOv5 ที่มีการตัดแต่งกิ่งสูงและ INT8 เชิงปริมาณ;
  • ฝึก YOLOv5 กับชุดข้อมูลใหม่เพื่อจำลองประสิทธิภาพของเราด้วยข้อมูลของคุณเองโดยใช้ประโยชน์จากโมเดลที่แยกวิเคราะห์ล่วงหน้าใน SparseZoo;
  • ทำซ้ำเกณฑ์มาตรฐานของเราโดยใช้การผสานรวมและเครื่องมือดังกล่าวที่เชื่อมโยงจาก หน้ารุ่น Neural Magic YOLOv5.
  • เราได้จัดให้มีการสนทนาสดในวันที่ 31 สิงหาคม โดยมีศูนย์กลางอยู่ที่สามหัวข้อนี้ คุณสามารถดูการบันทึก DeepSparse vs. ONNX vs. PyTorch YOLOv5 Performance ที่นี่

    .

    รูปที่ 1 : การเปรียบเทียบประสิทธิภาพแบบเรียลไทม์ของ YOLOv5l (ขนาดแบทช์ 1) สำหรับการใช้งาน CPU ที่แตกต่างกันกับเกณฑ์มาตรฐาน GPU ทั่วไป

    .

    เราได้เผยแพร่การสนับสนุนก่อนหน้านี้สำหรับ ResNet-50 และ YOLOv3 แสดงประสิทธิภาพที่ดีกว่าการใช้งาน CPU 7x และ 6x ตามลำดับ วันนี้เราสนับสนุนอย่างเป็นทางการ YOLOv5 ตามด้วย BERT

    และรุ่นยอดนิยมอื่นๆ ในสัปดาห์หน้า

    บรรลุ ประสิทธิภาพระดับ GPU บน CPU

    ในเดือนมิถุนายน 2020 Ultralytics ทำซ้ำในแบบจำลองการตรวจจับวัตถุ YOLO โดยการสร้างและปล่อย YOLOv5 GitHub ที่เก็บ . การทำซ้ำใหม่ได้เพิ่มการมีส่วนร่วมใหม่ ๆ เช่น Focus convolutional block และมาตรฐานที่มากขึ้น แนวทางปฏิบัติที่ทันสมัย ​​เช่น การปรับขนาดแบบผสม เป็นต้น ไปจนถึงตระกูล YOLO ที่ประสบความสำเร็จอย่างมาก การทำซ้ำยังนับเป็นครั้งแรกที่โมเดล YOLO ได้รับการพัฒนาโดยกำเนิดภายใน PyTorch ซึ่งช่วยให้การฝึกอบรมเร็วขึ้นที่ FP16 และการฝึกอบรม quantization-aware (QAT)

    ใหม่ การพัฒนาใน YOLOv5 นำไปสู่โมเดลที่รวดเร็วและแม่นยำยิ่งขึ้นบน GPU แต่เพิ่มความซับซ้อนเพิ่มเติมสำหรับการปรับใช้ CPU Compound scaling การเปลี่ยนขนาดอินพุต ความลึก และความกว้างของเครือข่ายไปพร้อมกัน ส่งผลให้เครือข่ายขนาดเล็กที่ผูกกับหน่วยความจำ เช่น YOLOv5s ร่วมกับเครือข่ายขนาดใหญ่ขึ้นและมีการประมวลผลมากขึ้น เช่น YOLOv5l นอกจากนี้ บล็อกหลังการประมวลผลและโฟกัสยังใช้เวลาเป็นจำนวนมากในการดำเนินการเนื่องจากการเคลื่อนไหวของหน่วยความจำสำหรับ YOLOv5s และทำให้ YOLOv5l ช้าลง โดยเฉพาะอย่างยิ่งในขนาดอินพุตที่ใหญ่ขึ้น ดังนั้น เพื่อให้บรรลุประสิทธิภาพที่โดดเด่นสำหรับรุ่น YOLOv5 บน CPUs จำเป็นต้องมี ML เพิ่มเติมและความก้าวหน้าของระบบ

    ประสิทธิภาพการใช้งานระหว่าง GPU และ CPU นั้นแตกต่างกันอย่างมากจนถึงทุกวันนี้ ยกตัวอย่าง YOLOv5l ที่ขนาดแบทช์ 1 และขนาดอินพุต 640×640 มีช่องว่างในประสิทธิภาพมากกว่า 10 เท่า: A T4 FP16 อินสแตนซ์ GPU บน AWS ที่รัน PyTorch สำเร็จแล้ว

    ข่าวดีก็คือ CPU มีจำนวนพลังงานและความยืดหยุ่นที่น่าประหลาดใจ เราแค่ต้องใช้มันเพื่อให้ได้ประสิทธิภาพที่ดีขึ้น

    เพื่อแสดงให้เห็นว่าแนวทางของระบบที่แตกต่างกันสามารถเพิ่มประสิทธิภาพได้อย่างไร เราสลับ ONNX Runtime กับ DeepSparse Engine DeepSparse Engine มีความก้าวหน้าที่เป็นเอกสิทธิ์เฉพาะซึ่งสามารถรองรับข้อดีของฮาร์ดแวร์ CPU กับสถาปัตยกรรมรุ่น YOLOv5 ได้ดียิ่งขึ้น ความก้าวหน้าเหล่านี้ดำเนินการ เชิงลึก – ฉลาดผ่านเครือข่าย

    ใช้ประโยชน์จากแคชขนาดใหญ่ที่มีอยู่ใน CPU การใช้การตั้งค่า 24 คอร์แบบเดียวกับที่เราใช้กับ ONNX Runtime บนเครือข่าย FP32 ที่มีความหนาแน่นสูง DeepSparse สามารถเพิ่มประสิทธิภาพพื้นฐานเป็น 17.7 รายการ/วินาที การปรับปรุง 3 เท่า ซึ่งไม่รวมประสิทธิภาพที่เพิ่มขึ้นที่เราสามารถทำได้ผ่านอัลกอริธึมใหม่ภายใต้การพัฒนาที่ใช้งานอยู่ในขณะนี้ จะมีอีกมากในรุ่นถัดไป – คอยติดตาม.

    ผลลัพธ์ FP32 ที่หนาแน่นบน DeepSparse Engine มีการปรับปรุงที่โดดเด่น แต่ก็ยังช้ากว่า T4 GPU ถึง 3 เท่า แล้วเราจะปิดช่องว่างนั้นเพื่อเข้าถึงประสิทธิภาพระดับ GPU บน CPU ได้อย่างไร? เนื่องจากขณะนี้เครือข่ายมีการประมวลผลแบบผูกมัดเป็นส่วนใหญ่ เราจึงสามารถใช้ประโยชน์จากความบางเพื่อให้ได้รับการปรับปรุงประสิทธิภาพเพิ่มเติม ใช้ SparseML’s แนวทางที่ขับเคลื่อนโดยสูตร

    สำหรับการกระจายตัวของแบบจำลอง บวกกับการวิจัยจำนวนมากสำหรับการตัดแต่งเครือข่ายการเรียนรู้เชิงลึก เราประสบความสำเร็จในการสร้างแบบจำลอง YOLOv5l และ YOLOv5s ที่มีปริมาณน้อยและ INT8 ในปริมาณมาก เสียบโมเดล YOLOv5l ที่มีปริมาณน้อยกลับเข้าไปในการตั้งค่าเดียวกันกับ DeepSparse Engine เราสามารถทำได้ 52.6 รายการ/วินาที — ดีกว่า ONNX Runtime 9 เท่า และประสิทธิภาพเกือบเท่ากันกับการใช้งาน T4 ที่ดีที่สุด

    เจาะลึกตัวเลข

    YOLOv5s และ YOLOv5l ที่เปรียบเทียบแล้วมีสามรูปแบบที่แตกต่างกัน:

    1. พื้นฐาน (de nse FP32);
    2. ตัดแต่งแล้ว; Pruned-quantized (INT8)

    แผนที่ที่ IOU 0.5 ในชุดตรวจสอบความถูกต้องของ COCO คือ รายงานสำหรับโมเดลเหล่านี้ทั้งหมดในตารางที่ 1 ด้านล่าง (ค่าที่สูงกว่าจะดีกว่า) ข้อดีอีกประการของทั้งการตัดแต่งกิ่งและการหาปริมาณคือมันสร้างขนาดไฟล์ที่เล็กลงสำหรับการปรับใช้ ขนาดไฟล์บีบอัดสำหรับแต่ละรุ่นถูกวัดเพิ่มเติมและพบได้ในตารางที่ 1 (ค่าที่ต่ำกว่าจะดีกว่า) โมเดลเหล่านี้จะถูกอ้างอิงในตอนหลังด้วยตัวเลขการเปรียบเทียบแบบเต็มสำหรับการตั้งค่าการปรับใช้ต่างๆ

    หมายเลขเบนช์มาร์กด้านล่างทำงานบนเซิร์ฟเวอร์ที่พร้อมใช้งานใน AWS. รหัส สู่เกณฑ์มาตรฐาน และ สร้างแบบจำลอง is โอเพ่นซอร์สใน repo DeepSparse และ Repo SparseML ตามลำดับ การวัดประสิทธิภาพแต่ละรายการจะรวมเวลาจากต้นทางถึงปลายทาง ตั้งแต่การประมวลผลล่วงหน้า การดำเนินการแบบจำลอง ไปจนถึงการประมวลผลภายหลัง เพื่อสร้างตัวเลขที่แม่นยำสำหรับแต่ละระบบ มีการวอร์มอัพ 25 รายการโดยมีค่าเฉลี่ยของการวัดผลลัพธ์ 80 รายการ ผลลัพธ์จะถูกบันทึกเป็นรายการต่อวินาที (รายการ/วินาที) โดยที่ค่าที่มากกว่าจะดีกว่า

    เลือกเซิร์ฟเวอร์ CPU และจำนวนคอร์สำหรับแต่ละกรณีการใช้งานเพื่อให้แน่ใจว่า ความสมดุลระหว่างการตั้งค่าการปรับใช้และราคาที่แตกต่างกัน โดยเฉพาะ

    เซิร์ฟเวอร์ AWS C5 ถูกใช้เนื่องจากได้รับการออกแบบมาสำหรับปริมาณงานที่เน้นการประมวลผลและรวมทั้งสองไว้

    ชุดคำสั่ง AVX512 และ VNNI เนื่องจากความยืดหยุ่นทั่วไปของเซิร์ฟเวอร์ CPU จำนวนของคอร์จึงสามารถเปลี่ยนแปลงได้เพื่อให้เหมาะกับความต้องการในการปรับใช้ที่แน่นอนมากขึ้น ทำให้ผู้ใช้สามารถสร้างสมดุลระหว่างประสิทธิภาพและต้นทุนได้อย่างง่ายดาย และเพื่อระบุให้ชัดเจน เซิร์ฟเวอร์ CPU นั้นพร้อมใช้งานมากกว่า และรุ่นต่างๆ สามารถปรับใช้ได้ใกล้กับผู้ใช้ปลายทาง ช่วยลดเวลาเครือข่ายที่มีค่าใช้จ่ายสูง

    น่าเสียดายที่ GPU ทั่วไปที่มีอยู่ในระบบคลาวด์ไม่รองรับการเร่งความเร็วโดยใช้การกระจัดกระจายที่ไม่มีโครงสร้าง นี่เป็นเพราะขาดทั้งการสนับสนุนฮาร์ดแวร์และซอฟต์แวร์และเป็น พื้นที่การวิจัยที่ใช้งานอยู่ ในขณะที่เขียนนี้ ใหม่ A100s มีการสนับสนุนฮาร์ดแวร์สำหรับความกระจัดกระจายกึ่งโครงสร้าง แต่ไม่พร้อมใช้งาน เมื่อมีการสนับสนุน เราจะอัปเดตเกณฑ์มาตรฐานของเราในขณะที่เผยแพร่ต่อไปอย่างถูกต้อง ถูกกว่า และอีกมากมาย เป็นมิตรกับสิ่งแวดล้อม โครงข่ายประสาทผ่านแบบจำลองกระจัดกระจาย

    ประเภทรุ่น
    กระปรี้กระเปร่า ความแม่นยำ


    ขนาดไฟล์ (MB)
    DeepSparse vs. ONNX vs. PyTorch YOLOv5 Performance ฐาน YOLOv5l
    0%
    FP32 65.4147.3
    YOLOv5l ตัดแต่งแล้ว
    86.3%FP32
    64.3
    30.7

    YOLOv5l ตัดแต่งปริมาณแล้ว Transfer learning results on the VOC dataset for the YOLOv5 models.79.2%
    INT8

    62.3

    11.7
    ฐาน YOLOv5s
    0%

    FP3255.6

    23.7

    YOLOv5s ตัดแต่งแล้ว 75.6%

    FP32

    53.4
    7.8YOLOv5s ตัดแต่งจำนวนแล้ว

    68.2%INT8Transfer learning results on the VOC dataset for the YOLOv5 models.

    52.5
    3.1

    DeepSparse vs. ONNX vs. PyTorch YOLOv5 PerformanceTransfer learning results on the VOC dataset for the YOLOv5 models. ตารางที่ 1: YOLOv5 การกระจายตัวของแบบจำลองและผลการตรวจสอบ .. ประสิทธิภาพแฝง

    สำหรับการวัดเวลาแฝง เราใช้ขนาดแบทช์ 1 ถึง แสดงถึงเวลาที่เร็วที่สุดที่สามารถตรวจจับและส่งคืนรูปภาพได้ เซิร์ฟเวอร์ AWS แบบซ็อกเก็ตเดียวแบบ 24 คอร์ใช้เพื่อทดสอบการใช้งาน CPU ตารางที่ 2 ด้านล่างแสดงค่าที่วัดได้ (และแหล่งที่มาของรูปที่ 1) เราจะเห็นได้ว่าการรวม DeepSparse Engine กับโมเดลที่ตัดแล้วและควอนไทซ์จะช่วยเพิ่มประสิทธิภาพในการใช้งาน CPU ที่ดีที่สุดครั้งต่อไป เมื่อเปรียบเทียบกับ PyTorch ที่รันโมเดล pruned-quantized แล้ว DeepSparse คือ 6-7x เร็วขึ้นสำหรับทั้ง YOLOv5l และ YOLOv5s เมื่อเปรียบเทียบกับ GPU แล้ว YOLOv5l ที่ตัดปริมาณแล้วบน DeepSparse จะตรงกับ T4 และ YOLOv5s บน DeepSparse คือ 2.5x เร็วกว่า V100 และ 1.5x เร็วกว่า T4.


    อนุมาน เครื่องยนต์
    อุปกรณ์ ประเภทรุ่น YOLOv5s รายการ/วินาทีPyTorch GPU T4 FP32ฐาน
    26.8
    77.9

    PyTorch GPU
    T4 FP16ฐาน59.3 75.4

    PyTorch GPU

    V100 FP32ฐาน
    37.4

    46.3Transfer learning results on the VOC dataset for the YOLOv5 models.

    PyTorch GPU

    V100 FP16

    ฐาน38.5Transfer learning results on the VOC dataset for the YOLOv5 models.

    44.6
    DeepSparse vs. ONNX vs. PyTorch YOLOv5 Performance

    ซีพียู PyTorch

    24-Coreฐาน

    4.4
    10.6
    PyTorch CPU
    24-Core ตัดแต่ง 4.4
    10.6

    PyTorch ซีพียู

    24-Core

    ตัดแต่งจำนวนแล้ว 7.8

    16.6

    ONNX รันไทม์ CPU
    24-Core

    ฐาน5.815.2

    ONNX รันไทม์ CPU

    24-Core

    ตัดแต่งแล้ว

    5.815.2

    ซีพียูรันไทม์ ONNX

    24-Core

    ตัดแต่งจำนวนแล้ว

    5.414.9

    ลึกเบาบาง24-CoreTransfer learning results on the VOC dataset for the YOLOv5 models.
    ฐาน
    17.7Transfer learning results on the VOC dataset for the YOLOv5 models. 73.6
    DeepSparse24-Core ตัดแต่ง 27.6
    76.7

    24-Core ตัดแต่งจำนวนแล้ว
    52.6
    118.3Transfer learning results on the VOC dataset for the YOLOv5 models.DeepSparse vs. ONNX vs. PyTorch YOLOv5 Performance ตารางที่ 2: หมายเลขเกณฑ์มาตรฐานเวลาในการตอบสนอง (ขนาดแบทช์ 1) สำหรับ YOLOv5 .

    Transfer learning results on the VOC dataset for the YOLOv5 models. ประสิทธิภาพปริมาณงาน

    สำหรับการวัดปริมาณงาน เราใช้ขนาดแบทช์ 64 เพื่อแสดงกรณีการใช้งานแบบกลุ่มปกติสำหรับการเปรียบเทียบประสิทธิภาพปริมาณงาน นอกจากนี้ ขนาดแบทช์ที่ 64 ก็เพียงพอแล้วที่จะทำให้ประสิทธิภาพของ GPU และ CPU ในการทดสอบของเราอิ่มตัวอย่างเต็มที่ เซิร์ฟเวอร์ AWS แบบซ็อกเก็ตเดียวแบบ 24 คอร์ถูกใช้เพื่อทดสอบการใช้งาน CPU เช่นกัน ตารางที่ 3 ด้านล่างแสดงค่าที่วัดได้ เราจะเห็นได้ว่าตัวเลข V100 นั้นยากที่จะเอาชนะ อย่างไรก็ตาม การตัดแต่งกิ่งและการหาปริมาณรวมกับ DeepSparse เอาชนะประสิทธิภาพ T4 ได้ การรวมกันนี้ยังเอาชนะหมายเลข CPU ที่ดีที่สุดถัดไปโดย 16x สำหรับ YOLOv5l และ 10x สำหรับ YOLOv5s!

    เครื่องมืออนุมาน
    อุปกรณ์ ประเภทรุ่น
    รายการ YOLOv5l/วินาที รายการ YOLOv5s/วินาที PyTorch GPU

    T4 FP32

    ฐาน26.988.8


    PyTorch GPU

    T4 FP16ฐาน
    78.0 179.1

    PyTorch GPUV100 FP32
    ฐาน
    113.1239.9


    PyTorch GPU V100 FP16

    ฐาน

    215.9

    328.9Transfer learning results on the VOC dataset for the YOLOv5 models.

    ซีพียู PyTorch 24-Core

    ฐาน

    2.5

    8.5

    ซีพียู PyTorch 24-Core
    ตัดแต่ง
    2.5
    8.5
    ซีพียู PyTorch 24-Core
    ตัดแต่งจำนวนแล้ว

    6.0
    18.5 ONNX รันไทม์ CPU
    24-Core

    ฐาน4.7
    12.7

    ONNX รันไทม์ CPU

    24-Core
    ตัดแต่งแล้ว4.7

    12.7

    ONNX รันไทม์ CPU

    24-Core
    ตัดแต่งจำนวนแล้ว4.6
    12.5 กระจัดกระจาย
    24-Coreฐาน

    22.7 78.2


    DeepSparse

    24-Core ตัดแต่ง Transfer learning results on the VOC dataset for the YOLOv5 models.

    40.1

    100.5

    กระจัดกระจาย 24-Core

    ตัดแต่งกิ่ง ปริมาณ

    98.6DeepSparse vs. ONNX vs. PyTorch YOLOv5 Performance
    198.2

    Transfer learning results on the VOC dataset for the YOLOv5 models. ตารางที่ 3: หมายเลขมาตรฐานประสิทธิภาพปริมาณงาน (ขนาดชุดงาน 64) สำหรับ YOLOv5

    .

    ทำซ้ำด้วยข้อมูลของคุณเอง

    แม้ว่าผลการเปรียบเทียบข้างต้นจะน่าสังเกต แต่ Neural Magic ยังไม่เห็นโมเดลที่ปรับใช้จำนวนมากที่ได้รับการฝึกฝนบนชุดข้อมูล COCO นอกจากนี้ สภาพแวดล้อมการปรับใช้แตกต่างกันไปตั้งแต่คลาวด์ส่วนตัวไปจนถึงการตั้งค่ามัลติคลาวด์ ด้านล่างนี้ เราจะอธิบายเกี่ยวกับเนื้อหาเพิ่มเติมและขั้นตอนทั่วไปที่สามารถนำไปใช้กับทั้งการถ่ายโอนแบบจำลองแบบกระจายไปยังชุดข้อมูลของคุณเองและเปรียบเทียบแบบจำลองบนฮาร์ดแวร์การปรับใช้ของคุณเอง

    รูปที่ 2: ถ่ายทอดผลการเรียนรู้บน ชุดข้อมูล VOC

    สำหรับรุ่น YOLOv5 การเรียนรู้การถ่ายโอนแบบกระจัดกระจาย

    การวิจัยการเรียนรู้การถ่ายโอนแบบกระจัดกระจาย ยังคงดำเนินต่อไป; อย่างไรก็ตาม ผลงานที่น่าสนใจได้รับการตีพิมพ์ในช่วงไม่กี่ปีที่ผ่านมาจาก สมมติฐานสลากกินแบ่ง. เอกสารที่เน้นผลลัพธ์สำหรับการมองเห็นด้วยคอมพิวเตอร์และการประมวลผลภาษาธรรมชาติแสดงให้เห็นถึงการถ่ายทอดการเรียนรู้จากการเป็นอย่างกระจัดกระจาย

     ดีเท่ากับการตัดแต่งกิ่ง ตั้งแต่เริ่มต้นในงานดาวน์สตรีม 

    ถึง มีประสิทธิภาพเหนือกว่าการเรียนรู้การถ่ายโอนที่หนาแน่น

    ในแนวทางเดียวกันนี้ เราได้เผยแพร่ บทช่วยสอน เกี่ยวกับวิธีการถ่ายโอนการเรียนรู้จากแบบจำลอง YOLOv5 ที่กระจัดกระจายไปยังชุดข้อมูลใหม่ ง่ายเหมือนการตรวจสอบ ที่เก็บ SparseML เรียกใช้การตั้งค่าสำหรับ การรวม SparseML และ YOLOv5 จากนั้นเริ่มต้นคำสั่งบรรทัดคำสั่งด้วยข้อมูลของคุณ คำสั่งดาวน์โหลดโมเดลล่วงหน้า

    จาก SparseZoo

    และเริ่ม การฝึกอบรมในชุดข้อมูลของคุณ ตัวอย่างที่ถ่ายโอนจากแบบจำลอง YOLOv5l เชิงปริมาณที่ตัดแล้วได้รับด้านล่าง: python train.py –data voc .yaml –cfg ../models/yolov5l.yaml –weights zoo:cv/detection/yolov5-l/pytorch/ultralytics/coco/pruned_quant-aggressive_95?recipe_type=transfer –hyp data/hyp.finetune.yaml – -recipe ../recipes/yolov5.transfer_learn_pruned_quantized.md การเปรียบเทียบ

    เพื่อทำซ้ำการวัดประสิทธิภาพของเราและตรวจสอบประสิทธิภาพ DeepSparse บน การปรับใช้ของคุณเอง รหัสมีให้เป็น ตัวอย่างใน DeepSparse repo สคริปต์การเปรียบเทียบรองรับรุ่น YOLOv5 ที่ใช้ DeepSparse, ONNX Runtime (CPU) และ PyTorch GPU

    สำหรับรายการตัวเลือกทั้งหมดที่ทำงาน:

    หลามเบนช์มาร์ก.py –help.

    ตัวอย่างเช่น เพื่อเปรียบเทียบประสิทธิภาพ YOLOv5l ที่ตัดทอนแล้วของ DeepSparse บน CPU ที่เปิดใช้งาน VNNI ของคุณ ให้รัน: หลามเบนช์มาร์ก.py zoo:cv/detection/yolov5-l/pytorch/ultralytics/coco/pruned_quant-aggressive_95 –batch-size 1 –quantized-inputs

    บทสรุป

    DeepSparse Engine ที่ผสานกับแนวทางที่ขับเคลื่อนโดยสูตรของ SparseML ช่วยให้ประสิทธิภาพระดับ GPU สำหรับตระกูล YOLOv5 ของรุ่นต่างๆ ประสิทธิภาพการอนุมานดีขึ้น 6-7 เท่าสำหรับ la tency และ 16x สำหรับทรูพุตบน YOLOv5l เมื่อเทียบกับเอ็นจิ้นการอนุมาน CPU อื่นๆ บทแนะนำการเรียนรู้การโอนย้ายและการเปรียบเทียบช่วยให้สามารถประเมินแบบจำลองประสิทธิภาพอย่างตรงไปตรงมาบนชุดข้อมูลและการปรับใช้ของคุณเอง ดังนั้นคุณจึงได้รับประโยชน์เหล่านี้จากแอปพลิเคชันของคุณเอง

    สิ่งเหล่านี้ ชัยชนะที่เห็นได้ชัดเจนไม่ได้หยุดเพียงแค่นั้นด้วย YOLOv5 เราจะเพิ่มสิ่งที่เป็นไปได้ให้สูงสุดด้วยการกระจายตัวและการปรับใช้ CPU ผ่านความกระจัดกระจายที่สูงขึ้น อัลกอริธึมที่มีประสิทธิภาพสูงที่ดีขึ้น และการพัฒนาโปรแกรมมัลติคอร์ที่ล้ำสมัย ผลลัพธ์ของความก้าวหน้าเหล่านี้จะถูกส่งไปยัง repos โอเพ่นซอร์สของเราเพื่อให้ทุกคนได้รับประโยชน์ อยู่ในปัจจุบันโดยนำแสดงโดยของเรา ที่เก็บ GitHub หรือสมัครรับจดหมายข่าวประสิทธิภาพ ML รายเดือนของเรา
    ที่นี่

    .

    เราขอแนะนำให้คุณลองใช้โมเดลที่ไม่รองรับและรายงานกลับมาที่ GitHub Issue เข้าคิว ในขณะที่เราทำงานอย่างหนักเพื่อขยายข้อเสนอแบบจำลองที่เบาบางและเบาบางของเรา . และเพื่อโต้ตอบกับผลิตภัณฑ์และทีมวิศวกรรมของเรา ร่วมกับผู้ใช้ Neural Magic และนักพัฒนาอื่นๆ ที่สนใจในการแบ่งแบบจำลองและเร่งประสิทธิภาพการอนุมานการเรียนรู้เชิงลึก เข้าร่วมกับเรา หย่อน หรือ วาทกรรม ชุมชน

  • Trang chủ
  • ธุรกิจ อาหาร ไลฟ์สไตล์ เทค มาร์เก็ตติ้งดิจิทัล (การตลาดดิจิทัล)

    Back to top button