Làm thế nào để triển khai AI cạnh trên FPGA sử dụng các công cụ quen thuộc

June 1, 2026
tin tức mới nhất của công ty về Làm thế nào để triển khai AI cạnh trên FPGA sử dụng các công cụ quen thuộc

AI ở rìa mạng hiếm khi chỉ có nghĩa là suy luận. Việc triển khai trong thế giới thực thường bao gồm đầu vào/đầu ra (I/O) tốc độ cao, điều hòa tín hiệu và các vòng điều khiển thời gian thực, tất cả đều được thực thi đồng thời. Những khối lượng công việc đa chức năng này đòi hỏi sự phối hợp chặt chẽ và độ chắc chắn cao, và các nhà thiết kế gặp khó khăn trong việc đáp ứng các yêu cầu này bằng cách sử dụng phần cứng AI chính thống.

Hai yếu tố làm cho vấn đề này trở nên phức tạp hơn. Thứ nhất, các mô hình AI đang phát triển với tốc độ đáng kinh ngạc, thúc đẩy các nhà thiết kế áp dụng các nền tảng hỗ trợ cập nhật thuật toán nhanh chóng. Trong khi đó, nhiều hệ thống biên đã được sử dụng tại chỗ tới mười năm hoặc lâu hơn, gây khó khăn cho việc đảm bảo khả năng thích ứng lâu dài. Thứ hai, con đường từ các mô hình được đào tạo bài bản đến triển khai và triển khai hệ thống vẫn còn rời rạc. Các nhà khoa học dữ liệu sử dụng PyTorch và TensorFlow, trong khi các nhóm nhúng sử dụng các chuỗi công cụ hoàn toàn khác nhau, điều này tạo ra xung đột trong quá trình chuyển giao và làm chậm tốc độ sản xuất.

Để giải quyết những thách thức này, các nền tảng cần có khả năng kết hợp quy trình xử lý AI thông lượng cao với hành vi xác định, I/O linh hoạt và khả năng thích ứng lâu dài, tất cả những điều này phải đạt được trong phạm vi tiêu thụ điện năng thông thường khi triển khai biên giới hạn.

Bài viết này tập trung vào các kịch bản ứng dụng và các yêu cầu liên quan thách thức các nhà thiết kế khám phá các kiến ​​trúc AI biên mới. Sau đó, nó giới thiệu các thiết bị và công cụ phần mềm mảng cổng lập trình trường (FPGA) của Altera hỗ trợ AI biên và trình bày cách sử dụng chúng để đáp ứng các yêu cầu về hiệu suất và năng lượng đa dạng của các ứng dụng này.

Sự phát triển của AI biên đòi hỏi phải đổi mới kiến ​​trúc
Các hệ thống biên đang ngày càng áp dụng các công nghệ AI đa dạng, bao gồm máy học cổ điển (ML) để phát hiện sự bất thường, mạng thần kinh tích chập (CNN) để nhận thức và bộ chuyển đổi cho các mô hình ngôn ngữ lớn (LLM). Các thuật toán tính toán chuyên sâu này thường cùng tồn tại với các chức năng không phải AI như xử lý tín hiệu, giao tiếp mạng và điều khiển thời gian thực.

Hệ thống tự trị là một ví dụ điển hình. Họ thường cần thu thập dữ liệu từ nhiều phương thức cảm biến như video, âm thanh, radar, LiDAR và phản hồi chuyển động/vị trí, xử lý trước các luồng dữ liệu này với thông lượng cao, phân tích kết quả bằng AI phức tạp và sau đó quản lý các vòng điều khiển có độ chính xác cao, tất cả đều yêu cầu khả năng xác định đáng tin cậy.

Có nhiều ví dụ tương tự trong các ứng dụng tự động hóa công nghiệp, hình ảnh y tế, quốc phòng và viễn thông. Một thách thức chung mà họ gặp phải là kiến ​​trúc truyền thống khó thích ứng với khối lượng công việc hội tụ liên tục.

Tại sao FPGA đặc biệt phù hợp với AI biên
Ngược lại, những yêu cầu này hoàn toàn tương thích với chức năng của FPGA. Cốt lõi của FPGA là cung cấp logic có thể định cấu hình để thực hiện các hoạt động theo cách thực sự song song, với hành vi định thời của nó được nhúng vào thời điểm thiết kế thay vì dao động trong thời gian chạy. Kiến trúc này có thể đạt được tính quyết định có độ trễ thấp, điều này rất quan trọng đối với AI biên. Logic linh hoạt cũng có thể sử dụng I/O mạnh mẽ: FPGA thường cung cấp I/O tốc độ cao dồi dào, có thể được kết nối với nhiều cảm biến và bộ truyền động khác nhau để đạt được khả năng khớp nối chặt chẽ với quá trình xử lý AI.

FPGA cũng bao gồm bộ nhớ trong phân tán, cho phép truy cập dữ liệu bằng logic hoạt động trên nó. Điều này làm giảm tắc nghẽn phát sinh khi nhiều giai đoạn xử lý phải cạnh tranh để truy cập bus bộ nhớ dùng chung, đây là hạn chế phổ biến trong kiến ​​trúc dựa trên bộ xử lý.

Nhiều FPGA cũng tích hợp phần cứng xử lý tín hiệu số (DSP) chuyên dụng. So với các cấu trúc thông thường, các mạch nâng cao này mang lại hiệu suất cao hơn và tiết kiệm năng lượng tốt hơn cho khối lượng công việc xử lý tín hiệu. Một số FPGA cũng tích hợp hệ thống bộ xử lý có dây cứng có thể chạy các ngăn xếp phần mềm tiêu chuẩn (bao gồm cả Linux), cho phép phát triển phần mềm truyền thống cho các tác vụ như kết nối mạng, quản lý thiết bị và giao diện người dùng.

Nói tóm lại, một FPGA duy nhất có thể tích hợp các chức năng có thể yêu cầu các chip I/O, bộ tăng tốc AI, DSP và bộ xử lý mặt phẳng điều khiển riêng biệt. Điều này có thể làm giảm Định mức Vật liệu (BOM), thu nhỏ diện tích bảng mạch, giảm mức tiêu thụ điện năng trong khi vẫn duy trì độ trễ thấp và độ chắc chắn cần thiết cho các ứng dụng AI biên.

Cách mở ra những khả năng mới với việc bổ sung các khối tensor AI
Phần cứng FPGA DSP truyền thống vốn đã rất phù hợp với nhiều khối lượng công việc biên, nhưng khả năng suy luận của AI thường dựa vào các hoạt động nhân dày đặc nhưng có độ chính xác thấp. Để giải quyết vấn đề này, các thiết bị Agilex 3 và Agilex 5 của Altera sử dụng DSP nâng cao với các khối tensor AI. Đây là phần cứng chuyên dụng cho phép nhân ma trận ma trận và ma trận vectơ, xuất hiện nhiều lần trong các biểu đồ tính toán AI.

Cốt lõi của phương pháp này là tích vô hướng và công cụ cộng/tích lũy (Hình 1). Ở chế độ tensor, công cụ điểm có dây cứng sử dụng đầu vào 8 bit và trọng số 8 bit được tải trước để thực hiện tích 10 phần tử chấm. Để mở rộng phạm vi động, đường dẫn dữ liệu cũng có thể sử dụng "chỉ mục chung" được chia sẻ để chia tỷ lệ dấu phẩy động khối nhằm đối phó với các tình huống điển hình trong đó suy luận AI thường yêu cầu phạm vi động cao nhưng độ chính xác thấp.