Car-tech

Siêu máy tính Heftiest rơi nặng nhất, nhà nghiên cứu cho thấy

Cá sấu mõm ngắn giết chết đồng loại để ăn thịt

Cá sấu mõm ngắn giết chết đồng loại để ăn thịt

Mục lục:

Anonim

Khi siêu máy tính phát triển mạnh hơn, chúng cũng sẽ dễ bị tổn thương hơn do lỗi tăng lên nhờ thành phần tích hợp. Một vài nhà nghiên cứu tại hội nghị SC12 gần đây ở Salt Lake City, Utah đã đưa ra các giải pháp khả thi cho vấn đề này.

Các hệ thống tính toán hiệu suất cao (HPC) ngày nay có thể có 100.000 nút hoặc nhiều hơn. các thành phần của bộ nhớ, bộ vi xử lý, xe buýt và mạch khác. Theo thống kê, tất cả các thành phần này sẽ thất bại tại một thời điểm nào đó, và họ ngừng hoạt động khi họ làm như vậy, David Fiala, một sinh viên tiến sĩ tại Đại học bang Bắc Carolina, trong một cuộc nói chuyện tại SC12.

một cái mới, tất nhiên. Khi ASCI 600-nút của Phòng thí nghiệm quốc gia Lawrence Livermore (Sáng kiến ​​máy tính chiến lược tăng tốc) Siêu máy tính trắng đã trực tuyến vào năm 2001, nó có thời gian trung bình giữa thất bại (MTBF) chỉ năm giờ, một phần nhờ thất bại thành phần. Những nỗ lực điều chỉnh sau này đã cải thiện MTBF của ASCI White lên 55 giờ, Fiala nói.

Nhưng khi số lượng nút siêu máy tính tăng lên, thì vấn đề sẽ xảy ra. Nó sẽ trở nên tệ hơn khi chúng ta chuyển sang exascale, "Fiala nói, đề cập đến cách siêu máy tính của thập kỷ tới được kỳ vọng sẽ có gấp 10 lần sức mạnh tính toán mà các mô hình ngày nay làm.

để đối phó với sự thất bại của hệ thống có thể không quy mô rất tốt, Fiala nói. Ông trích dẫn kiểm tra, trong đó một chương trình đang tạm dừng và trạng thái của nó được lưu vào đĩa. Nếu chương trình bị sập, hệ thống có thể khởi động lại công việc từ trạm kiểm soát cuối cùng.

NCSUDavid Fiala Vấn đề với việc kiểm tra, theo Fiala, là khi số lượng nút tăng lên, lượng hệ thống trên đầu cần thiết để làm checkpointing phát triển là tốt và phát triển ở một tỷ lệ mũ. Ví dụ, trên một siêu máy tính 100.000 nút, chỉ có khoảng 35 phần trăm hoạt động sẽ được tham gia vào việc thực hiện công việc. Phần còn lại sẽ được kiểm tra bởi hệ thống kiểm tra và nên là một hệ thống không phục hồi hoạt động, Fiala ước tính.

Vì tất cả phần cứng bổ sung cần thiết cho hệ thống exascale, có thể được xây dựng từ hàng triệu thành phần trở lên. <100> cũ, lời khuyên tốt: sao lưu dữ liệu

Fiala trình bày công nghệ mà ông và các nhà nghiên cứu đồng phát triển có thể giúp cải thiện độ tin cậy. Công nghệ này giải quyết vấn đề tham nhũng dữ liệu thầm lặng, khi hệ thống làm cho các lỗi không bị phát hiện ghi dữ liệu vào đĩa.

Về cơ bản, cách tiếp cận của các nhà nghiên cứu bao gồm chạy nhiều bản sao, hoặc "nhân bản" của một chương trình, đồng thời và sau đó so sánh các câu trả lời. Phần mềm này, được gọi là RedMPI, được chạy cùng với Giao diện truyền tin nhắn (Message Passing Interface - MPI), một thư viện để chia nhỏ các ứng dụng đang chạy trên nhiều máy chủ để các phần khác nhau của chương trình có thể được thực thi song song.

RedMPI chặn và sao chép mọi MPI thông báo rằng một ứng dụng gửi và gửi các bản sao của thông điệp tới bản sao (hoặc bản sao) của chương trình. Nếu các bản sao khác nhau tính toán các câu trả lời khác nhau, thì các con số có thể được tính toán lại nhanh chóng, điều này sẽ tiết kiệm thời gian và tài nguyên để chạy lại toàn bộ chương trình.

"Việc thực hiện dự phòng không tốn kém. đó là cần thiết, nhưng nó tránh được sự cần thiết phải viết lại với điểm kiểm tra khởi động lại, "Fiala nói. "Thay thế là, tất nhiên, chỉ đơn giản là chạy lại công việc cho đến khi bạn nghĩ rằng bạn có câu trả lời đúng."

Fiala đề nghị chạy hai bản sao lưu của mỗi chương trình, cho dự phòng ba. Mặc dù chạy nhiều bản sao của một chương trình ban đầu sẽ chiếm nhiều tài nguyên hơn, theo thời gian nó có thể thực sự hiệu quả hơn, do thực tế là các chương trình sẽ không cần phải chạy lại để kiểm tra câu trả lời. Ngoài ra, việc kiểm tra điểm có thể không cần thiết khi nhiều bản sao được chạy, cũng sẽ tiết kiệm được tài nguyên hệ thống.

UCSCEthan Miller

"Tôi nghĩ ý tưởng thực hiện dự phòng thực sự là một ý tưởng tuyệt vời." Đối với các tính toán rất lớn, liên quan đến hàng trăm nghìn nút, chắc chắn là một cơ hội mà các lỗi sẽ leo lên ", Ethan Miller nói, giáo sư khoa học máy tính tại Đại học California Santa Cruz, người đã tham dự buổi thuyết trình. Nhưng ông cho biết cách tiếp cận này có thể không phù hợp với lượng lưu lượng mạng mà sự dư thừa đó có thể tạo ra. Ông đề nghị chạy tất cả các ứng dụng trên cùng một tập hợp các nút, có thể giảm thiểu lưu lượng truy cập internode.

Trong bài thuyết trình khác, Ana Gainaru, sinh viên tiến sĩ từ Đại học Illinois tại Urbana-Champaign, đã trình bày một kỹ thuật phân tích nhật ký tập tin để dự đoán khi nào xảy ra lỗi hệ thống.

Công việc kết hợp phân tích tín hiệu với khai phá dữ liệu. Phân tích tín hiệu được sử dụng để mô tả hành vi bình thường, vì vậy khi xảy ra lỗi, nó có thể dễ dàng phát hiện. Khai thác dữ liệu tìm kiếm các mối tương quan giữa các lỗi báo cáo riêng biệt. Các nhà nghiên cứu khác đã chỉ ra rằng nhiều thất bại đôi khi tương quan với nhau, bởi vì một thất bại với một công nghệ có thể ảnh hưởng đến hiệu suất ở những người khác, theo Gainaru. Ví dụ, khi một card mạng bị hỏng, nó sẽ nhanh chóng làm xáo trộn các quá trình hệ thống khác dựa trên truyền thông mạng.

Các nhà nghiên cứu phát hiện ra rằng 70% thất bại tương quan cung cấp một cửa sổ cơ hội hơn 10 giây. Nói cách khác, khi phát hiện dấu hiệu đầu tiên của sự thất bại, hệ thống có thể có tới 10 giây để lưu công việc của nó, hoặc di chuyển công việc đến một nút khác, trước khi xảy ra lỗi nghiêm trọng hơn. "Dự đoán thất bại có thể được kết hợp với các kỹ thuật chịu lỗi khác", Gainaru nói.

Joab Jackson bao gồm phần mềm doanh nghiệp và tin tức công nghệ chung cho

Dịch vụ tin tức IDG. Theo dõi Joab trên Twitter tại @Joab_Jackson. Địa chỉ email của Joab là [email protected]