Siêu máy tính Heftiest rơi nặng nhất, nhà nghiên cứu cho thấy

CÃ¡ sáº¥u mÃµm ngáº¯n giáº¿t cháº¿t Äá»ng loáº¡i Äá» Än thá»t

Mục lục:

Fiala trình bày công nghệ mà ông và các nhà nghiên cứu đồng phát triển có thể giúp cải thiện độ tin cậy . Công nghệ này giải quyết vấn đề tham nhũng dữ liệu thầm lặng, khi hệ thống làm cho các lỗi không bị phát hiện ghi dữ liệu vào đĩa.

Khi siêu máy tính phát triển mạnh hơn, chúng cũng sẽ dễ bị tổn thương hơn do lỗi tăng lên nhờ thành phần tích hợp. Một vài nhà nghiên cứu tại hội nghị SC12 gần đây ở Salt Lake City, Utah đã đưa ra các giải pháp khả thi cho vấn đề này.

Các hệ thống tính toán hiệu suất cao (HPC) ngày nay có thể có 100.000 nút hoặc nhiều hơn. các thành phần của bộ nhớ, bộ vi xử lý, xe buýt và mạch khác. Theo thống kê, tất cả các thành phần này sẽ thất bại tại một thời điểm nào đó, và họ ngừng hoạt động khi họ làm như vậy, David Fiala, một sinh viên tiến sĩ tại Đại học bang Bắc Carolina, trong một cuộc nói chuyện tại SC12.

một cái mới, tất nhiên. Khi ASCI 600-nút của Phòng thí nghiệm quốc gia Lawrence Livermore (Sáng kiến máy tính chiến lược tăng tốc) Siêu máy tính trắng đã trực tuyến vào năm 2001, nó có thời gian trung bình giữa thất bại (MTBF) chỉ năm giờ, một phần nhờ thất bại thành phần. Những nỗ lực điều chỉnh sau này đã cải thiện MTBF của ASCI White lên 55 giờ, Fiala nói.

Nhưng khi số lượng nút siêu máy tính tăng lên, thì vấn đề sẽ xảy ra. Nó sẽ trở nên tệ hơn khi chúng ta chuyển sang exascale, "Fiala nói, đề cập đến cách siêu máy tính của thập kỷ tới được kỳ vọng sẽ có gấp 10 lần sức mạnh tính toán mà các mô hình ngày nay làm.

để đối phó với sự thất bại của hệ thống có thể không quy mô rất tốt, Fiala nói. Ông trích dẫn kiểm tra, trong đó một chương trình đang tạm dừng và trạng thái của nó được lưu vào đĩa. Nếu chương trình bị sập, hệ thống có thể khởi động lại công việc từ trạm kiểm soát cuối cùng.

NCSUDavid Fiala Vấn đề với việc kiểm tra, theo Fiala, là khi số lượng nút tăng lên, lượng hệ thống trên đầu cần thiết để làm checkpointing phát triển là tốt và phát triển ở một tỷ lệ mũ. Ví dụ, trên một siêu máy tính 100.000 nút, chỉ có khoảng 35 phần trăm hoạt động sẽ được tham gia vào việc thực hiện công việc. Phần còn lại sẽ được kiểm tra bởi hệ thống kiểm tra và nên là một hệ thống không phục hồi hoạt động, Fiala ước tính.

Vì tất cả phần cứng bổ sung cần thiết cho hệ thống exascale, có thể được xây dựng từ hàng triệu thành phần trở lên. <100> cũ, lời khuyên tốt: sao lưu dữ liệu

Fiala trình bày công nghệ mà ông và các nhà nghiên cứu đồng phát triển có thể giúp cải thiện độ tin cậy. Công nghệ này giải quyết vấn đề tham nhũng dữ liệu thầm lặng, khi hệ thống làm cho các lỗi không bị phát hiện ghi dữ liệu vào đĩa.

Về cơ bản, cách tiếp cận của các nhà nghiên cứu bao gồm chạy nhiều bản sao, hoặc "nhân bản" của một chương trình, đồng thời và sau đó so sánh các câu trả lời. Phần mềm này, được gọi là RedMPI, được chạy cùng với Giao diện truyền tin nhắn (Message Passing Interface - MPI), một thư viện để chia nhỏ các ứng dụng đang chạy trên nhiều máy chủ để các phần khác nhau của chương trình có thể được thực thi song song.

RedMPI chặn và sao chép mọi MPI thông báo rằng một ứng dụng gửi và gửi các bản sao của thông điệp tới bản sao (hoặc bản sao) của chương trình. Nếu các bản sao khác nhau tính toán các câu trả lời khác nhau, thì các con số có thể được tính toán lại nhanh chóng, điều này sẽ tiết kiệm thời gian và tài nguyên để chạy lại toàn bộ chương trình.

"Việc thực hiện dự phòng không tốn kém. đó là cần thiết, nhưng nó tránh được sự cần thiết phải viết lại với điểm kiểm tra khởi động lại, "Fiala nói. "Thay thế là, tất nhiên, chỉ đơn giản là chạy lại công việc cho đến khi bạn nghĩ rằng bạn có câu trả lời đúng."

Fiala đề nghị chạy hai bản sao lưu của mỗi chương trình, cho dự phòng ba. Mặc dù chạy nhiều bản sao của một chương trình ban đầu sẽ chiếm nhiều tài nguyên hơn, theo thời gian nó có thể thực sự hiệu quả hơn, do thực tế là các chương trình sẽ không cần phải chạy lại để kiểm tra câu trả lời. Ngoài ra, việc kiểm tra điểm có thể không cần thiết khi nhiều bản sao được chạy, cũng sẽ tiết kiệm được tài nguyên hệ thống.

UCSCEthan Miller

"Tôi nghĩ ý tưởng thực hiện dự phòng thực sự là một ý tưởng tuyệt vời." Đối với các tính toán rất lớn, liên quan đến hàng trăm nghìn nút, chắc chắn là một cơ hội mà các lỗi sẽ leo lên ", Ethan Miller nói, giáo sư khoa học máy tính tại Đại học California Santa Cruz, người đã tham dự buổi thuyết trình. Nhưng ông cho biết cách tiếp cận này có thể không phù hợp với lượng lưu lượng mạng mà sự dư thừa đó có thể tạo ra. Ông đề nghị chạy tất cả các ứng dụng trên cùng một tập hợp các nút, có thể giảm thiểu lưu lượng truy cập internode.

Trong bài thuyết trình khác, Ana Gainaru, sinh viên tiến sĩ từ Đại học Illinois tại Urbana-Champaign, đã trình bày một kỹ thuật phân tích nhật ký tập tin để dự đoán khi nào xảy ra lỗi hệ thống.

Công việc kết hợp phân tích tín hiệu với khai phá dữ liệu. Phân tích tín hiệu được sử dụng để mô tả hành vi bình thường, vì vậy khi xảy ra lỗi, nó có thể dễ dàng phát hiện. Khai thác dữ liệu tìm kiếm các mối tương quan giữa các lỗi báo cáo riêng biệt. Các nhà nghiên cứu khác đã chỉ ra rằng nhiều thất bại đôi khi tương quan với nhau, bởi vì một thất bại với một công nghệ có thể ảnh hưởng đến hiệu suất ở những người khác, theo Gainaru. Ví dụ, khi một card mạng bị hỏng, nó sẽ nhanh chóng làm xáo trộn các quá trình hệ thống khác dựa trên truyền thông mạng.

Các nhà nghiên cứu phát hiện ra rằng 70% thất bại tương quan cung cấp một cửa sổ cơ hội hơn 10 giây. Nói cách khác, khi phát hiện dấu hiệu đầu tiên của sự thất bại, hệ thống có thể có tới 10 giây để lưu công việc của nó, hoặc di chuyển công việc đến một nút khác, trước khi xảy ra lỗi nghiêm trọng hơn. "Dự đoán thất bại có thể được kết hợp với các kỹ thuật chịu lỗi khác", Gainaru nói.

Joab Jackson bao gồm phần mềm doanh nghiệp và tin tức công nghệ chung cho

Dịch vụ tin tức IDG. Theo dõi Joab trên Twitter tại @Joab_Jackson. Địa chỉ email của Joab là [email protected]

Một nghiên cứu gần đây về trình duyệt Web đã cho thấy rằng quá ít được cập nhật với các bản vá lỗi bảo mật mới nhất. Và các trình duyệt không đơn độc; như mẹ yêu quý của tôi có thể chứng thực, có thể rất khó để theo kịp với hệ điều hành và các bản vá ứng dụng khi bạn chỉ muốn làm là sử dụng máy tính của bạn để làm việc. Firefox đạt được những điểm số cao trong nghiên cứu trình duyệt vì tính năng cập nhật tự động, nó sẽ thông báo cho người sử dụng các bản vá lỗi mới nhất ngay khi chúng được "

[ĐọC thêm: Hộp NAS tốt nhất cho truyền thông và sao lưu phương tiện truyền thông]

Nvidia và các đối tác đang cung cấp máy tính cá nhân mới với giá dưới 10.000 USD. Nvidia, làm việc với một số đối tác, đã phát triển Siêu máy tính cá nhân Tesla, được hỗ trợ bởi một bộ xử lý đồ họa dựa trên kiến trúc tính toán Cuda của Nvidia. Các máy tính sử dụng bộ xử lý GPU Tesla C1060 sẽ có khả năng xử lý 250 lần so với máy trạm PC điển hình, cho phép các nhà nghiên cứu chạy các mô phỏng phức tạp, thí nghiệm và đánh số mà không chia sẻ một cụm máy tính siêu siêu. máy tính thứ ba, sẽ bán vớ

Một mạng lưới các máy tính có thể tốn 100 lần chi phí của một trong số các máy trạm Tesla, Nvidia nói

Phóng vệ tinh là một vụ ồn ào đặc biệt là cho vệ tinh trên đỉnh tên lửa. Rung động và tiếng ồn, trừ khi được đền bù, có thể làm cho nó vô dụng trước khi nó đạt đến quỹ đạo vì vậy các nhà nghiên cứu dành nhiều thời gian cho các mô phỏng máy tính phức tạp giúp họ cách ly các thủ công tinh tế. Bây giờ những mô phỏng này chuẩn bị chính xác hơn nhờ một siêu máy tính mới bắt đầu hoạt động trong tuần này tại Nhật Bản.

Máy tính Fujitsu FX1 đã được khánh thành vào thứ Tư bởi Cơ quan thám hiểm vũ trụ Nhật Bản. Nó có 3.008 nút mỗi trong số đó có một bộ vi xử lý Sparc64 VII 4 lõi. Máy có 94 terabyte bộ nhớ và hiệu năng đỉnh cao lý thuyết là 120 teraflop (một teraflop là một nghìn tỷ điểm hoạt động trong một giây).

Siêu máy tính Heftiest rơi nặng nhất, nhà nghiên cứu cho thấy

CÃ¡ sáº¥u mÃµm ngáº¯n giáº¿t cháº¿t Äá»ng loáº¡i Äá» Än thá»t

Mục lục:

Bài viết thú vị

Công cụ lập trình tốt nhất để dạy kèm cho trẻ em

3 Công cụ ghi hình ảnh USB hỗ trợ GUI tốt nhất trên Linux

10 Plugin Gutenberg Blocks hữu ích nhất cho WordPress

3 Các lựa chọn thay thế VoIP khác cho Skype

Academix GNU/Linux

Công cụ Truy cập Hệ thống Tệp Linux từ Windows

Công cụ lập trình tốt nhất để dạy kèm cho trẻ em

3 Công cụ ghi hình ảnh USB hỗ trợ GUI tốt nhất trên Linux

10 Plugin Gutenberg Blocks hữu ích nhất cho WordPress

Công cụ lập trình tốt nhất để dạy kèm cho trẻ em

3 Công cụ ghi hình ảnh USB hỗ trợ GUI tốt nhất trên Linux

10 Plugin Gutenberg Blocks hữu ích nhất cho WordPress

Siêu máy tính Heftiest rơi nặng nhất, nhà nghiên cứu cho thấy

CÃ¡ sáº¥u mÃµm ngáº¯n giáº¿t cháº¿t Äá»ng loáº¡i Äá» Än thá»t

Mục lục:

Đề xuất

Bài viết thú vị

CÃ¡ sáº¥u mÃµm ngáº¯n giáº¿t cháº¿t Äá»ng loáº¡i Äá» Än thá»t