Đăng ngày: 09/01/2018

Chỉ hai năm sau, Nimble đã nâng cấp mức độ sẵn sàng của hệ thống lên tới 99.999928%. Điều này có nghĩa, hệ thống CNTT được cài đặt với Nimble luôn đảm bảo tính hoạt động liên tục, tổng thời gian sự cố xảy ra chỉ còn dưới 25 giây mỗi năm - cải thiện đến 4 lần chỉ trong trong hơn 2 năm.

Ngày nay, nền móng cho sự vận hành ổn định và phát triển của doanh nghiệp đều dựa hoàn toàn vào hệ thống CNTT. Khả năng mở rộng và miễn dịch tốt trước sự xâm nhập trái phép từ tội phạm mạng cũng là một trong những tính năng cần có để xây dựng hệ thống quản trị An toàn - Hiệu quả - Linh động. Ngoài ra, để qui trình kinh doanh có thể hoạt động hết công suất, không bị gián đoạn bởi bất kì yếu tố khách quan cũng là một trong những yếu tố cạnh tranh chủ lực giữa các doanh nghiệp. Nghiên cứu gần đây cho thấy chi phí trung bình trong một giờ hệ thống quản lí không hoạt động mất khoảng nửa triệu đô la, con số này còn có khả năng tăng cao trong các ngành công nghiệp. Qua đó mới thấy được hết tầm quan trọng trong việc xây dựng cơ sở hạ tầng “sẵn sàng”, có khả năng hoạt động liên tục và loại bỏ hẳn thời gian chết trong các sự cố ngoài ý muốn, đảm bảo không làm gián đoạn một phút kinh doanh của bạn.

Kể từ khi thành lập, Nimble, nay thuộc Hewlett Packard Enterprise, đã đầu tư và nghiên cứu vào sứ mệnh đầy tham vọng để phá vỡ khuôn mẫu, không chỉ tạo ra sự sẵn sàng tốt hơn cho sản phẩm mà còn cho phép cải tiến liên tục về sau.

Vào năm 2014, Nimble (nay thuộc Hewlett Packard Enterprise) đã công bố thành tựu đạt được như một bước đột phá: hệ thống đã luôn sẵn sàng hoạt động liên tục với tỉ lệ 99.999928%. Chỉ hai năm sau, Nimble đã nâng cấp mức độ sẵn sàng của hệ thống lên tới 99.999928%. Điều này có nghĩa, hệ thống CNTT được cài đặt với Nimble luôn đảm bảo tính hoạt động liên tục, tổng thời gian sự cố xảy ra chỉ còn dưới 25 giây mỗi năm - cải thiện đến 4 lần chỉ trong trong hơn 2 năm.

Các sản phẩm lưu trữ mới của HPE Nimble đảm bảo tính sẵn sàng cho hệ thống, giảm thiểu thời gian chết đến mức thấp nhất

Theo công bố từ HPE, các sản phẩm của HPE Nimble hiện nay có các đặc điểm nổi bật sau:

1. Các sản phẩm của HPE Nimble được đo lường dựa trên các giá trị thực, đã đạt được, không phải là dự báo lý thuyết.

2. Các sản phẩm của HPE Nimble được đo cho toàn bộ cơ sở đã cài đặt, bao gồm mọi mô hình và hệ điều hành đã ra mắt.

3. Không ngừng được cải thiện.

4. Đó là tiêu chuẩn cho tất cả các sản phẩm, không yêu cầu các điều khoản hoặc dịch vụ đặc biệt.

Sự đổi mới này đặt ra câu hỏi - Nimble làm điều đó như thế nào?

Cơ sở cho độ tin cậy của hệ thống tại Nimble bắt đầu với kiến ​​trúc của lớp nền lưu trữ.

Theo đó, không có điểm nào cho thấy các sản phẩm mới dừng hoạt động trong tình huống sự cố nào.

Dữ liệu mà Nimble thu thập được từ thiết bị lưu trữ cho phép tính được tính sẵn sàng để được đo đếm đến mili giây. Mặc dù hầu hết các mảng đều không có thời gian chết, bất kỳ trong thời gian ngừng hoạt động nào xảy ra đều đã được xác định, phân loại và lưu trữ tự động. Các quá trình theo dõi, đánh giá này được duy trì một cách nghiêm ngặt và tất cả thời gian chết được biết trước để đảm bảo rằng mọi tác động đến khách hàng được nắm bắt chính xác.

Ngăn chặn thời gian chết bằng InfoSight Predictive Analytics

Sự phức tạp và biến đổi giữa các ứng dụng, cơ sở hạ tầng, và cấu hình đã làm cho các vấn đề gây ra do thời gian chết không thể tránh khỏi. Để hạn chế vấn đề này, Nimble đã áp dụng một phương pháp là nhúng các bộ cảm biến chẩn đoán vào mỗi mã mô-đun từ ngày đầu tiên vận hành nhằm xây dựng nền tảng phân tích hiệu suất, thời gian thực, sức khoẻ và phân tích hiệu năng. Cho đến nay, mỗi hệ thống chứa hàng nghìn bộ thu cảm biến và InfoSight Predictive Analytics chịu trách nhiệm thu thập và tương quan hàng triệu điểm dữ liệu cảm biến mỗi giây trên cơ sở đã được cài đặt của nó, cho phép đưa ra tầm nhìn toàn diện và khả năng học hỏi sau những sự cố một cách thông minh.

Các cảm biến trên toàn bộ cơ sở hạ tầng để có thể nhận biết chính xác được nguyên nhân gốc rễ của vấn đề trong và ngoài thiết bị lưu trữ

Định nghĩa hệ-thống-CNTT-biết-học-hỏi theo cách của Nimble

Hệ thống CNTT của Nimble có khả năng học hỏi qua công nghệ được gọi là InfoSight. InfoSight áp dụng dữ liệu khoa học từ chuyên gia của HPE  để xác định, dự đoán và ngăn ngừa các vấn đề trên các lớp cơ sở hạ tầng CNTT. Đối với bất kỳ sự cố mới nào nằm ngoài dữ liệu khoa học đã được lập trình trước, InfoSight sẽ sử dụng một các thông minh các thuật toán đã được cài đặt kết hợp với việc học hỏi các sự cố đã trải qua để đưa ra cho người quản trị giải pháp thích hợp nhất.Trong trường hợp phát hiện ra được vấn đề bất thường, InfoSight sẽ ngăn ngừa sự cố xảy ra hoặc chủ động giải quyết qua việc phân tích cơ sở dữ liệu thu được . Qua đó, mỗi hệ thống sẽ trở nên thông minh hơn do học hỏi mỗi ngày qua các cơ sở dữ liệu đã cài đặt cũng như từ những sự cố đã xảy ra. Do đó, hệ thống ngày càng làm việc ổn định và bền vững hơn, theo đó cũng giảm thiểu được tối đa thời gian chết.

Đối với các vấn đề ngoài thiết bị lưu trữ, chẳng hạn cấu hình sai, lỗi máy chủ, mạng lưới mạng hoặc lỗi VM đều có thể ảnh hưởng đến đường dẫn dữ liệu I/O. Đó là lí do Nimnle nhúng cảm biến trên toàn bộ cơ sở hạ tầng để có thể nhận biết chính xác được nguyên nhân gốc rễ của vấn đề ngoài thiết bị lưu trữ. HPE Nimble cho biết, thực tế đến nay có 54% các vấn đề InfoSight giải quyết nằm ngoài bộ nhớ.

 

Nguyên tác xử lí sự cố của HPE Nimble

1. Phân tích dữ liệu: InfoSight liên tục giám sát và phân tích từ xa trên cơ sở  các cảm biến được gắn trên các thiết bị lưu trữ trên toàn cầu – Ước tính có hàng triệu báo cáo từ các cảm biến mỗi giây từ hơn 10.000 khách hàng.

3. Phân tích nguyên nhân gốc: Đối với các vấn đề phức tạp, một kỹ sư PEAK chuyên dụng sẽ được chỉ định, phối hợp với kỹ thuật và InfoSight để nhanh chóng chẩn đoán nguyên nhân gốc rễ, kể cả các vấn đề ngoài thiết bị lưu trữ.

4. Giải quyết vấn đề: Kỹ sư PEAK dựa trên dữ liệu phân tích, sau đó đưa ra  kế hoạch giải quyết, xác minh hoàn thành các bản sửa lỗi và kết thúc sự cố.

5. Phòng ngừa lỗi lặp: InfoSight áp dụng các thuật toán đã được cài đặt sẵn kết hợp với việc học hỏi các sự cố đã trải qua để xác định, dự đoán, và ngăn chặn các hệ thống khác gặp cùng một vấn đề.

Chi tiết sản phẩm download tại đâytại đây.