Các nhà khai thác dữ liệu đôi lúc gặp phải các lỗi có thể dẫn đến việc toàn bộ đơn vị dữ liệu dừng hoạt động. Tuy nhiên, hầu hết các sự cố này đều cũng có thể có thể tránh được thông qua các biện pháp bảo trì, thủ tục kiểm tra và bởi chính cảm giác và kinh nghiệm của những người vận hành hệ thống.
Một “trung tâm dữ liệu bị mất điện ngoài ý muốn” là 1 cách nói lịch sự lúc nói tới việc một dịch vụ dữ liệu gặp trục trặc dẫn đến ngừng hoạt động. Cho dù nguyên do gốc rễ là bắt nguồn từ lỗi phần cứng, lỗi phần mềm hay lỗi của con người đi chăng nữa thì đa số các lỗi này đều có thể, và nên được chống lại từ trước. Với mức độ dự phòng rủi ro cao được áp dụng trong những cửa hàng dữ liệu ngày nay, việc phòng ngừa trước các sự cố là hoàn toàn khả thi.
Có một điều thú vị là, các lỗi to nhỏ vẫn cũng có thể có thể diễn ra mọi lúc trong một công ty dữ liệu, và những thiệt hại gây nên khi các cửa hàng dữ liệu ngừng hoạt động là không hề nhỏ, dù là chỉ trong một phút. Theo một nghiên cứu của Data Center Knowledge, việc ngừng hoạt động của cửa hàng dữ liệu có thể khiến doanh nghiệp tốn khoảng 7.900 USD mỗi phút. Trong thực tế, 93% các trung tâm có công ty dữ liệu bị downtime trong 10 ngày hoặc hơn đều vỡ nợ trong khoảng 1 năm và 40% sụp đổ ngay lập tức. Và một nghiên cứu khác trên 41 đơn vị dữ liệu được đánh giá cho biết thiệt hại bình quân của các sự cố dừng hoạt động ngoài ý muốn bao gồm hơn 179 nghìn đô la trong đứt quãng kinh doanh, khoảng 118 nghìn đô la trong doanh thu bị mất và khoảng 42 nghìn đô la về năng suất làm việc. Nếu các nhà quản lý công ty dữ liệu chỉ dễ dàng là tập trung hơn vào việc nghiên cứu và khắc phục các nguyên do chính gây ra các lỗi thường gặp, họ sẽ làm giảm được đáng kể những nguy cơ tiềm ẩn.
Vấn đề là ở chỗ biết bao nhà khai thác và vận hành dịch vụ dữ liệu thường chỉ tập trung nhiều vào tăng trưởng, doanh thu thay vì bảo dưỡng và củng cố những gì đã có sẵn. Nếu bạn để ý các quản trị viên ở nhiều công ty dữ liệu công cộng và riêng tư ngày nay, bạn sẽ thấy rằng họ gần như chỉ quan tâm đến việc làm sao để tăng dung lượng lưu trữ, tăng mật độ máy chủ, và chuẩn bị thêm cho các cụm máy chủ đã lỗi thời thành các cơ sở tối tân hơn với hệ thống làm mát hiệu quả hơn chẳng hạn. Tuy rằng tất cả điều đây là rất tốt, rất cần có rồi cho biết sự tăng trưởng đáng kinh ngạc trong nghề công nghiệp lưu giữ dữ liệu, nó cũng cho ta thấy nguyên nhân tại sao hiện tượng các công ty dữ liệu gặp sự cố ngày càng xảy ra phổ biến hơn.
Ở trong bài viết này, chúng ta sẽ tìm hiểu những lý do phổ biến dẫn đến việc các đơn vị dữ liệu bị vô hiệu hóa, cùng theo đó nêu lên những gì các nhà quản trị có thể làm để giảm thiểu hoặc cho dù loại bỏ hoàn toàn những sự cố này, cũng như nâng lên tính ổn định cho hệ thống của mình.
Những nguyên nhân dẫn đến sập Data Center
- Lỗi do loài người gây nên
- Ủy quyền hệ thống không đúng cách
- Thủ tục dự trữ kém
- Thực hiện quá độ những sự thay đổi
- Lỏng lẻo trong quản lý nhân sự
- Lỗi do hệ thống
- Năng lượng dự trữ không đảm bảo, trang thiết bị lâu đời hoặc bị định sai cấu hình.
- Trục trặc trong hệ thống làm mát
- Quy trình tự động chuyển đổi không đúng chức năng
- Phần cứng lỗi thời
- Hệ thống chữa cháy gặp vấn đề về rò rỉ nước
- Tắt nguồn nguy cấp bị kích hoạt tình cờ
- Bị tiến công mạng, ddos
- Thảm họa thiên nhiên
- Các bước có hạn những thiệt hại do sự cố “sập” trung tâm dữ liệu
Lỗi do loài người gây nên
Đây là những lý do đơn giản nhất và cũng là một trong các điều khó tránh nhất. Nói một cách đơn giản, mọi người đều có thể mắc lỗi. Với 22% sự cố ngừng hoạt động xuất phát từ lỗi của con người, lý do này rất đáng được cho xét 1 cách cẩn thận và quan trọng là các lỗi này đều cũng đều có thể được phòng ngừa kha khá dễ dàng.
Ủy quyền hệ thống không đúng cách
Trên thực tế, có rất ít quản trị viên có quyền truy cập đầy đặn và không có hạn vào mọi thứ các hệ thống trong đơn vị dữ liệu. Thay vì cấp quyền này cho nhiều người hơn, truy cập phải được quản lý chặt chẽ. Nếu không, việc diễn ra lỗi nghiêm trong trên hệ thống là hoàn toàn khả thi. Đơn cử như vụ Joyent trong năm 2014, một quản trị viên có hiểu biết đã vô tình khởi động lại tất cả những máy ảo trong trung tâm dữ liệu phía đông của trung tâm chỉ với một vài cú nhấp chuột.
Thủ tục dự trữ kém
Khi lập kế hoạch cho những trọng trách bảo trì, một bước quan trọng nhưng hay bị quên lãng nhất là quy trình dự phòng. Thông thường, các quy trình tuy được ghi lại nhưng không được nghĩ xét kỹ lưỡng và nhiều khi người ta lại không hoàn toàn hoàn nguyên mọi thứ về hình thức ban đầu sau khi bảo trì.
Thực hiện quá độ những sự thay đổi
Trong thời gian bảo trì, nếu quản trị viên cố gắng thực hành quá nhiều thay đổi và một lúc thì điều này hoàn toàn cũng có thể gây ra một vài vấn đề. Đầu tiên, các quản trị viên thường sẽ có tâm lý vội vã vì họ phải xong xuôi một con số lớn các trọng trách trong 1 khoảng thời gian ngắn, điều đó thường dẫn đến những sai lầm. Thứ hai, chính vì rất nhiều thay đổi đang xảy ra trong cùng một khung thời gian, nó làm cho những vấn đề sau xử lý sự cố trước thay đổi trở thành một trọng trách khó khăn hơn nhiều.
Lỏng lẻo trong quản lý nhân sự
Nghe có vẻ hơi khắc nghiệt, nhưng các nhân viên luôn phải biết tuân thủ chặt chẽ nội quy trong đơn vị và phải bị kỷ luật nặng khi vi phạm. Ví dụ, không có dịch vụ dữ liệu nào cho phép nhân viên được ăn uống trong lúc làm việc hay công tắc nguy cấp phải được dán nhãn rõ rệt và đã được bảo vệ. Những điều đó tưởng chừng nhỏ nhưng đều có thể dẫn đến các sự cố lớn, vì thế hãy đảm bảo nội quy luôn được chấp hành nghiêm ngặt..
Lỗi do hệ thống
Năng lượng dự trữ không đảm bảo, trang thiết bị lâu đời hoặc bị định sai cấu hình.
Lý do thông dụng nhất khiến một trung tâm dữ liệu phải ngừng hoạt động là vì mất điện. Mất điện có thể xảy ra mọi lúc. Do đó, các trung tâm dữ liệu được thiết kế với những nguồn năng lượng dự phòng trong tình huống nguồn chính bị ngắt. Pin hoặc hệ thống máy phát điện thường được sử dụng làm nguồn dự phòng. Vấn đề là, pin cũng có thể không được thay thế kịp thời, máy phát điện không được kiểm tra, bảo dưỡng dẫn đến trục trặc khi có sự cố mất điện xảy ra. Tất cả những điều ấy còn có tức là các khả năng dự phòng của bạn cũng có thể không khả dụng khi bạn cần đến chúng nhất.
Trong trường hợp cúp điện, hệ thống UPS sử dụng pin làm năng lượng dự phòng, làm cho chúng trở thành phần nào thiết yếu để duy trì thời gian hoạt động cho những dịch vụ dữ liệu. Tuy nhiên, pin không phải lúc nào cũng hoạt động tốt. Thực hiện bảo dưỡng được khuyến nghị bởi chính các nhà cung cấp để kiểm tra trạng thái pin. Ít nhất hàng quý, pin phải được kiểm tra để lắp đặt, xả và sạc đúng cách. Điều này bao gồm kiểm tra trực quan, kiểm tra dung lượng và giám sát đều đều thông qua phần mềm hoặc chính dịch vụ cung cấp UPS.
Ngoài ra độ nóng cao có thể tinh giảm tuổi thọ pin của hệ thống. Xây dựng một phòng UPS chuyên dụng cũng đều có thể giúp giảm bớt tình trạng hao mòn tuổi thọ pin. Bạn cũng cần được tránh xả pin đều đặn và khống chế tốt các kết nối lỏng lẻo hoặc các đầu nối bị mòn. Tóm lại, UPS là một hệ thống đặc biệt quan trọng, nó yêu cầu phải được thiết kế hợp lý, sử dụng đúng cách và bảo trì nghiêm ngặt.
Trục trặc trong hệ thống làm mát
Các hệ thống máy móc trong một công ty dữ liệu tiêu hao rất nhiều điện năng, cùng nghĩa với việc chúng tỏa ra một lượng nhiệt lớn nhất trong khi vận hành. Một dịch vụ dữ liệu có thể trở thành một cái lò thiêu sau một phút vận hành. Đó là nguyên nhân tại sao hệ thống làm mát đóng vai trò tối quan trọng. Và ngay cả khi bạn có cảm biến độ nóng đọc và cảnh báo gửi đến quản trị viên, bạn phải chắc chắn rằng bạn có đủ thời gian để thực hành các thủ tục làm mát dự phòng của công ty trước lúc mọi thứ bị “tan chảy”.
Ngoài ra, nhiều hệ thống làm mát không đích thực được thiết kế để đuổi theo kịp với chừng độ nhiệt tăng lên trong 1 đơn vị dữ liệu hiện đại hiệu suất lớn. Một lần nữa, việc vạch ra những trường hợp cửa hàng dữ liệu của bạn hoạt động với 100% công suất có thể giúp lên kế hoạch xây dựng những hệ thống làm mát tốt hơn trong tương lai. Việc thiết lập các hệ thống cảnh báo những bất ổn trong nhiệt độ của hệ thống cũng khá cần thiết. Bạn có thể sử dụng một số phần mềm loại hình hóa nhiệt cùng một số hệ thống DCIM. Ngoài ra, các chất làm lạnh hóa học là một chọn lựa tốt hơn so với các hệ thống dựa trên nước.
Quy trình tự động chuyển đổi không đúng chức năng
Hầu hết các nhà sản xuất trung tâm và tổ chức, doanh nghiệp đều có dịch vụ dữ liệu dự trữ sử dụng cho các đơn vị dữ liệu về sản xuất. Trong trường hợp xảy ra sự cố mất điện tại dịch vụ dữ liệu chính, dịch vụ dữ liệu dự phòng sẽ tự động được khởi động và mọi thứ lưu lượng truy cập sẽ được chuyển đến cơ sở dự phòng đó. Nếu được thực hành đúng cách, quy trình phải diễn ra liền lạc cho đến người sử dụng cuối cùng. Thật không may, các failover tự động thường không hoạt động như mong đợi. Nguyên nhân thông thường cho sự cố đây là việc thiếu kiểm tra thường xuyên. Ngay cả các thay đổi nhỏ trong cơ sở hạ tầng sản xuất cũng cũng đều có thể có tác động lớn đến công đoạn chuyển đổi dự trữ tự động. Vì vậy, khi thực hiện bất kỳ thay đổi vào đối với cơ sở hạ tầng, các thủ tục chuyển đổi dự phòng tự động sẽ phải được kiểm tra để đảm bảo không có gì đi lệch khỏi quy trình.
Phần cứng lỗi thời
Tất cả phần cứng của mỗi hệ thống đều có tuổi thọ nhất định. Và nếu bạn sử dụng phần nào cứng càng lâu thì sẽ càng có nhiều khả năng gặp phải sự cố. Mọi người đều đã biết điều này, nhưng tình huống một ứng dụng quan trọng gặp trục trặc chỉ vì nó đang chạy trên phần cứng 10 năm tuổi vẫn thường xảy ra. Những việc này thường phát sinh do thiếu kế hoạch thay thế và nâng cấp toàn diện đối với nền tảng phần cứng hoặc ứng dụng mới, hoặc do thiếu ngân sách. Nếu đó là vấn đề về tiền bạc, bạn chẳng thể làm được gì hơn. Nhưng nếu bạn chỉ đơn giản là cố gắng tận dụng được càng lâu càng tốt, sự cố có thể xảy ra bất cứ lúc nào, và khi đó, thiệt hại gây ra bởi sự cố có thể còn lớn hơn rất nhiều.
Hệ thống chữa cháy gặp vấn đề về rò rỉ nước
Hầu hết các trung tâm dữ liệu hiện đại đều sử dụng các hệ thống chống cháy không sử dụng nước để chúng không làm hỏng thiết bị nếu được kích hoạt có mục tiêu hoặc do vô tình. Nhưng nhiều cơ sở cũ vẫn sử dụng hệ thống chống cháy truyền thống trong số trung tâm dữ liệu của họ. Nhiều trường hợp rò rỉ nước đã gây ra những sự cố ngừng hoạt động lớn.
Tắt nguồn khẩn cấp bị kích hoạt tình cờ
Mức độ bảo mật vật lý cao được áp dụng tại đa số các dịch vụ dữ liệu không đơn giản là ngăn ngừa bọn trộm. Chúng cũng sẽ được đặt ra để né những nhân viên không hiểu về phong thái đầu tiên cửa hàng dữ liệu hoạt động. Ví dụ như một quản trị viên phần mềm đi vào công ty dữ liệu và vô tình kích hoạt tắt nguồn nguy cấp (EPO). EPO là một nút lớn màu đỏ, có nhiệm vụ cắt điện cho toàn bộ hệ thống. Và rõ ràng, đối với những người không hiểu, không có chuyên môn, những sự lầm lẫn như vậy là hoàn toàn cũng đều có thể xảy ra.
Bị tiến công mạng, ddos
Trong những năm qua, những vụ tấn công mạng đã trở thành một trong số nguyên do hàng đầu của những vụ “sập” dịch vụ dữ liệu, chỉ còn 2% trong năm 2010 lên đến 22% trong năm 2016. Các nhà khai thác cửa hàng dữ liệu phải hành động để thiết lập hệ thống phát hiện và giảm thiểu sớm những nguy cơ bị tấn công.
Các công ty dữ liệu khó có thể phòng ngự trước một cuộc tiến công DDoS có quy mô lớn. Hầu hết các ISP cung cấp một số bảo vệ ở lớp 3 và lớp 4 của hệ thống mạng, nhưng các dịch vụ của bạn cần bảo quản thêm ở lớp 7, cũng có thể có thể được nhắm mục đích cụ thể thông qua HTTP GET hoặc các cuộc tiến công tương tự. Các trung tâm giúp giảm nhẹ thiệt hại như tường lửa, IPS/IDS và DDoS có thể được phối hợp để định tuyến lại lưu lượng.
Thảm họa thiên nhiên
Các cơn bão, lũ lụt gia tăng trong thời gian vừa đây cũng đều có thể gây ra những tê liệt đáng kể cho các trung tâm dữ liệu. Hơn 250 thảm họa tự nhiên đã diễn ra vào năm 2010 ở nước Mỹ. Theo các thống kê, bang New Jersey, Mỹ đã phải chịu 63,9 tỷ USD tổn thất do ngắt quãng mua bán gây nên là siêu bão Sandy vào năm 2012.
Các bước có hạn những thiệt hại do sự cố “sập” công ty dữ liệu
Nếu thời gian tạm ngừng để bảo dưỡng định kỳ được lên kế hoạch cẩn trọng và các khách hàng đã được cảnh báo trước về thời gian ngừng hoạt động của trung tâm, nhất là trong 1 khoảng thời gian mà lưu lượng truy cập thấp, khách hàng sẽ đơn giản thông cảm hơn và những thiệt hại cũng sẽ được giảm đi đáng kể. Thiệt hại lớn xảy ra là lúc nó diễn ra bất ngờ, và nhất là lúc hiện diện kéo dài, và có thêm những vấn đề phát sinh. Giữ cho hệ thống tài nguyên của toàn bộ công ty ổn định để các chuyên viên cũng có thể có thể thực hành công việc của mình 1 cách hiệu quả, giảm bớt gánh nặng lên vai của các bộ phận CNTT.
Cụ thể:
- Sao lưu dữ liệu của bạn: Trong tình huống bạn cần đối mặt với sự cố ngừng hoạt động dịch vụ dữ liệu, dữ liệu của mình (và quan trọng hơn là dữ liệu khách hàng của bạn) sẽ phải luôn sẵn sàng khi bạn bắt đầu khắc phục sự cố và chạy lại. Thực hiện sao lưu đều đặn làm hạn chế nguy cơ của 1 cuộc khủng hoảng thực sự. Nếu công ty của bạn có đủ khả năng tài chính, một số sản phẩm như dòng sản phẩm VPLEX của EMC hoặc ứng dụng Backup and Replication của VEEAM hoàn toàn có thể giúp giảm thiểu thời gian sự cố bằng cách tự động chuyển qua địa thế sao lưu dự phòng.
- Duy trì sự giám sát đều đều đối với hệ thống máy chủ: Giám sát là đơn vị bạn có thể thực hiện thường xuyên và thường không tốn quá nhiều chi phí. Dịch vụ quan sát của bên thứ 3 sẽ thông báo cho các nguy cơ khi máy server cũng có thể có thể ngừng hoạt động để bạn cũng có thể giải quyết vấn đề ngay lập tức.
- Giảm thiểu lỗi do nhân loại gây ra: Hãy thận trọng khi làm việc hoặc đi bộ xung quanh hệ thống máy server hoặc dây điện để né vô tình làm hỏng hay đơn giản là đừng chạm vào những công tắc huyền bí khi bạn không có chuyên môn. Giữ cho chất lỏng tránh xa khỏi hệ thống máy móc. Gọi cho chuyên gia bảo quản dữ liệu bất kể bao giờ máy chủ cần cải tiến hoặc bảo trì, và tuân thủ nội quy của trung tâm.
Mỗi công ty dữ liệu, từ những công ty nhỏ cho tới các cơ sở có quy mô doanh nghiệp và nhà cung cấp dịch vụ, phải gắng gượng 100% khả năng để cung cấp các công ty đáng tin cậy cho người dùng. Bằng cách dành thời gian lên kế hoạch cho tương lai, tuân thủ những nguyên tắc về duy trì, bảo dưỡng và cả các yếu tố con người, dịch vụ dữ liệu của bạn có thể tránh được một số nguyên nhân thông dụng nhất dẫn đến sự cố ngừng hoạt động.
Xem thêm
- Những trung tâm dữ liệu lớn số 1 hành tinh
- Xây dựng dịch vụ dữ liệu theo mô hình điện toán đám mây
- Làm sao để Facebook duy trì máy server khỏi bị sập?
- Khám phá bên trong đơn vị dữ liệu của Facebook ở châu Âu
- 3 đặc tính khiến giới IT không thể bỏ lỡ 6U Wall Mount, sản phẩm thay đổi khái niệm cồng kềnh trong công ty dữ liệu
data center,trung tâm dữ liệu,sự cố trung tâm dữ liệu,sập trung tâm dữ liệu,ngắt kết nối trung tâm dữ liệu,trung tâm dữ liệu dừng hoạt động,nguyên nhân sập trung tâm dữ liệu,khắc phục sập trung tâm dữ liệu,tại sao sập trung tâm dữ liệu
Nội dung Những lý do dẫn đến sập Data Center được tổng hợp sưu tầm biên tập bởi: Tin Học Trường Tín. Mọi ý kiến vui lòng gửi Liên Hệ cho truongtin.top để điều chỉnh. truongtin.top tks.
Bài Viết Liên Quan
Bài Viết Khác
- Sửa Wifi Tại Nhà Quận 4
- Cài Win Quận 3 – Dịch Vụ Tận Nơi Tại Nhà Q3
- Vệ Sinh Máy Tính Quận 3
- Sửa Laptop Quận 3
- Dịch Vụ Cài Lại Windows 7,8,10 Tận Nhà Quận 4
- Dịch Vụ Cài Lại Windows 7,8,10 Tận Nhà Quận 3
- Tuyển Thợ Sửa Máy Tính – Thợ Sửa Máy In Tại Quận 4 Lương Trên 10tr
- Tuyển Thợ Sửa Máy Tính – Thợ Sửa Máy In Tại Quận 3
- Download Free Screen Recorder 10.7
- 3 cách hạn chế Windows Defender sử dụng CPU trong Windows 10
- Top 10 Đơn Vị Lắp Đặt Camera Quan Sát Nhà Kho Ở Quận 7
- Dịch Vụ Sửa Máy Tính Đường Hoa Giấy Quận Bình Thạnh
- Nén file PDF, giảm dung lượng PDF cực nhanh