Lỗi khi IOPS tăng khiến cho app bị mất kết nối với pvc

Last modified by Admin on 2023/12/04 09:26

Trường hợp khách hàng báo:

Bên mình đang gặp lỗi khi IOPS tăng khiến cho app bị mất kêt nối với pvc, cụ thể đây là longhorn

Những thông tin khách hàng nghi ngờ:

  1. Ổ cứng SSD nhưng IOPS thấp như HDD.
  2. Bandwith và Datatransfer không đúng WAN là 100mbps và LAN là 1gb.

Bước 1. Hướng dẫn KH check benchmark ổ cứng theo lệnh sau:

# fio --randrepeat=1 --ioengine=libaio --direct=1 --gtod_reduce=1 --name=fiotest --filename=testfio --bs=4k --iodepth=64 --size=8G --readwrite=randrw --rwmixread=75

—direct=1 test trực tiếp vào ổ cưngd
—direct=0 test gián tiếp (IO buffering qua CPU/RAM)

Kết quả IOPS là 14.000

Và kết quả chuẩn là ổ cứng SSD

Bước 2. Xin được KH mô hình sync và ổ cứng chậm và ổ cứng snapshot nhanh và phân tích

image2023-1-3_15-20-37.png

Qua sơ đồ này có thể có 1 số hướng test để chứng minh hạ tầng BFC vẫn ổn định và cần KH kiểm tra lại Longhorn

I. KH có snapshot ổ cứng đó ra và khẳng định cùng 1 mô hình là ổ cứng snap vẫn sử dụng longhorn và sync dữ liệu nhanh. Tuy nhiên KH không hiểu sau khi clone ra xong chạy trên server đó thì vẫn là chạy trên volume của bizflycloud chứ không phải chạy trên volume mà được tạo ra bởi longhorm nên nó sẽ nhanh hơn.

II. Bỏ longhorn ở server chậm và sync lại.
III. Sync trực tiếp từ ổ /dev/vdf  1.6T  1.1T  429G  73% /data/assets từ worker đến Server đích.