UX Note Day 23 - Data sampling trong nghiên cứu ... có vẻ không khó lắm
Khó là ở sự chính trực của người làm
Bài viết này:
Chia sẻ những điều cá nhân học hỏi được, đem ra anh em cùng mổ xẻ
Có phần hơi lý thuyết hàn lâm nhưng tác giả cũng đã cố kéo về cách diễn tả “dân dã” nhất mà không đánh mất tính khoa học.
Tập trung vào cách lấy sample size trong nghiên cứu UX và CX.
0. Tại sao lại là nghiên cứu UX và CX?
Để lý giải việc gộp nghiên cứu UX (User Experience) và CX (Customer Experience) vào chung một phần về sample size, ta cần nhìn vào cả mối liên hệ lý thuyết lẫn thực tiễn triển khai:
Về lý thuyết
Cùng bản chất khoa học xã hội: UX và CX đều là nghiên cứu hành vi con người, mục tiêu chung là hiểu cách người dùng/khách hàng trải nghiệm, cảm nhận và ra quyết định. Do đó, việc chọn mẫu luôn xoay quanh cùng một câu hỏi cơ bản:
Bao nhiêu người là đủ để đảm bảo kết quả có giá trị khoa học và thực tiễn?
Cùng nguyên tắc thống kê: Dù nghiên cứu một giao diện (UX) hay một hành trình đa kênh (CX), các công thức tính mẫu (ví dụ Cochran), khái niệm confidence level, margin of error, hay “điểm bão hòa” trong định tính đều áp dụng giống nhau.
Về thực tiễn triển khai
UX tập trung vào trải nghiệm với sản phẩm/dịch vụ (ví dụ: thao tác trên app, độ dễ dùng của một giao diện).
CX rộng hơn, bao gồm toàn bộ hành trình khách hàng với thương hiệu (quảng cáo, mua hàng, sử dụng dịch vụ, chăm sóc sau bán).
Thực tế, một nghiên cứu CX thường bao gồm các điểm chạm UX; ngược lại, một nghiên cứu UX tốt thường phải đặt trong bối cảnh CX tổng thể.
Doanh nghiệp cần nhìn tổng thể: Các công ty lớn (Google, Amazon, các ngân hàng số…) đều dùng kết hợp: usability test (UX) để tối ưu điểm chạm, survey NPS/CSAT (CX) để đo cảm nhận toàn hành trình. Nếu tách biệt hoàn toàn, sẽ thiếu cái nhìn hệ thống.
Về ý nghĩa khi gộp chung trong phần sample size
Tránh phân mảnh: Người đọc dễ hiểu bức tranh toàn diện hơn khi thấy rằng cả UX và CX, dù phạm vi khác nhau, đều phải giải quyết bài toán “bao nhiêu mẫu thì đủ?”.
So sánh để học hỏi lẫn nhau: UX thiên về định tính, mẫu nhỏ nhưng lặp nhiều vòng; CX thiên về định lượng, mẫu lớn và khái quát. Gộp hai loại nghiên cứu lại cho phép chỉ ra sự khác biệt này và cách bổ sung lẫn nhau.
Ứng dụng thực tế: Một dự án nghiên cứu tại doanh nghiệp thường kết hợp cả UX lẫn CX. Ví dụ: một ngân hàng số có thể vừa phỏng vấn 10 người dùng để tìm pain points trong app (UX), vừa chạy survey 400 khách hàng để đo #CSAT toàn hành trình (CX).
Hãy review một chút về lý thuyết trong phần 1, soi xét 1 ví dụ nghiên cứu khoa học của Việt Nam ở phần 2 và đi qua các best practice ở phần 3.
Lưu ý: Best practice không phải Absolute theory.
1. Sampling và vị trí trong nghiên cứu khoa học
Trong nghiên cứu khoa học, đặc biệt là trong UX (User Experience) và CX (Customer Experience), sampling là cách ta chọn ra một nhóm nhỏ từ toàn bộ khách hàng hoặc người dùng để đại diện cho quần thể. Thay vì khảo sát hay quan sát tất cả mọi người – điều gần như bất khả thi – chúng ta chỉ cần một nhóm đủ lớn và đủ đa dạng để phản ánh đặc điểm chung. Vì vậy, **sample size** (kích thước mẫu) là một quyết định then chốt: nó ảnh hưởng trực tiếp đến độ tin cậy, khả năng khái quát và cả chi phí nghiên cứu.
Trong quy trình nghiên cứu tổng thể, chọn mẫu nằm ở giai đoạn thiết kế nghiên cứu, ngay sau khi đã xác định câu hỏi nghiên cứu và giả thuyết. Nếu bước này sai, kết quả thu được dù phân tích tinh vi đến đâu cũng khó có giá trị.
Về nguyên lý, cỡ mẫu cần cân bằng giữa “đủ để giảm sai số” và “không quá nhiều để lãng phí”. Một trong những công thức cơ bản và phổ biến nhất là Cochran (1963):

Trong đó:
n0n_0n0: số mẫu tối thiểu cần thiết (sample size).
Z: giá trị Z trong phân phối chuẩn, được tra từ bảng Z theo mức độ tin cậy (confidence level).
Ví dụ: mức tin cậy 95% → Z = 1.96; mức tin cậy 99% → Z = 2.58.
p: tỷ lệ ước lượng của quần thể có đặc điểm đang nghiên cứu. Nếu không biết chính xác thì thường chọn 0.5 (50%) để cho ra cỡ mẫu lớn nhất – cách an toàn nhất.
(1−p): phần còn lại của quần thể (q).
e: sai số chấp nhận (margin of error). Ví dụ thường dùng là ±5% (0.05).
Công thức này giúp nhà nghiên cứu có một con số tối thiểu đáng tin cậy. Tuy nhiên, nó cũng có hạn chế: giả định quần thể ngẫu nhiên, không tính đến sự khác biệt giữa các nhóm nhân khẩu học, và không loại bỏ được thiên lệch khi thu thập dữ liệu (ví dụ, khảo sát online thường bỏ sót nhóm ít sử dụng internet). Do đó, khi áp dụng, cần đi kèm với chiến lược chọn mẫu phù hợp hơn, như phân tầng (stratified sampling) hoặc hỗn hợp kênh thu thập.
2. Ví dụ từ một nghiên cứu CX tại Việt Nam
Một nghiên cứu năm 2024 đăng trên _International Journal of Science and Research Archive_ đã khảo sát trải nghiệm khách hàng trong lĩnh vực ngân hàng số tại Việt Nam.
Bối cảnh nghiên cứu:
Trong thời kỳ ngân hàng số bùng nổ, nhóm tác giả đặt câu hỏi: _chất lượng dịch vụ số ảnh hưởng như thế nào đến trải nghiệm khách hàng?_ Nghiên cứu này hướng tới định lượng, sử dụng mô hình SEM (Structural Equation Modeling) để kiểm định các mối quan hệ.
- Công đoạn chọn mẫu: Nhóm tác giả áp dụng công thức Cochran với độ tin cậy 95% và sai số ±5%. Kết quả yêu cầu tối thiểu 385 mẫu, họ phát 500 bảng khảo sát và thu về 392 phản hồi hợp lệ.
- Điểm mạnh:
- Áp dụng công thức chuẩn mực, được công nhận rộng rãi.
- Chọn p=0.5, đảm bảo mẫu không bị đánh giá thấp.
- Số mẫu thu về cao hơn yêu cầu tối thiểu, tăng độ tin cậy.
- Hạn chế:
- Khảo sát chỉ thực hiện ở Hà Nội và TP.HCM, thiếu đại diện cho khách hàng vùng nông thôn.
- Hình thức online loại bỏ nhóm ít sử dụng internet.
- Chính nhóm tác giả cũng thừa nhận kết quả “không phản ánh đầy đủ toàn bộ khách hàng ngân hàng số tại Việt Nam”.
Qua đó, có thể thấy rằng việc tính toán cỡ mẫu bằng công thức đã đảm bảo tính hợp lệ thống kê, nhưng chưa đảm bảo tính đại diện thực tiễn. Đây chính là ranh giới quan trọng: khoa học cần công thức, nhưng thực tế cần sự thích ứng.
3. Best practice về sample size trong nghiên cứu UX, CX
Trong nghiên cứu UX và CX, việc xác định sample size không thể tách rời khỏi **tính chất của bài toán nghiên cứu**. Với mỗi phương pháp, mục tiêu đặt ra khác nhau, do đó yêu cầu về mẫu cũng thay đổi. Nếu usability testing nhằm phát hiện lỗi thiết kế, chỉ cần vài người tham gia để nhìn ra xu hướng lặp lại. Nếu khảo sát định lượng muốn đo lường mức độ hài lòng hay kiểm định mô hình, cần hàng trăm đến hàng nghìn phản hồi để có ý nghĩa thống kê. Phỏng vấn sâu hay diary study lại nhắm tới động cơ và cảm xúc, nên ưu tiên chiều sâu và đa dạng hơn là số lượng. Trong nghiên cứu hành trình khách hàng, người làm nghiên cứu cần cả dữ liệu rộng để đo lường tại các điểm chạm, lẫn dữ liệu sâu để giải thích nguyên nhân. Còn với A/B testing, yêu cầu cỡ mẫu gắn chặt với việc phát hiện sự khác biệt có thực sự đáng kể về mặt thống kê hay không. Nói cách khác, **sample size phải phục vụ cho mục tiêu nghiên cứu chứ không phải là một con số cố định**.
3.1. Usability testing (định tính, phát hiện vấn đề)
Usability testing là loại nghiên cứu phổ biến nhất trong UX, mục tiêu chính là tìm ra những lỗi thiết kế và điểm nghẽn trong quá trình người dùng thao tác với sản phẩm. Vì mục tiêu là “phát hiện vấn đề” chứ không phải “đo lường mức độ phổ biến”, số người tham gia không cần quá nhiều. Chỉ cần một vài người, những vấn đề chính sẽ nhanh chóng lặp lại và đủ để khẳng định đó là lỗi hệ thống chứ không phải trường hợp cá biệt. Chính vì vậy, sample size ở đây nhỏ nhưng vẫn đảm bảo giá trị nếu được tổ chức hợp lý.
- Cỡ mẫu khuyến nghị: 5 người/vòng test.( NNG recommended, nhưng highly recommend các bạn tìm nguồn để đọc lý do, cũng như có góc nhìn phản biện với “best practice” này. Dù sao thì con số 5 đó cũng do đo đạc và nhận ra nó khớp với điểm bão hoà trong nghiên cứu định tính )
- Ưu điểm: nhanh, tiết kiệm, phát hiện phần lớn (80%) lỗi chính.
- Hạn chế: không đại diện cho mọi phân khúc; khó phát hiện vấn đề hiếm gặp.
- Cách xử lý: tổ chức nhiều vòng test nhỏ (5–8 người), mỗi vòng cho một nhóm người dùng khác nhau.
3.2. Khảo sát định lượng (survey CX)
Khảo sát định lượng hướng tới việc đo lường mức độ hài lòng, trải nghiệm hoặc ý định hành vi của khách hàng. Đây là loại nghiên cứu cần dữ liệu có độ tin cậy thống kê, tức là kết quả thu được phải đại diện cho toàn bộ quần thể khách hàng với một sai số chấp nhận được. Vì vậy, sample size phải đủ lớn để đáp ứng margin of error và confidence level. Càng nhiều phân nhóm cần so sánh (theo tuổi, giới tính, khu vực), số mẫu càng phải tăng thêm để mỗi nhóm đều có cỡ mẫu tối thiểu.
- Cỡ mẫu khuyến nghị: 200–400 cho phân tích cơ bản; 300–500 cho SEM; >1000 nếu phân tích nhiều phân nhóm. Hoặc nếu bạn lăn tăn có thể tự tính toán theo công thức của Cochran, W. G. (1963). Hoặc tìm công cụ tính sample survey ở đây
- Ưu điểm: dữ liệu có ý nghĩa thống kê, khái quát hóa được cho quần thể.
- Hạn chế: tốn kém, dễ bias nếu chỉ thu qua một kênh (ví dụ khảo sát online).
- Cách xử lý: dùng công cụ như Qualtrics Sample Size Calculator; áp dụng stratified sampling; tính trước tỷ lệ không trả lời để phát hành nhiều hơn số mẫu cần thiết.
3.3. Phỏng vấn sâu, nghiên cứu định tính
Phỏng vấn sâu và diary study được thiết kế để tìm hiểu động cơ, cảm xúc, và bối cảnh hành vi – những thứ khó lượng hóa bằng khảo sát. Vì mục tiêu là “đi sâu” chứ không phải “đi rộng”, số lượng người tham gia không cần lớn mà cần đa dạng và đủ để phản ánh nhiều chiều khác nhau. Khi các câu trả lời bắt đầu trùng lặp, nghiên cứu đã đạt đến “điểm bão hòa” – dấu hiệu rằng cỡ mẫu hiện tại đã đủ.
- Cỡ mẫu khuyến nghị: 10–15 người cho mỗi phân khúc; 5–10 người cho diary study.
- Ưu điểm: khai thác insight sâu về động cơ, kỳ vọng, cảm xúc.
- Hạn chế: khó khái quát; phân tích mất nhiều công sức.
- Cách xử lý: chọn mẫu đa dạng (tuổi, giới, trải nghiệm sản phẩm khác nhau); dừng khi đạt điểm bão hòa (không còn insight mới dù tăng mẫu )
3.4. Customer journey research (mixed method)
Nghiên cứu hành trình khách hàng đòi hỏi sự kết hợp của cả định tính và định lượng. Định tính giúp phác họa bản đồ hành trình, khám phá pain points và khoảnh khắc quan trọng. Định lượng bổ sung để đo lường mức độ nghiêm trọng, tần suất của những pain points đó trong quần thể. Vì yêu cầu vừa sâu vừa rộng, cỡ mẫu phải chia làm hai phần: mẫu nhỏ cho phỏng vấn, mẫu lớn cho survey.
- Cỡ mẫu khuyến nghị: 10–15 phỏng vấn sâu cho mỗi giai đoạn hành trình; 300–500 phản hồi survey.
- Ưu điểm: cung cấp cái nhìn toàn diện – vừa insight chi tiết vừa số liệu khái quát.
- Hạn chế: phức tạp, tốn ngân sách và thời gian. Hồi học SDN, phải học và làm project from the scratch mất 1 tháng hơn mới đủ data sang phần này. Nó thật sự khó.
- Cách xử lý: thực hiện hai giai đoạn – định tính trước để khám phá hành trình, định lượng sau để kiểm chứng mức độ phổ biến.
3.5. A/B testing và thí nghiệm
A/B testing và các thí nghiệm được dùng để xác định xem thay đổi trong sản phẩm hay dịch vụ có tạo khác biệt thực sự không. Vì kết quả cần có giá trị thống kê, sample size phụ thuộc trực tiếp vào độ lớn của hiệu ứng mong muốn phát hiện. Nếu thay đổi chỉ mang lại tác động nhỏ (ví dụ tăng 2% tỷ lệ click), cần hàng nghìn người để phân biệt với sai số ngẫu nhiên. Ngược lại, nếu hiệu ứng rõ ràng, chỉ vài trăm người cũng có thể đủ.
- Cỡ mẫu khuyến nghị: từ vài trăm đến vài nghìn, tùy độ lớn của hiệu ứng.
- Ưu điểm: đo trực tiếp tác động của thay đổi; hỗ trợ ra quyết định nhanh chóng.
- Hạn chế: dễ sai nếu sample nhỏ, hoặc nếu test diễn ra quá ngắn. Hơn nữa, một vấn đề khi set up hay thấy ở VN là A/B chứa quá nhiều sự khác biệt khiến kết quả cuối cùng, phần lesson learn bị nhiễu ( không rõ yếu tố nào làm nên sự khác biệt )
- Cách xử lý: tiến hành power analysis để xác định mẫu tối thiểu; duy trì test đủ lâu (ít nhất một chu kỳ hành vi người dùng).
Túm lại ý tôi là:
Không có một con số mẫu nào đúng cho tất cả các nghiên cứu.
- Với định tính, điều quan trọng là đạt đến điểm bão hòa thông tin
- Với định lượng, điều quan trọng là đủ lớn để đảm bảo ý nghĩa thống kê.
Một nghiên cứu tốt không nhất thiết phải có “sample size thật lớn”, mà phải có cỡ mẫu phù hợp với mục tiêu, phương pháp và bối cảnh, đồng thời luôn minh bạch về những hạn chế còn tồn tại. Như vậy, sample size vừa là một công cụ khoa học, vừa là một nghệ thuật cân bằng giữa chi phí, tính đại diện và độ tin cậy.