Thống kê mô tả được sử dụng để mô tả những đặc tính cơ bản của dữ liệu thu thập được từ nghiên cứu thực nghiệm qua các cách thức khác nhau. Thống kê mô tả và thống kê suy luận cùng cung cấp những tóm tắt đơn giản về mẫu và các thước đo. Cùng với phân tích đồ họa đơn giản, chúng tạo ra nền tảng của mọi phân tích định lượng về số liệu. Để hiểu được các hiện tượng và ra quyết định đúng đắn, cần nắm được các phương pháp cơ bản của mô tả dữ liệu.[1]
Có rất nhiều kỹ thuật hay được sử dụng. Có thể phân loại các kỹ thuật này như sau:
- Biểu diễn dữ liệu bằng đồ họa trong đó các đồ thị mô tả dữ liệu hoặc giúp so sánh dữ liệu;
- Biểu diễn dữ liệu thành các bảng số liệu tóm tắt về dữ liệu;
- Thống kê tóm tắt (dưới dạng các giá trị thống kê đơn nhất) mô tả dữ liệu.
Khi tạo các trị thống kê mô tả, người ta có thể nhằm 2 mục tiêu:
- Chọn một trị thống kê để chỉ ra những đơn vị có vẻ giống nhau thực ra có thể khác nhau thế nào. Các giáo trình thống kê gọi một giải pháp đáp ứng mục tiêu này là thước đo khuynh hướng trung tâm.
- Chọn một trị thống kê khác cho thấy các đơn vị khác nhau thế nào. Loại trị thống kê này thường được gọi là một thước đo phân tán thống kê.
Khi tóm tắt một lượng như độ dài, cân nặng hay tuổi tác, nói chung người ta hay dùng các trị thống kê như số trung bình cộng, trung vị; hay trong trường hợp một phân bố đơn mốt (mode - số trung phương), người ta thường dùng mốt. Đôi khi, người ta chọn lựa những giá trị đặc thù từ hàm phân bố tích lũy gọi là các tứ phân vị.
Các thước đo chung nhất về mức độ phân tán của dữ liệu lượng là phương sai, giá trị căn bậc 2 của nó, tức là độ lệch chuẩn; khoảng; khoảng cách giữa các tứ phân vị; và độ lệch bình quân tuyệt đối.
Khi thực hiện một trình diễn đồ họa để tóm tắt một bộ dữ liệu, cũng có thể áp dụng cả hai mục tiêu nói trên. Một ví dụ đơn giản về kỹ thuật đồ họa là đồ thị phân bố, thứ đồ thị phơi bày cả khuynh hướng trung tâm lẫn độ phân tán thống kê.
Tham khảo