(+84) 236 3 822 768   danang@gso.gov.vn
 

Những kết quả cần lưu ý trong tổng hợp và phân tích thống kê
Người đăng tin: Trần Thông Ngày đăng tin: 19/03/2018 Lượt xem: 1265

Trong thực tế phân tích thống kê, đôi lúc có thể gặp vài phân tích mà kết quả vượt qua những suy nghĩ thông thường, hoặc thể hiện bằng những kết quả trái ngược nhau. Trong bài viết này trình bày một số trường hợp đặc biệt cần lưu ý trong quá trình tổng hợp, phân tích thống kê.

Những kết quả cần lưu ý trong tổng hợp và phân tích thống kê

Trường hợp 1

Trường hợp được giới thiệu dưới đây thường được biết đến như là một “nghịch lý”.

Để hiếu nghịch lý này, hãy bắt đầu bằng việc phân tích kết quả điều tra về tình trạng việc làm tại một tỉnh theo trình độ người lao động

 

Lực lượng lao động (1000 người)

Tỷ lệ thất nghiệp (%)

Tổng số

Chia theo tình trạng việc làm

Có việc làm

Thất nghiệp

Chung

610

580

30

4,92

Chia theo trình độ

 

 

 

 

 - Có trình độ

500

475

25

5,00

 - Không có trình độ

110

105

5

4,55

Kết quả trên đây đã cho thấy: tính chung toàn tỉnh, lao động có trình độ có tỷ lệ thất nghiệp cao hơn so với lao động không có trình độ. Tình trạng này đôi khi được giải thích bằng nhiều lý do khác nhau như: lao động có trình độ thường kén chọn công việc hơn lao động không có trình độ; đối với lao động không qua đào tạo, cơ hội tìm được việc làm dễ hơn khi nhu cầu lao động của nền kinh tế phần lớn là lao động phổ thông ...

Để tìm hiểu nguyên nhân tỷ lệ thất nghiệp của lao động có trình độ lại cao hơn lao động không có trình độ, cần có những phân tích sâu hơn về tình trạng thất nghiệp theo một số tiêu thức.

Thông thường, bước tiếp theo cần tìm hiểu tỷ lệ thất nghiệp với các trình độ khác nhau của lao động sẽ như thế nào đối với khu vực thành thị và khu vực nông thôn. Tỷ lệ thất nghiệp cho mỗi trình độ người lao động được tính cho từng khu vực thành thị, nông thôn.

Kết quả như sau:

 

Lực lượng lao động (1000 người)

Tỷ lệ thất nghiệp (%)

Tổng số

Chia theo tình trạng việc làm

Có việc làm

Thất nghiệp

 Thành thị

 

 

 

 

 - Có trình độ

300

282,5

17,5

5,83

 - Không có trình độ

15

14

1

6,67

 Nông thôn

 

 

 

 

 - Có trình độ

200

192,5

7,5

3,75

 - Không có trình độ

95

91

4

4,21

Khi phân tích theo khu vực thành thị, nông thôn thì kết quả là một xu hướng hoàn toàn ngược lại với phân tích chung toàn tỉnh: trong từng khu vực, lao động có trình độ có tỷ lệ thất nghiệp thấp hơn lao động không có trình độ. Cụ thể là trong khi tính chung toàn tỉnh tỷ lệ thất nghiệp của lao động có trình độ và lao động không có trình độ lần lượt là 5% và 4,55%; nhưng khi tính riêng cho từng khu vực thì ở khu vực thành thị tỷ lệ này lần lượt là 5,83% và 6,67%, còn khu vực nông thôn là 3,75% và 4,21%.

Hiện tượng này cũng xuất hiện trong một số trường hợp khác và chỉ xảy ra  khi tính toán tỷ lệ của các biểu hiện khác nhau theo các phân tổ kết hợp của một tổng thể nghiên cứu.

Trong ví dụ trên, tổng thể nghiên cứu là những người lao động. Trong quá trình phân tích đã sử dụng hình thức phân tổ kết hợp giữa phân tổ theo khu vực, phân tổ theo tình trạng việc làm, phân tổ theo trình độ người lao động. Tỷ lệ thất nghiệp (hoặc ngược lại là tỷ lệ có việc làm) được tính cho từng trạng thái của phân tổ kết hợp

Ở đây:

Tỷ lệ thất nghiệp được tính bằng số lao động thất nghiệp chia cho tổng số lao động.

Để mô tả bằng toán học, chúng ta sử dụng 2 ký hiệu A và S:

  • A là số người thất nghiệp
  • S là số lao động

Như vậy, tỷ lệ thất nghiệp là

Để nhận diện tỷ lệ thất nghiệp theo các phân tổ, có thể bổ sung 2 chỉ số vào các ký hiệu:

  • Chỉ số thứ 1 dùng để nhận diện trình độ: 1 là lao động có trình độ, 2 là lao động không có trình độ
  • Chỉ số thứ 2 dùng để nhận diện khu vực: 1 là khu vực thành thị, 2 là khu vực nông thôn

Như vậy:

Tại khu vực thành thị, những người có trình độ có tỷ lệ thất nghiệp thấp hơn so những người không có trình độ:

                                                          (1)

Tại khu vực nông thôn, những người có trình độ có tỷ lệ thất nghiệp thấp hơn so những người không có trình độ:

                                                          (2)

Tính chung toàn tỉnh thì những người có trình độ có tỷ lệ thất nghiệp cao hơn so những người không có trình độ:

                                    (3)

Nghịch lý xuất hiện  nghĩa là cả 3 bất đẳng thức trên đều đúng.

Trong thực tế, không phải lúc nào tình trạng trên của xảy ra. Chỉ trong một số trường hợp không nhiều mới xuất hiện tình trạng cả 3 bất đẳng thức cùng đúng. Ở đây không phải là một nghịch lý hoặc sai sót và hoàn toàn đúng thực tế

Hiện tượng này đã được phát hiện từ lâu và được gọi là nghịch lý Simpson (Simpson Paradox). Mặc dầu nhà thống kê người Anh  Udny Yule lần đầu tiên đề cập đến hiện tượng này vào năm 1903, nhưng phần  lớn tài liệu đều cho rằng nghịch lý này do nhà toán học Edward Simpson phát hiện vào năm 1951. Tại website http://en.wikipedia.org/wiki/Simpson's_paradox có thể tìm hiểu kỹ hơn về nghịch lý này.

Ngoài ra hiện tượng trên cũng xảy ra trong trường hợp việc phân tổ theo những tiêu thức có nhiều hơn 2 biểu hiện. Ví dụ cho những trường hợp này có thể được tìm thấy tại wesite nói trên hoặc tại website http://vudlab.com/simpsons/

Theo nội dung của nghịch lý, những thay đổi về cấu trúc số liệu có thể dẫn đến kết luận sai cho một tổng thể.

Như trong trường hợp trên, nếu chỉ phiến diện kết luận ngay từ tính toán đầu tiên thì chúng ta đã kết luận sai. Bản chất của hiện tượng là ngược lại nếu khi chúng ta đi sâu vào chi tiết của từng khu vực. Nếu xem xét kỹ thì có thể thấy nguyên nhân gây ra hiện tượng đảo ngược xu hướng khi tổng hợp chung có thể do các nguyên nhân sau:

  • Do kết cấu lao động theo trình độ rất khác biệt nhau ở từng khu vực: tỷ lệ lao động không có trình độ ở khu vực nông thôn là 32,2%, nhưng tỷ lệ này tại khu vực thành thị là 5%.
  • Do kết cấu lao dộng theo khu vực: mặc dầu số liệu lao động theo khu vực trong ví dụ trên không thay đổi; nhưng nếu số lao động theo khu vực thành thị hoặc nông thôn thay đổi đáng kể cũng dẫn đến kết quả khác với ví dụ đã nêu.

Từ đây có thể thấy bản thân các con số (tỷ lệ thất nghiệp theo trình độ) không còn quan trọng bằng cách thức thu thập dữ liệu để tính toán con số đó. Nếu số liệu nói trên dược thu thập đúng phương pháp và cỡ mẫu phản ánh đúng thực trạng kết cấu lao động theo trình độ và theo khu vực thì có thể nói bản chất của sự việc đã được phản ánh đúng. Còn nếu vì lý do nào đó mà số liệu thu thập không đại diện cho thực tế của mỗi trình độ, mỗi khu vực thì có thể nói kết quả khi tính cho tổng thể chung không chính xác.

Trường hợp 2

Trường hợp lưu ý thứ hai được giới thiệu ở đây xuất phát từ một quan niệm sau:

Đối với một chỉ tiêu thống kê là số tương đối, giá trị của chỉ tiêu khi tính cho một tổng thể chung sẽ nằm trong khoảng giữa các giá trị của chỉ tiêu đó khi tính theo từng phân tổ của tổng thể đó. Điều này dường như đã trở thành qui luật và thường được sử dụng để kiểm tra kết quả tính toán.

Ví dụ: giá trị của tỷ lệ thất nghiệp tính chung cho một tỉnh sẽ nằm trong khoảng tỷ lệ thất nghiệp khi tính cho từng khu vực thành thị, nông thôn, hoặc tính cho từng quận, huyện; CBR (tỷ suất sinh thô) của tỉnh phải nằm trong khoảng giữa CBR của từng khu vực hoặc quận, huyện; hệ số Gini của cả nước phải nằm trong khoảng giữa hệ số Gini của từng tỉnh...

Tuy nhiên trong thực tế có một vài chỉ tiêu thống kê không tuân theo qui luật trên. Trong trường hợp này sẽ nêu ra 2 ví dụ: ví dụ về chỉ tiêu Hệ số chênh lệch giàu nghèo và ví dụ về Tỷ lệ thu nhập của 40% dân số có thu nhập thấp.

Hệ số chênh lệch giàu nghèo

Hệ số chênh lệch giàu nghèo được tính bằng cách lấy thu nhập bình quân (TNBQ) của 20% dân số giàu nhất chia cho TNBQ của 20% dân số nghèo nhất.

Để minh họa, có thể lấy ví dụ đơn giản nhất cho một địa phương giả định với 10 người dân. Có 5 người dân thuộc khu vực thành thị và 5 người dân thuộc khu vực nông thôn. Số liệu về TNBQ của 10 người này được xếp theo thứ tự từ cao xuống thấp trong bảng sau:

Thứ tự

1

2

3

4

5

6

7

8

9

10

Thu nhập bình quân

100

90

80

70

60

50

40

35

30

25

Mã số khu vực

1=thành thị; 2=nông thôn

1

1

2

2

1

1

1

2

2

2

 

Hệ số chênh lệch giàu nghèo tính chung cho toàn tỉnh:

TNBQ của 20% dân số có thu nhập cao nhất = (100 + 90)/2 = 95

TNBQ của 20% dân số có thu nhập thấp nhất = (30 + 25)/2 = 27,5

Hệ số chênh lệch giàu nghèo = 95/27,5 = 3,45

Hệ số chênh lệch giàu nghèo tính cho khu vực thành thị:

TNBQ của 20% dân số có thu nhập cao nhất = 100

TNBQ của 20% dân số có thu nhập thấp nhất = 40

Hệ số chênh lệch giàu nghèo = 100/40 = 2,5

Hệ số chênh lệch giàu nghèo tính cho khu vực nông thôn:

TNBQ của 20% dân số có thu nhập cao nhất = 80

TNBQ của 20% dân số có thu nhập thấp nhất = 25

Hệ số chênh lệch giàu nghèo = 80/25 = 3,2

Như vậy trong ví dụ này hệ số chênh lệch giàu nghèo khi tính chung cho toàn tỉnh cao hơn khi tính cho từng khu vực. Trong khi theo suy nghĩ thông thường là giá trị tính cho toàn tỉnh phải nằm trong khoảng giá trị tính cho từng khu vực (ở đây nghĩa là phải nằm giữa 2,5 -  giá trị thấp nhất và 3,2 - giá trị cao nhất).

Hiện tượng này xuất hiện khá thường xuyên. Có thể nhìn vào giá trị của hệ số này tính chung cho cả nước và chia theo khu vực thành thị, nông thôn qua các cuộc điều tra Khảo sát mức sống hộ gia đình tiến hành 2 năm một lần. Từ năm 1999 đến 2012 có 7 kỳ điều tra thì tình trạng này đã xuất hiện 6 lần.

 

1999

2002

2004

2006

2008

2010

2012

 Chung

8,9

8,1

8,3

8,4

8,9

9,2

9,4

Thành thị

9,8

8,0

8,1

8,2

8,3

7,9

7,1

Nông thôn

6,3

6,0

6,4

6,5

6,9

7,5

8,0

 

Ngưồn: Kết quả Khảo sát mức sống dân cư Việt Nam 2012

Đây là một thực tế, không phải là một nghịch lý. Nguyên nhân ở đây là do phương pháp tính của hệ số và TNBQ của dân số.

Hiện tượng nói trên thường xảy ra khi có sự phân hóa quá mạnh mẻ với dân số của một khu vực nào đó quá tập trung vào đầu danh sách hoặc cuối danh sách.

Hiện tượng này sẽ còn có thể tìm thấy trong quá trình phân tích một số chỉ tiêu khác theo phương pháp ngũ phân vị. Ví dụ như khi tính mức độ chênh lệch về chi tiêu cho y tế, giáo dục,... giữa nhóm 5 và nhóm 1 theo khu vực trong phân tích đời sống.

Tỷ lệ thu nhập của 40% dân số có thu nhập thấp

Tỷ lệ thu nhập của 40% dân số có thu nhập thấp được tính bằng cách lấy tổng thu nhập của 40% dân số có thu nhập thấp chia cho tổng thu nhập của toàn bộ dân số.

Để minh họa, có thể lấy ví dụ đơn giản nhất cho một địa phương giả định với 10 người dân. Có 5 người dân thuộc khu vực thành thị và 5 người dân thuộc khu vực nông thôn. Số liệu về thu nhập của 10 người này được xếp theo thứ tự từ cao xuống thấp trong bảng sau:

Thứ tự

1

2

3

4

5

6

7

8

9

10

Thu nhập

180

150

100

80

60

50

40

30

20

15

Mã số khu vực

1=thành thị; 2=nông thôn

1

1

1

2

1

1

2

2

2

2

 

Tỷ lệ thu nhập của 40% dân số có thu nhập thấp tính chung cho toàn tỉnh:

Thu nhập của 40% dân số có thu nhập thấp = 15 + 20 + 30 + 40 = 105

Tổng thu nhập của dân số toàn tỉnh = 725

Tỷ lệ 40% thu nhập của dân số có thu nhập thấp = 105/725 = 14,5%

Tỷ lệ thu nhập của 40% dân số có thu nhập thấp tính cho khu vực thành thị:

Thu nhập của 40% dân số có thu nhập thấp = 50 + 60 = 110

Tổng thu nhập của dân số khu vực thành thị = 540

Tỷ lệ 40% thu nhập của dân số có thu nhập thấp = 110/540 = 20,4%

Tỷ lệ thu nhập của 40% dân số có thu nhập thấp tính cho khu vực nông thôn:

Thu nhập của 40% dân số có thu nhập thấp = 15 + 20 = 35

Tổng thu nhập của dân số khu vực nông thôn = 185

Tỷ lệ 40% thu nhập của dân số có thu nhập thấp = 35/185 = 18,9%

Như vậy tỷ lệ thu nhập của 40% dân số có thu nhập thấp trong ví dụ này khi tính chung cho toàn tỉnh thấp hơn khi tính cho từng khu vực. Trong khi theo suy nghĩ thông thường là giá trị tính cho toàn tỉnh phải nằm trong khoảng giá trị tính cho từng khu vực (ở đây nghĩa là phải nằm giữa 18,9% - giá trị thấp nhất và 20,4% - giá trị cao nhất).

Nhìn chung, tỷ lệ thu nhập của 40% dân số có thu nhập thấp rất ít khi rơi vào trường hợp như trên nếu cỡ mẫu đưa vào phân tích đủ lớn.

 

Cả 2 trường hợp với hiện tượng đã nêu đều xuất hiện trong thực tế. Hiện tượng này chỉ có thể xảy ra khi tính toán các chỉ tiêu mà phương pháp tính không thực hiện trên toàn bộ tổng thể mà chỉ một phần. Chúng ta sẽ không thấy hiện tượng này xuất hiện khi tính những chỉ tiêu mà tất cả đơn vị tổng thể đều tham gia vào tính toán ở cấp toàn bộ cũng như từng phân tổ.

Ví dụ, tỷ lệ thất nghiệp tính chung toàn tỉnh luôn luôn phải nằm trong giới hạn giữa các tỷ lệ thất nghiệp chia theo khu vực hoặc quận, huyện. Bởi vì trong quá trình tính toán, mỗi lao động thất nghiệp sẽ được kể đến khi tính cho toàn tỉnh và khi tính theo vùng hoặc quận, huyện mà lao động thất nghiệp đó đang có mặt.

Trái lại, trong cách tính hệ số chênh lệch giàu nghèo. Khi tính toán hệ số chung cho toàn tỉnh thì có 40% dân số (20% dân số nghèo nhất và 20% dân số giàu nhất) tham gia vào quá trình tính toán. Khi tính hệ số này theo khu vực thì trong 40% dân số được tính của khu vực đó sẽ có những người không thuộc về 40% dân số khi tính chung cho toàn tỉnh. 

Tương tự, trong cách tính tỷ lệ thu nhập của 40% dân số có thu nhập thấp. Khi tính chung cho toàn tỉnh thì có 40% dân số nghèo nhất được tính. Nhưng không phải những người thuộc 40% dân số này lại thuộc về 40% dân số nghèo nhất của khu vực mà họ đang sống; do đó khi tính tỷ lệ cho khu vực thì họ bị bỏ ra.

 

Và tất cả các trường hợp đều không phải là nghịch lý. Đó là thực tế muôn màu mà phương pháp phân tích thống kê đã thể hiện. Là người phân tích phải hiểu đúng bản chất hiện tượng để kết luận đúng.

 

Trần Triết Tâm

 Phòng Dân số-Văn xã, Cục Thống kê Đà Nẵng

 

Tài liệu tham khảo:

http://en.wikipedia.org/wiki/Simpson's_paradox

http://vudlab.com/simpsons/

Chuyên mục, tin tức liên quan:

Video Video

 

 

Thư viện hình ảnh Thư viện hình ảnh

Liên kết web Liên kết web

Bản quyền thuộc về Cục Thống kê thành phố Đà Nẵng

Địa chỉ: 310 Hoàng Diệu - Hải Châu - TP Đà Nẵng

Điện thoại: (+84) 236 3822768 - 3827680

Email: danang@gso.gov.vn