初級統(tǒng)計(jì)師考試統(tǒng)計(jì)基礎(chǔ):統(tǒng)計(jì)數(shù)據(jù)的整理
來源:考試大發(fā)布時(shí)間:2011-11-25 17:33:53
統(tǒng)計(jì)數(shù)據(jù)的整理
數(shù)據(jù)搜集來之后,要對其進(jìn)行加工整理,以使之系統(tǒng)化、條理化,符合統(tǒng)計(jì)分析的要求。數(shù)據(jù)整理通常包括數(shù)據(jù)的預(yù)處理、分組或分類、匯總等,其中,編制頻數(shù)分布是統(tǒng)計(jì)整理的重要內(nèi)容。
一、數(shù)據(jù)的預(yù)處理
數(shù)據(jù)的預(yù)處理是在分組或分類之前對數(shù)據(jù)所做的審核、篩選和排序等。
�。ㄒ唬⿺�(shù)據(jù)的審核與篩選
來自不同渠道的統(tǒng)計(jì)數(shù)據(jù)和不同類型的統(tǒng)計(jì)數(shù)據(jù),在審核的內(nèi)容和方法上也有差別。對于由直接調(diào)查取得的原始數(shù)據(jù),要從完整性和準(zhǔn)確性兩方面去審核。完整性審核就是檢查應(yīng)調(diào)查的單位或個(gè)體有否遺漏,調(diào)查項(xiàng)目填寫是否齊全等。準(zhǔn)確性審核,一是看數(shù)據(jù)是否真實(shí),與實(shí)際有無出入;二是看數(shù)據(jù)的登錄、計(jì)算等是否有誤。邏輯檢查和計(jì)算檢查是審核數(shù)據(jù)準(zhǔn)確性的兩種方法。邏輯檢查就是從定性角度去看數(shù)據(jù)是否有悖邏輯,相互矛盾之嫌,故多用于審核名類數(shù)據(jù)和順序數(shù)據(jù)。比如,中學(xué)文化程度的人所填的職業(yè)是大學(xué)教師,這就不符合邏輯了。計(jì)算檢查是審核調(diào)查表中的各項(xiàng)數(shù)據(jù)在計(jì)算結(jié)果和計(jì)算方法上有無錯(cuò)誤,故多用于對區(qū)間數(shù)據(jù)和比數(shù)據(jù)的審核。例如,檢查各分項(xiàng)數(shù)字之和是否等于相應(yīng)的合計(jì)數(shù),各組頻數(shù)之和是否等于1或100%,出現(xiàn)在不同表格上的同一指標(biāo)數(shù)值是否相同等。
對于通過其他渠道取得的第二手?jǐn)?shù)據(jù),除了審核其完整性和準(zhǔn)確性之外,還應(yīng)審核其適用性和時(shí)效性。第二手?jǐn)?shù)據(jù)可以來自多種渠道,有些數(shù)據(jù)可能是為特定目的,通過專門調(diào)查而取得的,或者是已經(jīng)按特定目的的需要做了加工整理。對于這種數(shù)據(jù),使用者首先應(yīng)弄清數(shù)據(jù)的來源、口徑以及有關(guān)背景材料,不能盲目生搬硬套。而且,有些時(shí)效性較強(qiáng)的問題,若取得的數(shù)據(jù)過于滯后,就失去了研究的意義,一般來說,應(yīng)盡可能使用最新的統(tǒng)計(jì)數(shù)據(jù)。
對審核中發(fā)現(xiàn)的錯(cuò)誤應(yīng)盡可能予以糾正。如果對發(fā)現(xiàn)的錯(cuò)誤無法糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補(bǔ)時(shí),就要對數(shù)據(jù)進(jìn)行篩選。數(shù)據(jù)篩選有兩方面內(nèi)容:一是將某些不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù)予以剔除;二是將符合某種特定條件的數(shù)據(jù)篩選出來,不符合特定條件的數(shù)據(jù)予以剔除。
�。ǘ⿺�(shù)據(jù)的排序
數(shù)據(jù)排序就是按一定順序?qū)?shù)據(jù)排列,其目的是為了便于研究者通過瀏覽數(shù)據(jù)發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索。排序還有助于對數(shù)據(jù)檢查、糾錯(cuò),為重新分組或歸類提供依據(jù)。在某些場合,排序本身就是分析的目的之一,例如,美國的《財(cái)富》雜志每年都要排出世界500強(qiáng)企業(yè),通過這一信息,經(jīng)營者不僅能知道本企業(yè)所處的地位和差距,還可以了解到競爭對手的狀況,從而有效地制定本企業(yè)的發(fā)展規(guī)劃和戰(zhàn)略目標(biāo)。
名類數(shù)據(jù),如果是字母型數(shù)據(jù),排序有升序與降序之分,升序更常見些,因?yàn)樯蚋帜傅淖匀慌帕邢嗤�;如果是漢字型數(shù)據(jù),排列方式很多,比如按漢字的首位拼音字母排列,這與字母型數(shù)據(jù)的排序完全一樣,也可按筆畫順序,其中也有筆畫多少的升序與降序之分。交替運(yùn)用不同方式排序,在漢字型數(shù)據(jù)的檢查、糾錯(cuò)中十分有用。區(qū)間數(shù)據(jù)和比數(shù)據(jù)的排序只有兩種,即遞增和遞減。設(shè)一組數(shù)據(jù)為 ,遞增排序后可表示為: ;遞減排序后可表示為: 。排序后的數(shù)據(jù)亦稱為順序統(tǒng)計(jì)量(Order statistics)。無論是定性數(shù)據(jù)還是定量數(shù)據(jù),其排序均可借助計(jì)算機(jī)完成。
二、統(tǒng)計(jì)分組
數(shù)據(jù)經(jīng)過預(yù)處理后,可進(jìn)一步做分組整理。統(tǒng)計(jì)分組是數(shù)據(jù)整理中的一項(xiàng)重要工作,統(tǒng)計(jì)分組的好壞直接影響著統(tǒng)計(jì)分析的質(zhì)量。
(一)統(tǒng)計(jì)分組的概念和原則
統(tǒng)計(jì)分組就是根據(jù)統(tǒng)計(jì)研究的目的和客觀信息的特點(diǎn),按某個(gè)標(biāo)志(或幾個(gè)標(biāo)志)把被研究的總體劃分為若干個(gè)既有區(qū)別,又有聯(lián)系的組成部分。統(tǒng)計(jì)分組的對象是總體。統(tǒng)計(jì)分組所依據(jù)的標(biāo)志可能是品質(zhì)標(biāo)志,也可能是數(shù)量標(biāo)志。品質(zhì)標(biāo)志包括名類尺度和順序尺度;數(shù)量標(biāo)志則有區(qū)間尺度和比尺度。
統(tǒng)計(jì)分組兼有分和合雙重含義。對總體而言是“分”,即把總體分為性質(zhì)相異的若干部分;而對單位而言又是“合”,即把性質(zhì)相同的許多單位連接在一起。對于分組標(biāo)志來說是“分”,即把其各種各樣的標(biāo)志表現(xiàn)分為若干個(gè)組;而對于其他標(biāo)志來說則是“合”,即在一個(gè)組內(nèi)的各個(gè)單位即使其他標(biāo)志表現(xiàn)不相同也要結(jié)合在一起。由此可見,選擇一種分組方法,突出了一種差異,但同時(shí)也會掩蓋其他差異。不同的分組方法,可能得出不同的結(jié)論。缺乏科學(xué)根據(jù)的分組,不但不能顯示事物的根本特征,甚至?xí)巡煌再|(zhì)的事物混淆在一起,歪曲事物的內(nèi)在聯(lián)系。因此,統(tǒng)計(jì)分組必須先對所研究現(xiàn)象的本質(zhì)作全面深刻的分析,確定所研究現(xiàn)象類型的屬性及其內(nèi)部差別,而后才能選擇反映事物本質(zhì)的正確的分組標(biāo)志。
統(tǒng)計(jì)分組必須遵循兩個(gè)原則,即窮盡原則和互斥原則。所謂窮盡原則,就是使總體中的每一個(gè)單位都有組可歸,或者說,各分組的空間足以容納總體所有的單位。舉例說,如果將從業(yè)人員按文化程度分組,分為小學(xué)畢業(yè)、中學(xué)畢業(yè)(含中專)和大學(xué)畢業(yè)三組,那么,那些文盲或識字不多的以及大學(xué)以上的學(xué)歷者則無組可歸。但若將分組調(diào)整為文盲及識字不多、小學(xué)畢業(yè)、中學(xué)畢業(yè)、大學(xué)及大學(xué)以上畢業(yè)等這樣幾組,就可以涵蓋全部從業(yè)人員中各種層次的文化程度,這就符合了分組的窮盡原則。
所謂互斥原則,就是在特定的分組標(biāo)志下,總體中的任何一個(gè)單位只能歸屬在某一組,而不能同時(shí)歸屬于幾個(gè)組。例如,某商場若把服裝分為女裝、男裝和童裝三類,就不符合互斥原則,因?yàn)橥b也有男、女之分。如果先把服裝分為成年與兒童兩類,然后每類再分為男、女兩組,這就符合互斥原則了。
�。ǘ┙y(tǒng)計(jì)分組的種類
1、按分組標(biāo)志的多少,可分為簡單分組和復(fù)合分組。簡單分組是對總體按一個(gè)標(biāo)志分組,它只能從某一方面反映總體的分布狀況或內(nèi)部結(jié)構(gòu)。許多簡單分組從不同側(cè)面說明同一總體,就構(gòu)成一個(gè)平行分組體系。例如,為了了解企業(yè)職工基本情況,可以分別選擇年齡和文化程度兩個(gè)標(biāo)志各進(jìn)行簡單分組;而這兩個(gè)簡單分組又形成了一個(gè)平行分組體系(見表2.2.1)。
表2.2.1 簡單分組和平行分組體系例示
按年齡分組: |
按文化程度分組: |
20歲及20歲以下 |
大專及大專以上 |
21-35歲 |
中專、技工 |
36-50歲 |
高中 |
51-55歲 |
初中 |
56-60歲 |
小學(xué)、識字不多或文盲 |
有時(shí),要同時(shí)使用兩個(gè)或兩個(gè)以上標(biāo)志依序?qū)盈B起來對總體進(jìn)行分組,這種分組就是復(fù)合分組;復(fù)合分組本身就構(gòu)成一個(gè)復(fù)合分組體系。例如,對固定資產(chǎn)投資項(xiàng)目,可先按經(jīng)濟(jì)類型分組,再按投資規(guī)模分組,形成如下的復(fù)合分組和復(fù)合分組體系(見表2.2.2)。
2、按分組標(biāo)志的性質(zhì)不同,分為品質(zhì)分組(亦稱屬性分組)和數(shù)量分組(亦稱變量分組)。品質(zhì)分組就是按品質(zhì)標(biāo)志進(jìn)行分組;對名類數(shù)據(jù)和順序數(shù)據(jù)采用品質(zhì)分組。數(shù)量分組就是按數(shù)量標(biāo)志進(jìn)行分組;對區(qū)間數(shù)據(jù)和比數(shù)據(jù)采用數(shù)量分組。品質(zhì)分組所形成的統(tǒng)計(jì)數(shù)列稱為品質(zhì)數(shù)列;數(shù)量分組所形成的統(tǒng)計(jì)數(shù)列稱為變量數(shù)列。
3、按分組的作用和任務(wù)不同,分為類型分組、結(jié)構(gòu)分組和分析分組。把復(fù)雜的現(xiàn)象總體分為若干個(gè)不同屬性的部分,就是類型分組。社會經(jīng)濟(jì)統(tǒng)計(jì)經(jīng)常采用這種分組。例如,我國全社會消費(fèi)品零售額分為國有及國有控股商業(yè)零售額、集體商業(yè)零售額、私營及個(gè)體商業(yè)零售額和其他類型商業(yè)零售額。
表2.2.2 復(fù)合分組和復(fù)合分組體系例示
按經(jīng)濟(jì)類型分組 |
按投資規(guī)模分組 |
國有經(jīng)濟(jì)投資: |
大型 中型 小型 |
集體經(jīng)濟(jì)投資: |
大型 中型 小型 |
外商經(jīng)濟(jì)投資: |
大型 中型 小型 |
其他經(jīng)濟(jì)投資: |
大型 中型 小型 |
在對總體分組的基礎(chǔ)上,計(jì)算出各組數(shù)值對總體的比重,藉此研究總體內(nèi)部的構(gòu)成,就是結(jié)構(gòu)分組。類型分組與結(jié)構(gòu)分組往往緊密地聯(lián)系在一起。
為研究現(xiàn)象之間依存關(guān)系而進(jìn)行的統(tǒng)計(jì)分組,就是分析分組。分析分組的分組標(biāo)志稱為原因標(biāo)志,與原因標(biāo)志相對應(yīng)的標(biāo)志稱為結(jié)果標(biāo)志。找到原因標(biāo)志表現(xiàn)與結(jié)果標(biāo)志表現(xiàn)之間的數(shù)量聯(lián)系,是統(tǒng)計(jì)分析經(jīng)常要做的工作。例如,經(jīng)常用分組分析法來研究職工技術(shù)熟練程度與勞動(dòng)生產(chǎn)率、商業(yè)企業(yè)規(guī)模與商品流通費(fèi)用率之間的依存關(guān)系。