IPUMS-International—國際普查資料庫
邱亦秀
IPUMS (Integrated
Public Use Microdata Series)隸屬於美國明尼蘇達大學的明尼蘇達人口中心(Minnesota Population Center),收錄全世界的普查及調查資料,註冊後可以免費使用,除包含多個國家之外,部份資料還可以追溯至數十年或百年前,對進行跨國資料研究、歷史資料研究的學者來說是相當珍貴的資源。
本篇要介紹的是IPUMS-International,收錄多個國家的普查資料,是世界上最大的結構化普查資料庫。
圖1、IPUMS首頁列出的所有計畫
IPUMS-International共收錄94個國家的345筆普查資料,已彙集超過1億筆記錄,所有資料都經過一致性處理(harmonized)統一變項名稱,網路上提供的功能包括詳細的參考文件線上瀏覽(原始問卷、訪員手冊等)、客製化資料下載、線上分析等。免費提供學術或教學用途,使用者必須遵守使用條款,確認保護資料隱私。
取得IPUMS International的資料,需申請一組使用帳號,此帳號通用於所有IPUMS的計畫。帳號為個人帳號,申請時需提供電子郵件、服務單位地址、職稱等資訊確認申請人身份,並說明使用目的,預計使用哪些國家的資料等,做為審核帳號的參考。每次申請有效期為一年,可以延續。
為了建立與申請人的約束力,申請人必須在申請表中勾選同意接受IPUMS的條款,包括:不得將資料散布給其他人;資料僅限研究及教學用途,不得做為營利使用;不得試圖利用資料識別個人;使用者必須確保資料安全,非經授權者不可以取得;必須確實引用IPUMS-International為資料來源;若有違反條款將受罰;需同意資料有任何問題都要回報至IPUMS的信箱。
IPUMS-International 網站提供資料篩選(Browse and Select Data)的功能,使用者可參考每筆資料的調查單位、問卷型式、調查方法、母體、加權方式、樣本數、分析單位及其定義,在充份瞭解資料內容之後,選擇自己需要分析的樣本(年度、國家或地區)(如圖2),以及各類變項(如圖3)。
圖2、選擇樣本
圖3、選擇分析變項
選擇以家戶為單位的變項群組Utilities為例,結果如圖4:
圖4、Utilities群組變項
在表格中出現X代號,代表有資料,瀏覽時可以選擇在此頁也提供許多功能:
1.
Add to cart: 點選+號,將欲使用的變項加入清單。右上角的DATA CART視窗會告知目前選擇的變項數目及樣本數,點選VIEW CART可進入清單中。
2.
Variable: 以點選trash分類為例(圖5),顯示該分類中的所有變項代號、各年度各國別是否有這些變項;還可以在各分頁中瀏覽該分類的說明、各國資料的可比性(Comparability)、各國調查母體、各國資料年度、問卷題目文字、原始變項名稱等。
圖5、TRASH類別的變項列表
全部選擇完成後,回到DATA CART,在此可以編修清單內容,新增或刪除變項及樣本,確認無誤後點選CREAT DATA EXTRACT,顯示畫面如圖6,顯示目前樣本、變項、資料檔格式、資料結構、檔案大小等狀態,都可以客製化修正。在OPTIONS選單中,還可以調整樣本結構、加入其他人物(如父母、配偶等)的資料,修改樣本大小。最後按 SUBMIT EXTRACT送出,登入IPUMS帳密後取回資料。
圖6、DATA CART
在網站中操作功能時遇到問題時,隨時可以按HELP連結至常見問題,查看操作方式及各功能的定義。
IPUMS-International另外成立IPUMS International Research Data Enclave,簡稱IRDE,提供研究上必須分析具隱私且無法廣為公開的資料時使用(目前僅有烏拉圭統計局提供的5個年度資料)。IRDE提供安全的網路設定,申請人可以經由遠端桌面連線使用。申請時需提供申請人目前執行的計畫資料及使用規畫,包括:
1.
研究問題:研究目的、研究假設、研究問題及預期成果
2.
對限制性資料的使用需求:必須說明為何需要使用限制性資料來完成研究計畫,為何無法利用一般公開版本。
3.
外部資料使用:若必須與外部資料一併分析,必須說明原因,且外部資料不得包含個資。
4.
分析計畫:說明分析方式將如何解釋研究問題及假設,以及預期分析後輸出的內容。
5.
經費來源
6.
預計使用期間起迄
7.
預計在IRDE的使用時數
8.
使用的軟體
9.
參與研究人員詳細名單(網站中有提供制式表單)
10. 計畫主持人及每位共同主持人的CV
11. 計畫主持人及每位共同主持人簽署的IRDE資料使用保密同意書
比較特別的是,IPUMS與歐美多所學校及研究單位合作北大西洋人口計畫(The North Atlantic Population
Project,簡稱NTPP),收錄加拿大、丹麥、瑞典、挪威、美國及冰島等國家18世紀及19世紀時的人口普查資料,由於這五個國家在19世紀末時有很頻繁的經濟及人口流動交流,可以利用珍貴的歷史資料探討有興趣的主題。
普查資料是非常珍貴的研究資源,一般也較難取得。IPUMS-L可以收錄並提供多個國家及多年度的普查資料,將所有資料一致化處理後,免費開放申請使用,對於較有隱私考量的資料也有安全機制開放。網站上也提供線上分析及完整的後設資料內容,使用者可以充份了解各項調查的內容。
IPUMS-L收錄資料中並未包括台灣的普查資料,台灣眾所周知的「戶口與住宅普查」,每十年一次由由行政院主計總處辦理。SRDA有收錄並釋出民國69年、79年、89年及99年的資料,僅開放給院內會員申請使用。其他會員若有資料使用的需求,可以直接向主計總處申請第一類(4601~4605項,4607~4609項)或第二類資料(4601~4605項),詳情請參考網址: https://www.dgbas.gov.tw/lp.asp?CtNode=2361&CtUnit=456&BaseDSD=7&mp=1
其他普查資料則包括「工商及服務業普查」、「農林漁牧業普查」等也都在SRDA開放釋出,非SRDA院內會員者請向主計總處申請使用。
SRDA也有釋出限制性資料,若計畫執行單位考量資料中有較敏感的變項,就會釋出限制版,由SRDA提供安全的網路設定或現場環境,一般會員或院內會員可申請經由遠端連線或現場使用。使用者可從自家或辦公室設定連線至SRDA主機使用資料,或至本中心的Onsite使用室上機操作,使用者僅能取回分析結果。
相較於IPUMS需提供詳細計畫資料及使用規畫甚至申請人CV等資訊才能申請使用IRDE,申請SRDA的限制性資料的使用者需提供研究計畫,除說明研究目的、研究問題及預期結果等之外,亦需說明使用限制版的原因,準備的資料較為簡便,但一樣需要經過嚴謹審核並通過後才能使用。SRDA有提供部份統計軟體,可符合大部份使用者的需求,若有分析上的需要,亦歡迎多多申請使用。
留言
張貼留言