IPUMS-International—國際普查資料庫


邱亦秀

IPUMS (Integrated Public Use Microdata Series)隸屬於美國明尼蘇達大學的明尼蘇達人口中心(Minnesota Population Center),收錄全世界的普查及調查資料註冊後可以免費使用除包含多個國家之外部份資料還可以追溯至數十年或百年前對進行跨國資料研究歷史資料研究的學者來說是相當珍貴的資源

點進IPUMS的首頁(https://www.ipums.org/)IPUMS分為好幾個計畫每個計畫代表對資料不同的加值方法或來自其他單位的資料皆有對外公開釋出

本篇要介紹的是IPUMS-International收錄多個國家的普查資料是世界上最大的結構化普查資料庫


1IPUMS首頁列出的所有計畫

IPUMS-International共收錄94個國家的345筆普查資料已彙集超過1億筆記錄所有資料都經過一致性處理(harmonized)統一變項名稱,網路上提供的功能包括詳細的參考文件線上瀏覽(原始問卷訪員手冊等)客製化資料下載線上分析等免費提供學術或教學用途使用者必須遵守使用條款確認保護資料隱私

取得IPUMS International的資料需申請一組使用帳號此帳號通用於所有IPUMS的計畫帳號為個人帳號申請時需提供電子郵件服務單位地址職稱等資訊確認申請人身份並說明使用目的預計使用哪些國家的資料等做為審核帳號的參考每次申請有效期為一年可以延續

為了建立與申請人的約束力申請人必須在申請表中勾選同意接受IPUMS的條款包括不得將資料散布給其他人資料僅限研究及教學用途,不得做為營利使用不得試圖利用資料識別個人使用者必須確保資料安全非經授權者不可以取得;必須確實引用IPUMS-International為資料來源;若有違反條款將受罰需同意資料有任何問題都要回報至IPUMS的信箱

IPUMS-International 網站提供資料篩選(Browse and Select Data)的功能使用者可參考每筆資料的調查單位問卷型式、調查方法母體加權方式、樣本數分析單位及其定義在充份瞭解資料內容之後選擇自己需要分析的樣本(年度國家或地區)(如圖2)以及各類變項(如圖3)




2選擇樣本




3選擇分析變項

選擇以家戶為單位的變項群組Utilities為例,結果如圖4


4Utilities群組變項

在表格中出現X代號代表有資料瀏覽時可以選擇在此頁也提供許多功能
1.      Add to cart: 點選+將欲使用的變項加入清單右上角的DATA CART視窗會告知目前選擇的變項數目及樣本數點選VIEW CART可進入清單中
2.      Variable: 以點選trash分類為例(5)顯示該分類中的所有變項代號各年度各國別是否有這些變項還可以在各分頁中瀏覽該分類的說明、各國資料的可比性(Comparability)各國調查母體各國資料年度問卷題目文字原始變項名稱等



5TRASH類別的變項列表

全部選擇完成後回到DATA CART在此可以編修清單內容新增或刪除變項及樣本確認無誤後點選CREAT DATA EXTRACT顯示畫面如圖6顯示目前樣本變項資料檔格式、資料結構檔案大小等狀態都可以客製化修正OPTIONS選單中,還可以調整樣本結構加入其他人物(如父母配偶等)的資料修改樣本大小最後按 SUBMIT EXTRACT送出登入IPUMS帳密後取回資料

 
6DATA CART

在網站中操作功能時遇到問題時隨時可以按HELP連結至常見問題查看操作方式及各功能的定義

IPUMS-International另外成立IPUMS International Research Data Enclave,簡稱IRDE提供研究上必須分析具隱私且無法廣為公開的資料時使用(目前僅有烏拉圭統計局提供的5個年度資料)IRDE提供安全的網路設定申請人可以經由遠端桌面連線使用申請時需提供申請人目前執行的計畫資料及使用規畫包括

1.      研究問題研究目的研究假設研究問題及預期成果
2.      對限制性資料的使用需求必須說明為何需要使用限制性資料來完成研究計畫為何無法利用一般公開版本
3.      外部資料使用若必須與外部資料一併分析必須說明原因且外部資料不得包含個資
4.      分析計畫說明分析方式將如何解釋研究問題及假設以及預期分析後輸出的內容
5.      經費來源
6.      預計使用期間起迄
7.      預計在IRDE的使用時數
8.      使用的軟體
9.      參與研究人員詳細名單(網站中有提供制式表單)
10.  計畫主持人及每位共同主持人的CV
11.  計畫主持人及每位共同主持人簽署的IRDE資料使用保密同意書

比較特別的是IPUMS與歐美多所學校及研究單位合作北大西洋人口計畫(The North Atlantic Population Project簡稱NTPP)收錄加拿大、丹麥瑞典、挪威美國及冰島等國家18世紀及19世紀時的人口普查資料由於這五個國家在19世紀末時有很頻繁的經濟及人口流動交流可以利用珍貴的歷史資料探討有興趣的主題

普查資料是非常珍貴的研究資源,一般也較難取得IPUMS-L可以收錄並提供多個國家及多年度的普查資料將所有資料一致化處理後免費開放申請使用對於較有隱私考量的資料也有安全機制開放網站上也提供線上分析及完整的後設資料內容使用者可以充份了解各項調查的內容

IPUMS-L收錄資料中並未包括台灣的普查資料台灣眾所周知的「戶口與住宅普查」每十年一次由由行政院主計總處辦理SRDA有收錄並釋出民國697989年及99年的資料僅開放給院內會員申請使用其他會員若有資料使用的需求可以直接向主計總處申請第一類(4601~46054607~4609)或第二類資料(4601~4605)詳情請參考網址: https://www.dgbas.gov.tw/lp.asp?CtNode=2361&CtUnit=456&BaseDSD=7&mp=1

其他普查資料則包括「工商及服務業普查」「農林漁牧業普查」等也都在SRDA開放釋出SRDA院內會員者請向主計總處申請使用

SRDA也有釋出限制性資料若計畫執行單位考量資料中有較敏感的變項就會釋出限制版SRDA提供安全的網路設定或現場環境一般會員或院內會員可申請經由遠端連線或現場使用使用者可從自家或辦公室設定連線至SRDA主機使用資料或至本中心的Onsite使用室上機操作使用者僅能取回分析結果

相較於IPUMS需提供詳細計畫資料及使用規畫甚至申請人CV等資訊才能申請使用IRDE申請SRDA的限制性資料的使用者需提供研究計畫除說明研究目的研究問題及預期結果等之外亦需說明使用限制版的原因準備的資料較為簡便但一樣需要經過嚴謹審核並通過後才能使用SRDA有提供部份統計軟體可符合大部份使用者的需求若有分析上的需要亦歡迎多多申請使用

留言

這個網誌中的熱門文章

使用Python進行資料整理 – 初探Pandas

SAS、SPSS、STATA 統計軟體檔案格式轉換介紹

資料整理與檢誤經驗談—以SPSS程式進行邏輯檢查