SRDA資料串連平台介紹

羅婉云

一、成立目的
  「學術調查研究資料庫」(Survey Research Data Archive,簡稱SRDA)自1994年成立以來,已蒐集超過2,000筆的調查資料,資料來源包括各大專校院、研究機構進行的學術研究調查計畫,以及政府部會應業務規劃及施政決策需要所辦理的調查統計,其中最廣為應用的資料即為長期主題型、長期追蹤型的調查資料,許多國內知名的大型調查如台灣社會變遷基本調查、台灣社會意向調查、台灣青少年成長歷程研究、華人家庭動態資料庫、台灣教育長期追蹤資料庫等,皆收錄在SRDA,並無償提供學術研究分析。

  隨著SRDA所收錄的資料逐年累增,對於研究者來說雖有助益,然而面對日益龐大的資料量,無形中卻增加了研究者尋找合適題目的困難度,即使搜尋到可用的題目,若欲進行跨年比較,從開始找尋其他年度的相近題目、逐一下載不同年度的檔案、將題目與選項整理合併等等一系列的分析前準備工作,研究者需要耗費的時間成本實在是難以估計。

  有鑑於此,SRDA於2015年開始規劃建置SRDA資料串連平台(SRDA Data Explorer),不同於以往要下載多個資料檔自行處理的繁複方式,將需要的變項組合為一個資料檔,成為使用者個人專屬的資料檔,直接下載進行分析,希望讓學術研究人員在使用貫時性調查資料時能更加便利。




圖1  SRDA資料串連平台操作示意圖

  平台內提供的資料以SRDA收錄的大型調查資料系列為主,第一個開放使用的調查資料為國內社會科學領域知名的「台灣社會變遷基本調查計畫」(以下簡稱「變遷調查」),變遷調查是由行政院國家科學委員會人文社會處(2014年3月改制為科技部人文司)長期支助的一項全台抽樣調查研究計畫,第一期計畫於1984年開始進行,自第二期計畫開始,每期計畫皆為期五年(每一期共五次),2019年進入第七期五次,已完成30次62份問卷的全台灣抽樣調查。變遷調查的主要特色是在收集兩個以上時間點的同樣問卷資料,以探究台灣社會變遷的各個面向,調查內容包括家庭、教育、社會階層與社會流動、政治文化、選舉行為、傳播、文化價值、宗教等,透過不同期次調查資料的串連,可得到重複橫斷面資料(repeated cross-sectional data),對於研究者所關心的現象,這類資料不僅可用來進行跨時代或跨世代的分析;也可應用某些統計方法解析出年齡、出生世代及時代的影響效果。變遷調查至2019年底為止已發表超過2,000篇學術論文,其調查主題廣泛,能夠作為研究素材的題目甚多,非常符合SRDA發展資料串連平台的服務宗旨。

  SRDA首波整理的變遷調查資料為第一期一次至第六期五次,共54份調查資料,個案總數113,297,原始變項數更多達20,550個,累積了可觀的資料量,然而,最大的挑戰是歷年相近題目的敘述問句及選項答案常常出現不一致的情況,增加了資料整理的困難度,為了讓使用者能夠取用到充分資訊,SRDA經過反覆討論之後擬訂出整理原則,如圖2所示,只會把完全一致的變項與選項事先合併,為使用者節省查詢與整理資料的時間,而題意相近但選項不一致的變項,以變項名稱命名相近的方式處理,優點是保留題項的完整性,查詢時,透過將變項名稱排序呈現的方式,使用者於瀏覽時可以一併參考這些相關變項。最後,SRDA將20,550個變項合併成10,195個變項,可直接於平台查詢下載。

圖2  選項合併基本架構圖

  在資料查詢方面,考量使用者在過去查詢變遷調查資料時可能會遇到的問題與需求之後,SRDA規劃以「主題分類」、「文字查詢」、「問卷組別」、「調查時間」等四種方式進行查詢,查詢後,選擇的變項可直接在平台上瀏覽次數分配與資料下載,縮短使用者過去花費在查詢、下載、整理資料的時間。

  由於研究者研究工作繁忙,往往會面臨需要暫停研究工作數日之後再回來接續的狀況;或是有多個研究主題需同時進行,SRDA因此開發專屬資料夾(MyData)功能,提供使用者創建個人專屬資料夾,可以將變項存入,並記下關於變項的研究筆記,避免時間間隔過久不易回想的問題,讓研究者分析工作可以持續不中斷。

二、功能介紹
  
  SRDA資料串連平台目前提供測試版供使用者試用,平台網頁上方功能列規劃六個項目,包括「資料查詢」、「操作說明」、「相關資源」、「MyData」、「購物車」、「儲存變項」與「FAQ」等,如圖3。建議使用者在初次使用時,先進入「操作說明」頁面,此處提供快速了解平台各項功能的說明,包括資料查詢方式的操作步驟、資料儲存與下載方式等,若有進一步的操作問題,也可以點選「FAQ」取得相關資訊,此處將SRDA工作小組整理資料的原則與方法,例如變項命名規則、特殊碼整理方式等,與日後使用者反應的常見問題回覆,歸納分類後,放置於此區提供查詢。


圖3  SRDA資料串連平台測試版首頁圖

  關於SRDA資料串連平台的主要功能,概略可區分為變項查詢、變項資訊瀏覽、建立個人資料夾MyData等三大功能,簡述如下:
  • 變項查詢:使用者可以用「主題分類」、「文字查詢」、「問卷組別」、「調查時間」等四種方式查詢資料,亦可一併聯合查詢。
  • 變項資訊瀏覽:查詢所得結果會在變項總覽列表顯示,列表中呈現該變項的名稱、變項說明(簡短的問卷題目)、選項說明、主題分類、所屬問卷期次、問卷西元年度等資訊。點選變項名稱可進入分頁檢視變項的詳細資訊,並提供各年度次數分配表以供參考。
  • 建立個人資料夾(MyData):在前一步檢視變項資訊後,可將感興趣的變項加入購物車,並存入個人資料夾,此功能也就是專為使用者客製化的個人資料管理區,於管理區內可以自行新增與編輯不同的專案名稱,除了便於管理之外,使用者歷次的儲存變項與下載紀錄皆會存放於此,若是隔了一段期間之後,使用者有先前資料的下載需求,則可以快速的進入個人資料夾取得資料,加速資料取得的便利性。這裡要提醒使用者,若是只使用查詢與瀏覽的功能,不需要登入SRDA會員,但若是要使用購物車與MyData的功能,則需要SRDA一般會員的身份方可使用。

  以下利用圖解方式以詳細說明各項功能,讓使用者進一步了解如何操作SRDA資料串連平台:

(一)、變項查詢
  由於平台的規劃是以使用者過往查詢變遷資料的經驗作為參考依據,因此在說明各項查詢功能時,會以使用者可能面臨的問題情境來說明如何運用:

  情境一:想找問卷裡的某個題目
  Tip:使用文字查詢框
  
  如圖4,我們在變遷調查的某份問卷裡發現了感興趣的題目,想進一步查詢所有與觀光或旅行有關的題目,可以直接於左側查詢框輸入相關文字,按下查詢鍵,在中間的變項總覽列表就會列出所有主題分類、變項說明、選項說明中含有旅行一詞的變項。


圖4  「文字查詢」範例圖示

  情境二:只需要特定期間的資料
  Tip:使用「問卷組別」或「時間查詢」
  
  如前所述,變遷調查問卷組別雖然每五年會固定進行輪替,但每年實際調查的組別名稱仍略有差異,SRDA將變遷調查問卷組別按名稱分類整理,整理結果對照表可參見平台中的歷年期次問卷組別(問卷下載),例如2014年的六期五次「宗教文化組」(變遷調查計畫問卷組別原始名稱),實則包含了「宗教組」與「文化組」,故SRDA資料串連平台將其歸類至「宗教組」與「文化組」,於平台上的「問卷組別」點選「宗教組」或「文化組」,皆會包含六期五次「宗教文化組」的資料。雖然使用文字查詢可以列出許多題目,但使用者其實只需要特定的變遷調查問卷組別,例如在前例中使用者只想找「休閒組」中有關「旅行」一詞的題目,這時可以使用左側選單中的「問卷組別」選單,勾選「休閒組」的資料,查詢結果如圖5所示。

  使用者也可以對資料的調查時間(調查執行的西元年)作個別篩選,有連續與不連續兩種查詢方式,一是可選擇連續年度的資料,如圖5,按下「西元」,利用下方動態的選取橫軸,選擇西元1995年至2010年間的全部資料。若要對不連續的特定年度進行查詢,例如查詢西元2002年、2007年的資料,則點選「期次」,可查詢單一年度或不連續年度的資料,與文字查詢交叉運用,可以有效縮短查詢的時間,惟此兩種時間查詢的方式僅能擇一使用。


圖5  「問卷組別」、「時間」查詢範例圖示

  情境三:問卷裡的用詞文字有些不一致,要怎麼找到它們?如果要找的主題是偏向抽象的概念,不一定會在題目文字中出現,例如社會網絡、公民權、社會階級,要怎麼找到它們?
  Tip:使用「主題分類」

  情境三中的狀況是在使用變遷調查資料時最常遇到的狀況之一,如同前例中,關於休閒活動的題目,除了查詢“旅行”一詞外,在問卷中還可能出現很多相似的用詞,例如“觀光”、“度假”、“旅遊”、“郊遊”等等,要如何更迅速有效的查詢?

  另外,使用者有時想找尋的是較抽象性的主題,對於題目可能出現的問法無法掌握,使用文字框一一查詢過於費時,若選取變遷調查的問卷組別,也擔心會有漏網之魚的題目出現在其他問卷組中,有什麼更好的查詢方法?

  為了解決這兩種情況的問題,SRDA將全部的題目分類為61個主題,這些主題名稱是詳細參考每年變遷調查問卷內的大題分類文字,例如家務分工、休閒活動、傳播行為等,選取有意義且相關的用詞作為主題名稱,將20,550個變項逐一分類至各主題中,並進行排序,將相關題目在問卷中出現的次序作為排序原則,並依據排序重新命名變項名稱,希望能夠貼近原始問卷中的題目呈現方式。

  主題分類的使用方式如圖6,點選最上方的+號,將所有主題展開,或者在主題框中直接輸入文字查詢,可以與前面的「文字查詢」、「問卷組別」、「調查時間」一起使用。雖然目前所有題目只先提供一個主題,但事實上,大部份的題目往往不可能只有一個主題,例如詢問失業相關的題組,可能與「職業狀況」、「家庭消費與經濟狀況」、「社會問題」等主題有關,故SRDA未來規劃的是網狀主題分類,在一個題目中盡量包含多個關聯主題,目前已先將於問卷中明確標示ISSP 與EASS 的題目,另增為第二主題,日後會陸續為其他變項新增第二或第三主題,讓使用者在查詢使用時能更加完備。


圖6  「主題分類」查詢範例圖示

(二)、變項資訊瀏覽
  查詢結果的變項會顯示在中間的總覽列表,如圖7所示,總覽列表的欄位包括變項名稱、變項說明、選項說明、主題分類、調查期次、西元年等資訊,此處已將跨年度相同變項/選項說明的題目整合於同一變項名稱之中,以下逐一說明各欄位的內容:
  • 變項名稱:串連平台提供下載資料檔的變項名稱,點選後可以進入變項詳細資訊說明頁面。需要注意的是,由於變遷調查歷年原始資料檔中的變項名稱多有重覆,SRDA為了合併歷年資料,已將平台內的變項名稱重新命名,與變遷調查原始資料檔內的變項名稱不同。
  • 變項說明:參考原始問卷題目與原始資料檔變項說明,修改成較精簡的文字說明。此處需提醒使用者的地方是,已合併處理的變項,建議參考變遷調查各期執行報告中的問卷說明章節,才能更清楚變項在各期次問卷中的詳細定義範圍。
  • 選項說明:問卷題目的選項編碼及其代表意義。如同前述變項名稱的處理方式,SRDA為了合併歷年資料,會調整合併變項中不一致的選項編碼,可能與變遷調查原始資料檔內的選項不同,使用時需多加留意。
  • 主題分類:列出該變項有哪些主題分類。
  • 期次:變項所屬的調查期次。例如「2014/65」代表在2014年進行的第六期第五次調查。
  • 西元年:列出符合查詢條件的變項包含在哪些調查年度的問卷中。

圖7  查詢結果變項總覽列表圖示

  於資料查詢總覽中點選變項名稱,可另開新頁呈現該變項的詳細資訊,如圖8所示,包括變項名稱、變項說明、資料叢集、問卷組別、題型、主題、調查期次、資料年度等資訊之外,另可於下方的次數分配表點選資料年度,分別呈現不同年度的有效樣本數、選項數值與選項說明、各選項出現的次數與比例分配情況。

圖8  查詢結果變項詳細資訊分頁圖示

  接下來,在變項總覽頁或是詳細資訊分頁都可以勾選變項加入購物車,完成後就進入下一步驟,建立個人資料夾與下載資料。

(三)、建立個人資料夾(MyData)下載資料
  將變項加入購物車後,下一步就是點選上方功能列的「儲存變項」,如圖9,可選擇存入新建的資料夾,或是存入已建立的舊資料夾,新資料夾可自訂名稱,而購物車內的變項一旦存入資料夾立即清空。

圖9  建立個人資料夾MyData圖示

  欲檢視變項儲存是否成功,可以點選上方功能列的「MyData」,此處會列出所有使用者建立過的資料夾名稱,使用者可以自訂不同的資料夾名稱便於日後管理,如「社會意向」、「文化系列」、「宗教相關」…等,變項也可以重覆存入不同的資料夾中。點選進入個別資料夾內,會顯示此資料夾中包含的所有變項清單,如圖10所示,使用者可不受時間限制,彈性決定下載的變項組合,另外,為了避免日後對變項內容不復記憶,除可點選「放大鏡」的功能,查看詳細的變項說明之外,使用者亦可於變項名稱之後的文字框中自行編輯文字,說明變項的特色與研究目的,便於日後回想。


圖10  編輯MyData資料夾圖示

  「MyData」內的變項會永久保存,方便使用者日後下載利用,由於系統限制,故每次最多可下載10萬筆個案。下載變項除了使用者自行勾選的變項之外,還包含預設變項,預設變項是為了基本分析需求所設計,依據使用者所勾選的下載變項出現過的調查年度問卷,將該問卷中的基本資訊變項,如受訪者編號、問卷組別、調查波次、權數、調查年度、性別、抽樣地區、年齡等變項,一併包括進下載資料檔中,使用者不需要另行勾選這些預設變項。所選取的變項與預設變項會製作成一個壓縮檔,包含三個檔案:原始資料(CSV格式)、變項名稱、變項說明、選項說明的資訊檔(CSV格式)、含有原始資料與變項選項資訊的SPSS系統檔(SAV格式),如圖11所示。


圖11  MyData資料夾下載變項圖示

三、未來發展

  SRDA資料串連平台的測試版於2019年11月上線提供使用,未來推出的正式版內容,預計在資料蒐集與整理方面,將納入七期之後的變遷調查資料,同時也規劃加入其他大型調查資料系列;在平台功能優化方面,規劃線上資料統計分析功能,例如提供平均數、標準差、相關係數等統計量,另新增資料視覺化功能,例如繪製多變項的統計圖表等。也期盼使用者於測試版時給予回饋建議,SRDA會將使用者的寶貴意見用以持續改進平台,以期能更加符合使用者的實際需求。


留言

這個網誌中的熱門文章

使用Python進行資料整理 – 初探Pandas

SAS、SPSS、STATA 統計軟體檔案格式轉換介紹

資料整理與檢誤經驗談—以SPSS程式進行邏輯檢查