免費資料管理工具介紹--Colectica for Microsoft Excel Standard Edition
蘇脩惠
為長久保存數據資料檔並提供再次利用,資料文件化是資料管理程序重要的一環。目前常見的調查資料保存軟體包含SPSS、Excel、Stata及SAS等;其中,Excel相較於其他統計軟體是最容易取得的資源,也是許多人常用的統計軟體。但由於Excel無法記錄詮釋資料(metadata),相關使用說明往往需要記載在另外一份文件中,若一時忘記製作或日後文件遺失,不論是研究者本身想再次分析資料或是將資料與他人分享,都有可能因為無法正確解讀資料檔中各個數值代表的意義,而導致得到錯誤的分析結果,甚至讓資料失去再利用價值,Colectica
for Excel的出現正可彌補這項不足。
Colectica for Excel是Colectica家族其中一員,提供統計資料文件化的功能,讓調查機構、統計單位、民調研究者、資料庫人員和其他相關從業人員操作利用,協助其快速地將調查研究或統計資料以開放資料標準(open data standards)發布及分享。Colectica for Excel依照DDI[1]格式記錄詮釋資料,提供使用者記錄變項及資料檔內容,能隨附儲存於Excel資料檔中,進而可將之轉出成使用說明文件或符合DDI-Lifecycle詮釋資料標準的XML檔案;此外,亦可將SAS、STATA或SPSS資料檔匯入Excel,並保留在原統計軟體中建立的變項和選項資訊(圖一)。
圖一、Coletica for Excel功能
來源:http://www.colectica.com/software/colecticaforexcel
圖二、Coletica for Excel各版本及功能列表
來源:http://www.colectica.com/software/colecticaforexcel
一、 軟體安裝
Colectica for Microsoft
Excel Standard Edition支援Excel
2007[3]以上的格式,下載程式前需先註冊Colectica帳戶(圖三),填寫姓名、服務單位及電子郵件等欄位,並設定登入密碼。
圖三、註冊Colectica帳戶
註冊帳戶之後會取得一組授權碼及下載連結。下載安裝完成後,在Excel工具列上就會出現COLECTICA的選項(圖四)。
圖四、Excel的COLECTICA工具列
二、 資料文件化
本文以筆者服務的學術調查研究資料庫所進行的「2017學術調查研究資料庫會員服務意見調查」為例,介紹如何利用Colectica for Excel記錄調查資料的基本資訊、以及其數據所代表意義等,依序說明「資料檔詳細資訊」(Dataset
Details)、「變項詳細資訊」(Variable
Details)及「代碼列表」(Code List)的內容。
(一)
資料檔詳細資訊
有關調查資料基本資訊的建置,首先開啟Excel資料檔,從工具列上的COLECTICA點選Document Workbook,右側會顯示Datasets Details、Variable Details及Code List頁籤。關於資料檔詳細資訊可在Dataset Details中建立。
Datasets Details預設Title(計畫或調查名稱)、Subtitle(副題名)、Alternate Title(計畫別名或簡稱)、Creator(計畫主持人)、Publisher(製作文件單位)、Contributor(經費贊助單位)、Copyright(版權)及Identifiers(識別代碼)等欄位,若有其他想記錄的資訊,可點選+新增欄位。
圖五除輸入本文所使用範例的計畫名稱等基本欄位外,另新增調查對象、調查方法、調查執行期間等資訊。
圖五、資料檔詳細資訊
資訊建置完成後,若有欄位內容的變更或新增,則在更新內容後點擊Datasets Details頁籤最上方的Refresh Documentation存檔。
(二)
變項詳細資訊及代碼列表
數據所表的意義,包含變項及選項兩個部分。其資訊的建置,分別於Colectica功能列Data Documentation中的Variable Details及Code List頁籤鍵入。Variable Details預設的欄位內容如下:
- Label:變項所代表的意義。
- Description:對此變項的詳細說明
- Data Type(選單):變項的資料屬性,分為Text, Numeric, DateTime及Code。依選擇的屬性,接著出現對應的輸入項目。例如選擇Numeric,出現數值類型、最大值、最小值、是否為權數等欄位;選擇Code,則出現選擇選項數值的按鈕(請參考2.代碼列表)。
- Additivity(選單)[4]: 變項的數值是否可以相加,選項包括: Unspecified, Stock, Flow, NonAdditive。
- Measure Unit:變項的計量單位,例如:時、分、公斤、元..等。
- Role(選單)[5]:變項具有的功能,目前選單提供identity及weight兩個選項。
- Analysis Unit(選單)[6]:變項的分析單位,從選單內選擇,例如:個人、家戶、特定地區、時間單位等。
- Response Unit(選單)[7]:資料來源,分為Self, Informant, Proxy, Interviewer及Other。
如有其他資訊為預設標籤所沒有者,可點選+新增欄位。底下以學術調查研究資料庫會員服務意見調查問卷為例說明。
1 請問您加入學術調查研究資料庫(SRDA)會員的原因?【可複選】
(1) 免費使用 (2) 師長推薦 (3) 有使用資料(數據)的需求 (4) 先加入以備不時之需 (5) 其他(請說明)
|
第1題為複選題,我們將選項作為變項v1m1~v1m5,每個變項的數值以(0)代表沒有選這個選項、(1)代表有選這個選項、(99)代表遺漏值。若只使用 Excel建置資料時,通常會須要另外製做像下面的過錄編碼簿,以供分析人員或是日後再利用時之參考。但若安裝了Colectica
for Excel之後,便可將過錄編碼簿中的資訊,直接記錄、儲存在Excel檔中。
題號
|
變項名稱
|
變項說明
|
選項數值說明
|
備註
|
id
|
樣本編號
|
文字型
|
||
1
|
請問您加入學術調查研究資料庫(SRDA)會員的原因?
|
|||
v1m1
|
(1) 免費使用
|
0 沒有
1 有
99 遺漏值
|
複選題
|
|
v1m2
|
(2) 師長推薦
|
|||
v1m3
|
(3) 有使用資料(數據)的需求
|
|||
v1m4
|
(4) 先加入以備不時之需
|
|||
v1m5
|
(5) 其他
|
1.
變項詳細資訊
(1)
在EXCEL資料檔中點選欲建立的變項欄位(v1m1),再回到Variable Details頁籤,於Label鍵入v1m1的變項說明。
(2) Data Type可指定變項屬性,而v1m1為封閉式選項具有代碼,選擇Code。若是文字欄位或開放題選擇Text;數字欄位為Numeric;時間欄位則為DateTime。
圖六、變項詳細資訊
2.
代碼列表
若在Data Type選擇Code,欄位下方會出現Create New Code List及Use Existing Code List兩個按鈕。前者代表選項數值尚未定義必須新增;後者則代表有現成的代碼可以套用,若有其他題目的選項相同,就可以選擇這個功能,免去重複輸入選項數值及內容。下面以變項v1m1及v1m2說明。
(1)
Create New
Code List
以變項v1m1為例,其選項所代表的意義為(0)沒有、(1)有、(99)遺漏值,建立新的代碼列表步驟如下:
A. 點擊Create New Code List,Colectica會自動產生該變項目前已鍵入的數值列表,如下圖右方的「v1m1-加入SRDA原因:免費使用」。
圖七、建立新的代碼列表
B. 點擊「v1m1-加入SRDA原因:免費使用」開啟Code List視窗(圖8),鍵入變項v1m1選項所代表意義。
圖八、v1m1代碼列表
若有鍵入新的數值時,須先按「Update Codes from Data」更新Code List如下,即可定義新數值代表的意義。
圖九、更新v1m1代碼列表
(2)
Use Existing
Code List
以變項v1m2為例,因其選項所代表的意義與變項v1m1相同,而變項v1m1代碼列表已建置完成,此時,點擊「Use Existing Code List」,再選已建立的v1m1代碼列表直接套用。其步驟如下:
A. 點擊Use Existing Code List
圖十、Use Existing Code List
B. 在已建立的選項列表中,選擇使用v1m1代碼(點擊兩下)套用選項說明。
圖十一、已建立的Code List清單
C. 成功套用v1m1代碼列表,則如圖十二。
圖十二、成功套用v1m1代碼列表圖示
三、
資料匯出與匯入
Colectica for Excel提供匯出文件功能,讓您無需再花時間重新製作文件。Colectica for Excel還提供匯入SAS、STATA或SPSS資料檔的功能,即使沒有安裝這些統計軟體,也可以將資料檔轉入進行資料分析。
(一) 資料匯出
1.
製作說明文件
Colectica for Excel提供PDF及Word(rtf格式)兩種格式供匯出,不過PDF匯出功能尚無法完整顯示中文內容,本文中僅對匯出Word格式做說明。
(1) 從工具列的COLECTICA選Create Documentation,並選取word格式(圖十三),另存新檔後即完成文件的製作。
圖十三、匯出word說明文件
(2) 完成的說明文件如下圖。
圖十四、調查資料說明文件
2.
製作XML文件
除了可製作說明文件外,Colectica for Excel也可以匯出DDI格式的XML文件,DDI是一種統計與社會科學數據詮釋資料標準,相容於Colectica的其他產品Colectica Designer、Colectica Express或其他DDI應用程式,匯出XML文件可做為資料交換的用途,運用於不同的平台。
在功能列上就有Save as DDI的選項(圖十五),點擊後另存新檔即完成。
十五、匯出DDI格式的XML文件
(二) 資料匯入
Colectica for Excel提供SPSS、STATA及SAS三種資料格式的匯入功能。不過,標準版使用匯入功能時會跳出提醒,告知所匯入的資料不完整,約每18筆會有一筆不會匯入,如需完整匯入,需升級至專業版(圖十六)。雖然Colectica for Excel有此警訊,但是筆者試用發現檔案能成功匯入,筆數及變項數都沒有減少[8],讀者可斟酌利用。
此外,STATA資料檔的匯入仍無法支援中文字呈現;SAS資料檔因不支援charset(7)字集亦無法匯入。所以本文先以SPSS資料檔的匯入做說明。
1. 在Colectica功能選項上,點擊From SPSS,在提醒視窗中點選Continue with Trial Import。
圖十六、匯入資料檔出現的警告訊息
2. 選擇匯入的SPSS資料檔。
圖十七、選擇匯入的SPSS資料檔
3. 匯入後的檔案樣貌如下圖,系統自動帶入原本在SPSS建立的變項及選項數值說明,並可儲存在Excel檔中。
圖十八、SPSS into EXCEL資料檔
以上為Colectica for Excel(標準版)的簡要介紹,讓Excel也成為一個可以管理並紀錄調查資料檔及變項、選項等詮釋資料的工具,歡迎多加利用,並希望對資料管理有需求者能有所助益。
[1] DDI全名為Data Documentation Initiative,是描述調查問卷、調查資料、統計資料及社會科學研究層級資訊的國際標準。
[2] 介紹的Colectica for Microsoft Excel Standard Edition為5.3.3012版。
[3] 在Excel 2007中使用Colectica for
Excel,需進行Microsoft的更新,請至Microsoft下載並安裝修復程式Microsoft KB 976477。安裝修補程式後,即可加載Colectica for
Excel。
[4] 有關Stock、Flow、NonAdditive的說明,請參考http://www.ddialliance.org/Specification/DDI-Lifecycle/3.2/XMLSchema/FieldLevelDocumentation/schemas/logicalproduct_xsd/simpleTypes/AdditivityCodeType.html
[5]依據DDI Lifecycle 3.2,軟體開發者可以自行定義此欄位的選項,例如:geographic variable、time、date、currency等,請參考,http://www.ddialliance.org/Specification/DDI-Lifecycle/3.2/XMLSchema/FieldLevelDocumentation/schemas/logicalproduct_xsd/elements/VariableRole.html
[6] 各選項的定義,可將滑鼠置於選項上即顯示說明,或參考http://www.ddialliance.org/Specification/DDI-CV/AnalysisUnit_1.0.html
[7] 各選項的定義,可將滑鼠置於選項上即顯示說明,或參考http://www.ddialliance.org/Specification/DDI-CV/ResponseUnit_1.0.html
[8] 筆者嘗試匯入的SPSS檔案,樣本數為11,409,變項數有88個。
留言
張貼留言