免費資料管理工具介紹--Colectica for Microsoft Excel Standard Edition



蘇脩惠
為長久保存數據資料檔並提供再次利用,資料文件化是資料管理程序重要的一環。目前常見的調查資料保存軟體包含SPSSExcelStataSAS等;其中,Excel相較於其他統計軟體是最容易取得的資源,也是許多人常用的統計軟體。但由於Excel無法記錄詮釋資料(metadata),相關使用說明往往需要記載在另外一份文件中,若一時忘記製作或日後文件遺失,不論是研究者本身想再次分析資料或是將資料與他人分享,都有可能因為無法正確解讀資料檔中各個數值代表的意義,而導致得到錯誤的分析結果,甚至讓資料失去再利用價值,Colectica for Excel的出現正可彌補這項不足。
Colectica for ExcelColectica家族其中一員,提供統計資料文件化的功能,讓調查機構統計單位民調研究者資料庫人員和其他相關從業人員操作利用,協助其快速地將調查研究或統計資料以開放資料標準(open data standards)發布及分享Colectica for Excel依照DDI[1]格式記錄詮釋資料,提供使用者記錄變項及資料檔內容,能隨附儲存Excel資料檔中,進而可將之轉出成使用說明文件或符合DDI-Lifecycle詮釋資料標準的XML檔案;此外,亦可將SASSTATASPSS資料檔匯入Excel,並保留在原統計軟體中建立的變項和選項資訊(圖一)



圖一Coletica for Excel功能
來源http://www.colectica.com/software/colecticaforexcel

依開放的功能不同Colectica提供免費及付費等四種版本(),本文介紹的為免費使用的標準版(Standard)[2],以下軟體安裝開始再分別介紹資料文件化、資料匯出及匯入等功能
二、Coletica for Excel各版本及功能列表
來源http://www.colectica.com/software/colecticaforexcel
一、  軟體安裝
Colectica for Microsoft Excel Standard Edition支援Excel 2007[3]以上的格式,下載程式前需先註冊Colectica帳戶(),填寫姓名、服務單位及電子郵件等欄位,並設定登入密碼。

三、註冊Colectica帳戶
註冊帳戶之後會取得一組授權碼及下載連結下載安裝完成後Excel工具列上就會出現COLECTICA的選項()
圖四、ExcelCOLECTICA工具列

二、  資料文件化
本文以筆者服務的學術調查研究資料庫所進行的「2017學術調查研究資料庫會員服務意見調查」為例,介紹如何利用Colectica for Excel記錄調查資料的基本資訊、以及其數據所代表意義等,依序說明「資料檔詳細資訊」(Dataset Details)、「變項詳細資訊」(Variable Details)及「代碼列表」(Code List)的內容。
(一)   資料檔詳細資訊
有關調查資料基本資訊的建置,首先開啟Excel資料檔,從工具列上的COLECTICADocument Workbook右側會顯示Datasets DetailsVariable DetailsCode List頁籤。關於資料檔詳細資訊可在Dataset Details中建立
Datasets Details預設Title(計畫或調查名稱)Subtitle(副題名)Alternate Title(計畫別名或簡稱)Creator(計畫主持人)Publisher(製作文件單位)Contributor(經費贊助單位)Copyright(版權)Identifiers(識別代碼)欄位,若有其他想記錄的資訊,可點選新增欄位
圖五除輸入本文所使用範例的計畫名稱等基本欄位外,另新增調查對象、調查方法、調查執行期間等資訊

圖五、資料檔詳細資訊
資訊建置完成後,若有欄位內容的變更或新增,則在更新內容後點擊Datasets Details頁籤最上方Refresh Documentation存檔
(二)   變項詳細資訊及代碼列表
數據所表的意義,包含變項及選項兩個部分。其資訊的建置,分別Colectica功能列Data Documentation中的Variable DetailsCode List頁籤鍵入。Variable Details預設的欄位內容如下:
  • Label:變項所代表的意義。
  • Description:對此變項的詳細說明
  • Data Type(選單):變項的資料屬性,分為Text, Numeric, DateTimeCode。依選擇的屬性,接著出現對應的輸入項目。例如選擇Numeric,出現數值類型、最大值、最小值、是否為權數等欄位;選擇Code,則出現選擇選項數值的按鈕(請參考2.代碼列表)
  • Additivity(選單)[4]: 變項的數值是否可以相加,選項包括: Unspecified, Stock, Flow, NonAdditive
  • Measure Unit:變項的計量單位,例如:時、分、公斤、元..等。
  • Role(選單)[5]:變項具有的功能,目前選單提供identityweight兩個選項。
  • Analysis Unit(選單)[6]:變項的分析單位,從選單內選擇,例如:個人、家戶、特定地區、時間單位等。
  • Response Unit(選單)[7]:資料來源,分為Self, Informant, Proxy, InterviewerOther
如有其他資訊為預設標籤所沒有者,可點選新增欄位。底下以學術調查研究資料庫會員服務意見調查問卷為例說明。
請問您加入學術調查研究資料庫(SRDA)會員的原因?【可複選】
(1) 免費使用 (2) 師長推薦 (3) 有使用資料(數據)的需求 (4) 先加入以備不時之需 (5) 其他(請說明)
1題為複選題,我們將選項作為變項v1m1~v1m5每個變項的數值以(0)代表沒有選這個選項、(1)代表有選這個選項、(99)代表遺漏值。若只使用 Excel建置資料時,通常會須要另外製做像下面的過錄編碼簿,以供分析人員或是日後再利用時之參考。但若安裝了Colectica for Excel之後,便可將過錄編碼簿中的資訊,直接記錄、儲存在Excel檔中。
題號
變項名稱
變項說明
選項數值說明
備註

id
樣本編號

文字型
1
請問您加入學術調查研究資料庫(SRDA)會員的原因?
v1m1
(1) 免費使用
0 沒有
1
99 遺漏值
複選題
v1m2
(2) 師長推薦
v1m3
(3) 有使用資料(數據)的需求
v1m4
(4) 先加入以備不時之需
v1m5
(5) 其他

1.     變項詳細資訊
(1)  EXCEL資料檔中點選欲建立的變項欄位(v1m1),再回到Variable Details頁籤,於Label鍵入v1m1變項說明。
(2)   Data Type可指定變項屬性,而v1m1為封閉式選項具有碼,選擇Code。若是文字欄位或開放題選擇Text;數字欄位為Numeric;時間欄位則為DateTime


圖六、變項詳細資訊
2.     代碼列表
若在Data Type選擇Code欄位下方會出現Create New Code ListUse Existing Code List兩個按鈕。前者代表選項數值尚未定義必須新增後者則代表有現成的代碼可以套用若有其他題目的選項相同就可以選擇這個功能免去重複輸入選項數值及內容。下面以變項v1m1v1m2說明。
(1)     Create New Code List
以變項v1m1為例,其選項所代表的意義為(0)沒有、(1)有、(99)遺漏值,建立新的代碼列表步驟如下:
A.    點擊Create New Code ListColectica會自動產生該變項目前已鍵入的數值列表,如下圖右方的「v1m1-加入SRDA原因:免費使用」。

圖七、建立新的代碼列表
B.    點擊「v1m1-加入SRDA原因:免費使用」開啟Code List視窗(8),鍵入變項v1m1選項所代表意義。


圖八、v1m1代碼列表
若有鍵入新的數值時,須先按「Update Codes from Data」更新Code List如下,即可定義新數值代表的意義。

圖九、更新v1m1代碼列表
(2)     Use Existing Code List
以變項v1m2為例,因其選項所代表的意義與變項v1m1相同,而變項v1m1代碼列表已建置完成,此時,點擊「Use Existing Code List」,再選已建立的v1m1代碼列表直接套用。其步驟如下:
A.       點擊Use Existing Code List


Use Existing Code List
B.       在已建立的選項列表中,選擇使用v1m1代碼(點擊兩下)套用選項說明。


圖十、已建立的Code List清單
C.       成功套用v1m1代碼列表,則如圖十

圖十、成功套用v1m1代碼列表圖示

三、   資料匯出與匯入
Colectica for Excel提供匯出文件功能,讓您無需再花時間重新製作文件。Colectica for Excel還提供匯入SASSTATASPSS資料檔的功能,即使沒有安裝這些統計軟體,也可以將資料檔轉入進行資料分析
(一) 資料匯出
1.       製作說明文件
Colectica for Excel提供PDFWord(rtf格式)兩種格式供匯出,不過PDF匯出功能尚無法完整顯示中文內容本文中僅對匯出Word格式做說明
(1)   從工具列的COLECTICACreate Documentation,並選取word格式(圖十),另存新檔即完成文件的製作。
 圖十、匯出word說明文件
(2)     完成的說明文件如下圖。


圖十、調查資料說明文件
2.       製作XML文件
除了可製作說明文件外,Colectica for Excel也可以匯出DDI格式的XML文件,DDI是一種統計與社會科學數據詮釋資料標準,相容於Colectica的其他產品Colectica DesignerColectica Express或其他DDI應用程式,匯出XML文件可做為資料交換的用途運用於不同的平台
在功能列上就有Save as DDI的選項(圖十五)點擊後另存新檔即完成。

、匯出DDI格式的XML文件

(二) 資料匯入

Colectica for Excel提供SPSSSTATASAS三種資料格式的匯入功能。不過,標準版使用匯入功能時會跳出提醒,告知所匯入的資料不完整,約每18筆會有一筆不會匯入,如需完整匯入,需升級至專業版(圖十六)。雖然Colectica for Excel有此警訊,但是筆者用發現檔案能成功匯入,筆數及變項數都沒有減少[8],讀者可斟利用
此外,STATA資料檔的匯入仍無法支援中文字呈現SAS資料檔因不支援charset(7)字集亦無法匯入。所以本文先SPSS資料檔的匯入做說明。
1.     Colectica功能選項上,點擊From SPSS在提醒視窗中點選Continue with Trial Import


圖十、匯入資料檔出現的警告訊息
2.     選擇匯入的SPSS資料檔。


圖十、選擇匯入的SPSS資料檔
3.     匯入後的檔案樣貌如下圖,系統自動帶入原本在SPSS建立的變項及選項數值說明,並可儲存在Excel檔中。

圖十SPSS into EXCEL資料檔
以上為Colectica for Excel(標準版)的簡要介紹,Excel也成為一個可以管理並紀錄調查資料檔及變項選項等詮釋資料的工具歡迎多加利用並希望對資料管理有需求者能有所助益



[1] DDI全名為Data Documentation Initiative,是描述調查問卷調查資料統計資料及社會科學研究層級資訊的國際標準
[2] 介紹的Colectica for Microsoft Excel Standard Edition5.3.3012版。
[3] Excel 2007中使用Colectica for Excel,需進行Microsoft的更新,請至Microsoft下載並安裝修復程式Microsoft KB 976477。安裝修補程式後,即可加載Colectica for Excel
[4] 有關StockFlowNonAdditive的說明,請參考http://www.ddialliance.org/Specification/DDI-Lifecycle/3.2/XMLSchema/FieldLevelDocumentation/schemas/logicalproduct_xsd/simpleTypes/AdditivityCodeType.html
[5]依據DDI Lifecycle 3.2,軟體開發者可以自行定義此欄位的選項,例如:geographic variabletimedatecurrency等,請參考,http://www.ddialliance.org/Specification/DDI-Lifecycle/3.2/XMLSchema/FieldLevelDocumentation/schemas/logicalproduct_xsd/elements/VariableRole.html
[6] 各選項的定義,可將滑鼠置於選項上即顯示說明,或參考http://www.ddialliance.org/Specification/DDI-CV/AnalysisUnit_1.0.html
[7] 各選項的定義,可將滑鼠置於選項上即顯示說明,或參考http://www.ddialliance.org/Specification/DDI-CV/ResponseUnit_1.0.html
[8] 筆者嘗試匯入的SPSS檔案,樣本數為11,409,變項數有88個。

留言

這個網誌中的熱門文章

使用Python進行資料整理 – 初探Pandas

SAS、SPSS、STATA 統計軟體檔案格式轉換介紹

資料整理與檢誤經驗談—以SPSS程式進行邏輯檢查