2014年5月28日 星期三

Open Data與應用

開放資料 (Open data)指的是一種經過挑選與許可的資料,這些資料不受著作權、專利權,以及其他管理機制所限制,可以開放給社會公眾,任何人都可以自由出版使用,而且不論是要拿來出版或是做其他的運用都基本上是沒有限制的;目前我們所稱的Open Data資料,大部份是指由政府或公共部門所提供的資料,例如台灣歷年來的 GDP、物價指數、經濟相關數據或兩廳院藝文資訊及故宮文件典藏資料等等。

Open Data有什麼作用?如上圖,政府擁有最多的公共資料,而這些公共資料是由全民共同累積的,必須要有相對開放政策的配合,才能將這些龐大的資料資源以方便的形式來提供企業與民眾再利用,達到活化資料創造價值的目的;因此在英國政府的開放資料白皮書上,是這麼解釋Open Data的:『資料是新的原物料,可以產生知識、優化決策、促進創新,產生社會與經濟價值。』。
由於Open Data屬於完全公開的資料,因此無論個人或企業,皆可利用它來開發或製作專門的應用或APP,作為商業化用途或提供企業內部員工使用;目前社會大眾對於Open Data的使用焦點大部份是著重在於商業性以及公共資訊等用途,比較少著墨在企業內部的應用,本文將檢視目前政府所提供的Open Data資料,看看有那些資訊是可以為企業所利用。

如何取得政府的Open Data資料

台灣在2013五月份正式推出了政府的Open Data網站政府資料開放平台」,網址為http://data.gov.tw,該網站集合了中央政府各機關所有的Open Data,但不包含地方政府的地區性Open Data,若要取得這些地方性Open Data,需另外從右側的各資料平台中進入。

我們從上圖可看到,data.gov.tw所提供的開放資料筆數目前已有1827筆,而這些僅是中央政府相關機關的部份,不包含地方政府的開放資料。

如何使用Open Data資料

「資訊課程課程表」為例,下載頁面如下,我們可以看到它提供了XML及CSV兩種檔案格式,直接點選便可下載。

  請注意目前政府提供的Open Data格式並沒有統一且相當混亂,有XMLCSV、JSON、DOC、XLS…等等,因此,在下載資料集之後,我們還需要將不同的檔案格式轉換之後才能放入企業自已的資料庫平台以供後續的應用,此部份,建議撰寫一獨立的Interface專門處理及執行檔案的轉換匯入動作。

建議企業可利用的開放資料

    目前創新的教育訓練影音平台網站上面的外訓資訊,都是由管理人員(行管部)先去瀏覽很多網站,找尋適合的課程資訊後,再複製相關網址跟課程名稱後逐筆輸入。          

下列的教育訓練課程已公開並放置於Open Data平台,建議可透過程式自動化方式,定時取得並更新到企業本地端的資料庫中,可免除行管人員部份的手動作業。
員工教育訓練類:
資料集名稱
下載頁面
新竹科學工業園區人才培訓課程
http://data.gov.tw/node/7948
公立職訓中心自辦職業訓練課程開班資訊
http://data.gov.tw/node/6615
職訓中心自辦在職訓練課程資訊
http://data.gov.tw/node/6614
職業訓練課程資訊
http://data.gov.tw/node/6060
資訊課程課程表
http://data.gov.tw/node/7419
國立臺灣圖書館終身學習研習班課程
http://data.gov.tw/node/7618
勞教e網課程
http://data.gov.tw/node/6643
代訓機構招生中開課清單
http://data.gov.tw/node/6409
    除教育訓練之外,其它適合匯入企業平台供員工瀏覽查詢的Open Data:

員工生活訊息類:
資料集名稱
下載頁面
停水資訊
http://data.gov.tw/node/6050
中央氣象局颱風路徑及預報
http://data.gov.tw/node/6157
中央氣象局颱風侵襲機率
http://data.gov.tw/node/6162
中央氣象局豪大雨特報
http://data.gov.tw/node/6166
中央氣象局颱風警報
http://data.gov.tw/node/6170
縣市天氣預報
http://data.gov.tw/node/6069
紫外線預報
http://data.gov.tw/node/8131
測速執法設置點
http://data.gov.tw/node/7320
空氣品質預報資料
http://data.gov.tw/node/6349
用電安全資訊
http://data.gov.tw/node/6030
新竹科學工業園區公共藝術
http://data.gov.tw/node/7949
新竹科學工業園區管理局活動訊息
http://data.gov.tw/node/7951

企業研發統計資訊:
資料集名稱
下載頁面
全國企業部門研發經費_依OECD行業別區分統計資料
http://data.gov.tw/node/7566
全國企業部門研發人力全時約當數_依OECD行業別區分統計資料
http://data.gov.tw/node/7567
全國企業部門研發人力全時約當數_依我國行業別區分統計資料
http://data.gov.tw/node/7569
全國企業部門研發經費_依我國行業別區分統計資料
http://data.gov.tw/node/7619
企業部門研發經費_依企業員工數分層統計資料
http://data.gov.tw/node/7715
全國各研發執行部門研發經費統計資料
http://data.gov.tw/node/7562
勞教e網課程
http://data.gov.tw/node/6643
代訓機構招生中開課清單
http://data.gov.tw/node/6409



員工人事薪資相關資料:
資料集名稱
下載頁面
初任人員平均經常性薪資
http://data.gov.tw/node/6647
受僱員工人數、平均薪資
http://data.gov.tw/node/6648
國民年金保險被保險人應負擔保險費金額表
http://data.gov.tw/node/6407
基本工資之制定與調整經過
http://data.gov.tw/node/6281
勞動基準法適用公告
http://data.gov.tw/node/6279
勞動基準法第84條之1核定工作者
http://data.gov.tw/node/6280
園區各業別暨受雇員工平均工資資訊
http://data.gov.tw/node/6335
勞工保險預防職業病健康檢查之檢查對象及項目
http://data.gov.tw/node/6270

目前政府開放資料存在的問題

A)分類檢索草率不確實

目前在http://data.gov.tw網站上的開放資料有分為四大類:主題分類服務分類機關別分類資料類型,但各分類的資料總數與實際總筆數並不一致,例如「主題分類」此類別下轄有:生活地圖、觀光旅遊、災害防救、生活品質、藝文活動等四個子分類,但總筆數卻僅有97筆開放資料,也就是說,有高達1730筆(95%)資料沒有針對主題進行分類。
而依「服務分類」的情況比較好,各子分類的總筆數與實際筆數一致,但卻有高達一半(989筆)的資料放在「公共資訊」類別,實際去檢視這989筆資料內容,可以發現該類別中包含了古績、政府公告、交通、教育等等不同類型的資料,這些資料應該可以被正確分類到其它類別,卻隨意歸類在「公共資訊」類別。

這種簡略的分類以及隨意歸類的現象若不儘快改善,會造成資料搜尋者不易找到合適的資料,而且隨著愈來愈多的政府開放資料上架,這種問題會愈加嚴重,讓政府開放資料的美意大打折扣。       

B)資料類型不統一,格式太多

目前臺灣的公開資料格式、資料發布與查詢標準,是以五星級的標示方式,清楚載明各種公開資料的可用程度,各星級的說明如下:

一)一顆星表示資料已上網且開放授權,但格式不一。
二)二顆星表示已經提供結構化的資料。
三)三顆星表示使用非專屬的格式。
四)四顆星表示可以直接標示、存取和運用資料集裡的單筆資料。
五)五顆星表示已經將該公開資料和其他資料進行連結,建立並提供相關的API或網址等,可供民間直接加值運用。

表面看來似乎已達到政府宣稱的五星品質,但若詳加檢視,目前在http://data.gov.tw所提供的資料格式,計有CSVTXT、JSON、XLS、XML等,雖然大部份屬於結構化資料,但內容編碼有的為Big5,有的為UTF-8;空的欄位值有的是space、有的是空字元,有的則以null替代;文字字串有的會在首尾加上引號,但有的不會…,等於每筆資料集有自已的性格,資料使用者在使用前,必須作好資料介面層的工作,也須隨時提防資料內容或格式忽然變動導致程式無法順利執行。

C)中央與地方的公開資料沒有整合

目前中央政府與各地方縣市政府的公開資料各自為政,有不同的網站架構與分類,相同類型的資料分屬不同的單位網站、分類,且檔案格式不統一,在應用上相當麻煩,對於資料提供者或利用者來說,徒增不必要的動作與負擔。

政府單位應將Open Data視為一個重要的資源來保存與管理,透過一個集中的Open Data資源中心,由中央專屬的資訊單位來執行資料的統整工作,從決定那些資料的開放與否、資料的檔案類型、索引分類等,皆由單一的機構或窗口來負責,才不會有目前的現象:資料散亂、格式不統一、不同的資料集名稱、不同的政府機關對資料有不同的開放態度等。

D)開放的資料尚屬小眾、量少的資料
除了少數像是內政部的不動產買賣實價登錄批次等資料量較多之外,大部份的資料都是少量、屬於特定範圍的資料,其它量大且沒有隱私疑慮的,例如交通路口的攝影機資料環保數據、輻射背景等等屬於巨量資料的Open Data,建議可架構相關平台來開放給程式開發者,協助找出其潛藏的應用價值。




沒有留言:

張貼留言