지난 12월 3일 국립중앙도서관에서 열렸던 KSWC2010에서 탑쿼드란트 코리아 오원석 이사의 발표자료입니다. (다음을 클릭하시면 자료를 다운로드 받으실 수 있습니다.)
[KSWC2010] 데이터의 가치를 높이는 Linked Data
지난 12월 3일 국립중앙도서관에서 열렸던 KSWC2010에서 탑쿼드란트 코리아 오원석 이사의 발표자료입니다. (다음을 클릭하시면 자료를 다운로드 받으실 수 있습니다.)
[KSWC2010] 데이터의 가치를 높이는 Linked Data
탑쿼드란트 코리아에서는 링크드 데이터 확산을 위해 다양한 분야에서의 링크드 데이터 적용 방안을 고민하고 있습니다.
1. 제약 분야의 링크드 데이터 적용방안
2. 도서관과 링크드 데이터
3. 통계 데이터의 링크드 데이터 적용방안
KSWC 2010이 오는 12월 3일에 개최됩니다.
2010년 시맨틱 웹 컨퍼런스에서는 정부 2.0으로 대표되는 종합적인 관점에서부터 공공정보를 공개하고 공유가능한 형태로 만들기 위한 기술로서의 시맨틱 웹을 살펴봅니다.
2009년 컨퍼런스에서 “웹 사이언스”의 필요성과 접근 방법에 대해 논의했듯이, 시맨틱 웹 기술은 공공정보의 의미적 연결과 활용에 중요한 역할을 할 것으로 기대됩니다.
Topquadrant Korea는 오원석 이사의 “데이터의 가치를 높이는 Linked Data”라는 주제의 발표와 행사장 부스로 참여합니다. 여러분의 많은 관심 바랍니다.
행사개요
일시: 2010년 12월 3일 금요일 08:00 ~ 17:30
장소: 국립중앙도서관 1층 국제회의실
대상: 시맨틱 웹, 공공정보, Gov 2.0에 관심 있는 모든 분들
참가비: 일반: 5만원, 학생: 1만원
주관: 웹사이언스 워크그룹
주최: 웹사이언스 워크그룹, 국립중앙도서관
Open, Linked Data for a Global Community: Berners-Lee at Gov 20 Expo 2010
지난 5월 25-27일 미국에서 Gov 2.0 Expo 2010 행사가 있었습니다. 여기에서 Tim Berners-Lee가 “Open, Linked Data for a Global Community”라는 제목의 Linked Data에 관한 발표를 했습니다.
여기에서 Tim Berners-Lee는 포테이토 칩 봉지를 가지고 Linked Data의 유용성에 관해 설명하고 있습니다.
예를 들어, 봉지 앞면에는 제품의 이름, 브랜드명, 회사 이름과 같은 정보가 들어 있고, 뒷면에는 U.S. Food and Drug Administration (FDA)에서 만들어지는 칼로리, 지방 함유량 같은 영양 정보, 기계가 읽고 이해하기 위한 UPC(Universal Product Code) 바코드와 같은 다양한 정보원(information source)을 가진 정보들이 모여 있습니다.
즉, 하나의 과자 봉지 안에도 다양한 정보 주체가 만들어 낸 다양한 정보들이 조합되어 있는 셈이라고 할 수 있는데, 이와 같이 공개된 Linked Data를 이용하면, 컨텐츠 제작자가 직접 어떤 데이터를 기술(describe)하기 위해 노동력을 들여가며 새로 만들지 않더라도, 이미 존재하는 다양한 컨텐츠를 가져다가 조합해서 새로운 방식으로 사용할 수 있다는 장점을 Tim Berners-Lee는 강조하고 있습니다.
with linked data you can cherry-pick different sets of terms from vocabularies that already exist.
한편, 정부 데이터를 국민에게 공개함으로써 정보의 민주주의 실현, 그리고 정부의 투명성 및 정부 데이터를 국민이 창조적으로 이용하도록 하기 위해 시작했던 오바마 정부의 data.gov 프로젝트는 지난 5월 1주년을 맞아 data.gov 의 일부 데이터셋을 시맨틱웹 표준 포맷인 RDF로 변환한 데이터셋과 이를 이용한 차세대 Linked Data 매쉬업을 data.gov에 공개(http://www.data.gov/semantic/index)했습니다.
data.gov에서 제공하는 RDF 문서들의 목록은 여기에서 살펴보실 수 있습니다.
탑쿼드란트 코리아는 링크드 데이터(Linked data)를 위한 기반 솔루션인 온토스위트(OntoSuite) 제품군을 발표했다.
온토스위트는 기존의 데이터셋을 링크드 데이터로 발행, 공개할 수 있도록 RDF 포맷으로의 자동 변환을 실행하는 온토트랜스 2.0과 대용량의 링크드 데이터를 저장, 관리할 수 있는 온토베이스 2.0을 포함하고 있다.
온토베이스 2.0은 벤치마크 테스트를 통해 세계적인 타 제품군에 뒤지지 않는 뛰어난 성능을 갖추고 있으며 10억개 트리플 이상의 링크드 데이터를 저장ㆍ관리ㆍ발행ㆍ운영하기 위한 최적의 기능을 갖추고 있다. 탑쿼드란트 코리아는 홈페이지를 통해 온토베이스 2.0 트라이얼 버전을 공개하고 있다.
(관련기사 : 디지털 타임즈 2010년 4월 5일자 )
탑쿼드란트에서 참여한 “트리플 레파지토리 벤치마킹 보고서”에 대한 요약본이 정보통신산업진흥원에서 발행되었습니다.
다음 링크를 따라가시면 받아보실 수 있습니다.
http://www.itfind.or.kr/itfind/getFile.htm?identifier=02-001-100323-000013&searchGu=t
2009년 미정부의 data.gov나 영국, 호주의 이와 유사한 Linked Data를 이용한 정부의 공공 데이터 공개가 확산됨에 따라 기술적인 수요도 증가하는 추세이다. 특히, BBC의 Linked Data 어플리케이션의 성공적인 적용 사례에 힘입어 NYT의 Linked Data 프로젝트, Library of Congress의 LCSH(LC Subject Heading)의 Linked Data화, 그리고 GoodRelations 온톨로지를 이용한 BestBuy 등 다양한 분야의 적용 사례가 발표되고 있다. 또한 영국의 Linked Data 기반의 data.gov.uk를 통해 공개된 데이터를 이용한 다양한 어플리케이션들이 등장하고 있으며, 특히, 웹 기반의 어플리케이션 뿐만 아니라 DBpediaMobile과 같이 Linked Data를 통해 공개된 데이터들을 서로 연계, 활용한 위치기반 스마트폰 어플리케이션들이 속속 등장하고 있다.

링크드 데이터 어플리케이션 - BBC Music 사이트
이러한 어플리케이션 구축을 위해서는 Linked Data를 위한 기반 솔루션이 필요한데, 이미 미국, 유럽의 시맨틱웹 회사들은 2007년 이후부터 Linked Data에 관심을 가지고 솔루션을 연구해 왔으며 2009년을 기점으로 속속 솔루션을 발표하고 있다. 기존의 온톨로지 레파지토리 시스템을 중심으로 한 데이터 통합 솔루션을 제공하던 OpenLink사의 Virtuso는 Wikipedia의 Linked Data 시스템 구축에 도입되었고, 영국의 data.gov.uk 사이트의 Linked Data 구축 및 SPARQL Endpoint 구축에 영국의 시맨틱웹 솔루션 회사인 Talis의 Platform이 도입되었다.
Franz사의 온톨로지 레파지토리 시스템인 AllegroGraph와 브라우저인 AGWebView 및 graph 기반 브라우징을 제공하는 뷰어인 Gruff 등을 패키지화 하여 Linked Data 셋을 대상으로 한 운영, 관리 및 SPARQL Endpoint를 이용한 데이터의 조회와 검색 결과에 대한 시각화와 브라우징이 가능하도록 생명공학 분야의 적용했으며, DBPedia Germany를 구축하는데도 이용되었다.
2010년 1월에는 독일의 Ontotext사가 LOD 데이터 셋 중 생명공학분야의 UniProt, PubMed, EntrezGene 등의 데이터 셋의 40억개의 데이터에 대한 SPARQL endpoint 및 검색 인터페이스를 제공하는 www.linkedlifedata.com 사이트를 오픈했다. 여기에는 자사의 온톨로지 레파지토리 시스템인 OWLIM 기술을 이용한 대용량 데이터의 통합과 추론, SPARQL 질의, 브라우징 인터페이스를 제공하는 LDSR(Linked Data Semantic Repository) 솔루션이 사용된다.
최근의 기술동향을 살펴보면 주요 온톨로지 레파지토리 시스템을 보유한 회사들을 중심으로 자사의 온톨로지 레파지토리 시스템을 기반으로 한 Linked Data에 대한 접근, 통합, 운영 및 관리 기술, SPARQL Endpoint 구축 기술, SPARQL 질의 처리 및 검색결과의 브라우징 및 시각화 기술을 솔루션화 하여 제공하고자 하는 움직임이 활발하게 진행되고 있다는 것을 알 수 있으며, 세계적으로 Linked Data 시장이 형성되어 가고 있음에 따라 우리나라도 Linked Data에 대한 기반 솔루션이 시급히 확보되어야 함을 시사하고 있다.
by ymchu
지난 1월 21일 영국의 data.gov.uk사이트가 오픈했다. 2009년 7월 영국의 수상인 고든 브라운이 “앞으로 몇 달 안에 정부 데이터가 가능한 모든 계층의 국민들에게 이용될 수 있도록” 하겠다는 e-Government 전략을 발표한 이래 6개월 만이다.
특히, 영국 정부는 Tim Berners Lee에게 정부 데이터를 웹으로 공개하는 data.gov.uk 프로젝트의 자문을 요청했다. Tim Berners Lee는 시맨틱 웹의 확산을 위해 최근 몇년 동안 Linked Data에 힘을 쏟고 있다. 2009년 2월 TED 컨퍼런스의 연설에서 Linked Data의 유용성을 주장했고, 특히 Linked Data 형태로 정부 데이터를 공개해야 함을 역설해왔다.
실제로 미국은 오바마 정부가 들어선 이래 Open Government 운동을 추진하며 투명성(Transparency), 참여(Participation), 협력(Collaboration)이라는 목표를 위해 정부 및 공공기관에서 보유하고 있는 데이터를 공개하는 웹 포털인 data.gov를 영국보다 먼저인 2009년 초에 시작했지만, raw data(.csv, .xml 등) 포맷의 레파지토리 형태이며, 부분적인 데이터 셋의 링크드 데이터화를 위한 프로젝트를 추진하고 있는데 반해, 영국의 data.gov.uk 프로젝트는 Tim Berners Lee의 자문을 통해 처음부터 Linked Data를 표방했다.
Data.gov.uk
data.gov.uk는 2500여개 이상의 데이터 셋을 링크드 데이터 형태로 퍼블리싱했다고 한다. 또 2009년 10월 말 소프트웨어 개발자를 대상으로 베타 사이트를 오픈하고 링크드 데이터를 이용한 어플리케이션 개발에 참여하도록 지원했다.
정부가 소유한 데이터를 오픈 라이센스를 사용하여 공개하기 때문에 누구나 데이터를 재사용하여 매쉬업을 통해 다양한 서비스를 만들어 낼 수 있다.
예를 들어, Land Registry가 보유한 데이터를 이용해 영국 각 지역의 주택가격의 추이를 그래프를 통해 시각화하여 보여주기도 하고(http://data.gov.uk/apps/uk-house-prices),
Health and Social Care Information Center(HSCIC)의 병원 목록을 이용하여 아이폰으로 현재 위치에서 가까운 개인병원을 안내받을 수도 있다.(http://www.elbatrop.com/gps).
이 외에도 data.gov.uk 사이트를 방문하면 Linked Data를 이용한 다양한 어플리케이션을 체험해 볼수 있다.
Linked Data 형태로 정부 데이터를 공개하는 이유
미국에 이어 만들어진 영국의 정부 데이터 공개 포탈 사이트는 앞으로 Linked Data의 확산에 많은 기여를 할 것으로 보인다. W3C 시맨틱웹 그룹의 Linking Open Data Project를 통해 Linked Data가 점차 확산되어 가는 시기에 정부 데이터를 기반으로 한 다양한 데이터 셋과 이를 이용한 유용한 매쉬업 어플리케이션들은 앞으로 시맨틱 웹의 유용성을 실제로 보여주게 될 것이다.
Tim Berners Lee에 따르면 정부가 보유한 공공 성격의 데이터(public data)를 공개한다는 것은 국민에게는 정부 데이터의 접근성으로 제공함으로써 정부의 투명성을 높이고 가치있는 정보를 제공하여 정부(및 관련 산업)의 기능을 더욱 효율화한다는 기본적인 목적을 가지고 있다.
더우기 이러한 목적을 위한 기술로서 Linked Data를 채택하는 이유는
1. Linked Data의 개방성(open) : RDF 포맷의 데이터는 웹 환경에서 자유롭게 호환되고 다양한 어플리케이션에서 접근 가능하고
2. 모듈성(modular) : Linked Data는 다른 Linked Data와 조합(mash-up)이 쉽기 때문(예를 들어, 공간 데이터와 인구 데이터, 그리고 사회복지 서비스의 종류와 수혜자 통계 등을 융복합하여 시각화 한다던지)이며
3. 확장성(scalability) : 기존의 Linked Data 셋과 쉽게 연계 가능하기 때문이다.
영국 정부는 공공 성격의 정부 데이터를 자유롭게 공개함으로써 자국의 경제사회에 새로운 비즈니스 기회를 제공하게 될 것으로 기대한다. 즉, 산업계가 데이터를 창조적으로 자유롭게 이용하도록 함으로써 새로운 서비스를 개발할 수 있고, 그것으로부터 경제적 가치를 만들어 낼 수 있으며, 따라서 경제를 성장시킬 수 있는 혁신적인 서비스 및 서비스 딜리버리를 효율화함으로써 기업들에게 엄청난 기회를 제공하게 될 것으로 Digital Britain minister인 stephen Timms는 전망하고 있다.
by ymchu
source : http://www.semanticuniverse.com/topquadrant-monthly-column/group-blog-entry-semantic-web-key-enabler-enterprise-vocabulary-management
by Dean Allemang
통제어휘, 택소노미 그리고 시소러스는 수십 년간 정보조직화를 위해 다양하게 사용되어 왔다. 인터넷으로 촉발된 정보 폭발은 이 정보조직화의 중요성을 점점 더 분명하게 하고 있다. 문제는 어휘를 어디에서 찾을 것인지 또는 어떻게 구축할 것인지에 있지 않다; 오히려 기업들은 일반적으로 몇몇 다양한 미니 어휘(mini vocabulary)들을 가지고 있고, 각각은 특별한 목적이나 사업적 요구에 따라 소위 “폭소노미”라는 것으로 유명한 웹사이트에 나타난다는 것을 발견한다. 기업들이 당면하고 있는 문제는 이 모든 어휘들을 어떻게 중앙집중적인 방식으로 관리할 것인지, 그리고 어떻게 서로 상호참조가 가능하도록 통합할 것인지에 있다.
최근의 웹 2.0 사상인 ‘검색을 위한 정보의 태깅’이라는 아이디어를 생각해 내기는 쉬운 일이다. Del.icio.us, flickr 같은 사이트는 이용자들에게 기사와 사진에 태깅(tagging)을 하는 것으로 정보 조직화에 협력할 수 있도록 허용함으로써 상당한 관심을 얻어냈다. 이러한 종류의 협력적 조직화는 ‘crowdsourcing’이라는 형태로서 많은 사람들에게 유용한 정보집합을 생산하도록 허용한다.
그러나 이 아이디어는 웹2.0 시대에 새로운 것이 아니다. 이미 19세기 초반 (미)서부 출판계는 벌률 문서를 쉽게 찾기 위한 태깅의 가치를 발견하고 West Key Number System을 만들었다. 사서들은 목록을 만들기 위해 책을 태깅했다. 많은 관심 있는 또는 학식 있는 사람들이 정보를 색인하기 위한 여러 작업을 해왔으며 이에 관한 특별한 역사가 존재한다. 그러나 이 시스템들은 del.icio.us나 flickr가 배운 바와 같은 교훈을 곧 습득했다: 태깅이라는 순수한 crowdsourcing 솔루션은 금방 관리가 어렵게 된다는 것을(out of control). 관리하지 않고 내버려 두면, 협력적 태깅 시스템은 비일관적인 태그의 증식만을 낳을 뿐이다. 이 결과는 체계적 검색이 가장 두려워하는 시스템이다. 이것은 flickr나 del.icio.us같은 대중적 사이트에서는 받아들여질 만한 상황이지만 통제되어야 할 기업환경을 위해서는 완전히 적합하지 않다.
통제 어휘(controlled vocabulary)라는 개념에 대해 한번 생각해 보자. 만약 모든 태거(tagger)들이 미리 정의된 태그 집합에 익숙하다면 그들은 더욱 일관성 있게 재료들을 태깅할 수 있을 것이다. West Key Number System 의 경우, 통제 어휘의 아이디어는 꽤 일찍 시작- 19세기에- 되었다. 통제 어휘의 유지관리는 어떤 용어들을 사용할 것인지 결정하고 그것들을 어떻게 써야 할지 문서화하는, 주요한 비즈니스 프로세스로 자리잡았다.
통제 어휘는 다양한 이용자 층을 가진다:
기업 환경에서 통제어휘들은 다음과 같은 다양한 비즈니스 목적을 위해 사용된다:
통제 어휘의 형식(form)
여기에서 우리는 ‘통제어휘’라는 일반적인 용어를 대중적 태깅 시스템을 중개하는 용어의 모든 시스템을 위해 사용한다. 그러나 당신이 실제적 상황을 상상해본다면 통제어휘의 유지 관리 및 구조, 채택을 둘러싼 사소한 수많은 것들이 있고 그로 인해 다양한 다양한 형태의 어휘가 생산된다. 통제 어휘의 일반적인 몇 가지 종류는 다음과 같다:
통제 어휘의 다양한 형태는 기업이 어휘 문제로 당면하고 있는 주요한 문제-기업이 이미 가지고 있고 사용하고 있는 수많은 어휘들을 어떻게 이해하고, 관리하며, 유용화할 것인가-의 원인이기도 하다.
통제 어휘의 소스
통제어휘는 어디에서 오는가? 대부분의 조직은 존경할만한 West Key Number System과 같은 전통을 가지고 있지 않다. 대부분의 기관은 하나 이상의 다음과 같은 형태의 어휘를 가지고 있다.
이런 소스와 요구사항의 다양함은 기업에서 어휘를 관리하는데 있어 수많은 과제들을 제기한다. 몇 가지 주요한 관심사는 다음과 같다:
Enterprise Vocabulary Management
이런 도전과제들은 우리가 Enterprise Vocabulary Management(EVM)이라고 부르는 기업의 새로운 요구를 규명한다. 기업 차원의 어휘 관리에 대한 일반적인 접근방식은 기업 전체를 위한 하나의 중앙집중적인 참조 어휘를 만드는 것이다. 이것이 매력적인 아이디어이긴 하지만 현대의 기업 환경에 간단히 적용되기는 어렵다. 기업 내 다양한 비즈니스 조직과 다양한 비즈니스 프로세스는 특정한, 서로 부딪히는 방법으로 용어를 사용하는데 정당한 이유들을 가지고 있다. 어떤 기업 조직에게 회사 표준에 맞추기 위해서 일상적인 업무에서 커뮤니케이션 하는 방법을 바꾸어야 한다고 말하는 것은 쉽지 않다. 그런 노력이 성공한다고 해도, 어떤 병합 툴과 생산 라인의 획득, 수정이 있어야 하는지, 현대의 기업환경은 너무 다이나믹해서 중앙집중적인 참조는 완성되기도 전에 쓸모 없게 되고 말 것이다.
이런 역동성의 관점에서 상황은 희망이 없어 보일 수도 있다- 어떤 정보관리 시스템이 이런 희망을 유지할 수 있을 것인가? 대답은 웹- 매우 동적인 환경을 통해 성장한 정보 시스템인 -에 의해 주어진다. 기업을 위한 하나의 단일 어휘 시스템을 만드는 것 대신 EVM 솔루션은 서로를 연결시키는 어휘 구조의 웹(a web of vocabulary structures)을 만들어야 한다. 이런 접근방식은 솔루션의 기반기술로서 몇 가지 요구사항을 제시한다:
이런 솔루션을 지원하는 수많은 기술들이 있겠지만, 시맨틱웹 기술은 웹 분산을 염두에 두고 설계되었다. 특히:
시맨틱웹 기술의 이러한 특징은 기업 어휘 관리를 위해 사용되는 주요 기술들을 독특한 위치로 올려 놓는다. 완벽한 솔루션은 포괄적인 기업 통합 기능(EI capability, e.g., LDAP 서비스로의 접속과 웹 애플리케이션 플랫폼)뿐만 아니라 유연한 이용자 인터페이스를 요구하겠지만, 일단 가장 가능성있는 EVM 솔루션은 이러한 주요 요구사항을 충족시킬 수 있는 기본 기술로 시작할 수 있을 것이다.
지난 주 회사 워크샵에서 Linked Data에 대한 소개를 했었는데 여기 Linked Data에 대해서 Tim Berners-Lee가 Ted ‘2009에서 발표한 동영상 링크를 올립니다.
http://www.ted.com/index.php/talks/tim_berners_lee_on_the_next_web.html
자막을 선택하면 훨씬 이해가 쉽더라구요. ^^
Linked Data는 새롭게 어디선가 튀어나온 그 무엇이 아니라 이제까지 추구해온 시맨틱웹을 어떻게 구체적으로 실현시킬 것인가에 대한 고민의 결과가 아닌가 생각합니다.
Linked Data라는 원칙을 가지고 만든 데이터들을 publishing하고 서로 link를 맺어서 시맨틱 데이터가 자유롭게 생산되고 소비되는 환경을 어떻게 만들 것인지, 조금씩 모습이 보이기 시작하는 Linked Data Application, Use Case를 가지고 생각을 넓혀볼 수 있을 것 같습니다.
관련 사이트:
http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/