Linked Data

Linked Data는 개방형 데이터들을 네트워크(HTTP 프로토콜)를 통해 개방하고, 유통하여 연계, 협업하고자 하는 것이다. URI기반의 HTTP 역참조(dereference)를 통해 외부 자원에 접근하고, RDF를 통해 기계가독형으로 보유 정보를 웹으로 발행하며, 외부 정보 또는 내부 보유 정보에 질의하기 위한 질의 언어로서 SPARQL을 이용한다. SPARQL을 통해서 다수의 곳에 한 번에 질의하는 것도 가능하다. 위에서 언급한 URI, RDF, SPARQL은 모두 W3C의 시맨틱웹 표준으로 Linked Data는 시맨틱웹 서비스의 실제적인 모범실무이다. 위키피디아에서는 Linked Data를 “URI(Unified Resource Identifier)와 RDF(Resource Description Framework)를 이용해 시맨틱웹 상에 널려있는 데이터, 정보, 지식을 노출하고 공유하며 연결하기 위해 추천되는 최고의 방법을 설명하는 용어”라고 설명하고 있다.

좀 더 구체적으로 설명하면, Linked Data는 사실 정보(fact)를 포함하는 데이터 개체(entity)에 URI를 부여하고 이를 웹 프로토콜인 HTTP를 통해 발행하여 누구나 웹상에서 자유롭게 활용할 수 있게 하는 방법 또는 기술을 말한다. Linked Data 통합 운영 시스템은 기존의 레거시 데이터를 Linked Data로 변환하여 저장, 관리하고 이를 인터넷상에 발행하여 공동 활용할 수 있도록 지원하기 위한 시스템을 말한다.  그래서 앞으로는 웹 페이지가 아닌 웹 페이지를 구성하는 데이터 간의 연결이 차세대 웹의 핵심이 될 것이다.  이제는 각각의 리소스들이 RDF로 표현되고, 연결되어 기존의 문서(Document) 중심이 아닌 데이터(Data) 중심의 연결이 이루어져 데이터 중심의 웹이 된다.

linkeddata

(출처 : Christian Bizer: How to Publish Linked Data on the Web)

Linked Data는 시맨틱웹의 창시자인 팀버너스리에 의해 2006년 처음 주장되었으며, 팀 버너스리에 의한 Linked Data에 대한 설명은 다음과 같다.

시맨틱웹은 단지 데이터를 웹으로 제공하는 것이 아니라, 데이터 간의 링크를 만듦으로써, 인간이나 기계 모두 데이터의 웹을 탐험할 수 있도록 해준다. Linked Data를 통해 유용한 데이터를 얻게 되면, 그 데이터에 관계된 데이터로 계속되는 항해가 가능하다.
- Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html

2009년 2월 TED 컨퍼런스에서 팀 버너스리는 ‘Design Issue: Linked Data’ 강연을 통해 Linked Data의 네 가지 원칙을 제시하였다.

1) Use URIs as names for things
2) Use HTTP URIs so that people can look up those names.
3) When someone looks up a URI, provide useful information, using the standards (RDF*,SPARQL)
4) Include links to other URIs. so that they can discover more things.

위의 네 가지 단계가 Linked Data를 사용하는 기본원칙이며, URI를 통해 특정 개념을 표현하고, HTTP 프로토콜을 이용해 해당 개념에 접근(룩업, Look up)할 수 있도록 하고 있다. 또한 RDF를 이용해 접근한 URI가 포함하고 있는 데이터들을 제공 받으며, 이 데이터 안에 포함되어 있는 또 다른 URI로의 접근을 통해 데이터를 연결시킬 수 있게 된다.

Linked Data를 통해 관련된 데이터를 서로 연결(link)함으로써 다음과 같은 장점을 얻을 수 있다.

◦ 데이터를 URI와 RDF, HTTP를 통해 연결하여 사용할 수 있으므로, 내가 만든 데이터가 아니라도 Linked Data로 연결되면 하나의 지식베이스처럼 사용할 수 있다.

◦ Linked Data를 통해 공개된 데이터를 이용하면 내가 원하는 데이터가 이미 존재하는지, 어디에 존재하는지 알 수 있으므로 시스템의 사일로(silo) 문제에 의해 발생된 불필요한 데이터 중복의 문제를 해결할 수 있다.

◦ 시맨틱웹 표준인 RDF 형태의 데이터로 발행하므로 마치 하나의 글로벌 데이터베이스처럼 질의하고 이용할 수 있으며, 이를 통해 상호운용성을 높이고, 데이터 통합을 용이하게 할 수 있다.

◦ URI로 구별되는 데이터 리소스의 자유로운 접근 및 이용이 가능하고, SPARQL Endpoint를 통해 SPARQL 질의가 가능하며, 이를 응용 프로그램상에서 이용할 수 있으므로, OpenAPI에 비해 데이터 접근을 더욱 구체화할 수 있어 데이터 지향의 매쉬업을 할 수 있다.

◦ 초창기의 웹과 같이 데이터의 자유로운 연결과 이용은 새로운 데이터를 생산하고, 양질의 데이터는 트래픽이 증가하게 되는 데이터 네트워크화(Network of Data, Cloud of Data)가 지속될 것이다. 또한, 초기에 LOD Cloud에 진입한 데이터 셋들은 향후에 선점 효과를 누릴 수 있을 것이다.

TopBraid Composer 사용 매뉴얼

TopBraid Composer (이하 TBC)는 시맨틱웹 모델을 개발하고, 시맨틱 애플리케이션을 만들기 위한  온톨로지 모델링을 이끄는 플랫폼입니다.

TBC는 Free/Standard/Maestro Edition으로 구분되어 제공하고 있으며

사용매뉴얼은 TopQuadrant에서 제공하는 영문판입니다.

TBC활용에 도움이 되시길 바랍니다.

TBC-Getting-Started-Guide

by JoyHong

TQK 뉴스레터 2호(20120229) : “TopBraid Live”

Focus On

** TopBraid Live

정승한, 개발팀 선임연구원, 탑쿼드란트코리아

1. 소개
- 데이터, 컨텐츠, 응용 어플리케이션 서비스와 사용자 상호 작용을 통합해주는 솔루션을 신속하게 구현(구축)할 수 있는 플랫폼을 제공
- W3C 표준을 사용하여 다양한 데이터 소스(RDF, JSON, DB, text, 웹서비스 등)으로부터 데이터와 스키마를 결합
- 변경 이력 관리기능
- 사용자 정의 제약규칙 및 서버측 추론에 대한 지원 (SPARQLMotion and SPIN)
- Model 관리, 추론 엔진, Query Broker, SPIN 지원 (Sparql Construct)
- TBE(앙상블)과 TBC의 원활한 연동 및 REST Web Service에 대한 인터페이스 제공

2. Ensemble
- FLEX 기반의 웹 컴포넌트 제공 (data grid, form, tree등)
- Ensemble을 보다 적극적으로 사용하기 위해서는 SPARQLMotion과 SPIN을 활용할 줄 알아야 함. 이에 따라 TBC에 대한 사용법도 어느 정도 숙지가 되어야 함
- 대용량 데이터에 대한 로딩은 아직 어려움. 추천 건수는 트리플 500만 건
- 모델에 대한 데이터 추가, 수정, 삭제 및 검색 기능이 익숙해진다면 상당히 유용함
- kocca과제에서 개발한 단위서비스의 sparql을 통한 웹서비스 제공과 같은 방식을 live를 이용해서도 웹서비스화가 가능함 (아티스트 찾기, 음반 찾기 등)

3. EVN
- 기본적으로 시소러스나 온톨로지 모델을 편집하고 관리를 쉽게 이용가능하게 해주는 Tool
- 하나의 Vocabulary를 편집하거나 작성하는데 있어서, commit, confirm, change history등과 같이 여러 사람이 동시에 편집하거나 수정할 수 있게 하는 협업 시스템을 중점으로 둔 Vocabulrary 관리 툴
- Ensemble을 통해 정의된 템플릿 구조로 이용가능하며, Ensemble 사용법을 알게 된다면 쉽게 이용이 가능
- SKOS 기반의 Vocabulary

4. 의견
- 사용하고자 하는 온톨로지의 트리플 건수가 적다면 이를 적극적으로 활용해보는 것도 장기적으로 제품을 이해하고 다루는데에 도움이 될 듯 함
- Live 서버를 하나두고 개인별로는 TBC를 통해 Live서버에 관리하고자 하는 모델을 deploy 함으로서 회사내에 모델을 하나로 통합 관리하기도 편리할 듯함
- 문제는 대용량 트리플에 대한 관리가 어렵고, 또한 RDF Repository와 연계 부분에서도 OntoBase를 지원하지 않으므로 다른 Repository를 활용해야 하는 점이다. 이럴 경우 대용량 트리플에 대한 문제점이 해결될지는 테스트가 필요함

TQK 뉴스레터 2호(20120229)

Link Shot

* Big Data
▶Utilizing Digital Breadcrumbs: Big Data & the Semantic Web
http://semanticweb.com/utilizing-digital-breadcrumbs-big-data-the-semantic-web_b24970
▶ Taming Big Data with Semantic Technologies
http://semanticweb.com/taming-big-data-with-semantic-technologies_b24880
▶ Big Data Could Be Big Pain Without Semantic Search To Help Filter It
http://semanticweb.com/big-data-could-be-big-pain-without-semantic-search-to-help-filter-it_b20640
▶ Big Data presents a Big Opportunity?
http://semanticweb.com/big-data-presents-a-big-opportunity_b17764

W3C Standard

* RDB2RDF Specifications Published by W3C
http://semanticweb.com/rdb2rdf-specifications-published-by-w3c_b26959
The RDB2RDF Working Group은 2개의 candidate Recommendation documents을 발표했다. (R2RML: RDB to RDF Mapping Language and A Direct Mapping of Relational Data to RDF)

General

* James Hendler on the State of the Semantic Web
http://semanticweb.com/james-hendler-on-the-state-of-the-semantic-web_b26693#more-26693
James Hendler의 “the state of World Wide Web and advances in semantic technology”에 관한 인터뷰기사로, 특히 흥미로운 점은 시맨틱웹의 비유를 ‘Intel’과 비교한 것이다. ‘Intel inside’듯이, 마찬가지로 이미 시맨틱웹이 많은 곳에서 사용되고, 사용하고 있는데도 ’Semantic Web Inside’이기 때문에 아직 많은 사람들이 인식하지 못하고 있음을 지적하였다.
* Google’s Knowledge Graph to Change Search Forever
http://semanticweb.com/googles-knowledge-graph-to-change-search-forever_b26738
구글은 현재 “거대한 Knowledge graph”를 만들고 있다. 이는 웹페이지에서 개념적인 ‘thing’을 이해하고, 더 나은 검색 결과를 제공하기 위한 목적이다. 이를 위한 접근 방법으로 RDFa와 schema.org의 활용을 모색하고 있다.

Library & Information Science

* Introducing SKOSsy
http://semanticweb.com/introducing-skossy_b25000
SKOSsy는 도메인이 영어나 독어인 시소러스를 기반으로 하는 SKOS를 생산하는 웹서비스다. SKOSsy는 DBpedia에서 데이터를 가져오므로, DBpedia에 있는 모든 주제를 다룰 수 있다. 이용자가 자동적으로 생성되는 시소러스를 PoolParty Thesaurus 매니저로 로딩하면, knowledge model이 추가되는 개념이나 관계 또는 다른 LOD 소스와 링크되어 확장되는 구조를 지닌다.
* Linkypedia
http://linkypedia.info/websites/23/pages/
Linkypedia를 통해서 위키피디에서 있는 VIAF(virtual international authority file)를 위한 요약된 정보를 찾을 수 있다. 모든 link data를 다운로드하여 사용할 수 있으며, 이러한 데이터는 Creative Commons Attribution-ShareAlike 3.0 Unported License를 갖는다.

Government Open Date

* UK to Build New Open Data Institute
http://semanticweb.com/uk-to-build-new-open-data-institute_b25031
영국은 prof. Tim Berners-Lee와 prof. Nigel Shadbolt의 자문 아래, 새로운 Open Data Institute(ODI)를 설립하기로 하였다. 이를 통해 영국은 정부의 ODI 정책에 대한 확장과 지원을 강화하고, 다양한 목적을 Open Data의 활용, 학문적 기관과의 연계활동을 통한 전문가 양성 등을 계획하고 있다..
* Berlin Open Data Strategy
http://epsiplatform.eu/content/berlin-open-data-strategy
독일 Fraunhofer FOKUS 연구소는 베를린시의 Open Data Strategy 연구 프로젝트를 수행했다. 단기적으로는 Open Data Portal을 만드는 것과 베를린 시의 법과 규정을 open data로 만드는 것을 포함하며 장기적으로는 데이터를 기계가독형 포맷으로, 그리고 linked data로 제공하는 것을 목적으로 한다.
* DATA.GOV – Data Reference Model(DRM) Vocab
http://vocab.data.gov/
미국 data.gov는 Data Reference Model Vocabulary를 발표했다. 여기에는 FEA, Governmet data, Hospital, VOID 가 포함된다.

Services & Business Models

* Showing at The International American Toy Fair : Tangible, Touchable Semantic Technology
http://semanticweb.com/showing-at-the-international-american-toy-fair-tangible-touchable-semantic-technology_b26783
Toy Fair에서 UMA(회사이름)는 박람회의 곳곳에서 semantic technology를 체험할 수 있도록 하였다. UMA는 박람회에 참가한 회사 이름, 부스가 설치된 장소 등을 구조화된 메타데이터로 exhibitor database를 제공함으로써 모든 다른 데이터베이스를 다른 시스템에 연결하는 semantic database구축함으로써 이를 통해 이용자들에게 원하는 정보가 손쉽게 multitouch를 통해서 보여질 수 있다. 이는 박람회 전시상품에도 적용할 수 있다.
* How Healthline is Using Semantic Technology to Promote Health
http://semanticweb.com/how-healthline-is-using-semantic-technology-to-promote-health_b25049
Healthline은 건강관련 정보를 제공하는 사이트로 관련 분야에서 가장 큰 규모 중의 하나이다. 이 사이트의 핵심은 방대한 영역의 ‘semantic taxonomy‘ 정의를 이용한 ‘a health-specific search engine’이다. 이를 통해 사람들에게 거대한 양의 정보를 오류없이 제공하고 있다.
* How the Oil Industry is Utilizing Semantic Web Technology
http://semanticweb.com/how-the-oil-industry-is-utilizing-semantic-web-technology_b24997
Chevron 석유회사에서 OWL의 표현성과 추론을 기반으로 하는 시멘틱웹을 데이터를 정리 및 제공하는데 이용하고자 프로젝트를 추진하였다. 현재까지 진행된 프로젝트에서는 기술적인 면은 성공적으로 진행되었으나, 비즈니스 이익은 아직 드러나고 있지 않다. 그러나 시맨틱웹의 기술을 높이 평가하여 앞으로도 다양하게 기술을 시도하고자 노력할 것이다.
* Improving Travel Search with Semantic Technology
http://semanticweb.com/improving-travel-search-with-semantic-technology_b25087
FACT-Finder(독일)는 온라인 여행 회사들을 대상으로 하는 시멘틱웹 검색 시스템을 소개했다. 잘못된 철자, 비속어, 약어 등을 포함하여 search queries를 만들 수 있고, 이를 통한 검색 결과는 여행사들이 고객들에게 원하는 다량의 정보를 좀 더 정확하게 제공할 수 있을 것이라 예측하였다.

TQK 뉴스레터 1호(20120215)

EVENT

* 2012 SemTechBiz Berlin (FEB 6-7), Events
- 일정표 http://semtechbizberlin2012.semanticweb.com/agenda.cfm?pgid=1
- DAY 1 http://semanticweb.com/semtechbiz-berlin-day-1_b26503
- DAY 2 http://semanticweb.com/semtechbiz-berlin-day-2_b26545

LINK SHOT

* 스페인 국립도서관 Linked Data 런칭
[1] http://datos.bne.es
[2] http://datos.bne.es/sparql
[3] http://thedatahub.org/dataset/datos-bne-es
[4] http://mayor2.dia.fi.upm.es/oeg-upm/index.php/en/downloads/228-marimba

* BibServer from OKFNc
BibServer is a tool for quickly and easily sharing collections of bibliographic metadata.
http://bibserver.org/

* Ontology for Media Resources 1.0
W3C Recommendation 09 February 2012
http://www.w3.org/TR/2012/REC-mediaont-10-20120209

LINKED DATA & SERVICE

* Semantics, the BBC, & the Summer Olympics
http://semanticweb.com/semantics-the-bbc-the-summer-olympics_b26427
the BBC Sports Website를 새로 디자인하는데, semantic update를 이용할 것이다. 그 이유는 기자들이 컨텐츠에 더 노력을 많이 하기 위해서이다. 이전에는 기자들이 자신들을 기사를 웹사이트의 관련영역 각각에 올려야 했다면 sematic update를 통해 그 수고를 덜 수 있다. 이 프로젝트는 이미 Vancouver Winter Games에서 시작하였고, the BBC’s 2010 World Cup에서 확장되었다. 이는 또한 올 여름 the Olympics에서도 사용될 예정이다.

* DIscovering French Monuments, With the Help of the Semantic Web
http://semanticweb.com/discovering-french-monuments-with-the-help-of-the-semantic-web_b25564
publisher of Information Factory and Antidot Finder Suite software에서 기존의 정보를 활용하여, the search mash-up 서비스를 구축하였다. 이 소프트웨어는 open data sources로부터 추론된 약 45만개의 소스와 450만개 이상의 tripesl을 포함하는 RDF graph를 제공하는 data mesh 작업을 한다. 이 서비스를 통해 많은 관광객들과 사람들은 프랑스의 건축물들을 앱에서 손쉽게 볼 수 있다.

BIG DATA

* Big Data & the Semantic Web
http://semanticweb.com/big-data-the-semantic-web_b26518
최근의 InformationWeek ‘Database Discontent’ report에 따르면 IT departments’ 2012 to-do list의 첫 번째를 big data의 처리하는 방식이 선정되었다. 넘쳐나는 정보 속에서 big data를 평가하는 가장 효율적인 방법으로 semantic web을 꼽고 있다. 수많은 정보가 어디에 있는지 모두 아는 사람은 없다. 그러기에 예측가능한 평가만이 보도와 전통적인 비즈니스에서 앞설 수 있고, 이러한 분석을 semamtic web을 통해서 하고자 한다.

* Two Kinds of Big Data
http://semanticweb.com/two-kinds-of-big-dat_b21925
Big Data는 쏟아져 나오는 비정형 데이터와 실시간 데이터, 그리고 기존의 정형 데이터를 분석해 가지 정보를 추출하는 것을 말한다. 이는 vertical한 종류와 horizontal한 종류로 나눌 수 있다. horizontal한 종류는 the Linked Data Cloud와 같은 것으로 모든 종류의 정보를 가리킨다. vertical한 종류는 technologies를 사용해 structured data를 말한다.

W3C STANDARD

* Introduction to: RDFa
http://semanticweb.com/introduction-to-rdfa-2_b26361
RDFa는 RDF를 위한 또다른 syntax로 semantic markup을 지원할 수 있다. RDFa는 오직 XHTML만 명시하지만, RDFa 1.1은 XHTML과 HTML5를 포함한다. 이러한 진화를 통해 RDFa 사용자는 웹페이지에서 쉽게 structured data를 추출할 수 있고, 이는 각 포맷으로 다른 파일에 있는 각각의 데이터(raw data)를 다시 가공할 수 필요없이 손쉽게 공유하고 재사용할 수 있음을 의미한다.

* New RDFa Last Call Working Drafts
http://semanticweb.com/new-rdfa-last-call-working-drafts_b26421
W3C는 3개의 new last call working drafts를 발표하였다.
- RDFa Core 1.1 : the core syntax 와 pressing rules의 구체화, xml문서와 html에서 사용
- RDFa Lite 1.1 : 초보자를 위한 RDFa의 a simple subset을 제공
- XHTML + RDFa 1.1 : XHTML mark up language에서 RDF사용법을 명시