Sieć Semantyczna
jako przyszłość WWW

koncepcja i wprowadzenie do technologii

Michał Świątkiewicz

2005.05.21

http://purl.org/net/mimas/semweb/

Tematyka prezentacji

World Wide Web — sieć dokumentów

Główny problem aktualnej sieci — komputer nie „rozumie” znaczenia danych na WWW, nie rozpoznaje ich semantyki.

Stąd proste pytania okazują się zaskakująco trudne, np.:

Informacja zawarta w dokumencie jest przesłonięta przez:

Słowem — aktualne dokumenty na WWW są (zazwyczaj) łatwe dla zrozumienia przez człowieka, ale trudne do przetwarzania przez maszynę.

Chociaż i tutaj prowadzone są działania w celu zachowania w dokumentach (X)HTML informacji o semantyce. Głównie w kontekście dostępności WWW (np. dla niepełnosprawnych, niewidomych, którym pomagają maszyny). Również wyszukiwarki internetowe korzystają nie tylko z linków (minimalna semantyka — „to linkuje tamto”) ale i z konstrukcji strony i semantyki znaczników (X)HTML.

Sieć danych zamiast sieci dokumentów

Do pełnego wykorzystania potencjału WWW konieczna jest odpowiednia reprezentacja wiedzy dostępnej w Sieci.

Zgodnie z koncepcją twórcy WWW:

The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help. [...] Leaving aside the artificial intelligence problem of training machines to behave like people, the Semantic Web approach instead develops languages for expressing information in a machine processable form.

Semantic Web Road map”, Tim Berners-Lee, 1998

„Leaving aside the artificial intelligence problem ...” — zagadnienia wydobywania informacji użytecznej dla maszyny z dokumentów tworzonych przez i dla człowieka nie leżą w zakresie zainteresowania SW. W SW nie chodzi o analizowanie danych i wydobywanie wiedzy, tylko o jej reprezentację.

BTW: Tim Berners-Lee == dyrektor W3C.

Rewolucja?

Sposoby wykorzystania mechanizmów oferowanych przez Sieć Semantyczną są ograniczone jedynie ludzką wyobraźnią.

Często cytowany „wizjonerski” artykuł:

I Know What You Mean

I to akurat jest fakt, ale nie czyni to rewolucji, jedynie ewolucję. Niełatwą zresztą..

SW nie zastępuje tylko rozszerza WWW.

Ewolucja

Zmiana WWW do postaci SW ma znamiona ewolucji — stopniowe schodzenie na bardziej szczegółowy poziom informacji, na której operuje użytkownik Sieci:

 

Na najniższym poziomie Sieć zaczyna być dostępna do (automatycznego) przetwarzania również przez maszynę — użytkownikami stają się „agenci”, nie tylko ludzie.

Ważne, że „również przez maszynę” — człowiek pozostaje nadal jako użytkownik WWW w aktualnej postaci.

Wymagania dla działania agentów w SW

Tylko po zapewnieniu tych wszystkich elementów może istnieć i sprawnie funkcjonować „agent” — program efektywnie wykorzystujący Sieć Semantyczną.

Sieć Semantyczna wg W3C

Rekomendacje World Wide Web Consortium dotyczące Sieci Semantycznej:

RDF — Resource Description Framework

Relational/Reusable Data Format” spotykany w materiałach propagandowych raczej, nie w oficjalnych dokumentach, ale bardzo dobrze oddaje merytoryczny sens zapisu czegokolwiek w RDF.

Ważne: „identyfikowalnych” to nie koniecznie znaczy „możliwych do pobrania”.

RDF — przykład #1 (Maurycy)

Zapis trójek prawie zgodny z N-Triples. Skróty URI wg konwencji QName.

Typy danych z XSD (XML Schema datatypes) w RDF/XML skrócone za pomocą encji &xsd;. Nie wszystkie typy opisane w XSD mogą być swobodnie używane w RDF (np. xsd:duration, mimo że to „primitive datatype”) — listę zalecanych podaje rekomendacja „RDF Semantics”.

RDF — przykład #2 (Dublin Core)

Dublin Core Metadata Element Set — opis dokumentów, szeroko stosowany jako metadane.

<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
         xmlns:dc="http://purl.org/dc/elements/1.1/">
  <rdf:Description rdf:about="http://mimas.ceti.pl/semweb/prezentacje/20050521.html">
    <dc:title>Sieć Semantyczna jako przyszłość WWW</dc:title>
    <dc:description>Prezentacja wprowadzająca w zagadnienia Sieci
      Semantycznej (Semantic Web) - przedstawienie koncepcji i technologii 
      aktualnie wspierających jej realizację.</dc:description>
    <dc:creator>Michał Świątkiewicz</dc:creator>
    <dc:date>2005-05-21</dc:date>
    <dc:subject>
      <rdf:Bag>
        <rdf:li>Semantic Web</rdf:li>
        <rdf:li>RDF</rdf:li>
        <rdf:li>OWL</rdf:li>
      </rdf:Bag>
    </dc:subject>
    <dc:language>pl</dc:language>
    <dc:format>application/xhtml+xml</dc:format>
    <dc:type>HTML Slidy</dc:type>
  </rdf:Description>
</rdf:RDF>

dc — jedna z powszechnie używanych przestrzeni nazw: xmlns:dc="http://purl.org/dc/elements/1.1/". BTW: DC powstał w marcu 1995 na Metadata Workshop w Dublinie, Ohio.

Inne przykłady:

OWL — OWL Web Ontology Language

„Ontologia” — termin zapożyczony z filozofii odnoszący się do opisywania istniejących w świecie rzeczy i relacji między nimi.

Logiczne konsekwencje w ontologii umożliwiają ustalenie faktów, które nie są zapisane wprost, ale wynikają z semantyki. Wnioskowanie to może być oparte na pojedynczym dokumencie OWL albo na wielu dokumentach rozproszonych w Sieci — założenie „open world”. W konsekwencji opis zasobów zawarty w ontologii może być rozszerzany przez inne ontologie, ale informacje są zawsze tylko dodawane, nigdy usuwane.

DARPA — Defense Advanced Research Projects Agency

DAML+OIL został zastąpiony przez OWL, jako wynik ewolucji, nie konkurencji. Analogicznie OWL-S zastępuje poprzednie DAML-S.

OWL — przykład (Wine Ontology)

Przykład przedstawiony w OWL Web Ontology Language Guide.

Sieć Semantyczna dzisiaj

Zbiory ontologii:

Narzędzia:

Jak wykorzystać WWW?

Problemy:

„Screen scraping” mocno wykorzystuje to, co w (X)HTML określamy jako „semantic markup”.

Jak rozwijać SW?

Problemy:

Sprzeczne ontologie teoretycznie mogą być przeszkodą, chociaż istnieją teorie, mówiące że ontologie dobre, pełne i poprawne same się obronią — sytuacja podobna jak z jakością informacji w Wikipedii.

Zaufanie agentów do informacji działa zupełnie analogicznie jak zaufanie człowieka...

WebSerwisy są sprawą podobną do SW, a jednak zupełnie niezależną. Fakt, że są to dwa odrębne pomysły wynika prawdopodobnie z różnego zakresu zainteresowania: WS - biznesowe, SW - akademickie.

Jak używać SW?

Problemy:

Projekty takie jak Haystack mają znaczenie psychologiczne — ludzie muszą „dotknąć”, zobaczyć, że ”to działa” aby chcieli się zaangażować w tworzenie dalszych elementów SW. Zupełnie tak samo było z WWW.

CC/PP — rekomendacja W3C; struktura oparta na RDF.

</sw:prezentacja>

 

Dziękuję za uwagę.

Najciekawsze pytania z sali