Dữ liệu liên kết

Trong hoạt động tính toán máy tính, dữ liệu liên kết mô tả một phương thức tạo ra dữ liệu có cấu trúc để có thể liên kết được với nhau và trở nên có ích. Dữ liệu liên kết được xây dựng dựa trên các tiêu chuẩn công nghệ Web như HTTP và URI để mở rộng khả năng chia sẻ thông tin theo cách có thể được đọc tự động từ các máy tính hơn là việc chia sẻ nội dung trên các trang web để phục vụ cho người dùng. Điều này cho phép các nguồn tài nguyên khác nhau được kết nối và truy vấn.^[1]

Ông Tim Berners-Lee, cha đẻ của W3C, đặt ra thuật ngữ trong thảo luận lưu ý thiết kế xoay quanh dự án Semantic Web.^[2]

Các nguyên lý

Tim Berners-Lee tại hội thảo TED năm 2009.

Tim Berners-Lee liệt kê bốn nguyên lý dữ liệu liên kết trong các thảo luận của mình: ghi chú dữ liệu liên kết,^[3] được tóm gọn trong các dòng sau:

Dùng URI để nhận dạng mọi thứ.

Sử dụng HTTP URI để mọi thứ này được tham khảo và tìm kiếm ("tham khảo lại") bởi mọi người hay các user agent (phần mềm dưới danh nghĩa người dùng).

Cung cấp thông tin hữu ích về các thứ trên khi các URI của nó được tham khảo lại, sử dụng các định dạng tiêu chuẩn như RDF/XML.

Bao gồm các liên kết đến liên kết khác, các URL có quan hệ bên trong dữ liệu tìm thấy để phát triển khả năng tìm kiếm các thông tin liên quan khác trên Web.

Tim Berners-Lee đã có báo cáo về dữ liệu liên kết tại hội nghị TED năm 2009.^[4] Trong hội nghị, ông xác nhận các nguyên lý dữ liệu liên kết bao gồm ba điều đơn giản như sau:

Tất cả các dạng của các thứ khái niệm, chúng có tên và bắt đầu với HTTP ngay bây giờ.

Tôi lấy lại thông tin quan trọng. Tôi sẽ lấy lại một số thông tin trong định dạng tiêu chuẩn là dạng hữu ích mà có thể có ai đó biết về nó và về sự kiện.

Tôi lấy lại thông tin đó, không chỉ lấy về chiều cao và cân nặng của ai đó và nơi họ sinh ra, nó có mối liên hệ. Và khi đó, bất cứ khi nào nó nhấn mạnh một mối quan hệ, sau đó những thứ khác mà nó liên hệ được cho bởi một trong các tên bắt đầu với HTTP.

Lưu ý rằng mặc dù luật thứ hai đề cập đến "các định dạng tiêu chuẩn", nó không cần bất cứ tiêu chuẩn đặc tả nào cả, chẳng hạn như RDF/XML.

Các thành phần

URI (đặc biệt là các Dereferenceable URI)
Hypertext Transfer Protocol
RDF (RDF)
Các định dạng Serialization: (RDFa, RDF/XML, N3, Turtle, và các thứ khác)

Dự án liên kết dữ liệu mở cộng đồng

Mục tiêu của dự án liên kết dữ liệu mở cộng đồng của nhóm W3C Semantic Web Education and Outreach là mở rộng Web với dữ liệu chung bằng cách xuất bản các tập dữ liệu mở khác nhau như RDF trên Web và thiết lập các liên kết RDF giữa các mục dữ liệu từ các nguồn tài nguyên khác nhau. Vào tháng 10 năm 2007, tập dữ liệu đã chứa hơn 2 tỷ RDF triple, được liên kết với hơn 2 triệu liên kết RDF.^[5]^[6] Vào tháng 9 năm 2011, tập dữ liệu đã phát triển lên đến 31 triệu triple, liên kết khoảng 504 triệu liên kết RDF. Ngoài ra, còn có một tương tác trực quan của các tập dữ liệu được liên kết để duyệt thông qua các đám mây.^[7]

Các dự án châu Âu

Có nhiều dự án châu Âu về liên kết dữ liệu. Những dự án này bao gồm dữ liệu liên kết mở xoay quanh dự án đồng hồ (LAC)^[8], dự án PlanetData,^[9] và dự án Linked Open Data 2 (LOD2).^[10]^[11]^[12]

Tập dữ liệu

CKAN – đăng ký dữ liệu mở và các gói nội dung được cung cấp bởi Open Knowledge Foundation
DBpedia là một tập dữ liệu liên kết có trích xuất từ Wikipedia bao gồm 3.4 triệu khái niệm được mô tả bởi 1 tỷ triple và các tóm tắt trong 11 ngôn ngữ khác nhau.^[13]^[14]
GeoNames cung cấp các mô tả RDF của 7.500.000 tính năng địa lý toàn cầu.
UMBEL – một cấu trúc tham khảo đơn giản của 20,000 các lớp chủ đề khái niệm và mối quan hệ giữa chúng kế thừa từ OpenCyc, có thể hoạt động như gắn các lớp vào dữ liệu bên ngoài; cũng chứa các liên kết đến 1,5 triệu tên thực thể từ DBpedia và YAGO.
FOAF – mô tả tập dữ liệu về người, các thuộc tính và mối quan hệ liên quan.

Mối quan hệ lớp và tập thể hiện dữ liệu

Sơ đồ click chuột cho thấy các tập dữ liệu cá nhân và các mối quan hệ của chúng trong vòng điện toán đám mây DBpedia-sinh ra LOD, như thể hiện bởi hình phía trên:

Các quan hệ thể hiện trong tập dữ liệu
Các quan hệ lớp trong tập dữ liệu Lưu trữ ngày 28 tháng 8 năm 2011 tại Wayback Machine

Xem thêm

Tham khảo

^ Bizer, Christian; Heath, Tom; Berners-Lee, Tim (2009). "Linked Data—The Story So Far" (PDF). International Journal on Semantic Web and Information Systems. Quyển 5 số 3. tr. 1–22. doi:10.4018/jswis.2009081901. ISSN 1552-6283. Truy cập ngày 18 tháng 12 năm 2010. {{Chú thích tạp chí}}: Đã bỏ qua tham số không rõ |unused= (trợ giúp)
^ Tim Berners-Lee (ngày 27 tháng 7 năm 2006). "Linked Data—Design Issues". W3C. Truy cập ngày 18 tháng 12 năm 2010.
^ Design Issues: Linked Data
^ "Tim Berners-Lee on the next Web". Bản gốc lưu trữ ngày 10 tháng 4 năm 2011. Truy cập ngày 3 tháng 3 năm 2013.
^ Linking Open Data
^ Fensel, Dieter; Facca, Federico Michele; Simperl, Elena (2011). Semantic Web Services. Springer. tr. 99. ISBN 3642191924. {{Chú thích sách}}: |first5= thiếu |last5= (trợ giúp); Đã bỏ qua tham số không rõ |las5t= (trợ giúp)
^ interactive visualization of the linked data sets
^ "Linked open data around the clock (LATC)". Bản gốc lưu trữ ngày 19 tháng 9 năm 2018. Truy cập ngày 3 tháng 3 năm 2013.
^ "PlanetData". Bản gốc lưu trữ ngày 21 tháng 4 năm 2021. Truy cập ngày 3 tháng 3 năm 2013.
^ Linking Open Data 2 (LOD2)
^ "CORDIS FP7 ICT Projects – LOD2". European Commission. ngày 20 tháng 4 năm 2010. Bản gốc lưu trữ ngày 6 tháng 9 năm 2012. Truy cập ngày 3 tháng 3 năm 2013.
^ "LOD2 Project Fact Sheet – Project Summary" (PDF). ngày 1 tháng 9 năm 2010. Bản gốc (PDF) lưu trữ ngày 20 tháng 7 năm 2011. Truy cập ngày 18 tháng 12 năm 2010.
^ DBpedia, DataHub
^ Yi Huang, Maximilian Nickel, Volker Tresp, Hans-Peter Kriegel, A Scalable Kernel Approach to Learning in Semantic, Graphs with Applications to Linked Data, Proceedings of the 1st Workshop on Mining the Future Internet, 2010.

Nghiên cứu thêm

Ahmet Soylu, Felix Mödritscher, and Patrick De Causmaecker. 2012. "Ubiquitous Web Navigation through Harvesting Embedded Semantic Data: A Mobile Scenario." Lưu trữ ngày 21 tháng 8 năm 2021 tại Wayback Machine Integrated Computer-Aided Engineering 19 (1): 93–109.
Linked Data: Evolving the Web into a Global Data Space (2011) by Tom Heath and Christian Bizer, Synthesis Lectures on the Semantic Web: Theory and Technology, Morgan & Claypool
The Web Turns 20: Linked Data Gives People Power, part 1 of 4, by Mark Fischetti, Scientific American 2010 October 23
Linked Data Is Merely More Data Lưu trữ ngày 9 tháng 8 năm 2012 tại Wayback Machine – Prateek Jain, Pascal Hitzler, Peter Z. Yeh, Kunal Verma, and Amit P. Sheth. In: Dan Brickley, Vinay K. Chaudhri, Harry Halpin, and Deborah McGuinness: Linked Data Meets Artificial Intelligence. Technical Report SS-10-07, AAAI Press, Menlo Park, California, 2010, pp. 82–86.
Moving beyond sameAs with PLATO: Partonomy detection for Linked Data Lưu trữ ngày 26 tháng 7 năm 2018 tại Wayback Machine – Prateek Jain, Pascal Hitzler, Kunal Verma, Peter Z. Yeh, Amit Sheth. In: Proceedings of the 23rd ACM Hypertext and Social Media conference (HT 2012), Milwaukee, WI, USA, June 25–28, 2012.
Freitas, André, Edward Curry, João Gabriel Oliveira, and Sean O'Riain. 2012. "Querying Heterogeneous Datasets on the Linked Data Web: Challenges, Approaches, and Trends." IEEE Internet Computing 16 (1): 24–33.
Linked Data on the Web Lưu trữ ngày 13 tháng 11 năm 2020 tại Wayback Machine – Chris Bizer, Tom Heath, Kingsley Uyi Idehen, Tim Berners-Lee. In Proceedings WWW2008, Beijing, China
Interlinking Open Data on the Web Lưu trữ ngày 26 tháng 6 năm 2007 tại Wayback Machine – Chris Bizer, Tom Heath, Danny Ayers, Yves Raimond. In Proceedings Poster Track, ESWC2007, Innsbruck, Austria
Ontology Alignment for Linked Open Data Lưu trữ ngày 26 tháng 7 năm 2018 tại Wayback Machine – Prateek Jain, Pascal Hitzler, Amit Sheth, Kunal Verma, Peter Z. Yeh. In proceedings of the 9th International Semantic Web Conference, ISWC 2010, Shanghai, China
Linked open drug data for pharmaceutical research and development - J Cheminform. 2011; 3: 19. Samwald, Jentzsch, Bouton, Kallesøe, Willighagen, Hajagos, Marshall, Prud'hommeaux, Hassenzadeh, Pichler, and Stephens (May 2011)
Interview with Sören Auer, head of the LOD2 project about the continuation of LOD2 in 2011 Lưu trữ ngày 6 tháng 4 năm 2018 tại Wayback Machine, June 2011
Linked Open Data: The Essentials Lưu trữ ngày 4 tháng 6 năm 2016 tại Wayback Machine - Florian Bauer and Martin Kaltenböck (January 2012)
The Flap of a Butterfly Wing Lưu trữ ngày 10 tháng 1 năm 2015 tại Wayback Machine - semanticweb.com Richard Wallis (February 2012)