Co sở dữ liệu phân tán là gì wiki năm 2024
NoSQL là một khái niệm chỉ về một lớp các hệ cơ sở dữ liệu không sử dụng mô hình quan hệ (RDBMS). RDBMS vốn tồn tại khá nhiều nhược điểm như có hiệu năng không tốt nếu kết nối dữ liệu nhiều bảng lại hay khi dữ liệu trong một bảng là rất lớn. Show
NoSQL ra đời năm 1998 bởi Carlo Strozzi khi ông lập mới một hệ cơ sở dữ liệu quan hệ mã nguồn mở nhanh và nhẹ không liên quan đến SQL Vào năm 2009, Eric Evans, nhân viên của Rackspace giới thiệu lại thuật ngữ NoSQL khi Johan Oskarsson của Last.fm muốn tổ chức một hội thảo về cơ sở dữ liệu nguồn mở phân tán. Thuật ngữ NoSQL đánh dấu bước phát triển của thế hệ CSDL mới: phân tán (distributed) + không ràng buộc (non-relational). 2. Đặc điểm - NoSQL lưu trữ dữ liệu của mình theo dạng cặp giá trị “key – value”. Sử dụng số lượng lớn các node để lưu trữ thông tin - Chấp nhận dữ liệu bị trùng lặp do một số node sẽ lưu cùng thông tin giống nhau - Phi quan hệ – không có ràng buộc nào cho việc nhất quán dữ liệu - Có hiệu suất cao (high performance) và tính sẵn sàng cao (high availability) Các dạng NoSQL cơ bản: Key – value data stores: Dữ liệu lưu dưới dạng cặp key – value. Giá trị được truy xuất thông qua key. -Ví dụ : Redis, Dynomite, MemcacheDB -Thường cho: Content caching Applications -Ưu điểm: Tìm kiếm rất nhanh -Nhược điểm: Lưu dữ liệu không theo khuôn dạng (schema) nhất định Column-based – Tabular: Cơ sở dữ liệu tổ chức dưới dạng các bảng. Gần giống với mô hình RDBMS. Tuy nhiên, Chúng lưu dữ liệu bởi các cột chứ không phải bằng các dòng. Nó khá thích hợp với để hiển thị bằng các phần mềm quản lý kho dữ liệu -Ví dụ : Apache Hbase, Apache Cassandra, Hypertable -Thường cho: các hệ phân tán file -Ưu điểm: Tìm kiếm nhanh, Phân tán dữ liệu tốt -Nhược điểm: Hỗ trợ được với rất ít phần mềm Document-based: Dữ liệu (bán cấu trúc hay semi-structured) được lưu trữ và tổ chức dưới dạng một tập hợp các document. Các document này linh hoạt, mỗi document có một tập nhiều trường. -Ví dụ : Apache CouchDB và MongoDB -Thường cho: Web applications -Ưu điểm: Dùng khi dữ liệu nguồn không được mô tả đầy đủ -Nhược điểm: Hiệu năng truy vấn, Không có cú pháp chuẩn cho câu truy vấn dữ liệu Graph-based data-stores: Những CSDL này áp dụng lý thuyết đồ thị trong khoa học máy tính để lưu trữ và truy xuất dữ liệu. Chúng tập trung vào tính rời rạc giữa các phần dữ liệu. Các phần tử đơn vị dữ liệu được biểu thị như một nút và liên kết với các thành phần khác bằng các cạnh. -Ví dụ : Neo4j, InfiniteGraph, DEX -Thường cho: Social networking, Hệ trợ giúp -Ưu điểm: Ứng dụng các thuật toán trên đồ thị như Đường đi ngắn nhất, liên thông -Nhược điểm: Phải duyệt nội bộ đồ thị, để trả lời lại các truy vấn. Không dễ để phân tán Hiện tại đã có khoảng 150 cơ sở dữ liệu NoSQL chi tiết về danh sách các cơ sở dữ liệu trên có thể tham khảo tại: http://nosql-database.org/ , ta cần phải hiểu rõ về dữ liệu. Dữ liệu là những dạng thông tin có thể được biểu diễn dưới nhiều dạng như chữ, số, âm thanh, hình ảnh, video… Cơ sở dữ liệu (CSDL) hay database là khái niệm có nhiều cách định nghĩa. Chẳng hạn, từ điển Oxford định nghĩa cơ sở dữ liệu là một tập hợp các cấu trúc dữ liệu được lưu trữ trong hệ thống máy tính theo một cách đặc biệt. Nó có khả năng cho phép con người tiếp cận theo những cách khác nhau. Hoặc Wikipedia có cách hiểu ngắn gọn hơn: “Cơ sở dữ liệu là một tập hợp thông tin có cấu trúc”. Thế nhưng định nghĩa này lại thường được dùng trong lĩnh vực công nghệ thông tin dưới dạng một tập hợp liên kết dữ liệu. Thực tế, cơ sở dữ liệu được biết đến với một định nghĩa phổ biến hơn là chỉ một hệ thống các thông tin. Dữ liệu được tổ chức theo một cấu trúc nhất định, thường được lưu trữ và truy cập điện tử từ hệ thống máy tính. Nó đáp ứng được nhu cầu của một hay nhiều người dùng trong việc khai thác, sử dụng, thao tác, xử lý dữ liệu, chạy chương trình ứng dùng trong cùng một thời điểm. Mời bạn đăng ký nhận ngay BỘ TÀI LIỆU miỄn phí: hướng dẫn chuyển đổi số các ngành nghề II. Thuật ngữ liên quan đến cơ sở dữ liệuKhi nói đến cơ sở dữ liệu là gì, có thể bạn đã từng “bắt gặp” những thuật ngữ liên quan đến nó. Những thuật ngữ liên quan đến cơ sở dữ liệu1. Hệ quản trị cơ sở dữ liệuHệ quản trị dữ liệu là hệ thống chương trình có chức năng lưu trữ cơ sở dữ liệu. Một hệ quản trị cơ sở dữ liệu cần phải đảm bảo được tính cấu trúc cho cơ sở dữ liệu khi lưu trữ. Đồng thời, nó hỗ trợ các thao tác quản lý công việc khi xử lý dữ liệu như đọc, chỉnh sửa, thêm, xoá trên cơ sở dữ liệu. 2. Cơ sở dữ liệu quan hệCơ sở dữ liệu là một kiểu dữ liệu cơ sở được xây dựng dựa trên trên mô hình dữ liệu quan hệ. Tức là dữ liệu có liên quan đến những thông tin khác trên cơ sở dữ liệu. Một hệ thống chương trình được dùng để duy trì cơ sở dữ liệu là một hệ quản trị cơ sở dữ liệu quan hệ RDBMS. 3. Cấu trúc dữ liệuCách lưu trữ, tổ chức dữ liệu có trật tự, có hệ thống để có thể sử dụng dữ liệu một cách thuận tiện, dễ dàng được gọi là cấu trúc dữ liệu. Liên quan đến thuật ngữ này, bạn cần phải biết thêm 2 thuật ngữ nền tảng:
\>> Tìm hiểu thêm: Văn phòng điện tử – Giải pháp văn phòng số thông minh cho doanh nghiệp III. Tầm quan trọng của quản lý cơ sở dữ liệuCó thể nói cơ sở dữ liệu là một phần không thể thiếu của các doanh nghiệp. Vậy việc quản lý cơ sở dữ liệu có tầm quan trọng như thế nào? Cơ sở dữ liệu có vai trò quan trọng trong quản lý, xử lý dữ liệuHệ thống quản trị dữ liệu ra đời với vai trò xử lý và kiểm soát nguồn thông tin. Trong đó, hệ thống quản trị có các chức năng chính sau:
IV. Phân loại hệ thống cơ sở dữ liệuHiện nay có rất nhiều kiểu cơ sở dữ liệu trong các tổ chức và doanh nghiệp. Để dễ dàng hơn trong việc lựa chọn và quản lý, người ta phân loại hệ thống cơ sở ra theo từng tiêu chí. AMIS sẽ giới thiệu đến bạn 2 cách phân loại hệ thống cơ sở dữ liệu thường thấy: 1. Phân loại dữ liệu theo loại dữ liệu1.1. Cơ sở dữ liệu có cấu trúcĐây là cấu trúc dữ liệu đã được định hình theo một cấu trúc đã xác định từ trước. Bạn có thể hình dung nó như một thư viện với các tủ hồ sơ được đánh nhãn. Trong mỗi tủ lại được phân chia ngăn rõ ràng. 1.2. Cơ sở dữ liệu phi cấu trúcTrái với cơ sở dữ liệu có cấu trúc, cơ sở dữ liệu phi cấu trúc không được xác định cấu trúc từ trước. Nó thường là tập hợp các dữ liệu thô, hỗn tạp, không đồng nhất. Cơ sở dữ liệu phi cấu trúc được tập hợp từ nhiều nguồn khác nhauCác thành phần trong cơ sở dữ liệu thường không có đặc điểm chung. Dữ liệu phi cấu trúc có mặt ở khắp mọi nơi và được sinh ra từ nhiều nguồn khác nhau. 1.3. Cơ sở dữ liệu bán cấu trúcCơ sở dữ liệu bán cấu trúc có khung cấu trúc nhưng không đồng nhất. Nội dung của dữ liệu quyết định chính cấu trúc dữ liệu của nó. Nó được coi là loại cơ sở dữ liệu có nhiều ưu điểm nhất. Bởi lẽ, nó có thể lưu trữ được hầu hết các loại dữ liệu cơ sở khác nhau. Chính vì vậy mà cơ sở dữ liệu bán cấu trúc là hướng đi mới trong nghiên cứu và ứng dụng. Đồng thời, nó cũng được sử dụng rộng rãi trên Internet. 2. Phân loại theo hình thức lưu trữ, mô hình tổ chức2.1. Cơ sở dữ liệu được lưu trữ dưới dạng tệpNhững dữ liệu này được lưu trữ dưới dạng các file. Đó có thể là văn bản, hình ảnh, thông tin nhị phân, tệp cơ sở dữ liệu nhỏ gọn của các phần mềm quản lý dữ liệu. Dạng cơ sở dữ liệu này được đánh giá phù hợp với phạm vi nhỏ hoặc cách thức tổ chức cũ. 2.2. Cơ sở dữ liệu quan hệCác dữ liệu được lưu trữ trong các bảng là thực thể. Những thực thể này có mối liên hệ với nhau được gọi là các quan hệ. Giữa các mối quan hệ này lại có các thuộc tính và một loại thuộc tính tiêu biểu được gọi là khóa chính. 2.3. Cơ sở dữ liệu phân cấpMột mô hình cơ sở dữ liệu mà trong đó dữ liệu được tổ chức theo thành một cây cấu trúc thì được gọi là mô hình cơ sở dữ liệu phân cấp. QUẢN LÝ DOANH NGHIỆP TOÀN DIỆN NHẤT VỚI BỘ GIẢI PHÁP ĐIỀU HÀNH MISA AMIS V. Các mô hình cơ sở dữ liệu trong doanh nghiệpVới các loại hệ thống cơ sở dữ liệu đa dạng, nhiều doanh nghiệp đã có cho mình những mô hình cơ sở dữ liệu tối ưu. Vậy những mô hình đó là gì? Các mô hình cơ sở dữ liệu trong doanh nghiệp1. Mô hình dữ liệu phân cấpDạng mô hình cơ sở dữ liệu phân cấp này được ra đời vào những năm 60. Nó có cấu trúc gồm nhiều nút, mỗi nút lại biểu diễn cho một thực thể. Hai nút được liên kết với nhau bằng mối quan hệ. Mô hình này có ưu điểm là dễ dàng thao tác, phù hợp với các doanh nghiệp có mô hình tổ chức phân cấp nhân sự cao. Thế nhưng mô hình này lại có nhược điểm là thường xảy ra tình trạng lặp lại các bản ghi dư thừa, không có tính nhất quán. 2. Mô hình dữ liệu mạngMô hình dữ liệu mạng xuất hiện sau mô hình phân cấp không lâu. Mô hình này còn có tên gọi khác là mô hình mạng có cấu trúc dữ liệu tổ chức thành một đồ thị hướng. Ở mô hình này, các đỉnh là những thực thể, quan hệ giữa 2 đỉnh gọi là các cung. Một kiểu bản ghi có thể quan hệ với nhiều kiểu bản ghi khác. Một thực thể con khả năng có nhiều thực thể cha và được cấp hướng dẫn truy cập dữ liệu theo cấu trúc mô hình được định sẵn. Người dùng có thể biểu diễn dữ liệu đa dạng theo các kiểu bản ghi hoặc móc nối. Nó giúp doanh nghiệp truy vấn nhanh chóng thông qua phép duyệt đồ thị. Thế nhưng, nó vẫn còn tồn tại những hạn chế như số lượng con trỏ lớn trên mô hình dữ liệu hay hạn chế trong việc biểu diễn ngữ nghĩa móc nối với các bản ghi. 3. Mô hình dữ liệu quan hệMô hình quan hệ dữ liệu hoạt động dựa trên lý thuyết tập hợp và đại số quan hệ. Cũng vì thế mà mô hình này có tính chặt chẽ khá cao. Nó được đánh giá là mô hình có nhiều ưu điểm và ứng dụng rộng rãi. Mô hình quan hệ được có lợi thế là khả năng tối ưu hoá đa dạng các xử lý do hoạt động dựa trên lý thuyết tập hợp và đại số quan hệ. Tuy nhiên, mô hình này vẫn còn nhược điểm là chưa linh hoạt, hạn chế trong việc biểu diễn ngữ nghĩa phức tạp của các quan hệ thực tế. 4. Mô hình dữ liệu hướng đối tượngMô hình dữ liệu hướng đối tượng được ra đời sau các mô hình cơ sở dữ liệu trên. Nó xuất hiện trong khoảng những năm 90. Các thuộc tính dữ liệu và các phương thức thao tác trên thuộc tính đều được đóng gói trong mỗi cấu trúc nhất định. Ưu điểm của mô hình này là cho phép định nghĩa phức tạp. Nó sở hữu nhiều tính chất khác nhau như: đa hình, bao đóng, kế thừa… Mặc dù vậy, các nhược điểm như cấu trúc lưu trữ phức tạp, phải sử dụng nhiều con trỏ, khả năng tối ưu hoá chưa tốt… vẫn còn tồn tại. \>> Xem Thêm: Cơ sở dữ liệu là gì? Các mô hình cơ sở dữ liệu trong doanh nghiệp VI. Các vấn đề thường gặp về cơ sở dữ liệu trong doanh nghiệpCác vấn đề thường gặp về cơ sở dữ liệu1. Không có cơ sở dữ liệuHiện trạng không có dữ liệu thường gặp ở nhiều doanh nghiệp. Nguyên nhân đến từ việc những dữ liệu về khách hàng, nhân sự, bán hàng, sản phẩm… không được tổ chức thành cơ sở dữ liệu. Thay vào đó, nhân viên lại ghi chép trên sổ tay, giấy tờ… Điều này dẫn đến nhiều vấn đề cho doanh nghiệp:
2. Quản lý cơ sở dữ liệu phân tán, không được đồng bộCác doanh nghiệp vẫn thường sử dụng lưu trữ dữ liệu phân tán như Excel, Word… Tuy rằng tính toán dễ hơn so với trường hợp không có |