Oracle ra mắt MySQL HeatWave Lakehouse để đối đầu với các đối thủ

Dịch vụ lakehouse mới sẽ cạnh tranh với các dịch vụ từ các đối thủ của Oracle cũng đã áp dụng khái niệm lakehouse, chẳng hạn như Snowflake, Google, AWS và Microsoft Azure. Nó được thiết kế để tải và truy vấn nhanh tới 400TB dữ liệu

Oracle ra mắt MySQL HeatWave Lakehouse để đối đầu với các đối thủ
Tác giả Anirban GhoshalAnirban Ghoshal

Nhà văn cao cấp, InfoWorld. InfoWorld.

dock on lake at sunset

Oracle đã tham gia xu hướng kho dữ liệu vào thứ ba bằng cách ra mắt dịch vụ MySQL HeatWave Lakehouse nhằm nỗ lực cạnh tranh với các đối thủ dịch vụ đám mây và hỗ trợ các doanh nghiệp đạt được nhiều giá trị kinh doanh hơn từ dữ liệu được tích lũy chung của họ

Trong nửa đầu năm 2023, MySQL HeatWave Lakehouse, được giới thiệu tại hội nghị Oracle CloudWorld, dự kiến ​​sẽ được cung cấp rộng rãi. Nó được thiết kế để tải và truy vấn nhanh tới 400TB dữ liệu và cụm HeatWave có thể mở rộng tới 512 nút, theo Oracle

Kho dữ liệu, như tên gọi của nó, là một kiến ​​trúc kết hợp các ưu điểm của kho dữ liệu—chẳng hạn như chức năng xử lý và quản lý dữ liệu có cấu trúc, bao gồm hỗ trợ định dạng bảng, quản lý siêu dữ liệu, cập nhật và xóa giao dịch—với tính linh hoạt và khả năng chi trả

Theo Matt Aslett, phó chủ tịch nghiên cứu của Ventana Research, khái niệm kiến ​​trúc nhà hồ đã trở nên phổ biến, đặc biệt là trong số các doanh nghiệp đã đầu tư vào hồ dữ liệu.

Aslett tuyên bố rằng vào năm 2024, "hơn 75% những người chấp nhận hồ dữ liệu hiện tại sẽ đầu tư vào công nghệ kho dữ liệu. "

Khái niệm data lakehouse đã được giới thiệu dưới một số hình thức bởi các đối thủ cạnh tranh của Oracle, bao gồm Snowflake, Databricks, Teradata, Dremio, Google, AWS và Microsoft Azure

Theo báo cáo của Ventana, bản thân các hồ dữ liệu đã trở thành một thành phần quan trọng trong kho dữ liệu phân tích cho nhiều doanh nghiệp

Kể từ khi các nhà cung cấp bắt đầu cung cấp lưu trữ đối tượng đám mây làm kho lưu trữ dữ liệu cơ bản, khái niệm về hồ dữ liệu đã trở nên quan trọng và phù hợp, khiến nó trở thành một cách tương đối rẻ để lưu trữ khối lượng dữ liệu lớn từ nhiều ứng dụng doanh nghiệp và khối lượng công việc. Điều này đặc biệt phù hợp với dữ liệu bán cấu trúc và phi cấu trúc không phù hợp để lưu trữ và xử lý trong kho dữ liệu, theo Aslett

Theo khảo sát của Ventana Research trên Analytics & Data Benchmark Research, 53% số người được hỏi cho biết họ hiện đang sử dụng lưu trữ đối tượng trong các nỗ lực phân tích của mình, với 29% khác đang đánh giá hoặc dự định làm như vậy

Lakehouse hỗ trợ nhiều định dạng tệp khác nhau

Theo Oracle, dịch vụ đám mây MySQL HeatWave Lakehouse dành cho khối lượng công việc phân tích và hỗn hợp sẽ cho phép các doanh nghiệp xử lý và truy vấn dữ liệu từ nhiều định dạng tệp khác nhau, bao gồm CSV và Parquet cũng như các bản sao lưu Aurora và Redshift từ AWS

Do đó, các doanh nghiệp có thể sử dụng MySQL HeatWave ngay cả khi dữ liệu của họ không được lưu trong cơ sở dữ liệu MySQL

Với dịch vụ mới, doanh nghiệp có thể sử dụng cú pháp MySQL tiêu chuẩn để truy vấn dữ liệu xử lý giao dịch trực tuyến (OLTP) được lưu trữ trong cơ sở dữ liệu MySQL và kết hợp nó với dữ liệu được lưu trữ trong kho lưu trữ đối tượng.

Công ty tuyên bố trong một tuyên bố rằng "bất kỳ thay đổi nào được thực hiện đối với dữ liệu OLTP đều được cập nhật theo thời gian thực và được phản ánh trong kết quả truy vấn. "

Oracle Cloud Infrastructure (OCI), Amazon Web Services (AWS) và Microsoft Azure nằm trong số các nhà cung cấp dịch vụ đám mây cung cấp toàn bộ danh mục MySQL HeatWave, theo Oracle.

Tự động hóa bằng cách sử dụng máy học và MySQL Autopilot

MySQL Autopilot, một phần của danh mục HeatWave được giới thiệu vào tháng 8 năm 2021 và sử dụng công nghệ máy học để cải thiện hiệu suất truy vấn và khả năng mở rộng, được hỗ trợ bởi MySQL HeatWave Lakehouse của Oracle

Công ty cho biết một số tính năng hiện tại của MySQL Autopilot, chẳng hạn như cung cấp tự động và lập kế hoạch truy vấn tự động, đã được cải tiến để hỗ trợ hiệu suất tốt hơn trong dịch vụ lakehouse

Suy luận lược đồ tự động, lấy mẫu dữ liệu thích ứng, tải tự động và luồng dữ liệu thích ứng là một số tính năng mới của MySQL Autopilot được tạo cho lakehouse

Người dùng doanh nghiệp không phải chỉ định thủ công ánh xạ cho từng tệp mới được truy vấn bởi MySQL HeatWave Lakehouse vì tính năng suy luận lược đồ tự động của Autopilot cho phép nó tự động suy luận ánh xạ của dữ liệu tệp tới các kiểu dữ liệu trong cơ sở dữ liệu

MySQL HeatWave sử dụng các số liệu thống kê này để tạo và cải thiện các kế hoạch truy vấn, xác định ánh xạ lược đồ tối ưu và các mục đích khác. Autopilot sử dụng lấy mẫu dữ liệu thích ứng để cải thiện hiệu suất truy vấn, thu thập số liệu thống kê với quyền truy cập dữ liệu tối thiểu

Theo Oracle, Autopilot sử dụng luồng dữ liệu thích ứng để trích xuất hiệu suất và tính khả dụng cao nhất có thể từ cơ sở hạ tầng đám mây bên dưới

Hỗ trợ cho các mô hình dự báo, trình tối ưu hóa truy vấn mới và hỗ trợ cập nhật cho plugin mã VS chỉ là một số bổ sung cho dòng sản phẩm MySQL HeatWave

Ngoài ra, Oracle cho biết HeatWave ML đã được cập nhật để cho phép nhập các mô hình máy học. Oracle cho biết: “Các nhà khoa học dữ liệu hiện có thể tác động đến các giai đoạn khác nhau của quy trình đào tạo HeatWave ML tự động, bao gồm lựa chọn thuật toán, lựa chọn tính năng, số liệu chấm điểm và kỹ thuật giải thích”.

Oracle sẽ mất danh tiếng là một nhà cung cấp đắt tiền?

Theo Tony Baer, ​​nhà phân tích chính của công ty nghiên cứu thị trường dbInsight, thông báo của lakehouse thể hiện chiến lược tổng thể của Oracle nhằm rũ bỏ danh tiếng là nhà cung cấp chi phí cao

Baer tuyên bố, "Chiến lược của Oracle để đảo ngược danh tiếng của mình trong bối cảnh này là với các công cụ cơ sở dữ liệu được tối ưu hóa vượt trội so với đối thủ, chứ không phải với công nghệ tôi cũng vậy. "

Nhưng anh ấy cảnh báo rằng phần lớn những người bán hàng cũng đang chuyển đến khu vực nhà hồ

Theo Baer, ​​công ty chỉ có thể đưa khách hàng phổ thông của mình đến với lakehouse nếu cơ sở dữ liệu hàng đầu của Oracle bắt đầu hoạt động. Ông nói thêm: “Động lực nghiêng về phía nhà cung cấp hơn là phía khách hàng, nhưng đó là trường hợp đi đến nơi mà quả bóng khúc côn cầu đang diễn ra ngược lại với hiện tại”.  

MySQL HeatWave, theo Oracle, đã được các khách hàng chuyển từ AWS, Google và cơ sở hạ tầng tại chỗ sử dụng cho nhiều mục đích khác nhau, bao gồm phân tích tiếp thị, phân tích thời gian thực về hiệu quả của các chiến dịch quảng cáo và phân tích dữ liệu khách hàng

Các doanh nghiệp trong lĩnh vực ô tô, viễn thông, bán lẻ, công nghệ cao và chăm sóc sức khỏe nằm trong số những doanh nghiệp đã chuyển từ sử dụng Amazon Web Services.

Trong khi đó, Baer khẳng định rằng Oracle có thể hưởng lợi từ xu hướng ngày càng có nhiều nhà cung cấp cung cấp kiến ​​trúc nhà hồ

Việc tham gia nhóm có thể giúp HeatWave dễ tiếp cận hơn vì sẽ không có bất kỳ khóa nào ở cấp độ bảng và do nguồn mở đang di chuyển lên ngăn xếp và MySQL HeatWave của Oracle sắp tiếp cận với khán giả mới,

Nó cũng sẽ phụ thuộc vào việc liệu các định dạng nguồn mở, chẳng hạn như Apache Iceberg, Delta Lake, hoặc có thể là Apache Hudi, có trở thành tiêu chuẩn thực tế cho các ngôi nhà hồ hiện đại hay không, Baer tiếp tục

Oracle hôm nay đã công bố, cho phép khách hàng xử lý và truy vấn hàng trăm terabyte dữ liệu trong kho lưu trữ đối tượng ở nhiều định dạng tệp khác nhau, chẳng hạn như CSV và Parquet, cũng như các bản sao lưu Aurora và Redshift. MySQL HeatWave Lakehouse là phần bổ sung mới nhất cho danh mục MySQL HeatWave, dịch vụ đám mây duy nhất kết hợp xử lý giao dịch, phân tích, học máy và tự động hóa dựa trên học máy trong một cơ sở dữ liệu MySQL duy nhất

Được hỗ trợ bởi kiến ​​trúc MySQL HeatWave mở rộng song song quy mô lớn, MySQL HeatWave Lakehouse mang lại hiệu suất tốt hơn đáng kể so với các dịch vụ cơ sở dữ liệu đám mây cạnh tranh để chạy truy vấn và tải dữ liệu, như được thể hiện qua các điểm chuẩn tiêu chuẩn ngành. Ngoài ra, trong một truy vấn duy nhất, khách hàng có thể truy vấn dữ liệu giao dịch trong cơ sở dữ liệu MySQL và kết hợp nó với dữ liệu trong kho đối tượng bằng cú pháp MySQL tiêu chuẩn. Oracle cũng đã công bố các khả năng MySQL Autopilot mới giúp cải thiện hiệu suất và làm cho MySQL HeatWave Lakehouse dễ sử dụng. MySQL HeatWave Lakehouse hiện đã có ở bản Beta để khách hàng dùng thử và dự kiến ​​sẽ ra mắt rộng rãi trong 1HCY23

Khách hàng di chuyển từ AWS, Google và tại chỗ đã sử dụng MySQL HeatWave cho nhiều trường hợp sử dụng bao gồm phân tích tiếp thị, đặc biệt là phân tích thời gian thực về hiệu suất chiến dịch quảng cáo và phân tích dữ liệu khách hàng để xây dựng chiến dịch hiệu quả. Khách hàng di chuyển từ AWS bao gồm các nhà lãnh đạo trong ngành ô tô, viễn thông, bán lẻ, công nghệ cao và chăm sóc sức khỏe

“MySQL HeatWave là kết quả của nhiều năm nghiên cứu và phát triển nâng cao, chúng tôi đang biến những cải tiến mang tính đột phá để giải quyết một loạt thách thức lớn hơn cho tất cả khách hàng của MySQL. Trên thực tế, MySQL HeatWave Lakehouse là công bố MySQL HeatWave lớn thứ ba của chúng tôi trong năm nay,” Edward Screven, kiến ​​trúc sư trưởng của Oracle cho biết. “Có sự gia tăng lớn về dữ liệu được lưu trữ bên ngoài cơ sở dữ liệu và với MySQL HeatWave Lakehouse, khách hàng có thể tận dụng tất cả lợi ích của HeatWave đối với dữ liệu nằm trong kho lưu trữ đối tượng. MySQL HeatWave hiện cung cấp một dịch vụ tích hợp trên nhiều đám mây để xử lý giao dịch, phân tích trên kho dữ liệu và hồ dữ liệu cũng như học máy mà không cần ETL. Sự kết hợp này giúp mang lại những cải tiến lớn về hiệu suất, tự động hóa và chi phí—giúp MySQL HeatWave vượt xa các dịch vụ cơ sở dữ liệu đám mây khác. ”

Mark Papermaster, giám đốc cho biết: “Chúng tôi rất vui mừng được tiếp tục hợp tác với Oracle, phát triển nó để hỗ trợ sản phẩm MySQL HeatWave Lakehouse mới của họ, được tối ưu hóa để chạy trên các phiên bản đám mây Oracle do AMD EPYC cung cấp và tận dụng những cải tiến mới nhất trong bộ xử lý của chúng tôi”. . “Công việc chung của các nhóm kỹ thuật AMD và Oracle đã giúp tạo ra một giải pháp MySQL ấn tượng có thể hỗ trợ khả năng mở rộng và hiệu suất tuyệt vời để xử lý giao dịch, phân tích, học máy và tự động hóa dựa trên học máy trong một cơ sở dữ liệu MySQL duy nhất. ”

Oracle cũng đang công bố các điểm chuẩn mới của lakehouse và giới thiệu một số khả năng sáng tạo cho MySQL HeatWave Lakehouse và MySQL Autopilot

 

điểm chuẩn

  • Nhanh hơn Snowflake và Amazon Redshift cả về hiệu suất truy vấn và tải dữ liệu

    Như được minh họa bằng điểm chuẩn 400 TB TPC-H* hoàn toàn minh bạch, công khai, hiệu suất truy vấn của MySQL HeatWave Lakehouse là

    • Nhanh hơn 17 lần so với Snowflake
    • Nhanh hơn 6 lần so với Amazon Redshift

    Tải dữ liệu từ kho lưu trữ đối tượng vào MySQL HeatWave Lakehouse cũng nhanh hơn đáng kể. Đối với khối lượng công việc 400 TB TPC-H*, hiệu suất tải của MySQL HeatWave Lakehouse là
    • Nhanh hơn 8 lần so với Amazon Redshift
    • 2. Nhanh hơn 7 lần so với Snowflake

    Tất cả các tập lệnh điểm chuẩn hoàn toàn minh bạch này đều có sẵn trên GitHub để khách hàng sao chép

Ron Westfall, nhà phân tích cấp cao và giám đốc nghiên cứu của Futurum Research cho biết: “MySQL HeatWave Lakehouse đốt cháy cuộc cạnh tranh bằng cách đốt cháy con đường dẫn đến lãnh thổ chưa từng được khám phá trước đó là điểm chuẩn cơ sở dữ liệu đám mây 400 TB với tốc độ chóng mặt”. “MySQL HeatWave Lakehouse là một bước nhảy vọt cho HeatWave về khả năng xử lý và sức mạnh tính toán. từ 32TB và 64 nút đến 400 TB và 512 nút với hiệu suất và hiệu suất giá dễ dàng đánh bại Amazon Redshift và Snowflake. Trong khi đó, các đối thủ cạnh tranh về cơ sở dữ liệu đám mây vẫn chưa đáp ứng được sự hội tụ trong cơ sở dữ liệu và sự hiện diện trên nhiều đám mây của MySQL HeatWave. Làm thế nào họ sẽ đối phó với 400 TB MySQL HeatWave Lakehouse?”

 

Các khả năng mới sáng tạo dành cho MySQL HeatWave Lakehouse

  • Kích thước dữ liệu lớn hơn, cú pháp MySQL tiêu chuẩn. Khách hàng có thể truy vấn tới 400 TB dữ liệu với MySQL HeatWave Lakehouse và cụm HeatWave chia tỷ lệ thành 512 nút. Khách hàng sử dụng cú pháp MySQL tiêu chuẩn để truy vấn dữ liệu
  • Hiệu suất và nén giống hệt nhau. MySQL HeatWave cung cấp hiệu suất truy vấn giống nhau cho dữ liệu được lưu trữ bên trong cơ sở dữ liệu MySQL hoặc trên kho lưu trữ đối tượng—như được thể hiện qua cả điểm chuẩn TPC-H 10TB và 30TB. Hơn nữa, lượng nén đạt được và lượng dữ liệu có thể được xử lý trên mỗi nút là như nhau trong cả hai trường hợp
  • Hỗ trợ nhiều định dạng tập tin. Với MySQL HeatWave Lakehouse, khách hàng có thể tải và xử lý dữ liệu được lưu trữ ở nhiều định dạng tệp khác nhau, chẳng hạn như CSV và Parquet, cũng như các bản sao lưu Aurora và Redshift từ AWS. Điều này cho phép khách hàng tận dụng các lợi ích của MySQL HeatWave ngay cả khi dữ liệu của họ không được lưu trữ bên trong cơ sở dữ liệu MySQL. Hiệu suất truy vấn là như nhau bất kể định dạng tệp mà dữ liệu được lưu trữ
  • Khả năng truy vấn dữ liệu trong MySQL và kết hợp nó với dữ liệu trong kho đối tượng. Với MySQL HeatWave Lakehouse, khách hàng có thể truy vấn dữ liệu OLTP của họ được lưu trữ bên trong cơ sở dữ liệu MySQL và kết hợp nó với dữ liệu được lưu trữ trong kho đối tượng. Mọi thay đổi đối với dữ liệu OLTP đều được cập nhật theo thời gian thực và được phản ánh trong kết quả truy vấn
 

Khả năng MySQL Autopilot mới cho MySQL HeatWave Lakehouse

MySQL Autopilot cung cấp tính năng tự động hóa dựa trên máy học cho MySQL HeatWave. Các khả năng MySQL Autopilot hiện có chẳng hạn như và đã được tăng cường cho MySQL HeatWave Lakehouse, giúp giảm thêm chi phí quản trị cơ sở dữ liệu và cải thiện hiệu suất. Ngoài ra, một số khả năng MySQL Autopilot mới hiện có sẵn cho MySQL HeatWave Lakehouse

  • Tự động suy luận giản đồ. Autopilot tự động phỏng đoán ánh xạ của dữ liệu tệp tới các kiểu dữ liệu trong cơ sở dữ liệu. Do đó, khách hàng không cần chỉ định thủ công ánh xạ cho từng tệp mới được truy vấn bởi MySQL HeatWave Lakehouse—do đó tiết kiệm thời gian và công sức
  • lấy mẫu dữ liệu thích ứng. Autopilot lấy mẫu một cách thông minh các phần của tệp trong bộ lưu trữ đối tượng, thu thập số liệu thống kê chính xác với quyền truy cập dữ liệu tối thiểu. MySQL HeatWave sử dụng các số liệu thống kê này để tạo và cải thiện các kế hoạch truy vấn, xác định ánh xạ lược đồ tối ưu và cho các mục đích khác
  • tải tự động. Autopilot phân tích dữ liệu để dự đoán thời gian tải vào MySQL HeatWave, xác định ánh xạ của các kiểu dữ liệu và tự động tạo tập lệnh tải. Người dùng không phải chỉ định thủ công ánh xạ tệp tới lược đồ và bảng cơ sở dữ liệu
  • Luồng dữ liệu thích ứng. MySQL HeatWave Lakehouse tự động thích ứng với hiệu suất của kho lưu trữ đối tượng cơ bản. Do đó, MySQL HeatWave có thể nhận được hiệu suất khả dụng tối đa từ cơ sở hạ tầng đám mây cơ bản giúp cải thiện hiệu suất tổng thể, hiệu suất giá và tính khả dụng
 

Các cải tiến bổ sung cho MySQL HeatWave

Oracle đã công bố một số cải tiến khác đối với MySQL HeatWave trải dài từ học máy đến trình cắm mã VS. Khả năng học máy trong cơ sở dữ liệu của MySQL HeatWave đã được làm phong phú thêm để bao gồm hỗ trợ cho các mô hình dự báo. Các kỹ thuật giải thích học máy mới đã được thêm vào đã được tối ưu hóa cho MySQL HeatWave. Các nhà khoa học dữ liệu hiện có thể tác động đến các giai đoạn khác nhau của quy trình đào tạo HeatWave ML tự động, bao gồm lựa chọn thuật toán, lựa chọn tính năng, số liệu chấm điểm và kỹ thuật giải thích. HeatWave ML cũng đã được cải tiến để cho phép khách hàng nhập các mô hình máy học vào HeatWave

Trình tối ưu hóa truy vấn Siêu đồ thị đa công cụ mới cải thiện hơn nữa hiệu suất của các truy vấn phức tạp và loại bỏ nhu cầu chỉ định thứ tự tham gia. Bản đồ vùng đã được thêm vào, giúp tăng tốc một nhóm truy vấn rộng hơn với MySQL HeatWave. Và plug-in mã VS cho MySQL đã được cải tiến để hỗ trợ khả năng HeatWave của MySQL

 

Sẵn sàng cho Đám mây Phân tán

MySQL HeatWave khả dụng trên nhiều đám mây bao gồm OCI, AWS và giờ là Microsoft Azure. Nó có sẵn tại chỗ như một phần của Khu vực dành riêng cho OCI dành cho các tổ chức không muốn chuyển khối lượng công việc cơ sở dữ liệu của họ sang đám mây công cộng. Khách hàng cũng có thể sao chép dữ liệu từ các ứng dụng MySQL OLTP tại chỗ của họ sang MySQL HeatWave để có được các phân tích gần thời gian thực. MySQL HeatWave luôn có phiên bản mới nhất của cơ sở dữ liệu MySQL

 

Tài nguyên bổ sung

* Truy vấn điểm chuẩn được lấy từ điểm chuẩn TPC, nhưng kết quả không thể so sánh với kết quả điểm chuẩn TPC đã công bố vì chúng không tuân thủ các thông số kỹ thuật của TPC