AWS Glue nâng cấp động cơ Spark, hỗ trợ khung Ray

Ngoài ra, việc thêm hỗ trợ cho các định dạng API Pandas, Apache Hudi, Apache Iceberg và Delta Lake tích hợp là dịch vụ tích hợp dữ liệu không có máy chủ trong đám mây Amazon

  • AWS Glue nâng cấp động cơ Spark, hỗ trợ khung Ray
    Tác giả Paul Krill

    Biên tập viên nói chung, InfoWorld.

    Cyber space, digital lines, data gridblackdovfx

    AWS Glue, một dịch vụ tích hợp dữ liệu serverless do Amazon Web Services cung cấp, giới thiệu các khả năng của Python và Apache Spark trong phiên bản 4. 0 bản phát hành được giới thiệu trong tuần này

    Bản nâng cấp thêm các công cụ cho Python 3. 10 và Apache Spark 3. 3. 0. Cả hai công cụ đều bao gồm các cải tiến hiệu suất và sửa lỗi, với Spark cung cấp các khả năng như lọc thời gian chạy cấp hàng và thông báo lỗi được cải thiện

    Các plugin công cụ mới trong Keo 4. 0 hỗ trợ khung tính toán Ray, Dịch vụ xáo trộn đám mây cho Spark và Thực thi truy vấn thích ứng. Hỗ trợ cho công cụ thao tác và phân tích dữ liệu Pandas, được xây dựng trên Python, cũng được giới thiệu. Hỗ trợ định dạng dữ liệu mới bao gồm Apache Hudi, Apache Iceberg và Delta Lake. keo 4. 0 cũng bao gồm trình đọc vector hóa Parquet, với sự hỗ trợ cho các loại dữ liệu và mã hóa bổ sung

    AWS Glue cung cấp khả năng khám phá dữ liệu, chuẩn bị dữ liệu, chuyển đổi dữ liệu và tích hợp dữ liệu, với tính năng tự động thay đổi quy mô dựa trên quy mô khối lượng công việc. AWS cho biết Glue hiện cũng cung cấp các chuyển đổi trực quan để khách hàng sử dụng và chia sẻ logic ETL dành riêng cho doanh nghiệp giữa các nhóm

    AWS đã công bố bản xem trước của AWS Glue for Ray dưới dạng tùy chọn công cụ mới. Các kỹ sư dữ liệu có thể sử dụng AWS Glue for Ray để xử lý các tập dữ liệu lớn bằng Python và các thư viện Python phổ biến. Xử lý phân tán mã Python được thực hiện trên các cụm đa nút

    keo 4. 0 hiện khả dụng ở một số khu vực AWS của Hoa Kỳ bao gồm Ohio, Bắc Virginia và Bắc California

    AWS Glue, một dịch vụ tích hợp dữ liệu serverless do Amazon Web Services cung cấp, giới thiệu các khả năng của Python và Apache Spark trong phiên bản 4. 0 bản phát hành được giới thiệu trong tuần này

    Bản nâng cấp thêm các công cụ cho Python 3. 10 và Apache Spark 3. 3. 0. Cả hai công cụ đều bao gồm các cải tiến hiệu suất và sửa lỗi, với Spark cung cấp các khả năng như lọc thời gian chạy cấp hàng và thông báo lỗi được cải thiện

    Các plugin công cụ mới trong Keo 4. 0 hỗ trợ khung tính toán Ray, Dịch vụ xáo trộn đám mây cho Spark và Thực thi truy vấn thích ứng. Hỗ trợ cho công cụ thao tác và phân tích dữ liệu Pandas, được xây dựng trên Python, cũng được giới thiệu. Hỗ trợ định dạng dữ liệu mới bao gồm Apache Hudi, Apache Iceberg và Delta Lake. keo 4. 0 cũng bao gồm trình đọc vector hóa Parquet, với sự hỗ trợ cho các loại dữ liệu và mã hóa bổ sung

    AWS Glue cung cấp khả năng khám phá dữ liệu, chuẩn bị dữ liệu, chuyển đổi dữ liệu và tích hợp dữ liệu, với tính năng tự động thay đổi quy mô dựa trên quy mô khối lượng công việc. AWS cho biết Glue hiện cũng cung cấp các chuyển đổi trực quan để khách hàng sử dụng và chia sẻ logic ETL dành riêng cho doanh nghiệp giữa các nhóm

    AWS đã công bố bản xem trước của AWS Glue for Ray dưới dạng tùy chọn công cụ mới. Các kỹ sư dữ liệu có thể sử dụng AWS Glue for Ray để xử lý các tập dữ liệu lớn bằng Python và các thư viện Python phổ biến. Xử lý phân tán mã Python được thực hiện trên các cụm đa nút

    keo 4. 0 hiện có sẵn ở các vùng của Hoa Kỳ bao gồm Ohio, Bắc Virginia và Bắc California

    AWS Glue, một dịch vụ tích hợp dữ liệu serverless do Amazon Web Services cung cấp, giới thiệu các khả năng của Python và Apache Spark trong phiên bản 4. 0 bản phát hành được giới thiệu trong tuần này

    Bản nâng cấp thêm các công cụ cho Python 3. 10 và Apache Spark 3. 3. 0. Cả hai công cụ đều bao gồm các cải tiến hiệu suất và sửa lỗi, với Spark cung cấp các khả năng như lọc thời gian chạy cấp hàng và thông báo lỗi được cải thiện

    Các plugin công cụ mới trong Keo 4. 0 hỗ trợ khung tính toán Ray, Dịch vụ xáo trộn đám mây cho Spark và Thực thi truy vấn thích ứng. Hỗ trợ cho công cụ thao tác và phân tích dữ liệu Pandas, được xây dựng trên Python, cũng được giới thiệu. Hỗ trợ định dạng dữ liệu mới bao gồm Apache Hudi, Apache Iceberg và Delta Lake. keo 4. 0 cũng bao gồm trình đọc vector hóa Parquet, với sự hỗ trợ cho các loại dữ liệu và mã hóa bổ sung

    AWS Glue cung cấp khả năng khám phá dữ liệu, chuẩn bị dữ liệu, chuyển đổi dữ liệu và tích hợp dữ liệu, với tính năng tự động thay đổi quy mô dựa trên quy mô khối lượng công việc. AWS cho biết Glue hiện cũng cung cấp các chuyển đổi trực quan để khách hàng sử dụng và chia sẻ logic ETL dành riêng cho doanh nghiệp giữa các nhóm

    AWS đã công bố bản xem trước của AWS Glue for Ray dưới dạng tùy chọn công cụ mới. Các kỹ sư dữ liệu có thể sử dụng AWS Glue for Ray để xử lý các tập dữ liệu lớn bằng Python và các thư viện Python phổ biến. Xử lý phân tán mã Python được thực hiện trên các cụm đa nút

    keo 4. 0 hiện có sẵn ở các vùng của Hoa Kỳ bao gồm Ohio, Bắc Virginia và Bắc California

    Nhược điểm của Keo AWS là gì?

    Tích hợp có giới hạn . Là một công cụ AWS, nó không tích hợp tốt với các công nghệ khác. Nó bị hạn chế ở chỗ nó chỉ có các trình kết nối gốc với JDBC và S3, điều đó có nghĩa là các tổ chức sẽ cần sử dụng các phương pháp khác để kết nối các nguồn dữ liệu không phải JDBC.

    Keo AWS có hỗ trợ Spark không?

    Keo AWS 2. 0 sử dụng Spark 2 mã nguồn mở. 4 và keo AWS 3. 0 sử dụng Spark 3 được tối ưu hóa EMR. 1. 1 .

    Công cụ nào được AWS Glue hỗ trợ?

    AWS Glue cho phép bạn thực hiện các thao tác ETL khi truyền dữ liệu bằng các tác vụ chạy liên tục. AWS Glue streaming ETL được xây dựng trên công cụ Truyền phát có cấu trúc Apache Spark và có thể nhập các luồng từ Amazon Kinesis Data Streams, Apache Kafka và Amazon Managed Streaming cho .

    Keo có hỗ trợ Spark không?

    Phiên bản AWS Glue xác định phiên bản Apache Spark và Python mà AWS Glue hỗ trợ . Phiên bản Python cho biết phiên bản được hỗ trợ cho các công việc thuộc loại Spark. Bảng sau đây liệt kê các phiên bản AWS Glue có sẵn, phiên bản Spark và Python tương ứng và các thay đổi khác về chức năng.