Apache spark là gì

" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark.jpg?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark.jpg?w=665?w=665" />

Apabịt Spark


Apabít Spark in-memory clusters vẫn là tiêu điểm chăm chú của không ít doanh nghiệp trong bài toán ứng dụng technology vào so sánh với xử lý tài liệu nhanh lẹ. Trong bài viết này, tôi đang trình diễn một bức tranh tổng quan liêu tốt nhất về Apache Spark, một Một trong những gỉai pháp đòi hỏi đề xuất tất cả lúc ý muốn xử lý Big data.

Bạn đang xem: Apache spark là gì


Tổng quan tiền về Spark

Apache Spark là 1 trong open source cluster computing framework được cách tân và phát triển sơ khởi vào khoảng thời gian 2009 bởi vì AMPLab tại ĐH California, Berkeley. Sau này, Spark đã làm được trao mang lại Apabít Software Foundation vào năm 2013 và được trở nên tân tiến cho tới nay.

Spark chất nhận được chế tạo cùng so sánh nhanh hao các quy mô dự đân oán. bên cạnh đó, nó còn cung cấp kĩ năng truy xuất toàn bộ dữ liệu đồng thời, nhờ vào vậy ta không cần phải rước mẫu tài liệu – yên cầu vị những ngữ điệu xây dựng nhỏng R. Thêm vào kia, Spark còn hỗ trợ chức năng streaming, được dùng làm gây ra những mô hình real-time bằng phương pháp nạp toàn cục dữ liệu vào bộ nhớ.

Khi ta gồm một tác vụ như thế nào đó qúa mập nhưng mà bắt buộc cách xử lý trên một máy tính hay như là một server, Spark cho phép ta phân chia tác vụ này thành những phần dễ cai quản hơn. Sau đó, Spark đang chạy các tác vụ này vào bộ nhớ, trên các cluster của không ít hệ thống không giống nhau nhằm khai quật tốc độ tróc nã xuất nkhô cứng trường đoản cú RAM. Spark áp dụng API Resilient Distributed Dataset (RDD) nhằm cách xử lý dữ liệu.


" data-medium-file="https://ongxuanhong.files.wordpress.com/2016/11/spark-mesos.png?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2016/11/spark-mesos.png?w=665?w=665" />

spark-mesos


Spark dấn được rất nhiều sự tận hưởng ứng từ xã hội Big data trên nhân loại do cung cấp năng lực tính toán nhanh khô cùng nhiều thỏng viện kèm theo có lợi nlỗi Spark Squốc lộ (cùng với hình dạng dữ liệu DataFrames), Spark Streaming, MLlib (machine learning: classification, regression, clustering, collaborative sầu filtering, và dimensionality reduction) với GraphX (màn biểu diễn thứ thị nhờ kết qủa tính toán song song).


" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark-components.png?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark-components.png?w=665?w=588" />

Apabịt Spark components


Những điểm lưu ý gía bên cạnh vận tốc tính toán thù nhanh

Sự đối chọi gỉan: Một trong những chỉ trích thường xuyên chạm chán ngơi nghỉ Hadoop đó là việc phức hợp trong qúa trình cải cách và phát triển, mặc dù đấy là một trong những cách thức tính toán thù 1-1 gỉan với hiệu qủa gíup tăng tốc độ giải pháp xử lý của hệ thống. Tgiỏi vì đòi hỏi người tiêu dùng nên gọi rạch ròi về MapReduce với thiết kế Java, Spark có mặt nhằm gíup hầu như người tiếp cận với technology tính toán song tuy nhiên dễ dãi hơn rất nhiều. Người dùng chỉ cần một vài ba kỹ năng và kiến thức cơ bản về database cùng cùng với thiết kế Pykhông lớn xuất xắc Scala là có thể áp dụng được.

Xem thêm: Nghĩa Của Từ Bubbly Là Gì - What Is The Meaning Of Bubbly Personality


Độc lập cùng với những bên cung cấp hình thức Hadoop: Hầu không còn những bên cung cấp hình thức dịch vụ Hadoop phần đông cung ứng Spark. Điều này còn có nghĩa Spark ko dựa vào vào những nhà cung cấp này. Nếu bạn muốn biến hóa đơn vị cung ứng dịch vụ, ta chỉ cần lấy hệ thống Spark qua công ty cung cấp mới nhưng mà ko thấp thỏm việc mất đuối công bố.

Một vài ba thống kê lại thụ vị

62% số tín đồ khảo sát dùng Spark với HDFS, 46% thực hiện cùng với các hệ cai quản trị DataBase nlỗi Stavrou, HBase, Hive, Tachyon, 41% đang sử dụng với Kafka, cùng 29% đã thực hiện thuộc Amazon S3.Đối với hệ quản lí trị cluster, 56% đang hoạt động chủ quyền Spark, 42% áp dụng YARN, và 26% áp dụng Apađậy Mesos.Đối cùng với ngôn từ lập trình, 88% thực hiện Scala, 44% sử dụng Java, và 22% sử dụng Pykhông lớn.Mức độ quan tâm của công ty về Spark: 91% về vận tốc tính toán thù, 77% về vấn đề dễ dàng lập trình sẵn, 71% về câu hỏi dễ trở nên tân tiến, 64% về các luật pháp đối chiếu tài liệu tiên tiến và phát triển, 52% về real-time streaming.Sử dụng Spark trên 206 hệ thống EC2 nhằm bố trí 100TB dữ liệu chỉ tốn 23 phút ít. Trong khi ấy, kỉ lục trước đây trên Hadoop áp dụng MapReduce trên 2,100 máy vi tính cần tiêu hao 72 phút ít. Điều này còn có nghĩa rằng Spark bố trí dữ liệu nkhô giòn cấp 3 lần Hadoop mà lại chỉ sử dụng ít hơn 10 lần số máy tính xách tay.Các yếu tố được thực hiện trong Spark: 69% sử dụng Spark SQL, 62% áp dụng Dataframes, 58% thực hiện MLib + GraphX, 58% sử dụng Streaming.
" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/top-10-industries-using-spark.jpg?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/top-10-industries-using-spark.jpg?w=665&h=375" />Top 10 industries using spark" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/shark-vs-sparksql.jpg?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/shark-vs-sparksql.jpg?w=665&h=514" />Shark vs SparkSQLKết luận

Đối cùng với những bên cung cấp gỉai pháp, Apabít Spark là một trong lá bài đặc trưng vào vấn đề áp dụng những công nghệ chủ công nhằm xây đắp gần như data warehouses văn minh. Đây là một trong những phân khúc bự trong nghề IT có chức năng bỏ túi mặt hàng tỉ đô lợi nhuận mỗi năm.

Spark giới thiệu một tư tưởng mới với các tiềm ẩn trong tương lai sẽ là data lakes. Đây là một trong nơi tàng trữ một lượng tài liệu lớn tưởng với nhiều format khác biệt và được tầm nã vấn nhằm xử lý Lúc cần thiết. Data lakes đưa ra một framework tmùi hương mại hoàn toàn có thể tạo ra một môi trường xung quanh tàng trữ vô hạn ngẫu nhiên các loại tài liệu làm sao.

Spark Demo


Danh mục Khái niệm Thẻ apache spark,big data Để lại phản hồi Điều phía bài viết
Hadoop là gì
Google File System – Tìm hiểu về kiểu cách cai quản cửa hàng tài liệu của Google

Viết một bình luận Hủy

Bình luận

TênThư điện tửTrang web

Lưu tên của tôi, gmail, với trang web trong trình chuẩn y này mang lại lần comment tiếp nối của mình.


Tìm kiếm cho:
Hành Trang Lập Trình

Thẻ


.htaccess.net coreangularangular cliangularjsapađậy sparkAWSAWS LambdaBAbig datablockchainBootstrapBootstrap 4Business AnalystCC#C++ccucloud computingCSSDapperelasticsearchES6gitHadoopHọc lập trìnhJavajavascriptLaravelNgôn ngữ lập trìnhNgôn ngữ thiết kế webNodeJSNPMOwnCloudphppythonReactJSReact Nativesearch engineServerlesssqlTrí tuệ nhân tạotypescriptTự học tập Lập trìnhwordpress
*
Đây là CMS bởi bao gồm tôi code, Ko cần sử dụng Wordpress, Ko PHP., ko dính virut, CLOUD cùng thi công website chỉ cần sử dụng kéo thả, CSS ...

Leave a Reply

Your email address will not be published. Required fields are marked *