令和3年秋期試験問題 午前Ⅱ 問18

ビッグデータ処理基盤に利用され,オープンソースソフトウェアの一つであるApache Sparkの特徴はどれか。

  • MapReduceの考え方に基づいたバッチ処理に特化している。
  • RDD(Resilient Distributed Dataset)と呼ばれるデータ集合に対して変換を行う。
  • パブリッシュ/サブスクライブ(Publish/Subscribe)型のメッセージングモデルを採用している。
  • マスタノードをもたないキーバリューストアである。
正解 問題へ
分野:テクノロジ系
中分類:データベース
小分類:データベース応用
解説
Apache Sparkは、大量のデータに対する並列分散処理機能(並列性・耐障害性)を提供するオープンソースソフトウェアで、ビッグデータの活用を支えるフレームワークとして注目されています。Apache Sparkではデータを抽象的に扱うためRDD(Resilient Distributed Dataset)と呼ばれるデータ構造が用意され、このRDDに対して処理を記述していきます。キャッシュやインメモリにより、MapReduceと比較して、反復処理やデータの再利用でもストレージI/OやネットワークI/Oが少ないのが特徴です。
SQLライクな処理をサポートするSpark SQL、ストリーミング処理を行うSpark Streaming、機械学習を行うMLlib、グラフ処理を行うGraphXといったライブラリが用意されていて、異なるタイプの処理を一つの環境で統合的に記述することができます。
  • Apache Hadoopの説明です。
  • 正しい。Apache Sparkの説明です。
  • MQTT(Message Queue Telemetry Transport)の説明です。
  • 分散型KVSであるApache Accumuloの説明です。

Pagetop