Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) - Databricks-Certified-Data-Engineer-Professional日本語 FREE EXAM DUMPS QUESTIONS & ANSWERS

データ エンジニアが次の PySpark コードを実行しようとしています。
df = spark.read.table("売上")
結果 = df.groupBy("地域").agg(合計("収益"))
しかし、実行プランを調べて Spark ジョブをプロファイリングすると、集約フェーズで過度のデータ シャッフルが発生していることがわかります。
groupBy 集計操作中のシャッフルを減らすには、どの手法を適用する必要がありますか?
Correct Answer: D Vote an answer
Explanation: Only visible for FreeCram members. You can sign-up / login (it's free).
Databricks プラットフォーム上の Spark 構成に関して正しい記述はどれですか?
Correct Answer: A Vote an answer
Explanation: Only visible for FreeCram members. You can sign-up / login (it's free).
ある大企業は、膨大な量と高速のデータを持つ多数のテーブルを並列更新する数百のパイプラインを伴う、ほぼリアルタイムのソリューションを実装したいと考えています。
この要件を満たすには、次のどのソリューションを実装しますか?
Correct Answer: D Vote an answer
Explanation: Only visible for FreeCram members. You can sign-up / login (it's free).
Databricks Utilities Secrets モジュールには、機密の資格情報を保存し、誤ってプレーン テキストで表示されることを防ぐツールが用意されていますが、ユーザーは、ここに保存される資格情報と、これらのシークレットの使用にアクセスできるユーザーについて注意する必要があります。
Databricks Secrets の制限について説明している記述はどれですか?
Correct Answer: D Vote an answer
Explanation: Only visible for FreeCram members. You can sign-up / login (it's free).
データサイエンスチームはMLflowを使用して本番環境モデルを作成し、ログに記録しました。以下のコードは、本番環境モデルを正しくインポートして適用し、予測結果を「customer_id LONG, predictions DOUBLE, date DATE」というスキーマを持つpredsという名前の新しいデータフレームとして出力します。

データサイエンスチームは、予測結果をDelta Lakeテーブルに保存し、すべての予測を時系列で比較できるようにしたいと考えています。チャーン予測は1日に最大1回まで行われます。
潜在的な計算コストを最小限に抑えながらこのタスクを実行するコード ブロックはどれですか。
Correct Answer: B Vote an answer
ストリーム静的結合と静的デルタ テーブルに関する正しい記述はどれですか。
Correct Answer: C Vote an answer
Explanation: Only visible for FreeCram members. You can sign-up / login (it's free).
ある企業では、タスクの最新ステータスを追跡するタスク管理システムを導入しています。このシステムはタスクイベントを入力として受け取り、Lakeflow Declarative Pipelines を使用してほぼリアルタイムでイベントを処理します。タスクが作成されるか、タスクステータスが変更されると、新しいタスクイベントがシステムに取り込まれます。Lakeflow Declarative Pipelines は、BI ユーザーがクエリを実行できるストリーミングテーブル (tasks_status) を提供します。
表はすべてのタスクの最新のステータスを表し、5 つの列が含まれます。
task_id(タスクごとに一意)
タスク名
タスクオーナー
タスクステータス
タスクイベント時間
テーブルでは、削除ベクトル、行追跡、変更データ フィード (CDF) の 3 つのプロパティが有効になります。
データ エンジニアは、静的ディメンション テーブル (従業員) から検索できる task_owner の部門を表す 1 つの列を追加することで、tasks_status テーブルをほぼリアルタイムで拡充するための新しい Lakeflow 宣言型パイプラインを作成するように求められています。
この強化はどのように実装する必要がありますか?
Correct Answer: A Vote an answer
Explanation: Only visible for FreeCram members. You can sign-up / login (it's free).
データガバナンスチームは、個人識別情報(PH)を含むすべてのテーブルに明確な注釈を付けるという要件を制定しました。これには、列コメント、テーブルコメントの追加、カスタムテーブルプロパティ「contains_pii」をtrueに設定することが含まれます。
新しいテーブルを作成するには、次の SQL DDL ステートメントが実行されます。

これら 3 つの要件が満たされていることを手動で確認できるコマンドはどれですか?
Correct Answer: C Vote an answer
Explanation: Only visible for FreeCram members. You can sign-up / login (it's free).
Databricksジョブは3つのタスクで構成されており、それぞれがDatabricksノートブックです。タスクAは他のタスクに依存しません。タスクBとCは並列実行され、それぞれがタスクAに対して順次依存関係を持ちます。
タスク A と B は正常に完了したが、スケジュールされた実行中にタスク C が失敗した場合、結果の状態を説明するステートメントはどれですか。
Correct Answer: D Vote an answer
Explanation: Only visible for FreeCram members. You can sign-up / login (it's free).
0
0
0
10