Apache Sparkdata~10 mins

Parquet format and columnar storage in Apache Spark - Step-by-Step Execution

Choose your learning style9 modes available

Learn Why Deep Visual Try Challenge Project Recall Time

Concept Flow - Parquet format and columnar storage

Start: Data in rows

↓

Convert to columns

↓

Store each column separately

↓

Apply compression on columns

↓

Save as Parquet file

↓

Read Parquet file

↓

Load only needed columns

↓

Process data efficiently

↓

End

Data is transformed from row-based to column-based storage, compressed, saved as Parquet, and read efficiently by loading only needed columns.

Execution Sample

Apache Spark

df = spark.read.csv('data.csv', header=True)
df.write.parquet('data.parquet')
parquet_df = spark.read.parquet('data.parquet')
parquet_df = parquet_df.select('column1')
parquet_df.show()

Read CSV data, save it as Parquet, then read Parquet and select one column to show.

Execution Table

Step	Action	Input Data Shape	Storage Format	Output
1	Read CSV file	Rows with all columns	CSV (row-based)	DataFrame with rows
2	Write DataFrame as Parquet	Rows with all columns	Parquet (columnar)	Parquet file with columns stored separately
3	Read Parquet file	Parquet file	Parquet (columnar)	DataFrame with columns loaded
4	Select one column	DataFrame with all columns	In-memory column data	DataFrame with only selected column
5	Show data	Selected column data	In-memory	Printed column values
6	End	-	-	-

💡 Process ends after showing selected column data from Parquet file.

Variable Tracker

Variable	Start	After Step 1	After Step 2	After Step 3	After Step 4	Final
df	None	DataFrame with all rows and columns	Same DataFrame	Same DataFrame	Same DataFrame	Same DataFrame
parquet_df	None	None	None	DataFrame loaded from Parquet	DataFrame with selected column	DataFrame with selected column

Key Moments - 3 Insights

Why does Parquet store data in columns instead of rows?

How does Parquet improve storage size?

When reading Parquet, do we load all data or only what we need?

Visual Quiz - 3 Questions

Test your understanding

Look at the execution_table, what is the storage format after writing the DataFrame?

ACSV (row-based)

BJSON

CParquet (columnar)

DText file

Concept Snapshot

Parquet format stores data by columns, not rows.
This allows reading only needed columns, saving time and space.
Each column is compressed separately for efficiency.
Use spark.read.parquet() to load Parquet files.
Select columns to load less data and speed up processing.

Full Transcript

This visual execution shows how data is read from a CSV file into a DataFrame, then saved as a Parquet file which stores data in a columnar format. The Parquet format stores each column separately and compresses it, making storage efficient. When reading the Parquet file, you can select only the columns you need, which loads less data and speeds up processing. The execution table traces each step: reading CSV, writing Parquet, reading Parquet, selecting columns, and showing data. Variable tracking shows how the DataFrame changes from all columns to selected columns. Key moments clarify why columnar storage is faster and smaller, and how Parquet reads only needed columns. The quiz tests understanding of storage format, selection step, and data loading behavior. The snapshot summarizes the main points about Parquet and columnar storage.