Challenge - 5 Problems

🎖️

Chunked Reading Master

Get all challenges correct to earn this badge!

Test your skills under time pressure!

❓ Predict Output

intermediate

2:00remaining

Output of chunked sum aggregation

What is the output of this code that reads a CSV file in chunks and sums a column?

Pandas

import pandas as pd
from io import StringIO

data = '''id,value
1,10
2,20
3,30
4,40
5,50
'''

chunk_iter = pd.read_csv(StringIO(data), chunksize=2)
total = 0
for chunk in chunk_iter:
    total += chunk['value'].sum()
print(total)

ASyntaxError

B100

C50

D150

Attempts:

2 left

❓ data_output

intermediate

2:00remaining

Number of chunks read

How many chunks will be read from this CSV file with 7 rows and chunksize=3?

Pandas

import pandas as pd
from io import StringIO

data = '''id,value
1,5
2,10
3,15
4,20
5,25
6,30
7,35
'''

chunk_iter = pd.read_csv(StringIO(data), chunksize=3)
count = 0
for chunk in chunk_iter:
    count += 1
print(count)

Attempts:

2 left

🔧 Debug

advanced

2:00remaining

Identify error in chunk processing code

What error does this code raise when reading a CSV in chunks and trying to access a non-existent column?

Pandas

import pandas as pd
from io import StringIO

data = '''id,value
1,100
2,200
'''

chunk_iter = pd.read_csv(StringIO(data), chunksize=1)
for chunk in chunk_iter:
    print(chunk['amount'].sum())

AKeyError

BTypeError

CValueError

DNo error, prints 0

Attempts:

2 left

🚀 Application

advanced

2:00remaining

Efficiently count rows with condition using chunks

You want to count how many rows in a large CSV have 'value' greater than 50 using chunked reading. Which code snippet correctly does this?

count = 0
for chunk in pd.read_csv('file.csv', chunksize=1000):
    count += chunk['value'].count() &gt; 50
print(count)

count = 0
for chunk in pd.read_csv('file.csv', chunksize=1000):
    count += chunk['value'].sum() &gt; 50
print(count)

count = 0
for chunk in pd.read_csv('file.csv', chunksize=1000):
    count += (chunk['value'] &gt; 50).sum()
print(count)

count = 0
for chunk in pd.read_csv('file.csv', chunksize=1000):
    count = (chunk['value'] &gt; 50).sum()
print(count)

Attempts:

2 left

🧠 Conceptual

expert

2:00remaining

Why use chunked reading for large files?

Which is the main reason to use chunked reading when processing large CSV files?

ATo reduce memory usage by loading only parts of the file at a time

BTo speed up reading by loading the entire file at once

CTo convert CSV files into JSON format

DTo automatically clean data during reading

Attempts:

2 left