Rule S012

Avoid inner join followed by a direct filter; prefer leftSemi join

Severity

🟢 LOW — Minor performance impact.

Compatible with PySpark 1.3 and later.

Applying an inner join and then immediately filtering the result can lead to:

A leftSemi join achieves the same result more efficiently by:

Rule of thumb: Replace inner join + filter patterns with leftSemi for more efficient and clear DataFrame operations.

Bad:

df.join(df2, "id", "inner").filter(col("age") > 18)

Good:

df.join(df2.filter(col("age") > 18), "id", "leftSemi")