Data Quality in Investing: Garbage In, Garbage Out

Poor data quality undermines the best strategies. Missing values, incorrect data points, look-ahead bias, and survivorship bias contaminate backtests. A strategy that works on clean data often fails on dirty data. Professional quantitative investors spend as much time cleaning data as building models.

Common Data Issues

Stock splits and dividends require adjustment to historical prices. A stock that split 2-for-1 shows artificially high returns if not adjusted. Dividend-adjusted returns differ from price returns. Inconsistent adjustment methodologies create contradictions.

Survivorship bias excludes companies that delisted or failed. Backtesting on survivor-only data inflates returns. Real investors faced delisted stocks; they lost money. Realistic backtests include delisted companies with zero returns after delisting.

Outliers and Errors

Data entry errors create extreme outliers. A stock that shows $0 volume or $0 price is clearly erroneous. These errors can be obvious (zero values) or subtle (a decimal point error). Automated data validation catches obvious errors; manual review catches subtle ones.

Price limit moves in illiquid stocks create suspicious returns. A stock jumping 50% on one share of volume isn't actionable. Data quality checks must distinguish real moves from data errors.

Temporal Integrity

Look-ahead bias uses information not available at decision time. Using closing price from day N to make intraday decisions on day N is look-ahead bias. Strict temporal discipline requires using only information available at decision time.

Asynchronous data streams create timing problems. If fundamental data releases at different times than price data, temporal alignment is critical. What looks like a price move might be stale fundamental data.

Data Standardization

Different data providers use different methodologies for adjustment factors, split handling, dividend treatment. Comparisons across data sources reveal inconsistencies. Professional investors often use multiple data sources and reconcile differences.

Standardizing naming conventions, date formats, and measurement units prevents downstream errors. Excel-friendly formats sometimes lose precision. Consistent data pipelines with automated checks prevent many errors.

Validation Frameworks

Statistical validation checks catch unusual patterns. Autocorrelation, heteroskedasticity, and distributional anomalies signal data issues. Reconciliation procedures compare against known benchmarks to validate overall quality.

Educational content only. Not investment advice.