Sparse Autoencoder for Interpreting LLMs

This repository contains code for training a sparse autoencoder on activations of LLMs, as in Anthropic's Towards Monosemanticity, as well as an analysis of how feature directions depend on both cooccurrence and LLM output similarity.

See analysis.ipynb.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
__pycache__		__pycache__
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
analysis.ipynb		analysis.ipynb
feature_covariances.py		feature_covariances.py
feature_output_similarity.py		feature_output_similarity.py
feature_value_similarity.py		feature_value_similarity.py
pyproject.toml		pyproject.toml
requirements-dev.lock		requirements-dev.lock
requirements.lock		requirements.lock
train.py		train.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sparse Autoencoder for Interpreting LLMs

About

Releases

Packages

Languages

armaan-abraham/sparse-autoencoder

Folders and files

Latest commit

History

Repository files navigation

Sparse Autoencoder for Interpreting LLMs

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages