Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

add multistage to the sycophancy and logical tests #49

Open
wants to merge 7 commits into
base: multi-stage-attack
Choose a base branch
from

Conversation

nizamovtimur
Copy link
Collaborator

@nizamovtimur nizamovtimur commented Dec 17, 2024

Сделал атаку на подхалимство многоступенчатой: для каждой попытки 5 ступеней атаки.

TODO: вынести параметр глубины атаки в инициализацию пользователем по аналогии с количеством попыток (upd: создал задачу LLM-424).

Что изменил в ClientBase:

  1. Параметр использования истории перенес из метода разговора в конструктор.
  2. Параметр использования истории влияет только на отправку запросов в клиент, история в объекте-сессии нужна для сохранения артефактов.

Что изменил в MultiStageInteractionSession:

  1. Добавил поле current_step и соответствующий метод-геттер для отслеживания кол-ва итераций без обращения к истории чат-сессии и подсчёта Resilient в тесте.
    upd:
  2. Вместо геттеров получения историй диалогов атакующей и защищаемой моделей сделал геттеры непосредственно ответов для использования в stop_criterion и методе сохранения артефактов.

@nizamovtimur nizamovtimur self-assigned this Dec 17, 2024
@nizamovtimur nizamovtimur added enhancement New feature or request invalid This doesn't seem right question Further information is requested labels Dec 17, 2024
@nizamovtimur nizamovtimur marked this pull request as ready for review December 18, 2024 10:36
@nizamovtimur nizamovtimur requested review from RomiconEZ and removed request for RomiconEZ December 23, 2024 10:05
@nizamovtimur nizamovtimur changed the title change sycophancy logic to multistage add multistage to the sycophancy and logical tests Dec 24, 2024
@nizamovtimur
Copy link
Collaborator Author

nizamovtimur commented Dec 24, 2024

Отрефакторил код по замечаниям, выявленным с помощью pre-commit, и актуализировал документацию.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request invalid This doesn't seem right question Further information is requested
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant