Fixes #249 #255

pseudotensor · 2023-06-08T07:38:53Z

Fixes #249

with verbose=True in preprocess in h2oai_pipeline.py. Works whether have massive context:

reducing 28144 tokens, assuming average of 3 chars/token for 6144 characters
reducing 2064 tokens, assuming average of 2 chars/token for 4096 characters
using 1395 tokens with 4096 chars
Token indices sequence length is longer than the specified maximum sequence length for this model (28144 > 2048).

Or largest max_new_tokens=2048:

reducing 28144 tokens, assuming average of 3 chars/token for 6144 characters
reducing 2064 tokens, assuming average of 2 chars/token for 4096 characters
using 1395 tokens with 4096 chars
Reduced max_new_tokens from 2048 -> 633

pseudotensor force-pushed the fixes249 branch from 7e0db1b to 1bde579 Compare June 8, 2023 07:39

Fixes #249

839b7f5

pseudotensor force-pushed the fixes249 branch from 1bde579 to 839b7f5 Compare June 8, 2023 07:40

pseudotensor mentioned this pull request Jun 8, 2023

Handle long contexts better #192

Closed

pseudotensor merged commit dc1025f into main Jun 8, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fixes #249 #255

Fixes #249 #255

pseudotensor commented Jun 8, 2023 •

edited

Loading

Fixes #249 #255

Fixes #249 #255

Conversation

pseudotensor commented Jun 8, 2023 • edited Loading

pseudotensor commented Jun 8, 2023 •

edited

Loading