Efficiency improvements in cd/alphabet_languages #122

adbar · 2021-10-14T12:29:41Z

I thought that the accentuation check would be more efficient on a set
The values for the features target_have_accents & target_pure_latin can be cached so the code is not run all the time

Another idea: if you don't use character position in the most frequent characters per language in assets/ the chars could be a set/frozenset instead of a list, that would make the line [c for c in language_characters if c in characters] faster.

codecov-commenter · 2021-10-14T12:30:31Z

Codecov Report

Merging #122 (a0ceedd) into master (38cfa45) will increase coverage by 0.04%.
The diff coverage is 100.00%.

@@            Coverage Diff             @@
##           master     #122      +/-   ##
==========================================
+ Coverage   90.30%   90.35%   +0.04%     
==========================================
  Files          11       11              
  Lines        1165     1171       +6     
==========================================
+ Hits         1052     1058       +6     
  Misses        113      113

Impacted Files	Coverage Δ
charset_normalizer/cd.py	`96.49% <100.00%> (+0.08%)`	⬆️
charset_normalizer/constant.py	`100.00% <100.00%> (ø)`

Continue to review full report at Codecov.

Legend - Click here to learn more
Δ = absolute <relative> (impact), ø = not affected, ? = missing data
Powered by Codecov. Last update 38cfa45...a0ceedd. Read the comment docs.

Ousret

I took a quick look over and there are some remarks. Make sure to run the bin/run_autofix.sh to ensure that linters won't fail.
Regarding the "performance" effect/benefit I don't have the time to verify it for now.

charset_normalizer/cd.py

Ousret

Some final thought on this.

charset_normalizer/cd.py

Co-authored-by: TAHRI Ahmed R. <Ousret@users.noreply.github.com>

in order to keep naming style/conv from above

Ousret · 2021-10-23T20:57:46Z

I brought some minor modifications to your fork.
Well, after several tests. The performance gap between Chardet and Charset-Normalizer is slightly better.
Before x4.861
After x4.916

x0.1 faster.
Repeated the test several times.

adbar added 2 commits October 14, 2021 14:10

look for accentuated chars in a set instead of in a list

40e89a5

cache features of the target languages

21847bc

Ousret requested changes Oct 15, 2021

View reviewed changes

charset_normalizer/cd.py Outdated Show resolved Hide resolved

charset_normalizer/cd.py Outdated Show resolved Hide resolved

charset_normalizer/cd.py Outdated Show resolved Hide resolved

charset_normalizer/cd.py Outdated Show resolved Hide resolved

adbar added 2 commits October 15, 2021 18:25

reviewed get_target_features(): docstring, input, LRU max size

a454eb2

cd.py: code linting

64b6578

Ousret requested changes Oct 17, 2021

View reviewed changes

charset_normalizer/cd.py Outdated Show resolved Hide resolved

charset_normalizer/cd.py Outdated Show resolved Hide resolved

charset_normalizer/cd.py Outdated Show resolved Hide resolved

Ousret added the enhancement New feature or request label Oct 17, 2021

adbar and others added 10 commits October 18, 2021 14:11

update description of get_target_features()

cb257ae

Co-authored-by: TAHRI Ahmed R. <Ousret@users.noreply.github.com>

use constant to limit LRU size in get_target_features()

5dd6a5b

revert conversion: characters as list, not as set

442e63a

Merge branch 'master' into master

8fc8db8

Merge branch 'master' into master

f4d298f

Merge branch 'master' into master

2ab25d1

Merge branch 'master' into master

df34fc3

🔥 remove extra docstring line

6779407

🎨 rename FREQUENCIES_SIZE to LANGUAGE_SUPPORTED_COUNT

44a6c6a

in order to keep naming style/conv from above

✔️ Add test cases

c6fa369

Ousret and others added 2 commits October 23, 2021 22:59

🎨 reformat cd.py

bb51b21

Merge branch 'master' into master

a0ceedd

Ousret approved these changes Oct 23, 2021

View reviewed changes

Ousret merged commit f1cf425 into jawah:master Oct 23, 2021

Ousret mentioned this pull request Nov 24, 2021

🔖 Bump version 2.0.8 #144

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Efficiency improvements in cd/alphabet_languages #122

Efficiency improvements in cd/alphabet_languages #122

adbar commented Oct 14, 2021

codecov-commenter commented Oct 14, 2021 •

edited

Loading

Ousret left a comment

Ousret left a comment

Ousret commented Oct 23, 2021

Efficiency improvements in cd/alphabet_languages #122

Efficiency improvements in cd/alphabet_languages #122

Conversation

adbar commented Oct 14, 2021

codecov-commenter commented Oct 14, 2021 • edited Loading

Codecov Report

Ousret left a comment

Choose a reason for hiding this comment

Ousret left a comment

Choose a reason for hiding this comment

Ousret commented Oct 23, 2021

codecov-commenter commented Oct 14, 2021 •

edited

Loading