Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

character-equivalents flag #638

Closed
chapmanjacobd opened this issue Aug 7, 2020 · 10 comments
Closed

character-equivalents flag #638

chapmanjacobd opened this issue Aug 7, 2020 · 10 comments

Comments

@chapmanjacobd
Copy link
Contributor

chapmanjacobd commented Aug 7, 2020

I'd like to ignore diacritics when searching. For example:

$ fd -tf -i 'san jose'
wikivoyage/San Jose (California).txt
wikivoyage/San Jose (Camarines Sur).txt
wikivoyage/San Jose (Palawan).txt
wikivoyage/San Jose.txt

With POSIX style brackets we should be able to do this:

$ fd -tf -i 'san jos[[=e=]]'
wikivoyage/Puerto San José.txt
wikivoyage/San Jose (California).txt
wikivoyage/San Jose (Camarines Sur).txt
wikivoyage/San Jose (Palawan).txt
wikivoyage/San Jose.txt
wikivoyage/San José (Costa Rica).txt
wikivoyage/San José (Guatemala).txt
wikivoyage/San José de Jáchal.txt
wikivoyage/San José del Cabo.txt

but, while that feature would allow more precise queries, I think something more generic would be widely used:

$ fd -tf -i --ignore-diacritics 'san jose'

I guess for now what I can do is just replace non-ascii char with * and do a glob but it is not quite the same..

@chapmanjacobd chapmanjacobd changed the title Accent-insensitive flag ignore-diacritics flag Aug 7, 2020
@chapmanjacobd chapmanjacobd changed the title ignore-diacritics flag character-equivalents flag Aug 7, 2020
@chapmanjacobd
Copy link
Contributor Author

I made a list of the classes here: https://github.com/chapmanjacobd/posix-equiv-char-class

made by brute-forcing it like this:

for((i=0; i < 0x110000; i++)) {   printf "\U$(printf "%x" $i)\n";  }  | grep -a '^[[=a=]]$' | sponge a &

@chapmanjacobd
Copy link
Contributor Author

chapmanjacobd commented Aug 7, 2020

maybe this helps?

$ rg -SN . |tr '\n' ','
c:C,c:c,c:Ç,c:ç,c:Ć,c:ć,c:Ĉ,c:ĉ,c:Ċ,c:ċ,c:Č,c:č,c:ͨ,c:ᶜ,c:ᷗ,c:Ḉ,c:ḉ,c:ℂ,c:℃,c:ℭ,c:Ⅽ,c:ⅽ,c:⒞,c:Ⓒ,c:ⓒ,c:C,c:c,c:𝐂,c:𝐜,c:𝐶,c:𝑐,c:𝑪,c:𝒄,c:𝒞,c:𝒸,c:𝓒,c:𝓬,c:𝔠,c:𝕔,c:𝕮,c:𝖈,c:𝖢,c:𝖼,c:𝗖,c:𝗰,c:𝘊,c:𝘤,c:𝘾,c:𝙘,c:𝙲,c:𝚌,c:🄒,c:🄫,c:🄲,c:🅒,c:🅲,o:O,o:o,o:º,o:Ò,o:Ó,o:Ô,o:Õ,o:Ö,o:Ø,o:ò,o:ó,o:ô,o:õ,o:ö,o:ø,o:Ō,o:ō,o:Ŏ,o:ŏ,o:Ő,o:ő,o:Ơ,o:ơ,o:Ǒ,o:ǒ,o:Ǫ,o:ǫ,o:Ǭ,o:ǭ,o:Ǿ,o:ǿ,o:Ȍ,o:ȍ,o:Ȏ,o:ȏ,o:Ȫ,o:ȫ,o:Ȭ,o:ȭ,o:Ȯ,o:ȯ,o:Ȱ,o:ȱ,o:ͦ,o:ᴼ,o:ᵒ,o:ᷭ,o:ᷳ,o:Ṍ,o:ṍ,o:Ṏ,o:ṏ,o:Ṑ,o:ṑ,o:Ṓ,o:ṓ,o:Ọ,o:ọ,o:Ỏ,o:ỏ,o:Ố,o:ố,o:Ồ,o:ồ,o:Ổ,o:ổ,o:Ỗ,o:ỗ,o:Ộ,o:ộ,o:Ớ,o:ớ,o:Ờ,o:ờ,o:Ở,o:ở,o:Ỡ,o:ỡ,o:Ợ,o:ợ,o:ₒ,o:ℴ,o:⒪,o:Ⓞ,o:ⓞ,o:Ꞝ,o:ꞝ,o:O,o:o,o:𝐎,o:𝐨,o:𝑂,o:𝑜,o:𝑶,o:𝒐,o:𝒪,o:𝓞,o:𝓸,o:𝔒,o:𝔬,o:𝕆,o:𝕠,o:𝕺,o:𝖔,o:𝖮,o:𝗈,o:𝗢,o:𝗼,o:𝘖,o:𝘰,o:𝙊,o:𝙤,o:𝙾,o:𝚘,o:🄞,o:🄾,o:🅞,o:🅾,n:N,n:n,n:Ñ,n:ñ,n:Ń,n:ń,n:Ņ,n:ņ,n:Ň,n:ň,n:Ǹ,n:ǹ,n:ᴺ,n:ᷠ,n:Ṅ,n:ṅ,n:Ṇ,n:ṇ,n:Ṉ,n:ṉ,n:Ṋ,n:ṋ,n:ⁿ,n:ₙ,n:ℕ,n:⒩,n:Ⓝ,n:ⓝ,n:Ꞥ,n:ꞥ,n:N,n:n,n:𝐍,n:𝐧,n:𝑁,n:𝑛,n:𝑵,n:𝒏,n:𝒩,n:𝓃,n:𝓝,n:𝓷,n:𝔑,n:𝔫,n:𝕟,n:𝕹,n:𝖓,n:𝖭,n:𝗇,n:𝗡,n:𝗻,n:𝘕,n:𝘯,n:𝙉,n:𝙣,n:𝙽,n:𝚗,n:🄝,n:🄽,n:🅝,n:🅽,f:F,f:f,f:ᶠ,f:ᷫ,f:Ḟ,f:ḟ,f:℉,f:ℱ,f:⒡,f:Ⓕ,f:ⓕ,f:Ꝼ,f:ꝼ,f:F,f:f,f:𝐅,f:𝐟,f:𝐹,f:𝑓,f:𝑭,f:𝒇,f:𝒻,f:𝓕,f:𝓯,f:𝔉,f:𝔣,f:𝔽,f:𝕗,f:𝕱,f:𝖋,f:𝖥,f:𝖿,f:𝗙,f:𝗳,f:𝘍,f:𝘧,f:𝙁,f:𝙛,f:𝙵,f:𝚏,f:🄕,f:🄵,f:🅕,f:🅵,i:I,i:i,i:Ì,i:Í,i:Î,i:Ï,i:ì,i:í,i:î,i:ï,i:Ĩ,i:ĩ,i:Ī,i:ī,i:Ĭ,i:ĭ,i:Į,i:į,i:İ,i:Ǐ,i:ǐ,i:Ȉ,i:ȉ,i:Ȋ,i:ȋ,i:ͥ,i:ᴵ,i:ᵢ,i:Ḭ,i:ḭ,i:Ḯ,i:ḯ,i:Ỉ,i:ỉ,i:Ị,i:ị,i:ⁱ,i:ℐ,i:ℑ,i:ℹ,i:ⅈ,i:Ⅰ,i:ⅰ,i:⒤,i:Ⓘ,i:ⓘ,i:I,i:i,i:𝐈,i:𝐢,i:𝐼,i:𝑖,i:𝑰,i:𝒊,i:𝒾,i:𝓘,i:𝓲,i:𝔦,i:𝕀,i:𝕚,i:𝕴,i:𝖎,i:𝖨,i:𝗂,i:𝗜,i:𝗶,i:𝘐,i:𝘪,i:𝙄,i:𝙞,i:𝙸,i:𝚒,i:🄘,i:🄸,i:🅘,i:🅸,d:D,d:d,d:Ð,d:ð,d:Ď,d:ď,d:Đ,d:đ,d:ͩ,d:ᴰ,d:ᵈ,d:ᶞ,d:ᷘ,d:ᷙ,d:Ḋ,d:ḋ,d:Ḍ,d:ḍ,d:Ḏ,d:ḏ,d:Ḑ,d:ḑ,d:Ḓ,d:ḓ,d:ⅅ,d:ⅆ,d:Ⅾ,d:ⅾ,d:⒟,d:Ⓓ,d:ⓓ,d:Ꝺ,d:ꝺ,d:D,d:d,d:𝐃,d:𝐝,d:𝐷,d:𝑑,d:𝑫,d:𝒅,d:𝒟,d:𝒹,d:𝓓,d:𝓭,d:𝔇,d:𝔡,d:𝔻,d:𝕕,d:𝕯,d:𝖉,d:𝖣,d:𝖽,d:𝗗,d:𝗱,d:𝘋,d:𝘥,d:𝘿,d:𝙙,d:𝙳,d:𝚍,d:🄓,d:🄳,d:🅓,d:🅳,d:🆥,e:E,e:e,e:È,e:É,e:Ê,e:Ë,e:è,e:é,e:ê,e:ë,e:Ē,e:ē,e:Ĕ,e:ĕ,e:Ė,e:ė,e:Ę,e:ę,e:Ě,e:ě,e:Ȅ,e:ȅ,e:Ȇ,e:ȇ,e:Ȩ,e:ȩ,e:ͤ,e:ᴱ,e:ᵉ,e:Ḕ,e:ḕ,e:Ḗ,e:ḗ,e:Ḙ,e:ḙ,e:Ḛ,e:ḛ,e:Ḝ,e:ḝ,e:Ẹ,e:ẹ,e:Ẻ,e:ẻ,e:Ẽ,e:ẽ,e:Ế,e:ế,e:Ề,e:ề,e:Ể,e:ể,e:Ễ,e:ễ,e:Ệ,e:ệ,e:ₑ,e:ℯ,e:ℰ,e:ⅇ,e:⒠,e:Ⓔ,e:ⓔ,e:E,e:e,e:𝐄,e:𝐞,e:𝐸,e:𝑒,e:𝑬,e:𝒆,e:𝓔,e:𝓮,e:𝔈,e:𝔢,e:𝔼,e:𝕖,e:𝕰,e:𝖊,e:𝖤,e:𝖾,e:𝗘,e:𝗲,e:𝘌,e:𝘦,e:𝙀,e:𝙚,e:𝙴,e:𝚎,e:🄔,e:🄴,e:🅔,e:🅴,z:Z,z:z,z:Ź,z:ź,z:Ż,z:ż,z:Ž,z:ž,z:ᶻ,z:ᷦ,z:Ẑ,z:ẑ,z:Ẓ,z:ẓ,z:Ẕ,z:ẕ,z:ℤ,z:ℨ,z:⒵,z:Ⓩ,z:ⓩ,z:Z,z:z,z:𝐙,z:𝐳,z:𝑍,z:𝑧,z:𝒁,z:𝒛,z:𝒵,z:𝓏,z:𝓩,z:𝔃,z:𝔷,z:𝕫,z:𝖅,z:𝖟,z:𝖹,z:𝗓,z:𝗭,z:𝘇,z:𝘡,z:𝘻,z:𝙕,z:𝙯,z:𝚉,z:𝚣,z:🄩,z:🅉,z:🅩,z:🆉,v:V,v:v,v:ͮ,v:ᵛ,v:ᵥ,v:Ṽ,v:ṽ,v:Ṿ,v:ṿ,v:Ⅴ,v:ⅴ,v:⒱,v:Ⓥ,v:ⓥ,v:ⱽ,v:V,v:v,v:𝐕,v:𝐯,v:𝑉,v:𝑣,v:𝑽,v:𝒗,v:𝒱,v:𝓋,v:𝓥,v:𝓿,v:𝔙,v:𝔳,v:𝕍,v:𝕧,v:𝖁,v:𝖛,v:𝖵,v:𝗏,v:𝗩,v:𝘃,v:𝘝,v:𝘷,v:𝙑,v:𝙫,v:𝚅,v:𝚟,v:🄥,v:🅅,v:🅥,v:🆅,j:J,j:j,j:Ĵ,j:ĵ,j:ǰ,j:ʲ,j:ᴶ,j:ⅉ,j:⒥,j:Ⓙ,j:ⓙ,j:ⱼ,j:J,j:j,j:𝐉,j:𝐣,j:𝐽,j:𝑗,j:𝑱,j:𝒋,j:𝒥,j:𝒿,j:𝓙,j:𝓳,j:𝔍,j:𝔧,j:𝕁,j:𝕛,j:𝕵,j:𝖏,j:𝖩,j:𝗃,j:𝗝,j:𝗷,j:𝘑,j:𝘫,j:𝙅,j:𝙟,j:𝙹,j:𝚓,j:🄙,j:🄹,j:🅙,j:🅹,u:U,u:u,u:Ù,u:Ú,u:Û,u:Ü,u:ù,u:ú,u:û,u:ü,u:Ũ,u:ũ,u:Ū,u:ū,u:Ŭ,u:ŭ,u:Ů,u:ů,u:Ű,u:ű,u:Ų,u:ų,u:Ư,u:ư,u:Ǔ,u:ǔ,u:Ǖ,u:ǖ,u:Ǘ,u:ǘ,u:Ǚ,u:ǚ,u:Ǜ,u:ǜ,u:Ȕ,u:ȕ,u:Ȗ,u:ȗ,u:ͧ,u:ᵁ,u:ᵘ,u:ᵤ,u:ᷰ,u:ᷴ,u:Ṳ,u:ṳ,u:Ṵ,u:ṵ,u:Ṷ,u:ṷ,u:Ṹ,u:ṹ,u:Ṻ,u:ṻ,u:Ụ,u:ụ,u:Ủ,u:ủ,u:Ứ,u:ứ,u:Ừ,u:ừ,u:Ử,u:ử,u:Ữ,u:ữ,u:Ự,u:ự,u:⒰,u:Ⓤ,u:ⓤ,u:Ꞟ,u:ꞟ,u:U,u:u,u:𝐔,u:𝐮,u:𝑈,u:𝑢,u:𝑼,u:𝒖,u:𝒰,u:𝓊,u:𝓤,u:𝓾,u:𝔘,u:𝔲,u:𝕌,u:𝕦,u:𝖀,u:𝖚,u:𝖴,u:𝗎,u:𝗨,u:𝘂,u:𝘜,u:𝘶,u:𝙐,u:𝙪,u:𝚄,u:𝚞,u:🄤,u:🅄,u:🅤,u:🆄,s:S,s:s,s:Ś,s:ś,s:Ŝ,s:ŝ,s:Ş,s:ş,s:Š,s:š,s:ſ,s:Ș,s:ș,s:ˢ,s:ᷤ,s:ᷥ,s:Ṡ,s:ṡ,s:Ṣ,s:ṣ,s:Ṥ,s:ṥ,s:Ṧ,s:ṧ,s:Ṩ,s:ṩ,s:ẛ,s:ₛ,s:⒮,s:Ⓢ,s:ⓢ,s:Ꞅ,s:ꞅ,s:Ꞩ,s:ꞩ,s:S,s:s,s:𝐒,s:𝐬,s:𝑆,s:𝑠,s:𝑺,s:𝒔,s:𝒮,s:𝓈,s:𝓢,s:𝓼,s:𝔖,s:𝔰,s:𝕊,s:𝕤,s:𝕾,s:𝖘,s:𝖲,s:𝗌,s:𝗦,s:𝘀,s:𝘚,s:𝘴,s:𝙎,s:𝙨,s:𝚂,s:𝚜,s:🄢,s:🄪,s:🅂,s:🅢,s:🆂,p:P,p:p,p:ᴾ,p:ᵖ,p:ᷮ,p:Ṕ,p:ṕ,p:Ṗ,p:ṗ,p:ₚ,p:ℙ,p:⒫,p:Ⓟ,p:ⓟ,p:P,p:p,p:𝐏,p:𝐩,p:𝑃,p:𝑝,p:𝑷,p:𝒑,p:𝒫,p:𝓅,p:𝓟,p:𝓹,p:𝔓,p:𝔭,p:𝕡,p:𝕻,p:𝖕,p:𝖯,p:𝗉,p:𝗣,p:𝗽,p:𝘗,p:𝘱,p:𝙋,p:𝙥,p:𝙿,p:𝚙,p:🄟,p:🄿,p:🅟,p:🅿,p:🆊,y:Y,y:y,y:Ý,y:ý,y:ÿ,y:Ŷ,y:ŷ,y:Ÿ,y:Ȳ,y:ȳ,y:ʸ,y:Ẏ,y:ẏ,y:ẙ,y:Ỳ,y:ỳ,y:Ỵ,y:ỵ,y:Ỷ,y:ỷ,y:Ỹ,y:ỹ,y:⒴,y:Ⓨ,y:ⓨ,y:Y,y:y,y:𝐘,y:𝐲,y:𝑌,y:𝑦,y:𝒀,y:𝒚,y:𝒴,y:𝓎,y:𝓨,y:𝔂,y:𝔜,y:𝔶,y:𝕐,y:𝕪,y:𝖄,y:𝖞,y:𝖸,y:𝗒,y:𝗬,y:𝘆,y:𝘠,y:𝘺,y:𝙔,y:𝙮,y:𝚈,y:𝚢,y:🄨,y:🅈,y:🅨,y:🆈,w:W,w:w,w:Ŵ,w:ŵ,w:ʷ,w:ᵂ,w:ᷱ,w:Ẁ,w:ẁ,w:Ẃ,w:ẃ,w:Ẅ,w:ẅ,w:Ẇ,w:ẇ,w:Ẉ,w:ẉ,w:ẘ,w:⒲,w:Ⓦ,w:ⓦ,w:W,w:w,w:𝐖,w:𝐰,w:𝑊,w:𝑤,w:𝑾,w:𝒘,w:𝒲,w:𝓌,w:𝓦,w:𝔀,w:𝔚,w:𝔴,w:𝕎,w:𝕨,w:𝖂,w:𝖜,w:𝖶,w:𝗐,w:𝗪,w:𝘄,w:𝘞,w:𝘸,w:𝙒,w:𝙬,w:𝚆,w:𝚠,w:🄦,w:🅆,w:🅦,w:🆆,g:G,g:g,g:Ĝ,g:ĝ,g:Ğ,g:ğ,g:Ġ,g:ġ,g:Ģ,g:ģ,g:Ǧ,g:ǧ,g:Ǵ,g:ǵ,g:ᴳ,g:ᵍ,g:ᵹ,g:ᷚ,g:Ḡ,g:ḡ,g:ℊ,g:⒢,g:Ⓖ,g:ⓖ,g:Ᵹ,g:Ꞡ,g:ꞡ,g:G,g:g,g:𝐆,g:𝐠,g:𝐺,g:𝑔,g:𝑮,g:𝒈,g:𝒢,g:𝓖,g:𝓰,g:𝔊,g:𝔤,g:𝔾,g:𝕘,g:𝕲,g:𝖌,g:𝖦,g:𝗀,g:𝗚,g:𝗴,g:𝘎,g:𝘨,g:𝙂,g:𝙜,g:𝙶,g:𝚐,g:🄖,g:🄶,g:🅖,g:🅶,m:M,m:m,m:ͫ,m:ᴹ,m:ᵐ,m:Ḿ,m:ḿ,m:Ṁ,m:ṁ,m:Ṃ,m:ṃ,m:ₘ,m:ℳ,m:Ⅿ,m:ⅿ,m:⒨,m:Ⓜ,m:ⓜ,m:M,m:m,m:𝐌,m:𝐦,m:𝑀,m:𝑚,m:𝑴,m:𝒎,m:𝓂,m:𝓜,m:𝓶,m:𝔐,m:𝔪,m:𝕄,m:𝕞,m:𝕸,m:𝖒,m:𝖬,m:𝗆,m:𝗠,m:𝗺,m:𝘔,m:𝘮,m:𝙈,m:𝙢,m:𝙼,m:𝚖,m:🄜,m:🄼,m:🅜,m:🅼,a:A,a:a,a:ª,a:À,a:Á,a:Â,a:Ã,a:Ä,a:Å,a:à,a:á,a:â,a:ã,a:ä,a:å,a:Ā,a:ā,a:Ă,a:ă,a:Ą,a:ą,a:Ǎ,a:ǎ,a:Ǟ,a:ǟ,a:Ǡ,a:ǡ,a:Ǻ,a:ǻ,a:Ȁ,a:ȁ,a:Ȃ,a:ȃ,a:Ȧ,a:ȧ,a:ͣ,a:ᴬ,a:ᵃ,a:ᷓ,a:ᷲ,a:Ḁ,a:ḁ,a:Ạ,a:ạ,a:Ả,a:ả,a:Ấ,a:ấ,a:Ầ,a:ầ,a:Ẩ,a:ẩ,a:Ẫ,a:ẫ,a:Ậ,a:ậ,a:Ắ,a:ắ,a:Ằ,a:ằ,a:Ẳ,a:ẳ,a:Ẵ,a:ẵ,a:Ặ,a:ặ,a:ₐ,a:Å,a:⒜,a:Ⓐ,a:ⓐ,a:Ꞛ,a:ꞛ,a:A,a:a,a:𝐀,a:𝐚,a:𝐴,a:𝑎,a:𝑨,a:𝒂,a:𝒜,a:𝒶,a:𝓐,a:𝓪,a:𝔄,a:𝔞,a:𝔸,a:𝕒,a:𝕬,a:𝖆,a:𝖠,a:𝖺,a:𝗔,a:𝗮,a:𝘈,a:𝘢,a:𝘼,a:𝙖,a:𝙰,a:𝚊,a:🄐,a:🄰,a:🅐,a:🅰,l:L,l:l,l:Ĺ,l:ĺ,l:Ļ,l:ļ,l:Ľ,l:ľ,l:Ŀ,l:ŀ,l:Ł,l:ł,l:ˡ,l:ᴸ,l:ᷝ,l:Ḷ,l:ḷ,l:Ḹ,l:ḹ,l:Ḻ,l:ḻ,l:Ḽ,l:ḽ,l:ₗ,l:ℒ,l:ℓ,l:Ⅼ,l:ⅼ,l:⒧,l:Ⓛ,l:ⓛ,l:L,l:l,l:𝐋,l:𝐥,l:𝐿,l:𝑙,l:𝑳,l:𝒍,l:𝓁,l:𝓛,l:𝓵,l:𝔏,l:𝔩,l:𝕃,l:𝕝,l:𝕷,l:𝖑,l:𝖫,l:𝗅,l:𝗟,l:𝗹,l:𝘓,l:𝘭,l:𝙇,l:𝙡,l:𝙻,l:𝚕,l:🄛,l:🄻,l:🅛,l:🅻,k:K,k:k,k:Ķ,k:ķ,k:Ǩ,k:ǩ,k:ᴷ,k:ᵏ,k:ᷜ,k:Ḱ,k:ḱ,k:Ḳ,k:ḳ,k:Ḵ,k:ḵ,k:ₖ,k:K,k:⒦,k:Ⓚ,k:ⓚ,k:Ꞣ,k:ꞣ,k:K,k:k,k:𝐊,k:𝐤,k:𝐾,k:𝑘,k:𝑲,k:𝒌,k:𝒦,k:𝓀,k:𝓚,k:𝓴,k:𝔎,k:𝔨,k:𝕂,k:𝕜,k:𝕶,k:𝖐,k:𝖪,k:𝗄,k:𝗞,k:𝗸,k:𝘒,k:𝘬,k:𝙆,k:𝙠,k:𝙺,k:𝚔,k:🄚,k:🄺,k:🅚,k:🅺,t:T,t:t,t:Ţ,t:ţ,t:Ť,t:ť,t:Ț,t:ț,t:ͭ,t:ᵀ,t:ᵗ,t:Ṫ,t:ṫ,t:Ṭ,t:ṭ,t:Ṯ,t:ṯ,t:Ṱ,t:ṱ,t:ẗ,t:ₜ,t:⒯,t:Ⓣ,t:ⓣ,t:Ꞇ,t:ꞇ,t:T,t:t,t:𝐓,t:𝐭,t:𝑇,t:𝑡,t:𝑻,t:𝒕,t:𝒯,t:𝓉,t:𝓣,t:𝓽,t:𝔗,t:𝔱,t:𝕋,t:𝕥,t:𝕿,t:𝖙,t:𝖳,t:𝗍,t:𝗧,t:𝘁,t:𝘛,t:𝘵,t:𝙏,t:𝙩,t:𝚃,t:𝚝,t:🄣,t:🅃,t:🅣,t:🆃,b:B,b:b,b:ᴮ,b:ᵇ,b:ᷨ,b:Ḃ,b:ḃ,b:Ḅ,b:ḅ,b:Ḇ,b:ḇ,b:ℬ,b:⒝,b:Ⓑ,b:ⓑ,b:B,b:b,b:𝐁,b:𝐛,b:𝐵,b:𝑏,b:𝑩,b:𝒃,b:𝒷,b:𝓑,b:𝓫,b:𝔅,b:𝔟,b:𝔹,b:𝕓,b:𝕭,b:𝖇,b:𝖡,b:𝖻,b:𝗕,b:𝗯,b:𝘉,b:𝘣,b:𝘽,b:𝙗,b:𝙱,b:𝚋,b:🄑,b:🄱,b:🅑,b:🅱,q:Q,q:q,q:ℚ,q:⒬,q:Ⓠ,q:ⓠ,q:Q,q:q,q:𝐐,q:𝐪,q:𝑄,q:𝑞,q:𝑸,q:𝒒,q:𝒬,q:𝓆,q:𝓠,q:𝓺,q:𝔔,q:𝔮,q:𝕢,q:𝕼,q:𝖖,q:𝖰,q:𝗊,q:𝗤,q:𝗾,q:𝘘,q:𝘲,q:𝙌,q:𝙦,q:𝚀,q:𝚚,q:🄠,q:🅀,q:🅠,q:🆀,r:R,r:r,r:Ŕ,r:ŕ,r:Ŗ,r:ŗ,r:Ř,r:ř,r:Ȑ,r:ȑ,r:Ȓ,r:ȓ,r:ʳ,r:ͬ,r:ᴿ,r:ᵣ,r:᷊,r:Ṙ,r:ṙ,r:Ṛ,r:ṛ,r:Ṝ,r:ṝ,r:Ṟ,r:ṟ,r:ℛ,r:ℜ,r:ℝ,r:⒭,r:Ⓡ,r:ⓡ,r:Ꞃ,r:ꞃ,r:Ꞧ,r:ꞧ,r:R,r:r,r:𝐑,r:𝐫,r:𝑅,r:𝑟,r:𝑹,r:𝒓,r:𝓇,r:𝓡,r:𝓻,r:𝔯,r:𝕣,r:𝕽,r:𝖗,r:𝖱,r:𝗋,r:𝗥,r:𝗿,r:𝘙,r:𝘳,r:𝙍,r:𝙧,r:𝚁,r:𝚛,r:🄡,r:🄬,r:🅁,r:🅡,r:🆁,x:X,x:x,x:ˣ,x:ͯ,x:Ẋ,x:ẋ,x:Ẍ,x:ẍ,x:ₓ,x:Ⅹ,x:ⅹ,x:⒳,x:Ⓧ,x:ⓧ,x:X,x:x,x:𝐗,x:𝐱,x:𝑋,x:𝑥,x:𝑿,x:𝒙,x:𝒳,x:𝓍,x:𝓧,x:𝔁,x:𝔛,x:𝔵,x:𝕏,x:𝕩,x:𝖃,x:𝖝,x:𝖷,x:𝗑,x:𝗫,x:𝘅,x:𝘟,x:𝘹,x:𝙓,x:𝙭,x:𝚇,x:𝚡,x:🄧,x:🅇,x:🅧,x:🆇,h:H,h:h,h:Ĥ,h:ĥ,h:Ħ,h:ħ,h:Ȟ,h:ȟ,h:ʰ,h:ͪ,h:ᴴ,h:Ḣ,h:ḣ,h:Ḥ,h:ḥ,h:Ḧ,h:ḧ,h:Ḩ,h:ḩ,h:Ḫ,h:ḫ,h:ẖ,h:ₕ,h:ℋ,h:ℌ,h:ℍ,h:ℎ,h:ℏ,h:⒣,h:Ⓗ,h:ⓗ,h:ꟸ,h:H,h:h,h:𝐇,h:𝐡,h:𝐻,h:𝑯,h:𝒉,h:𝒽,h:𝓗,h:𝓱,h:𝔥,h:𝕙,h:𝕳,h:𝖍,h:𝖧,h:𝗁,h:𝗛,h:𝗵,h:𝘏,h:𝘩,h:𝙃,h:𝙝,h:𝙷,h:𝚑,h:🄗,h:🄷,h:🅗,h:🅷

we should probably separate the capital letter mappings because that is handled with a separate flag

@chapmanjacobd
Copy link
Contributor Author

chapmanjacobd commented Aug 7, 2020

upper and lower:

rg -SN . |grep '[[:upper:]]' |tr '\n' ','
c:C,c:Ç,c:Ć,c:Ĉ,c:Ċ,c:Č,c:Ḉ,c:ℂ,c:ℭ,c:Ⅽ,c:Ⓒ,c:C,c:𝐂,c:𝐶,c:𝑪,c:𝒞,c:𝓒,c:𝕮,c:𝖢,c:𝗖,c:𝘊,c:𝘾,c:𝙲,c:🄲,c:🅒,c:🅲,b:B,b:Ḃ,b:Ḅ,b:Ḇ,b:ℬ,b:Ⓑ,b:B,b:𝐁,b:𝐵,b:𝑩,b:𝓑,b:𝔅,b:𝔹,b:𝕭,b:𝖡,b:𝗕,b:𝘉,b:𝘽,b:𝙱,b:🄱,b:🅑,b:🅱,o:O,o:Ò,o:Ó,o:Ô,o:Õ,o:Ö,o:Ø,o:Ō,o:Ŏ,o:Ő,o:Ơ,o:Ǒ,o:Ǫ,o:Ǭ,o:Ǿ,o:Ȍ,o:Ȏ,o:Ȫ,o:Ȭ,o:Ȯ,o:Ȱ,o:Ṍ,o:Ṏ,o:Ṑ,o:Ṓ,o:Ọ,o:Ỏ,o:Ố,o:Ồ,o:Ổ,o:Ỗ,o:Ộ,o:Ớ,o:Ờ,o:Ở,o:Ỡ,o:Ợ,o:Ⓞ,o:Ꞝ,o:O,o:𝐎,o:𝑂,o:𝑶,o:𝒪,o:𝓞,o:𝔒,o:𝕆,o:𝕺,o:𝖮,o:𝗢,o:𝘖,o:𝙊,o:𝙾,o:🄾,o:🅞,o:🅾,n:N,n:Ñ,n:Ń,n:Ņ,n:Ň,n:Ǹ,n:Ṅ,n:Ṇ,n:Ṉ,n:Ṋ,n:ℕ,n:Ⓝ,n:Ꞥ,n:N,n:𝐍,n:𝑁,n:𝑵,n:𝒩,n:𝓝,n:𝔑,n:𝕹,n:𝖭,n:𝗡,n:𝘕,n:𝙉,n:𝙽,n:🄽,n:🅝,n:🅽,f:F,f:Ḟ,f:ℱ,f:Ⓕ,f:Ꝼ,f:F,f:𝐅,f:𝐹,f:𝑭,f:𝓕,f:𝔉,f:𝔽,f:𝕱,f:𝖥,f:𝗙,f:𝘍,f:𝙁,f:𝙵,f:🄵,f:🅕,f:🅵,i:I,i:Ì,i:Í,i:Î,i:Ï,i:Ĩ,i:Ī,i:Ĭ,i:Į,i:İ,i:Ǐ,i:Ȉ,i:Ȋ,i:Ḭ,i:Ḯ,i:Ỉ,i:Ị,i:ℐ,i:ℑ,i:Ⅰ,i:Ⓘ,i:I,i:𝐈,i:𝐼,i:𝑰,i:𝓘,i:𝕀,i:𝕴,i:𝖨,i:𝗜,i:𝘐,i:𝙄,i:𝙸,i:🄸,i:🅘,i:🅸,d:D,d:Ð,d:Ď,d:Đ,d:Ḋ,d:Ḍ,d:Ḏ,d:Ḑ,d:Ḓ,d:ⅅ,d:Ⅾ,d:Ⓓ,d:Ꝺ,d:D,d:𝐃,d:𝐷,d:𝑫,d:𝒟,d:𝓓,d:𝔇,d:𝔻,d:𝕯,d:𝖣,d:𝗗,d:𝘋,d:𝘿,d:𝙳,d:🄳,d:🅓,d:🅳,e:E,e:È,e:É,e:Ê,e:Ë,e:Ē,e:Ĕ,e:Ė,e:Ę,e:Ě,e:Ȅ,e:Ȇ,e:Ȩ,e:Ḕ,e:Ḗ,e:Ḙ,e:Ḛ,e:Ḝ,e:Ẹ,e:Ẻ,e:Ẽ,e:Ế,e:Ề,e:Ể,e:Ễ,e:Ệ,e:ℰ,e:Ⓔ,e:E,e:𝐄,e:𝐸,e:𝑬,e:𝓔,e:𝔈,e:𝔼,e:𝕰,e:𝖤,e:𝗘,e:𝘌,e:𝙀,e:𝙴,e:🄴,e:🅔,e:🅴,z:Z,z:Ź,z:Ż,z:Ž,z:Ẑ,z:Ẓ,z:Ẕ,z:ℤ,z:ℨ,z:Ⓩ,z:Z,z:𝐙,z:𝑍,z:𝒁,z:𝒵,z:𝓩,z:𝖅,z:𝖹,z:𝗭,z:𝘡,z:𝙕,z:𝚉,z:🅉,z:🅩,z:🆉,v:V,v:Ṽ,v:Ṿ,v:Ⅴ,v:Ⓥ,v:V,v:𝐕,v:𝑉,v:𝑽,v:𝒱,v:𝓥,v:𝔙,v:𝕍,v:𝖁,v:𝖵,v:𝗩,v:𝘝,v:𝙑,v:𝚅,v:🅅,v:🅥,v:🆅,u:U,u:Ù,u:Ú,u:Û,u:Ü,u:Ũ,u:Ū,u:Ŭ,u:Ů,u:Ű,u:Ų,u:Ư,u:Ǔ,u:Ǖ,u:Ǘ,u:Ǚ,u:Ǜ,u:Ȕ,u:Ȗ,u:Ṳ,u:Ṵ,u:Ṷ,u:Ṹ,u:Ṻ,u:Ụ,u:Ủ,u:Ứ,u:Ừ,u:Ử,u:Ữ,u:Ự,u:Ⓤ,u:Ꞟ,u:U,u:𝐔,u:𝑈,u:𝑼,u:𝒰,u:𝓤,u:𝔘,u:𝕌,u:𝖀,u:𝖴,u:𝗨,u:𝘜,u:𝙐,u:𝚄,u:🅄,u:🅤,u:🆄,j:J,j:Ĵ,j:Ⓙ,j:J,j:𝐉,j:𝐽,j:𝑱,j:𝒥,j:𝓙,j:𝔍,j:𝕁,j:𝕵,j:𝖩,j:𝗝,j:𝘑,j:𝙅,j:𝙹,j:🄹,j:🅙,j:🅹,s:S,s:Ś,s:Ŝ,s:Ş,s:Š,s:Ș,s:Ṡ,s:Ṣ,s:Ṥ,s:Ṧ,s:Ṩ,s:Ⓢ,s:Ꞅ,s:Ꞩ,s:S,s:𝐒,s:𝑆,s:𝑺,s:𝒮,s:𝓢,s:𝔖,s:𝕊,s:𝕾,s:𝖲,s:𝗦,s:𝘚,s:𝙎,s:𝚂,s:🅂,s:🅢,s:🆂,p:P,p:Ṕ,p:Ṗ,p:ℙ,p:Ⓟ,p:P,p:𝐏,p:𝑃,p:𝑷,p:𝒫,p:𝓟,p:𝔓,p:𝕻,p:𝖯,p:𝗣,p:𝘗,p:𝙋,p:𝙿,p:🄿,p:🅟,p:🅿,y:Y,y:Ý,y:Ŷ,y:Ÿ,y:Ȳ,y:Ẏ,y:Ỳ,y:Ỵ,y:Ỷ,y:Ỹ,y:Ⓨ,y:Y,y:𝐘,y:𝑌,y:𝒀,y:𝒴,y:𝓨,y:𝔜,y:𝕐,y:𝖄,y:𝖸,y:𝗬,y:𝘠,y:𝙔,y:𝚈,y:🅈,y:🅨,y:🆈,w:W,w:Ŵ,w:Ẁ,w:Ẃ,w:Ẅ,w:Ẇ,w:Ẉ,w:Ⓦ,w:W,w:𝐖,w:𝑊,w:𝑾,w:𝒲,w:𝓦,w:𝔚,w:𝕎,w:𝖂,w:𝖶,w:𝗪,w:𝘞,w:𝙒,w:𝚆,w:🅆,w:🅦,w:🆆,g:G,g:Ĝ,g:Ğ,g:Ġ,g:Ģ,g:Ǧ,g:Ǵ,g:Ḡ,g:Ⓖ,g:Ᵹ,g:Ꞡ,g:G,g:𝐆,g:𝐺,g:𝑮,g:𝒢,g:𝓖,g:𝔊,g:𝔾,g:𝕲,g:𝖦,g:𝗚,g:𝘎,g:𝙂,g:𝙶,g:🄶,g:🅖,g:🅶,a:A,a:À,a:Á,a:Â,a:Ã,a:Ä,a:Å,a:Ā,a:Ă,a:Ą,a:Ǎ,a:Ǟ,a:Ǡ,a:Ǻ,a:Ȁ,a:Ȃ,a:Ȧ,a:Ḁ,a:Ạ,a:Ả,a:Ấ,a:Ầ,a:Ẩ,a:Ẫ,a:Ậ,a:Ắ,a:Ằ,a:Ẳ,a:Ẵ,a:Ặ,a:Å,a:Ⓐ,a:Ꞛ,a:A,a:𝐀,a:𝐴,a:𝑨,a:𝒜,a:𝓐,a:𝔄,a:𝔸,a:𝕬,a:𝖠,a:𝗔,a:𝘈,a:𝘼,a:𝙰,a:🄰,a:🅐,a:🅰,m:M,m:Ḿ,m:Ṁ,m:Ṃ,m:ℳ,m:Ⅿ,m:Ⓜ,m:M,m:𝐌,m:𝑀,m:𝑴,m:𝓜,m:𝔐,m:𝕄,m:𝕸,m:𝖬,m:𝗠,m:𝘔,m:𝙈,m:𝙼,m:🄼,m:🅜,m:🅼,l:L,l:Ĺ,l:Ļ,l:Ľ,l:Ŀ,l:Ł,l:Ḷ,l:Ḹ,l:Ḻ,l:Ḽ,l:ℒ,l:Ⅼ,l:Ⓛ,l:L,l:𝐋,l:𝐿,l:𝑳,l:𝓛,l:𝔏,l:𝕃,l:𝕷,l:𝖫,l:𝗟,l:𝘓,l:𝙇,l:𝙻,l:🄻,l:🅛,l:🅻,k:K,k:Ķ,k:Ǩ,k:Ḱ,k:Ḳ,k:Ḵ,k:K,k:Ⓚ,k:Ꞣ,k:K,k:𝐊,k:𝐾,k:𝑲,k:𝒦,k:𝓚,k:𝔎,k:𝕂,k:𝕶,k:𝖪,k:𝗞,k:𝘒,k:𝙆,k:𝙺,k:🄺,k:🅚,k:🅺,t:T,t:Ţ,t:Ť,t:Ț,t:Ṫ,t:Ṭ,t:Ṯ,t:Ṱ,t:Ⓣ,t:Ꞇ,t:T,t:𝐓,t:𝑇,t:𝑻,t:𝒯,t:𝓣,t:𝔗,t:𝕋,t:𝕿,t:𝖳,t:𝗧,t:𝘛,t:𝙏,t:𝚃,t:🅃,t:🅣,t:🆃,q:Q,q:ℚ,q:Ⓠ,q:Q,q:𝐐,q:𝑄,q:𝑸,q:𝒬,q:𝓠,q:𝔔,q:𝕼,q:𝖰,q:𝗤,q:𝘘,q:𝙌,q:𝚀,q:🅀,q:🅠,q:🆀,r:R,r:Ŕ,r:Ŗ,r:Ř,r:Ȑ,r:Ȓ,r:Ṙ,r:Ṛ,r:Ṝ,r:Ṟ,r:ℛ,r:ℜ,r:ℝ,r:Ⓡ,r:Ꞃ,r:Ꞧ,r:R,r:𝐑,r:𝑅,r:𝑹,r:𝓡,r:𝕽,r:𝖱,r:𝗥,r:𝘙,r:𝙍,r:𝚁,r:🅁,r:🅡,r:🆁,x:X,x:Ẋ,x:Ẍ,x:Ⅹ,x:Ⓧ,x:X,x:𝐗,x:𝑋,x:𝑿,x:𝒳,x:𝓧,x:𝔛,x:𝕏,x:𝖃,x:𝖷,x:𝗫,x:𝘟,x:𝙓,x:𝚇,x:🅇,x:🅧,x:🆇,h:H,h:Ĥ,h:Ħ,h:Ȟ,h:Ḣ,h:Ḥ,h:Ḧ,h:Ḩ,h:Ḫ,h:ℋ,h:ℌ,h:ℍ,h:Ⓗ,h:H,h:𝐇,h:𝐻,h:𝑯,h:𝓗,h:𝕳,h:𝖧,h:𝗛,h:𝘏,h:𝙃,h:𝙷,h:🄷,h:🅗,h:🅷
rg -SN . |grep -v '[[:upper:]]' |tr '\n' ','
c:c,c:ç,c:ć,c:ĉ,c:ċ,c:č,c:ͨ,c:ᶜ,c:ᷗ,c:ḉ,c:℃,c:ⅽ,c:⒞,c:ⓒ,c:c,c:𝐜,c:𝑐,c:𝒄,c:𝒸,c:𝓬,c:𝔠,c:𝕔,c:𝖈,c:𝖼,c:𝗰,c:𝘤,c:𝙘,c:𝚌,c:🄒,c:🄫,o:o,o:º,o:ò,o:ó,o:ô,o:õ,o:ö,o:ø,o:ō,o:ŏ,o:ő,o:ơ,o:ǒ,o:ǫ,o:ǭ,o:ǿ,o:ȍ,o:ȏ,o:ȫ,o:ȭ,o:ȯ,o:ȱ,o:ͦ,o:ᴼ,o:ᵒ,o:ᷭ,o:ᷳ,o:ṍ,o:ṏ,o:ṑ,o:ṓ,o:ọ,o:ỏ,o:ố,o:ồ,o:ổ,o:ỗ,o:ộ,o:ớ,o:ờ,o:ở,o:ỡ,o:ợ,o:ₒ,o:ℴ,o:⒪,o:ⓞ,o:ꞝ,o:o,o:𝐨,o:𝑜,o:𝒐,o:𝓸,o:𝔬,o:𝕠,o:𝖔,o:𝗈,o:𝗼,o:𝘰,o:𝙤,o:𝚘,o:🄞,n:n,n:ñ,n:ń,n:ņ,n:ň,n:ǹ,n:ᴺ,n:ᷠ,n:ṅ,n:ṇ,n:ṉ,n:ṋ,n:ⁿ,n:ₙ,n:⒩,n:ⓝ,n:ꞥ,n:n,n:𝐧,n:𝑛,n:𝒏,n:𝓃,n:𝓷,n:𝔫,n:𝕟,n:𝖓,n:𝗇,n:𝗻,n:𝘯,n:𝙣,n:𝚗,n:🄝,f:f,f:ᶠ,f:ᷫ,f:ḟ,f:℉,f:⒡,f:ⓕ,f:ꝼ,f:f,f:𝐟,f:𝑓,f:𝒇,f:𝒻,f:𝓯,f:𝔣,f:𝕗,f:𝖋,f:𝖿,f:𝗳,f:𝘧,f:𝙛,f:𝚏,f:🄕,i:i,i:ì,i:í,i:î,i:ï,i:ĩ,i:ī,i:ĭ,i:į,i:ǐ,i:ȉ,i:ȋ,i:ͥ,i:ᴵ,i:ᵢ,i:ḭ,i:ḯ,i:ỉ,i:ị,i:ⁱ,i:ℹ,i:ⅈ,i:ⅰ,i:⒤,i:ⓘ,i:i,i:𝐢,i:𝑖,i:𝒊,i:𝒾,i:𝓲,i:𝔦,i:𝕚,i:𝖎,i:𝗂,i:𝗶,i:𝘪,i:𝙞,i:𝚒,i:🄘,d:d,d:ð,d:ď,d:đ,d:ͩ,d:ᴰ,d:ᵈ,d:ᶞ,d:ᷘ,d:ᷙ,d:ḋ,d:ḍ,d:ḏ,d:ḑ,d:ḓ,d:ⅆ,d:ⅾ,d:⒟,d:ⓓ,d:ꝺ,d:d,d:𝐝,d:𝑑,d:𝒅,d:𝒹,d:𝓭,d:𝔡,d:𝕕,d:𝖉,d:𝖽,d:𝗱,d:𝘥,d:𝙙,d:𝚍,d:🄓,d:🆥,z:z,z:ź,z:ż,z:ž,z:ᶻ,z:ᷦ,z:ẑ,z:ẓ,z:ẕ,z:⒵,z:ⓩ,z:z,z:𝐳,z:𝑧,z:𝒛,z:𝓏,z:𝔃,z:𝔷,z:𝕫,z:𝖟,z:𝗓,z:𝘇,z:𝘻,z:𝙯,z:𝚣,z:🄩,e:e,e:è,e:é,e:ê,e:ë,e:ē,e:ĕ,e:ė,e:ę,e:ě,e:ȅ,e:ȇ,e:ȩ,e:ͤ,e:ᴱ,e:ᵉ,e:ḕ,e:ḗ,e:ḙ,e:ḛ,e:ḝ,e:ẹ,e:ẻ,e:ẽ,e:ế,e:ề,e:ể,e:ễ,e:ệ,e:ₑ,e:ℯ,e:ⅇ,e:⒠,e:ⓔ,e:e,e:𝐞,e:𝑒,e:𝒆,e:𝓮,e:𝔢,e:𝕖,e:𝖊,e:𝖾,e:𝗲,e:𝘦,e:𝙚,e:𝚎,e:🄔,v:v,v:ͮ,v:ᵛ,v:ᵥ,v:ṽ,v:ṿ,v:ⅴ,v:⒱,v:ⓥ,v:ⱽ,v:v,v:𝐯,v:𝑣,v:𝒗,v:𝓋,v:𝓿,v:𝔳,v:𝕧,v:𝖛,v:𝗏,v:𝘃,v:𝘷,v:𝙫,v:𝚟,v:🄥,s:s,s:ś,s:ŝ,s:ş,s:š,s:ſ,s:ș,s:ˢ,s:ᷤ,s:ᷥ,s:ṡ,s:ṣ,s:ṥ,s:ṧ,s:ṩ,s:ẛ,s:ₛ,s:⒮,s:ⓢ,s:ꞅ,s:ꞩ,s:s,s:𝐬,s:𝑠,s:𝒔,s:𝓈,s:𝓼,s:𝔰,s:𝕤,s:𝖘,s:𝗌,s:𝘀,s:𝘴,s:𝙨,s:𝚜,s:🄢,s:🄪,p:p,p:ᴾ,p:ᵖ,p:ᷮ,p:ṕ,p:ṗ,p:ₚ,p:⒫,p:ⓟ,p:p,p:𝐩,p:𝑝,p:𝒑,p:𝓅,p:𝓹,p:𝔭,p:𝕡,p:𝖕,p:𝗉,p:𝗽,p:𝘱,p:𝙥,p:𝚙,p:🄟,p:🆊,y:y,y:ý,y:ÿ,y:ŷ,y:ȳ,y:ʸ,y:ẏ,y:ẙ,y:ỳ,y:ỵ,y:ỷ,y:ỹ,y:⒴,y:ⓨ,y:y,y:𝐲,y:𝑦,y:𝒚,y:𝓎,y:𝔂,y:𝔶,y:𝕪,y:𝖞,y:𝗒,y:𝘆,y:𝘺,y:𝙮,y:𝚢,y:🄨,w:w,w:ŵ,w:ʷ,w:ᵂ,w:ᷱ,w:ẁ,w:ẃ,w:ẅ,w:ẇ,w:ẉ,w:ẘ,w:⒲,w:ⓦ,w:w,w:𝐰,w:𝑤,w:𝒘,w:𝓌,w:𝔀,w:𝔴,w:𝕨,w:𝖜,w:𝗐,w:𝘄,w:𝘸,w:𝙬,w:𝚠,w:🄦,g:g,g:ĝ,g:ğ,g:ġ,g:ģ,g:ǧ,g:ǵ,g:ᴳ,g:ᵍ,g:ᵹ,g:ᷚ,g:ḡ,g:ℊ,g:⒢,g:ⓖ,g:ꞡ,g:g,g:𝐠,g:𝑔,g:𝒈,g:𝓰,g:𝔤,g:𝕘,g:𝖌,g:𝗀,g:𝗴,g:𝘨,g:𝙜,g:𝚐,g:🄖,m:m,m:ͫ,m:ᴹ,m:ᵐ,m:ḿ,m:ṁ,m:ṃ,m:ₘ,m:ⅿ,m:⒨,m:ⓜ,m:m,m:𝐦,m:𝑚,m:𝒎,m:𝓂,m:𝓶,m:𝔪,m:𝕞,m:𝖒,m:𝗆,m:𝗺,m:𝘮,m:𝙢,m:𝚖,m:🄜,a:a,a:ª,a:à,a:á,a:â,a:ã,a:ä,a:å,a:ā,a:ă,a:ą,a:ǎ,a:ǟ,a:ǡ,a:ǻ,a:ȁ,a:ȃ,a:ȧ,a:ͣ,a:ᴬ,a:ᵃ,a:ᷓ,a:ᷲ,a:ḁ,a:ạ,a:ả,a:ấ,a:ầ,a:ẩ,a:ẫ,a:ậ,a:ắ,a:ằ,a:ẳ,a:ẵ,a:ặ,a:ₐ,a:⒜,a:ⓐ,a:ꞛ,a:a,a:𝐚,a:𝑎,a:𝒂,a:𝒶,a:𝓪,a:𝔞,a:𝕒,a:𝖆,a:𝖺,a:𝗮,a:𝘢,a:𝙖,a:𝚊,a:🄐,l:l,l:ĺ,l:ļ,l:ľ,l:ŀ,l:ł,l:ˡ,l:ᴸ,l:ᷝ,l:ḷ,l:ḹ,l:ḻ,l:ḽ,l:ₗ,l:ℓ,l:ⅼ,l:⒧,l:ⓛ,l:l,l:𝐥,l:𝑙,l:𝒍,l:𝓁,l:𝓵,l:𝔩,l:𝕝,l:𝖑,l:𝗅,l:𝗹,l:𝘭,l:𝙡,l:𝚕,l:🄛,k:k,k:ķ,k:ǩ,k:ᴷ,k:ᵏ,k:ᷜ,k:ḱ,k:ḳ,k:ḵ,k:ₖ,k:⒦,k:ⓚ,k:ꞣ,k:k,k:𝐤,k:𝑘,k:𝒌,k:𝓀,k:𝓴,k:𝔨,k:𝕜,k:𝖐,k:𝗄,k:𝗸,k:𝘬,k:𝙠,k:𝚔,k:🄚,t:t,t:ţ,t:ť,t:ț,t:ͭ,t:ᵀ,t:ᵗ,t:ṫ,t:ṭ,t:ṯ,t:ṱ,t:ẗ,t:ₜ,t:⒯,t:ⓣ,t:ꞇ,t:t,t:𝐭,t:𝑡,t:𝒕,t:𝓉,t:𝓽,t:𝔱,t:𝕥,t:𝖙,t:𝗍,t:𝘁,t:𝘵,t:𝙩,t:𝚝,t:🄣,b:b,b:ᴮ,b:ᵇ,b:ᷨ,b:ḃ,b:ḅ,b:ḇ,b:⒝,b:ⓑ,b:b,b:𝐛,b:𝑏,b:𝒃,b:𝒷,b:𝓫,b:𝔟,b:𝕓,b:𝖇,b:𝖻,b:𝗯,b:𝘣,b:𝙗,b:𝚋,b:🄑,q:q,q:⒬,q:ⓠ,q:q,q:𝐪,q:𝑞,q:𝒒,q:𝓆,q:𝓺,q:𝔮,q:𝕢,q:𝖖,q:𝗊,q:𝗾,q:𝘲,q:𝙦,q:𝚚,q:🄠,r:r,r:ŕ,r:ŗ,r:ř,r:ȑ,r:ȓ,r:ʳ,r:ͬ,r:ᴿ,r:ᵣ,r:᷊,r:ṙ,r:ṛ,r:ṝ,r:ṟ,r:⒭,r:ⓡ,r:ꞃ,r:ꞧ,r:r,r:𝐫,r:𝑟,r:𝒓,r:𝓇,r:𝓻,r:𝔯,r:𝕣,r:𝖗,r:𝗋,r:𝗿,r:𝘳,r:𝙧,r:𝚛,r:🄡,r:🄬,x:x,x:ˣ,x:ͯ,x:ẋ,x:ẍ,x:ₓ,x:ⅹ,x:⒳,x:ⓧ,x:x,x:𝐱,x:𝑥,x:𝒙,x:𝓍,x:𝔁,x:𝔵,x:𝕩,x:𝖝,x:𝗑,x:𝘅,x:𝘹,x:𝙭,x:𝚡,x:🄧,h:h,h:ĥ,h:ħ,h:ȟ,h:ʰ,h:ͪ,h:ᴴ,h:ḣ,h:ḥ,h:ḧ,h:ḩ,h:ḫ,h:ẖ,h:ₕ,h:ℎ,h:ℏ,h:⒣,h:ⓗ,h:ꟸ,h:h,h:𝐡,h:𝒉,h:𝒽,h:𝓱,h:𝔥,h:𝕙,h:𝖍,h:𝗁,h:𝗵,h:𝘩,h:𝙝,h:𝚑,h:🄗,u:u,u:ù,u:ú,u:û,u:ü,u:ũ,u:ū,u:ŭ,u:ů,u:ű,u:ų,u:ư,u:ǔ,u:ǖ,u:ǘ,u:ǚ,u:ǜ,u:ȕ,u:ȗ,u:ͧ,u:ᵁ,u:ᵘ,u:ᵤ,u:ᷰ,u:ᷴ,u:ṳ,u:ṵ,u:ṷ,u:ṹ,u:ṻ,u:ụ,u:ủ,u:ứ,u:ừ,u:ử,u:ữ,u:ự,u:⒰,u:ⓤ,u:ꞟ,u:u,u:𝐮,u:𝑢,u:𝒖,u:𝓊,u:𝓾,u:𝔲,u:𝕦,u:𝖚,u:𝗎,u:𝘂,u:𝘶,u:𝙪,u:𝚞,u:🄤,j:j,j:ĵ,j:ǰ,j:ʲ,j:ᴶ,j:ⅉ,j:⒥,j:ⓙ,j:ⱼ,j:j,j:𝐣,j:𝑗,j:𝒋,j:𝒿,j:𝓳,j:𝔧,j:𝕛,j:𝖏,j:𝗃,j:𝗷,j:𝘫,j:𝙟,j:𝚓,j:🄙

(smart-case would use both mappings)

@chapmanjacobd
Copy link
Contributor Author

maybe this is actually a bad idea. it is really slow to search everything... :/

🌴 time grep -r -e '[[=c=]][[=a=]][[=n=]][[=c=]][[=u=]][[=n=]]' ~/placedata/ | wc -l
459

________________________________________________________
Executed in  172.68 secs   fish           external 
   usr time   92.41 secs    1.10 millis   92.41 secs 
   sys time   11.76 secs    5.02 millis   11.75 secs 

🌴 time rg ~/placedata/ -li -e ' cancun | cancún ' | wc -l
459

________________________________________________________
Executed in   34.74 secs   fish           external 
   usr time   17.67 secs    0.11 millis   17.67 secs 
   sys time   13.32 secs    3.05 millis   13.32 secs 

I think for my case since I only have 5GB of data I will just use a special copy to search files...

for file in (fd -tf) 
    bat "$file" | ~/bin/unwrap.pl | unidecode | sponge "../placedata-ascii/$file"
end

using unwrap.pl

@sharkdp
Copy link
Owner

sharkdp commented Aug 15, 2020

I guess for now what I can do is just replace non-ascii char with * and do a glob but it is not quite the same..

You can also use normal regex mode and replace the non-ascii char with . (= any character). This would be more precise than using * in a glob, which can match multiple characters. Or you could use \w (= word character):

fd -i 'san jos\w'

or the unicode "letter" class:

fd -i 'san jos\p{Letter}'
fd -i 'san jos\pL'

which would not match numbers, for example.

@sharkdp
Copy link
Owner

sharkdp commented Aug 15, 2020

@tmccombs
Copy link
Collaborator

wouldn't ? also match a single charachter in glob?

@sharkdp
Copy link
Owner

sharkdp commented Aug 15, 2020

wouldn't ? also match a single charachter in glob?

Yes. That would also work, right. 👍

@pabloab
Copy link

pabloab commented Jul 22, 2023

I asked exactly this on askubuntu, and then mlocate added --transliterate support.

fd don't have and won't have this feature? Or I should file a new issue?

@huyz
Copy link

huyz commented Feb 26, 2024

fd don't have and won't have this feature? Or I should file a new issue?

Sounds like a good feature to have. An issue would be good

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

5 participants