Skip to content

Commit

Permalink
+celo inx-viki-listo
Browse files Browse the repository at this point in the history
  • Loading branch information
wdiestel committed Mar 26, 2021
1 parent c816e3f commit a8a52b6
Show file tree
Hide file tree
Showing 4 changed files with 25 additions and 14 deletions.
1 change: 1 addition & 0 deletions .gitignore
Original file line number Diff line number Diff line change
@@ -1,5 +1,6 @@
*~
\#*
tmp/
*.class
respiro.jar
revo/
Expand Down
4 changes: 2 additions & 2 deletions Dockerfile
Original file line number Diff line number Diff line change
Expand Up @@ -69,8 +69,8 @@ RUN curl -LO https://github.com/revuloj/voko-grundo/archive/${VG_BRANCH}.zip \
&& ln -s /usr/local/bin/git_shanghitaj.sh ${VOKO}/bin/ \
&& ln -s /usr/local/bin/git_forigitaj.sh ${VOKO}/bin/ \
&& ln -s /usr/local/bin/git_bv_forigu_lst.sh ${VOKO}/bin/ \
&& ln -s /usr/local/bin/insert-art-blobs.sh ${VOKO}/bin/

&& ln -s /usr/local/bin/insert-art-blobs.sh ${VOKO}/bin/ \
&& ln -s /usr/local/bin/viki_listo.sh ${VOKO}/bin/
COPY ant ${VOKO}/ant
COPY jav ${VOKO}/jav

Expand Down
15 changes: 14 additions & 1 deletion ant/indeksoj.xml
Original file line number Diff line number Diff line change
Expand Up @@ -31,6 +31,7 @@
<property name="jing.errors.html" location="${v.tmp}/inx/relax_eraroj.html"/>
<property name="jing2xml" location="${v.voko.bin}/jing2xml.sh"/>
<property name="gitlogxml2w" location="${v.voko.bin}/gitlogxml2w.sh"/>
<property name="viki_listo" location="${v.voko.bin}/viki_listo.sh"/>
<property name="voko-relax" location="${v.voko}/dtd/vokoxml.rnc"/>

<property name="saxon" location="${ENV.SAXONJAR}"/>
Expand Down Expand Up @@ -324,9 +325,21 @@
<param name="agordo-pado" expression="${v.cfg}"/>
<factory name="net.sf.saxon.TransformerFactoryImpl"/>
</xslt>

</target>

<target name="inx-viki-listo" depends="inx-preparo,inx-kategorioj"
description="eltiras la markojn el la indeks-dosiero kaj provas trovi koncernajn vikipaĝojn">

<exec executable="${viki_listo}"
output="${v.tmp}/viki_listo.xml"
logError="true"/>

<xslt in="${v.tmp}/inx_kat.xml" out="${v.tmp}/vikiref.xml" style="${v.voko.xsl}/revo_viki.xsl"
classpathref="saxon.classpath">
<param name="viki_xml" expression="${v.tmp}/viki_listo.xml"/>
<factory name="net.sf.saxon.TransformerFactoryImpl"/>
</xslt>
</target>

<target name="inx-tuto" depends="inx-preparo,inx-html"
description="kopias fine chiujn enhave shanghitajn dosierojn al la
Expand Down
19 changes: 8 additions & 11 deletions bin/viki_listo.sh
Original file line number Diff line number Diff line change
@@ -1,23 +1,20 @@
#!/bin/bash

viki_url=http://download.wikimedia.org/eowiki/latest/eowiki-latest-all-titles-in-ns0.gz
#viki_local=${HOME}/tmp/eoviki.gz
viki_local=./tmp/eoviki.gz
viki_local=${HOME}/tmp/eoviki.gz
#viki_local=./tmp/eoviki.gz
#viki_listo=${HOME}/tmp/inx_tmp/viki_listo.xml

#wget -nv ${viki_url} -O $viki_local
curl -Lo $viki_local ${viki_url}

echo '<?xml version="1.0"?>'
echo '<viki>'
echo '<?xml version="1.0"?>'
echo '<viki>'
# Elfiltru tiujn titolojn, kiuj ne enhavas ion krom literoj kaj strekoj,
# la dua litero estu minusklo por eksludi mallongigojn.
# Ni akceptas ankaŭ literojn ciriclajn ktp. pro simpligo.
# Restos tiel proksimume 2/3 de la titoloj. La substrekon ni jam anstataŭigas per spaco(?)
gzip -d < $viki_local | grep -E "^[[:upper:]][-[:lower:]][-_[:alpha:]]*$" | sed -E 's%^(.*)$%<v>\1</v>%' # | sed 's/_/ /g'
# Restos tiel proksimume 2/3 de la titoloj.
gzip -d < $viki_local | grep -E "^[[:upper:]][-[:lower:]][-_[:alpha:]]*$" | sed -E 's%^(.*)$%<v>\1</v>%'

echo '</viki>'

# por ŝarniri la viki-titolojn kun la derivaĵoj/kapvorotj ni bezonas ekstrakti poste
# el inx_kat.xml parojn @mrk=k laŭ //v@mrk/k
#
# sur tiu paĝo estas xml-iloj konsiderindaj por tiu tasko: https://github.com/dbohdan/structured-text-tools#xml-html

0 comments on commit a8a52b6

Please sign in to comment.