[Axel Bojer]
Likevel løser ikke dette det grunnleggende problemet. Jeg ser fila thesaurus-nb-mergnet.txt ser grei ut (den er jo henta direkte fra synonymer.merg.net), men den fila som bygges inneholder ikke disse ordene :-/
Hvilke ord er det som mangler?
less ooo-dist/th_nb_NO_v2/th_nb_NO_v2.idx viser en meget kort fil.
(«cat ooo-dist/th_nb_NO_v2/th_nb_NO_v2.idx|wc -l» gir «1453»)
(fila har også en identisk kopi i hovedmappa)
cat thesaurus-nb.txt | wc -l gir 9også 1453, men da er det mange ord på hver linje (slik også i thesaurus-nb-mergnet.txt, naturlig nok).
Hvor lang mener du filen skulle vært?
Det ser av «Makefile» ut til at thesaurus-nb.txt tas med i bygginga, så jeg vet heller ikke helt hva som skjer.
Petter: Kan du sende den fila du bygget, så kan jeg sammenligne for å se om det er hos meg det går galt?
Din fil er like lang som min fil, så jeg antar de bygges likt. Slik ser det ut når jeg oppdaterer:
% rm thesaurus-nb-mergnet.txt % make thesaurus-nb.txt-update wget http://synonymer.merg.net/download/thesaurus.txt -O - > thesaurus-nb-mergnet.txt.new && \ mv thesaurus-nb-mergnet.txt.new thesaurus-nb-mergnet.txt --10:26:20-- http://synonymer.merg.net/download/thesaurus.txt => `-' Resolving synonymer.merg.net... 80.203.253.210 Connecting to synonymer.merg.net|80.203.253.210|:80... connected. HTTP request sent, awaiting response... 200 OK Length: 148,969 (145K) [text/plain]
100%[======================================================================>] 148,969 150.67K/s
10:26:24 (150.59 KB/s) - `-' saved [148969/148969]
( \ echo 'abcdefghijklmnopqrstuvwxyz???ABCDEFGHIJKLMNOPQRSTUVWXYZ???-()#' && \ grep -v '#' thesaurus-nb-mergnet.txt | sed 's/;/; /g' \ ) > thesaurus-nb.txt.new && \ mv thesaurus-nb.txt.new thesaurus-nb.txt % LANG=C wc -l thesaurus-* 1461 thesaurus-nb-mergnet.txt 1453 thesaurus-nb.txt 16 thesaurus-nn.txt 14 thesaurus-README.txt 9561 thesaurus-words.txt 12505 total %
Det er altså ca. 1450 synonord-samlinger. Skulle det vært flere? Er formatet på noen av filene feil?
Vennlig hilsen,