Petter Reinholdtsen wrote:
[Axel Bojer]
Likevel løser ikke dette det grunnleggende problemet. Jeg ser fila thesaurus-nb-mergnet.txt ser grei ut (den er jo henta direkte fra synonymer.merg.net), men den fila som bygges inneholder ikke disse ordene :-/
Hvilke ord er det som mangler?
Ikke helt sikker på det fulle omfanget, men da jeg installerte den i OOo viser den f.eks. ikke synonymordgruppene konge og stor, som er ganske store begge to. Både thesaurus-nb.txt og thesaurus-nb-mergnet.txt inneholder disse, men ikke ooo-dist/th_nb_NO_v2/th_nb_NO_v2.idx
Så på veien mellom de to første filene (som jeg tror er i orden) og det som blir inkludert i stavekontrollfila til OOo i den ferdige zip-fila, så går noe galt. Jeg har en mistanke om at ordene ikke blir lagt inn fra disse filene i det hele tatt, men at den bare bruker de som er i norsk.words, kan det være mulig? Eller den kutter alt annet enn første or i hvert synonymordgruppe og sletter resten (antallet linjer er det samme, så det er utgangspunktet for et slikt gjett).
less ooo-dist/th_nb_NO_v2/th_nb_NO_v2.idx viser en meget kort fil.
(«cat ooo-dist/th_nb_NO_v2/th_nb_NO_v2.idx|wc -l» gir «1453»)
(fila har også en identisk kopi i hovedmappa)
cat thesaurus-nb.txt | wc -l gir 9også 1453, men da er det mange ord på hver linje (slik også i thesaurus-nb-mergnet.txt, naturlig nok).
Hvor lang mener du filen skulle vært?
Det ser av «Makefile» ut til at thesaurus-nb.txt tas med i bygginga, så jeg vet heller ikke helt hva som skjer.
Petter: Kan du sende den fila du bygget, så kan jeg sammenligne for å se om det er hos meg det går galt?
Din fil er like lang som min fil, så jeg antar de bygges likt. Slik ser det ut når jeg oppdaterer:
% rm thesaurus-nb-mergnet.txt % make thesaurus-nb.txt-update wget http://synonymer.merg.net/download/thesaurus.txt -O - > thesaurus-nb-mergnet.txt.new && \ mv thesaurus-nb-mergnet.txt.new thesaurus-nb-mergnet.txt --10:26:20-- http://synonymer.merg.net/download/thesaurus.txt => `-' Resolving synonymer.merg.net... 80.203.253.210 Connecting to synonymer.merg.net|80.203.253.210|:80... connected. HTTP request sent, awaiting response... 200 OK Length: 148,969 (145K) [text/plain]
100%[======================================================================>] 148,969 150.67K/s
10:26:24 (150.59 KB/s) - `-' saved [148969/148969]
( \ echo 'abcdefghijklmnopqrstuvwxyz???ABCDEFGHIJKLMNOPQRSTUVWXYZ???-()#' && \ grep -v '#' thesaurus-nb-mergnet.txt | sed 's/;/; /g' \ ) > thesaurus-nb.txt.new && \ mv thesaurus-nb.txt.new thesaurus-nb.txt % LANG=C wc -l thesaurus-* 1461 thesaurus-nb-mergnet.txt 1453 thesaurus-nb.txt 16 thesaurus-nn.txt 14 thesaurus-README.txt 9561 thesaurus-words.txt 12505 total %
Det er greit, men hvordan ser din ooo-dist/th_nb_NO_v2/th_nb_NO_v2.idx ut, da? Hos meg: 22K «cat ooo-dist/th_nb_NO_v2/th_nb_NO_v2.idx | wc -l» gir «1453», men hver av linjene er på ett enkelt ord, mens thesaurus-nb.txt har mange ord på hver linje og like mange linjer. Det er altså ooo-dist/th_nb_NO_v2/th_nb_NO_v2.idx jeg tror det må være noe galt med.
wc gir: 1453 18834 163198 thesaurus-nb.txt 1453 1589 22500 ooo-dist/th_nb_NO_v2/th_nb_NO_v2.idx
Den siste er mye mindre ...
Det er altså ca. 1450 synonord-samlinger. Skulle det vært flere? Er formatet på noen av filene feil?
Se over :-)
Hilsen Axel