[Axel Bojer]
Flott! Men jeg lette etter speling-new.nb og speling-new.nn, men fant dem ikke. Hvor ligger de?
De lages når du kjører 'make speling-new.nb speling-new.nn'.
I den forbindelse noen spørsmål:
Hva trenger egentlig et slikt overføringsskript å gjøre?
Man må ta med alle ordene unntatt de med:
- «status: -»
- trippelkonsonant
- enkeltbokstaver/-tegn
- rene endelser
Er det noe mer?
Jeg valgte et annen tilnærming. Scriptet går igjennom alle ordene i URL:http://tyge.sslug.dk/~korsvoll/nb.speling.org/htdocs/status/words.good.gz og URL:http://tyge.sslug.dk/~korsvoll/nn.speling.org/htdocs/status/words.good.gz, og legger dem inn i listen over ord. Sjekker at ordene ser fornuftige ut i dette steget. Deretter går scriptet igjennom source-filen og ser etter WORD, STATUS og COMPOSITE-WORD, og oppdaterer orddelingsmarkører for alle ordene som allerede ble funnet i norsk.words og words.good.
Hva krever ordlista norsk.words for å være fornøyd? Jeg ser den har noe metainformasjon, men foreløpig brukes vel ikke den til noe?
Dagens byggesystem krever formatet som er beskrevet i toppen av norsk.word. Hva som er kravet fra ispell, aspell, myspell og hunspell kan jeg ikke svare på.
Jeg tittet også i OOo-ordlistene, og ser det er metainformasjon der av typen /j etter ordene. Noen som vet hva dette betyr og om den brukes til noe? *.aff-filene ser jeg inneholder endelser av alle mulige slag, vil det si at orddelingsalgoritmen i OOo bruker .aff-fila sammen med /j og slikt for å avgjøre hvordan ord kan settes sammen? Hvis ikke så er vel denne informasjonen foreløpig helt overflødig?
/j er ikke meta-info. Det er ordendelsesinfo. Les nb.aff.in for å se hva /j betyr. Let etter 'flag *j:'. Tenk på det som komprimering, der ordene Volvo, Volvoene, Volvoen, Volvoer, Volvos og Volvoens slås sammen til Volvo/AEGJ. Du kan bruke ispell til å ekspandere en slik komprimert versjon:
% echo Volvo/AEGJ | ispell -d nb -e Volvo Volvoene Volvoen Volvoer Volvos Volvoens %
Jeg sjekket inn oppdatering av alle ord som både fantes i norsk.word og på speling.org, slik at de er markert med henholdsvis B og *. Gjør at ordklassifiseringen gjør et godt steg forover. Har ikke lagt til nye ord ennå, da jeg tror vi bør se over scriptet for å redusere sjansen for at vi legger inn mer enn vi skal.
Vennlig hilsen,