Jeg tok en titt på innholdet i URL:http://tyge.sslug.dk/~korsvoll/nb.speling.org/htdocs/status/source.gz, som er bokmålsordene som er samlet inn så langt. Hvordan ble utgangspunktet generert? Den ser ikke ut til å komme fra norsk.words, og mangler en god del. norsk.words har f.eks. sammensetning for ganske mange ord.
Vi bør bli enige om hvilke ordklassenavn vi skal bruke. Foreløbig er følgende navn brukt (grep CLASS source |sort -u):
CLASS: Adjektiv, flertall CLASS: Adjektiv (forholdsord) CLASS: Adverb CLASS: Egennavn CLASS: Navneord CLASS: Substantiv, bestemt form CLASS: Substantiv, entall, bestemt CLASS: Substantiv, entall, ubestemt CLASS: Substantiv, flertall, ubestemt CLASS: Substantiv, genitiv CLASS: Substantiv hankjønn CLASS: Substantiv (namneord) CLASS: Tillægsord CLASS: Verb CLASS: Verb, imperativ (bydeform)
Jeg ser et klart behov for å standardisere navn på substantiv, verb og adjektiv. Hva skal denne klasse-informasjonen brukes til?
Jeg tror det er viktig at vi alle bruker identiske klassenavn for samme ting for å gjøre maskinell bruk av ordlisten enklere. Jeg ser at noen har lagt inn forslag på web om å legge inn kjønn som del av ordklassenavnet til substantivene. Det virker på meg som en dårlig ide, da så vidt jeg vet er alle substantiver av samme klasse. Kan vi enes om å bruke 'Substantiv' som klassenavn, og fylle inn resten av informasjonen i CONJUGATION-feltet? Tilsvarende for Verb og Adjektiv. Har vi en måte å fa standardisert dette på i de eksisterende oppføringene?
Jeg har forresten begynt å fylle inn ROOT-feltet med grunnordet til det aktuelle ordet, for å gjøre det enklere å maskinelt hente ut alle ord som har samme grunnord. Jeg foreslår at andre gjør det samme.
Vennlig hilsen,