Dit diagram laat zien hoe de onderwerpenboom functie een aanvulling is op het bestaande landschap, het converteert namelijk teksten opgesteld door experts naar een boomstructuur die reeds in sharepoint aanwezig is namelijk de managed meta data. Voordeel van deze werkwijze is dat het managed onderdeel van managed metadata grotendeels wordt gedaan door een geautomatiseerd proces in de onderwerpenboom functie.
Door deze functie los te trekken van de andere onderdelen ontstaat een herbruikbare component voor verschillende ontsluitingsplatformen. Dat is natuurlijk wel afhankelijk van de te ontwikkelen interfaces op de onderwerpenboom. Laatste wordt in een later stadium nader uitgewerkt
Versie | 1.0 | Creatie datum | 25-02-2016 |
Filteren van niet relevante termen opgedeeld in een aantal subfilters
Analyse van teksten, bomen en lijsten van trefwoorden. Omdat de verwachting is dat het een semi supervised oplossing wordt dient hier een user interface geboden te worden voor visualisatie maar ook voor het beheer van stopwoorden en stemming etc.
Het herkennen van regels in teksten op basis van woord nabijheid en veelheid van voorkomen denk hierbij aan TF, IDF en N-Grams
Ontsluiten van de onderwerpen in een visuele boomrepresentatie en ontsluiting via hyperlinks naar de originele documenten cq bronnen. Daarnaast ontsluiting van de boomstructuur via een API naar afnemende systemen zoals managed metadata
Classificeren van termen op basis van veelheid van voorkomen, veelheid van associaties etc
Verwijderen van stopwoorden zoals de het en een etc
Beheer van de boom, de trefwoorden lijsten de algoritmen etc, deze functie wordt ook gebruikt in de eerdere functies of geldt als voeding voor deze functies
Onttrekken van documenten en omzetten naar een lijst van woorden in een relevante volgorde
Herleiden van werkwoorden naar hun stam, bijvoorbeeld hebt, hebben had naar heeft.