Op
woensdag 28 maart 2018 organiseerden VOGIN en vakblad InformatieProfessional
gezamenlijk voor de zesde keer een VOGIN-IP-lezingendag.
Dat is een dag vol met lezingen en workshops rond het thema “zoeken en vinden
van informatie”. Voor iedereen die zich met informatie bezighoudt is dit een
dag om te leren over de nieuwste trends en ontwikkelingen en om met vakgenoten
te praten over de vernieuwingen in ons vakgebied. Het evenement vond plaats in
de Openbare Bibliotheek van Amsterdam (OBA).
Het was druk in de OBA,
honderden informatiespecialisten, functioneel beheerders, dataspecialisten etc.
volgden gezamenlijk de keynote-lezing van de Amerikaanse bilbliothecaris Joseph Bush over artificial intelligence vs
automation. Strekking van zijn (vrij technische) verhaal was dat je ondanks
geautomatiseerd classificeren van informatie en het geautomatiseerd toekennen
van metadata nog steeds ook mensen (informatiespecialisten!) in dit proces
nodig hebt, onderwerpsspecialisten die toezicht houden op het proces. Hij hield
verder een pleidooi om beter gebruik te maken van de data binnen organisaties:
verzamelen, verwerken, analyseren en voorspellingen doen.
Meer lezen: https://vogin-ip-lezing.net/presentaties-2018/#busch
Meer lezen: https://vogin-ip-lezing.net/presentaties-2018/#busch
In
een productpresentatie van Marco van
Gennip van Lexis Nexis werd gemeld dat 80% van de studenten in natural
language zoekt (en niet met booleaanse operatoren). Hierop probeert LexisNexis
in te spelen bij de verbetering van de interface van de databank. Hierover had
ik nog wel wat meer willen weten.
In
de Workshop Textmining van Hugo Benne
(docent aan de ICT opleiding van de Haagse Hogschool) gingen we aan de slag met
de gratis tool RapidMiner. We hadden thuis al een reader moeten bestuderen, de
software moeten installeren en een paar videofilmpjes bekeken.
Textmining of textdatamining verwijst naar het proces om met allerhande ICT-technieken waardevolle informatie te halen uit grote hoeveelheden tekstmateriaal. Bij textmining wordt gezocht naar patronen in (of nieuwe informatie uit) ongestructureerde of semigestructureerde tekst in de vorm van natuurlijke taal.
Voorbeelden: een supermarkt onderzoekt in de transactionele gegevens uit de kassaregistraties welke producten vaak samen worden verkocht zodat deze artikelen fysiek bij elkaar in de buurt kunnen worden uitgestald in de winkel.
Textmining of textdatamining verwijst naar het proces om met allerhande ICT-technieken waardevolle informatie te halen uit grote hoeveelheden tekstmateriaal. Bij textmining wordt gezocht naar patronen in (of nieuwe informatie uit) ongestructureerde of semigestructureerde tekst in de vorm van natuurlijke taal.
Voorbeelden: een supermarkt onderzoekt in de transactionele gegevens uit de kassaregistraties welke producten vaak samen worden verkocht zodat deze artikelen fysiek bij elkaar in de buurt kunnen worden uitgestald in de winkel.
In het textmining proces heb je grofweg drie subprocessen: stap 1 is het bepalen welke dat je wilt gaan minen en het inlezen daarvan (collect); stap 2 is het voorbereiden (opschonen, structureren) van deze data (pre-proces) en de derde stap is het analyseren van de data (analyze).
In
de workshop moesten we aan de slag met een casus over senimentanalyse van
filmreviews. We moesten verschillende processen toepassen op een excelbestand
met 1226 filmreviews voor 17 verschillende speelfilms. Doel van de opdracht was
om te bepalen wat het sentiment van de reviews was en dat te vergelijken met de
cijfers die de reviewers aan de film hadden toegekend.
Hoewel
de workshop voor mij wat te technisch was, was mijn nieuwsgierigheid gewekt,
ook omdat ik een jaar geleden op een bijeenkomst van medisch bibliothecarissen
al had gehoord dat de technieken uit tekst- en datamining in toenemende mate worden
toegepast op wetenschappelijke literatuur, zoals tijdschriftartikelen,
monografiën en conference papers. Ik zal hierover meer informatie verzamelen en
een workshop(je) geven voor geïnteresseerde collega’s.
Meer
lezen: https://voginiplezing.files.wordpress.com/2018/04/workshop-text-mining-vogin-28-3-2017-27-3-18.pdf
Rein Tellier en Elwin de Man, werkzaam bij het
Regionaal informatie knooppunt van de Politie Noord-Holland vertelden over hun
project Forensisch OSINT (open source intelligence), een nieuwe methode van
zoeken en vinden. Veel open deuren,
maar wel interessant om te horen hoe zorgvuldig en juridisch correct de politie
zich moet gedragen bij het verzamelen van informatie (op internet) over
verdachte personen.
Zelfs hun presentatie mag niet zomaar op de Vogin-site gezet worden: Informatie over deze presentatie kan per mail aangevraagd worden bij elwin.de.man[at]politie.nl
Zelfs hun presentatie mag niet zomaar op de Vogin-site gezet worden: Informatie over deze presentatie kan per mail aangevraagd worden bij elwin.de.man[at]politie.nl
Jaco
van Ossenbruggen (Centrum Wiskunde en Informatica) hield een
interessant verhaal over taal en veranderende begrippen: Detecteren van veranderingen in de betekenis van woorden en concepten (Enriching
linked open data with distributional semantics to concept drift) oftewel.
Concept drift heeft betrekking op de
veranderende betekenis van begrippen. Vroeger was het begrip ‘wetenschap’ verbonden
met het bestuderen van Bijbelse teksten. Nu juist een seculiere activiteit. Of:
Woorden die we gebruiken veranderen: migranten, vluchtelingen. Kunnen we
relaties in linked open data gebruiken om te bestuderen hoe een concept
veranderd is, bijv de term gay?
De
onderzoeksgroep van Jaco bekijkt hoe fouten in linked open data
voorkomen/opgelost kunnen worden, zodat je als je twee informatiesystemen
koppelt één lijst met concepten en relaties kunt gebruiken. Dit heet ontology
matching en heeft een link met het bouwen van een thesaurus om informatie van
metadata te voorzien. Ook viel het begrip ‘distributional semantics’: welke
woorden komen vaak met andere woorden voor?
En
kun je voorspellen dat een term uit de mode raakt, wordt samengevoegd of
opgesplitst?
De Waybackmachine:
DBpedis probeert dit voor open data, trends analyseren.
Meer lezen: https://vogin-ip-lezing.net/presentaties-2018/#ossenbruggen
Meer lezen: https://vogin-ip-lezing.net/presentaties-2018/#ossenbruggen
Maarten Dammers hleld een pleidooi
voor het delen van data via Wikidata
Wikidata is a free, collaborative,
multilingual, secondary database, collecting structured data to provide support
for Wikipedia, Wikimedia Commons, the other wikis of the Wikimedia movement, and to anyone in the
world.
Wikidata is 5 jaar geleden gestart en heeft nu al 49 miljoen items, waaronder
3 miljoen over personen. Wikidata bevat 280.000 schilderijen. Data worden
geautomatiseerd verzameld. Paar jaar geleden heeft iemand alle straten
ingeladen in wikidata. Leek niet nuttig, maar bleek later handig ivm het koppelen
van foto’s en informatie aan namen en schilders enz.
Elke
claim is voorzien van een bron.
Leuk
voorbeeld: Wiki loves monuments, begonnen in NL als fotowedstrijd om zoveel
mogelijk foto’s en informatie over monumenten te verzamelen, is nu in 40
landen. Gegevens worden beetje bij beetje ingelezen in wikidata
Wikidata
bevat 14 miljoen (wetenschappelijke) artikelen, ook gebruikt bij de
bronvermeldingen in Wikidata.
Interessant
om eens te bekijken: https://query.wikidata.org Je kunt hier zelf
queries maken met de gegevens uit Wikidata: bijv. Welke grote steden hebben een
vrouwelijke burgemeester? Of: wie is vandaag jarig?
Wat
is de grootste schilderijencollectie?
Je
kunt niet zomaar alle datasets op wikidata zetten, Wikidata legt de nadruk op
samenhang met andere data. Publiceer
je data als open data op je website, dan wordt je gemakkelijker gevonden door wikidata-verzamelaars.
Ruben Verborgh (Universiteit van Gent)
vertelde over “Linked data, blockchain en andere epische sagen”
In
zijn (voor mij wat te) technische verhaal legde hij uit waarom het internet
geherdecentraliseerd moet worden en welke rol blockchain-technologie hierbij
kan spelen
Als je nu een like geeft bij een Facebook post, staat die like op de server van Facebook. In zijn ideale model staat die like op jouw eigen server. Hierdoor krijg je een hele andere economie, waarbij grote techbedrijven zoals Google en Facebook minder macht hebben over data.
Als je nu een like geeft bij een Facebook post, staat die like op de server van Facebook. In zijn ideale model staat die like op jouw eigen server. Hierdoor krijg je een hele andere economie, waarbij grote techbedrijven zoals Google en Facebook minder macht hebben over data.
Verborgh
pleit voor het gebruik van linked data, die pas waardevol zijn als je meerdere
bronnen combineert (linkt), bijv. link tussen twee bronnen, bijv. website vogin
en de locatie OBA)
Blockchain
is het nieuwe XML, te pas en te onpas gebruikt. Het is een technologie die nu
bij bitcoin wordt gebruikt, maar die je ook zou kunnen gebruiken om
data/informatie versleuteld van de ene naar de andere server te krijgen. Door
‘decentralized consensus’.