Pagina's

vrijdag 6 april 2018

VOGIN IP 2018: textmining, wikidata en blockchain


Op woensdag 28 maart 2018 organiseerden VOGIN en vakblad InformatieProfessional gezamenlijk voor de zesde keer een VOGIN-IP-lezingendag. Dat is een dag vol met lezingen en workshops rond het thema “zoeken en vinden van informatie”. Voor iedereen die zich met informatie bezighoudt is dit een dag om te leren over de nieuwste trends en ontwikkelingen en om met vakgenoten te praten over de vernieuwingen in ons vakgebied. Het evenement vond plaats in de Openbare Bibliotheek van Amsterdam (OBA).

Het was druk in de OBA, honderden informatiespecialisten, functioneel beheerders, dataspecialisten etc. volgden gezamenlijk de keynote-lezing van de Amerikaanse bilbliothecaris Joseph Bush over artificial intelligence vs automation. Strekking van zijn (vrij technische) verhaal was dat je ondanks geautomatiseerd classificeren van informatie en het geautomatiseerd toekennen van metadata nog steeds ook mensen (informatiespecialisten!) in dit proces nodig hebt, onderwerpsspecialisten die toezicht houden op het proces. Hij hield verder een pleidooi om beter gebruik te maken van de data binnen organisaties: verzamelen, verwerken, analyseren en voorspellingen doen.

Meer lezen:
https://vogin-ip-lezing.net/presentaties-2018/#busch


In een productpresentatie van Marco van Gennip van Lexis Nexis werd gemeld dat 80% van de studenten in natural language zoekt (en niet met booleaanse operatoren). Hierop probeert LexisNexis in te spelen bij de verbetering van de interface van de databank. Hierover had ik nog wel wat meer willen weten.
 

In de Workshop Textmining van Hugo Benne (docent aan de ICT opleiding van de Haagse Hogschool) gingen we aan de slag met de gratis tool RapidMiner. We hadden thuis al een reader moeten bestuderen, de software moeten installeren en een paar videofilmpjes bekeken.
Textmining
 of textdatamining verwijst naar het proces om met allerhande ICT-technieken waardevolle informatie te halen uit grote hoeveelheden tekstmateriaal. Bij textmining wordt gezocht naar patronen in (of nieuwe informatie uit) ongestructureerde of semigestructureerde tekst in de vorm van natuurlijke taal.
Voorbeelden: een supermarkt onderzoekt in de transactionele gegevens uit de kassaregistraties welke producten vaak samen worden verkocht zodat deze artikelen fysiek bij elkaar in de buurt kunnen worden uitgestald in de winkel.


In 
het textmining proces heb je grofweg drie subprocessen: stap 1 is het bepalen welke dat je wilt gaan minen en het inlezen daarvan (collect); stap 2 is het voorbereiden (opschonen, structureren) van deze data (pre-proces) en de derde stap is het analyseren van de data (analyze).
In de workshop moesten we aan de slag met een casus over senimentanalyse van filmreviews. We moesten verschillende processen toepassen op een excelbestand met 1226 filmreviews voor 17 verschillende speelfilms. Doel van de opdracht was om te bepalen wat het sentiment van de reviews was en dat te vergelijken met de cijfers die de reviewers aan de film hadden toegekend.

Hoewel de workshop voor mij wat te technisch was, was mijn nieuwsgierigheid gewekt, ook omdat ik een jaar geleden op een bijeenkomst van medisch bibliothecarissen al had gehoord dat de technieken uit tekst- en datamining in toenemende mate worden toegepast op wetenschappelijke literatuur, zoals tijdschriftartikelen, monografiën en conference papers. Ik zal hierover meer informatie verzamelen en een workshop(je) geven voor geïnteresseerde collega’s.



Rein Tellier en Elwin de Man, werkzaam bij het Regionaal informatie knooppunt van de Politie Noord-Holland vertelden over hun project Forensisch OSINT (open source intelligence), een nieuwe methode van zoeken en vinden. Veel open deuren, maar wel interessant om te horen hoe zorgvuldig en juridisch correct de politie zich moet gedragen bij het verzamelen van informatie (op internet) over verdachte personen.
Zelfs hun presentatie mag niet zomaar op de Vogin-site gezet worden: Informatie over deze presentatie kan per mail aangevraagd worden bij elwin.de.man[at]politie.nl


Jaco van Ossenbruggen (Centrum Wiskunde en Informatica) hield een interessant verhaal over taal en veranderende begrippen: Detecteren van veranderingen in de betekenis van woorden en concepten (Enriching linked open data with distributional semantics to concept drift) oftewel.

Concept drift heeft betrekking op de veranderende betekenis van begrippen. Vroeger was het begrip ‘wetenschap’ verbonden met het bestuderen van Bijbelse teksten. Nu juist een seculiere activiteit. Of: Woorden die we gebruiken veranderen: migranten, vluchtelingen. Kunnen we relaties in linked open data gebruiken om te bestuderen hoe een concept veranderd is, bijv de term gay?
De onderzoeksgroep van Jaco bekijkt hoe fouten in linked open data voorkomen/opgelost kunnen worden, zodat je als je twee informatiesystemen koppelt één lijst met concepten en relaties kunt gebruiken. Dit heet ontology matching en heeft een link met het bouwen van een thesaurus om informatie van metadata te voorzien. Ook viel het begrip ‘distributional semantics’: welke woorden komen vaak met andere woorden voor?
En kun je voorspellen dat een term uit de mode raakt, wordt samengevoegd of opgesplitst?
De Waybackmachine: DBpedis probeert dit voor open data, trends analyseren.

Meer lezen:
https://vogin-ip-lezing.net/presentaties-2018/#ossenbruggen


Maarten Dammers hleld een pleidooi voor het delen van data via Wikidata
Wikidata is a free, collaborative, multilingual, secondary database, collecting structured data to provide support for Wikipedia, Wikimedia Commons, the other wikis of the Wikimedia movement, and to anyone in the world.


Wikidata is 5 jaar geleden gestart en heeft nu al 49 miljoen items, waaronder 3 miljoen over personen. Wikidata bevat 280.000 schilderijen. Data worden geautomatiseerd verzameld. Paar jaar geleden heeft iemand alle straten ingeladen in wikidata. Leek niet nuttig, maar bleek later handig ivm het koppelen van foto’s en informatie aan namen en schilders enz.
Elke claim is voorzien van een bron.

Leuk voorbeeld: Wiki loves monuments, begonnen in NL als fotowedstrijd om zoveel mogelijk foto’s en informatie over monumenten te verzamelen, is nu in 40 landen. Gegevens worden beetje bij beetje ingelezen in wikidata
Wikidata bevat 14 miljoen (wetenschappelijke) artikelen, ook gebruikt bij de bronvermeldingen in Wikidata.
Interessant om eens te bekijken: https://query.wikidata.org Je kunt hier zelf queries maken met de gegevens uit Wikidata: bijv. Welke grote steden hebben een vrouwelijke burgemeester? Of: wie is vandaag jarig?
Wat is de grootste schilderijencollectie?
Je kunt niet zomaar alle datasets op wikidata zetten, Wikidata legt de nadruk op samenhang met andere data. Publiceer je data als open data op je website, dan wordt je gemakkelijker gevonden door wikidata-verzamelaars.



Ruben Verborgh (Universiteit van Gent) vertelde over “Linked data, blockchain en andere epische sagen”
In zijn (voor mij wat te) technische verhaal legde hij uit waarom het internet geherdecentraliseerd moet worden en welke rol blockchain-technologie hierbij kan spelen
Als je nu een like geeft bij een Facebook post, staat die like op de server van Facebook. In zijn ideale model staat die like op jouw eigen server. Hierdoor krijg je een hele andere economie, waarbij grote techbedrijven zoals Google en Facebook  minder macht hebben over data.
Verborgh pleit voor het gebruik van linked data, die pas waardevol zijn als je meerdere bronnen combineert (linkt), bijv. link tussen twee bronnen, bijv. website vogin en de locatie OBA)
Blockchain is het nieuwe XML, te pas en te onpas gebruikt. Het is een technologie die nu bij bitcoin wordt gebruikt, maar die je ook zou kunnen gebruiken om data/informatie versleuteld van de ene naar de andere server te krijgen. Door ‘decentralized consensus’.