Pagina's

donderdag 28 februari 2013

VOGIN-IP 28 februari - lezingen


Op donderdag 28 februari was ik aanwezig bij de VOGIN-IP lezing in de Brakke Grond in Amsterdam. Deze dag stond in het teken van workshops en lezingen rond zoeken en vinden op internet.

Een verslag van alle lezingen en workshops staat op http://vogin-ip-lezing.net/terugblik-slides/

foto Wouter Gerritsma
 

14:00-14:45 Phil Bradley - www.philb.com

What’s up with Google and other search engines? – The changing landscape of web search

Kern van zijn betoog: het gaat niet langer om zoekmachines en webpagina's, maar om mensen en netwerken! Dat verandert het zoeken in de toekomst.

Traditionele zoekmachines hebben focus op webpagina's, nadruk op oud, zeggen niets over authority

Google doesn't really care about search, maar is een advertentiebedrijf
Resultaat: slechte kwaliteit data, 'gaming' van de zoekmachine

Google doesn't want us to think (want dan gaan we ergens anders heen)
Vb Je zoekt op 'teaching search skills'. Google zegt bedoel je 'research skills?'
Resultaat: filter bubbles, stereotiepe beelden van de wereld

Google wil niet dat we advanced zoeken, verbergt het. Wil geld verdienen.
 
Afgelopen paar jaar enorme toename van data! Maar steeds minder mensen kunnen vertrouwen op zoekmachines, gebruik loopt terug.
Internet is een bende, geen zoekmachine kan daar wijs uit.
Laatste paar jaar: opkomst social search engines, niet gericht op websites, maar op social media generated content. 
Bing in VS resultaten uit social media
Blekko geeft resultaten uit je vriendenkring. Is veel belangrijker dan wat websites zeggen! Daar kun je we lop vertrouwen.
 
Google fights back! Met google + (met circles en communities)

Als we iets willen weten, info nodig hebben, gaan we naar plekken, mensen die we vertrouwen, bibliotheken.
In toekomst moeten wij als bibliothecarissen actiever worden op social media, sharing content, commentaar geven, guiding people.
Phil volgt bijv. 1200 bibliothecarissen via Twitter en krijgt snel antwoord op een vraag, dat werkt beter dan een zoekmachine.
 
Bijv. best young adult fiction pinterest pagina. Heeft waarde omdat iemand dat verzameld heeft.
We kunnen als bibliotheken onze eigen tools maken en gebruiken en ons netwerk uitbreiden.We maken onze eigen kennisnetwerken.



14:45-15:15 Antal van den Bosch - taalkundige Universiteit Nijmegen

Text mining: automatische en grootschalige analyse van entiteiten en gebeurtenissen in tekst

Informatie is niet hetzelfde als taal
Language is a great way of hiding information. Bijv Navaho indianen in WO II info doorgaven in eigen taal, maar Japanners kenden die taal niet.
In Informatiebehoefte wordt vaak niet voorzien door linked data, gecureerde data ( uit bibliotheken etc) maar via zoeken in losse teksten.

Bijv. Vraag aan historici: wat zijn mogelijke oorzaken van ' averting strike threats in the first half of the 20th century'
Na analyse krantenberichten KB dook woord "rijksbemiddelaar" vaak op. Dit bleek iemand die tot de WO II conflictenin de kiem smoorde door mensen uit te nodigen in Den Haag.

Men ontwikkelt bij zijn universiteit succesvolle data-driven applications. Men bouwt hele specifieke filters, uiteraard beter dan Google Translate. En men maakt spraakherkenningssoftware.

Producten van vakgroep van Antal: Valkuil.net spellingcorrector. Fowlt.net spelling corection.


15:15-15:45 Rinke Hoekstra - VU / UVA

Gebruik van linked data voor het bouwen van een semantisch web van data

Hoekstra houdt zich bezig met linked data en het digitaal beschikbaar stellen van onderzoeksgegevens. Hij bouwt aan een web van onderling verbonden onderzoeksdata via linkedscience.org.
Zo kun je makkelijker de gegevens achter een publicatie achterhalen en is het mogelijk daarmee verband houdende andere gegevens tegen te komen. In die gestructureerde onderzoeksgegevens kun je ook gerichter zoeken dan met full-text zoekvragen mogelijk is.
Er ontstaat zo een nieuwe wetenschappelijke discipline: webscience, waarbij informatici en sociale wetenschappers samen onderzoek doen.

Voorbeelden: Commit Vivo (publiek-private research community en portal) ; Hubble-project (clinical guidelines) en Linkitup met publicaties van wetenschappers.


16:00-16:30 Joost Janssen - PWC

Enterprise search, waarom niet en wanneer wel - de PWC casus

Pwc= Price Waterhouse Cooper, zakelijke dienstverlener, 180.000 medewerkers wereldwijd. Vooral bekend van accountancy
Www.joostjanssen.nl houdt zich bezig met kennismanagement/ collective intelligence
PWC is een kennisorganisatie: kennis van markt, klanten, vakkennis, eigen organisatie.

Enterprise search is belofte niet nagekomen:
* Enterprise belooft 1 zoekbox en doorzoekt alle bestanden. Lukt niet bij PWC. Verschillende zoekinterfaces voor nieuws, kennisdatabase (bijgehouden door informatiespecialisten), etc.

* bij ene database is betrouwbaarheid het belangrijkst, bij andere relevantie, bij andere actualiteit. Zoektechnologie kan daar niet zo goed mee omgaan bij enterprise search.

* technische oplossingen gaan te snel.

* juridisch is het lastig om info uit te wisselen.

Er is een oplossing: je netwerk bepaalt wat belangrijke content is!
Dat doe je door social media te gebruiken. Bijv. Spark, platform voor content, communities etc.
Als je zoekt op een persoon, krijg je ook content en communities waar hij/zij in zit.


16:30-17:00 Henk van Ess - onderzoeksjournalist

Let's get personal met Facebook Graph Search en Google Now


Dankzij tablets en smartphones weten FB, Google en Apple heel veel van ons.
Leidt tot nieuwe diensten. Waarom laten we even in het midden ;-(

Nieuwe diensten:
Google now: je krijgt de juiste info op het juiste moment.
Bijv. je zet zelf afspraak in kalender. Krijgt van Google een mail als je weg moet, want er blijken files. Google geeft kaart van route woonwerkverkeer, toont automatisch bezienswaardigheden, waarschuwt dat je moet uitchecken uit je hotel etc. Voorwaarde is dat je ingelogd blijft in Google.

Facebook Graph search
Bijv. van mensen die bij openbare bibliotheek Amsterdam werken (en dat hebben gedeeld op Facebook) kun je allerlei dingen te weten komen. Of ze van katten houden of van chinees eten.
Zal volgens internet juristen niet toegestaan worden in NL of: staat standaard uit en je moet optie zelf aanzetten.




VOGIN-IP 28 februari - workshop beeld en geluid

Op donderdag 28 februari was ik aanwezig bij de VOGIN-IP lezing in de Brakke Grond in Amsterdam. Deze dag stond in het teken van workshops en lezingen rond zoeken en vinden op internet.

Een verslag van alle lezingen en workshops staat op http://vogin-ip-lezing.net/terugblik-slides/


Workshop 'zoeken naar beeld en geluid' door Jeroen Bosman,
vakreferent Geowetenschappen Universiteit Utrech'.
foto: Wouter Gerritsma
 
Zie Slideshare presentatie van Jeroen Bosman

Deel 1 Beeldmateriaal


Er is een semantic gap bij het zoeken in beeldmateriaal. 
Ik zie een papegaai. De computer ziet nullen en enen.
Beeld en geluid bevatten geen (computerleesbare) woorden. Er is verschil tussen wat je ziet en hoe je dat interpreteert.
 
Text based image en sound retrieval:
Computer zoekt op tekst die om beeld staat
Google geeft niet vrij hoeveel tekst rond beeld ze mee- metadateren
 
Content based image and sound retrieval:
Al langer gebruikt bij defensie. Computer " herkent" de voorstelling(cbir) of geluiden
Dankzij smartphones komen er steeds meer applicaties die automatisch beeld en geluid herkennen. Bijv. Shazam
Maar nog op een vrij laag niveau als je bedenkt hoeveel betekenis er in beeld zit

Tekst op pagina`s wordt voor 85  procent geindexeerd, maar voor beeld zijn er enorme verschillen, vaak wordt maar 50% van het beeldmateriaal geïndexeerd,  is ook afh van zoekmachines.

Niveaus van beeldontsluiting:
- Pre-iconografisch: wat zie ik. Kleuren rood, wit, blauw als je plaatje vlag ziet
-Iconografisch: wat stelt het voor, wat betekent het. Bijv. nederlandse vlag
-Iconologisch: wat is het concept dat het symbolisert- interpretatie nodig, is cultuurgebonden
 
 
Verschillende manieren om te zoeken naar beeld:
1 t/m 4 = cbir - content based image retrieval
 
1) chromatik search: http://chromatik.labs.exalead.com 
Iets dat je zoekt is groen of je zoekt iets groens

2) zoeken naar een schets, moet je wel kunnen tekenen
Ibm qbic, retrievr
Whatthefont (lettertypes zoeken)
 
3) zoeken op basis van afbeeldingen, bijv foto met spinnenweb - url van je foto gebruiken.
In google: in zoekbalk search by image. Gebeurt m.n. op basis van kleuren.
Zo uitzoeken welke sites jouw foto gebruikt hebben - fotografen zijn hier blij mee

4) zoeken op basis van beeldherkenning door computer: semantische concept detectie
Op basis van veel voorbeelden leert de computer per individueel concept hoe afbeeldingen daarvan - ook in video - te herkennen zijn. Meeste voorbeelden nog in conceptfase.
 
 5) text based image retrieval
Inhoudelijke woorden: bestandsnaam, tekst uit omgeving, toegekende trefwoorden/ metadata
6) zoeken naar formele kenmerken, in/ uit beeldbestand zelf( exif metadata of iptc metadata). Gebruik http:// gbimg.org of irfanview om deze metadata zichtbaar te maken. Zijn technische gegevens. Bijv gps-gegevens bij foto.
 
7) advanced search met google images, ná zoekactie.
Searchtools: geeft gevorderden opties, bijv any size - exactly.




 





Testje: Jeroen stelt ons een paar vragen:
Zoeken we meestal op laptop/ desktop of mobiel?
Engelstalige interface of ned.?
Je krijgt grote relevantieverschillen. Goed om je bewust van te zijn. Filterbubble!

Zoekoefening: 
Je hebt ooit plaatje van bananen met koektrimmel met choco- kerstkransjes gezien. Hoe zoek je dit terug? Op flickr vind je dit alleen met woorden 'gezond ongezond'. Hangen geen tags 'bananen' etc aan. Wat is het doel van de foto? Proberen in hoofd van de degene te kruipen die foto ontsloten heeft. Evt ook met vagere concepten zoeken. Evt met kleur, sfeer.Andere vraag dan wat staat er letterlijk op de foto?
 
 

Deel 2: Geluid

Verschijningsvormen: muziek, spraak, instrumentaal, ander geluid

Niveaus van geluidontsluiting:
Non-verbaal / Verbaal
Pre-audiografisch: wat hoor ik  / hard of zacht geluid etc.
Audiografisch: wat betekent het ( sirene ned ambulance). Wat wordt gezegd?
Audiologisch: wat is het concept dat het symboliseert, alarm, noodgeval ( kennis van context en interpretaie nodig)

 
Verschillende manieren om te zoeken naar geluid:
 
1) Content based audio/ sound recognition, bijv Shazam (herkent liedjes).
Shazam meet frequentie van pieken in volume op bep. tijdstippen. Volgorde in pieken is uniek. Maakt soort vingerafdrukken. Shazam gebruikt jouw persoonlijke gegevens in ruil voor dienst.
Er zijn meer van dit soort projecten, zoals Witchcraft plus project van Meertens Instituut. of Soundhound.
 
2) Spraakherkenning gaat grote vlucht nemen!
 
Zoeken in Youtube. Filters na zoekactie gebruiken!
Bijv. CC ( closed caption) - zoeken in ondertitels (spraak) bij filmpjes
Bijv. Pope Benedictus -
Beta-versie: translate captions (hierop kun je ook zoeken)
Dit zou grote stap voorwaarts zijn om semantic gap te overbruggen

3) text based audio retrieval:
Inhoudelijk: zoals zoeken in metadata, betandsnaam, tekst in omgeving geluid
Allmusic.com: album moods
 
4) social network based audio retrieval
Op basis van gebruikskenmerken, social media
 
5) zoeken met zoekmachines
Wel zoeken met mp3 in url, filteren op audiobestanden niet mogelijk.
 
Gespecialiseerde zoekmachines, zoals bijv. Soundjax.com : enkele 10000-den geluiden geïndexeerd.

Zoekstrategie voor audiozoeken: zie slideshare!
 
 

Deel 3: videomateriaal

Bronnen en zoeksystemen:
Youtube en Vimeo, voor geupload materiaal en magere ontsluiting. Unieke films moeilijk te vinden.

In Youtube : filtermogelijkheden gebruiken!











Maar niet te snel op lange films filteren. 
Bijv. How to build a bicycle wheel (bestaat uit 13 delen, zou je dan niet gevonden hebben).
Pas relevantie-ordening in Youtube aan!
 
Maar kijk ook naar Blinkx, voxalead, Google video (vindt video op willekeurige sites).
Probeer filter ' duration' in Google.
Veel overlap, mensen zetten filmpjes vaak op meerdere sites.
 
Probeer verschillende opties uit om Filter Bubble te omzeilen!
 
Archieven en televisieuitzendingen:  zie slideshare!
- Beeld en geluid
- uitzendinggemist > 2005
- BBC archive 1970>; je vindt materiaal dat niet via Google te vinden is.
- Surf Media ( academia). Deels terug te vinden via Picarta.

Denk ook aan gespecialiseerde videosites zoals TED, Medtube, BirdCinema, Open Beelden ( europeana-project, vergelijk wikimedia)
 
Toekomst: MOOC's! (massive open online courses). Bevatten veel beeldmateriaal. Waar zetten we dat bij elkaar? Hoe zoeken we erop? Hoe vinden we ze terug?
 
 









dinsdag 26 februari 2013

Ontboeken en Inholland

Het bericht dat de bibliotheekcollectie van Hogeschool Inholland per september 2015 volledig digitaal wordt, sloeg natuurlijk in als een bom in bibliotheekland. En er werd kritisch op gereageerd:

Foliaweb van de Hogeschool Amsterdam
Judith van Hooijdonk van Hogeschool Zuyd
Raymond Snijders van Hogeschool Windesheim

Bert Zeeman van de Universiteit van Amsterdam  durfde zelfs te wedden dat Inholland ook in 2016 nog over een fysieke bibliotheek beschikt.

Geen fysieke exemplaren meer om te bestellen, te ontsluiten, te plastificeren en uit te lenen. Dat zal vast veel goedkoper zijn. Maar het is de vraag of het onderwijs genoegen neemt met dit van hogerhand opgelegde beleid en of de uitgevers wel genegen zijn om de boekencollectie nu opeens digitaal aan te gaan bieden. Die collectie is nu nog grotendeels alleen op papier beschikbaar en in het Nederlands, zoals bij de meeste hogeschoolbibliotheken. Bovendien is het maar de vraag of studenten schermteksten even goed en graag lezen als papieren teksten.



Het bericht leverde echter ook een nieuw woord op, dat weliswaar nog niet is opgenomen in het woordenboek, maar al steeds vaker opduikt op internet: 'ontboeken'.
In dagblad Trouw van 25 februari jl. wijdde Jaap de Berg er een berichtje aan in zijn taalrubriek. Ontboeken was tot nu toe vooral bekend als 'annuleren', maar sinds steeds meer bibliotheken digitaal gaan en zich 'ontdoen van (papieren) boeken', krijgt het woord 'ontboeken' een nieuwe betekenis.
Kampioen ontboeken lijkt de hogeschool Inholland te worden.

Gelukkig lees ik op een oude blogpost van Gerrit Komrij:
Op Internet is het boek volop aanwezig. Het boek van vroeger en het boek van straks. Het boek is daar van dag tot dag boekiger geworden én het boek is daar steeds meer aan het ontboeken. Zowel het een als het ander.