Was muss man anders machen, um eine neue Search Engine von der Konkurrenz abzuheben? Und besonders dann, wenn der Konkurrent «Google» heisst? Werner Hartmann und Sam Zürcher referieren über ihre «horizobu exploration engine».
Vortrag an Reto Hartingers Internet Briefing in Zürich.
horizobu – potentielle künftige semantische Suchmaschine?
«horizobu» steht für ‹horizon› erweitert um «bu», um eine freie URL zu finden ;-)
Sie Search Engine von horizobu versucht, einen «Dialog» aufzubauen, indem die Volltextsuche durch Tag-basierte Indexe ergänzt. Damit geht man im Gegensatz zu Altavista in Richtung Meta-Suchmaschine.
Bei der Informationsrecherche geht es darum, Fragen mit einem bestehenden Datensatz abzugleichen. Die User möchten dann aber nicht die 1000 besten Treffer erhalten, sondern nur eine Handvoll. Herauszufinden, was der User eigentlich wollte, als er zwei, drei Keywords in den Suchschlitz eintippte, ist eine grosse Herausforderung.
Konventionelle Kategorisierungssysteme basieren auf von Experten vergebenen Schlagworten. «Normaluser» denken und sprechen aber nicht gemäss diesen Schlagworten. «Elefanten» sind für die wenigsten von uns «Säugetiere».
Algorithmische Suchmaschinen kategorisieren «allgemeiner» und maschinell. Das Erfassen von Multimediainhalten ist aber auch hier schwierig und man muss sie überhaupt erst finden. Das Sortieren der Trefferliste nach Relevanz ist eine grosse Herausforderung: Wie soll man wissen, was jemand mit «Läufer» meint? Kommt der Begriff aus Schach, Textilmaschinen, Marathonläufer, Tischläufer, Radiergummi, etc?
Als Benutzer wüsste man am besten über die Suchlogik Bescheid, damit man die Suchabfrage präziser stellen könnte. Zudem ist es für den User nicht trivial, die weiterführenden Suchbegriffe zu formulieren.
Social Search Engines wie Wikipedia, Social Bookmarking, Delicious oder Mr. Wong basieren auf Tags, also einer Verschlagwortung durch die User (Folksonomy vs. Taxonomy). Die Tags werden dann zur Informationserschliessung herangezogen. «Library Thing» ist ein Dienst, bei dem man seine Bücher verschlagworten kann und einem andere potentiell interessante Bücher präsentiert werden. Dort haben Bücher eine massiv höhere Anzahl Tags als in konventionellen Universitätsbibliotheken. Das Tagging ist zwar unstrukturiert und dadurch chaotisch, der Suchmaschine macht dies aber nichts aus und sie findet trotzdem die gesuchten Inhalte.
Hybride Suchmaschinen kombinieren algorithmische Suchen mit tag-basierten Algorithmen. Syntaktische Suchen werden tendenziell abgelöst von semantischen Suchen: Was meinte der User eigentlich?
Funktionen einer Personensuchmaschine sind ein Fokus von horizobu. Nach einer Suche werden potentiell weiterführende Tags angeboten, mit denen man die Suche verfeinern kann. Die Maschine liefert pro Suchabfrage ca. 3’000 Tag-Vorschläge, von denen gemäss einer Gewichtung die wichtigsten dargestellt werden (Tag-Rank Algorithmus).
Mit Hadoop-Technologie und der Designagentur fuklab.org wurde der Prototyp überarbeitet. Der Index basiert auf dem Yahoo-Index, zusätzliche Tags werden aus diversen Social Media Sites herangezogen.
Horizobu versucht Treffer anzuzeigen, was der User gemeint haben könnte. Google bringt mehr spezifische Begriffe, horizobu weniger aber allenfalls semantisch treffendere Vorschläge. Die von Usern zugefügten weiteren Tags werden von horizobu erfasst und für künftige Suchen berücksichtigt.
Die User Experience bei horizobu geht tatsächlich in Richtung Horizonterweiterung: Google findet «vertikal» vertiefter, horizobu «horizontal» relevanter. Man verzichtet bewusst auf eine grosse Trefferanzahl zuhanden einer semantisch relevanteren Trefferliste mit nur 6 Resultaten.
https://twitter.com/#!/WalterSchaerer/status/111491983020789760