Eine Websuche besteht aus mehreren Bestandteilen. Einer davon ist ein WebCrawler, der nach neuen Beiträgen und Aktualisierungen sucht. Hierfür habe ich bereits einen Prototypen vorliegen und möchte einige Erkenntnisse und weitere Schritte dokumentieren.
Eine technische Abhandlung wird es wieder auf norberteder.com geben, hier erfolgen einige inhaltliche Themen und freue mich natürlich über jedes Feedback, das ich von deiner Seite erhalten kann.
Der Webcrawler – nennen wir ihn gbbot – hangelt sich von einer Startseite ausgehend immer weiter und dokumentiert neue gefundene Domains und Links. Er besitzt nur die Aufgabe, neue Inhalte zu finden, nicht, sie zu bewerten.
Datenflut
Was kommt denn dabei so an Daten zusammen, wenn man so einen Bot laufen lässt?
Ausgangspunkt war meine Domain https://c0d1.eu. Die Seite ist noch recht neu, es gibt eine Handvoll Beiträge und Links. Nichts im Vergleich zu langjährigen, gut gepflegten Blogs.
Erster Durchlauf mit Berücksichtigung von 4 Ebenen
- 24 Domains
- 87 Links
Zweiter Durchlauf mit Berücksichtigung von 4 Ebenen
- 583 Domains
- 2935 Links
Alle Mailto-Adressen, doppelten Adressen und reine Client-Links wurden dabei ausgefiltert.
Bereits beim zweiten Durchlauf waren diverse Social Media Plattformen, sowie die Webseiten großer Tech-Konzerne mit in der Liste. Ein weiterer Durchlauf wäre dann wohl explodiert.
Genug Daten, um diese etwas zu analysieren und einige Erkenntnisse abzuleiten.
Welche Möglichkeiten tun sich auf
- Da ja tatsächlich sehr viele Blogsysteme bereits in der URL mit /tag/ bzw. /category/ arbeiten, kann diese Information extrahiert und durchaus auch für eine Einordnung der jeweiligen Website verwendet werden. Zumindest lässt diese eine Abstimmung mit den entsprechenden META-Tags zu.
- Gerade Blogs liefern sehr häufig Sitemaps aus, die wunderbar verwendet werden können, um ressourcenschonend die Struktur der Website, sowie die Artikel zu finden. Teilweise liefern auch diese Tags und Kategorien. Das hilft zusätzlich.
Welche Probleme fallen auf
- Unterscheidung Blog und normale Webseite – im ersten Schritt werden neue Domains eingetragen, aber als ungeeignet markiert. Eine Aktivierung erfolgt manuell. Das ist Arbeit, aber ohne sie wird das ganze Projekt in wenigen Minuten so derartig aufgeweicht, dass nichts mehr davon übrig bleibt.
- Sehr viele Verlinkungen auf HTTP statt HTTPS. HTTP müsste ja mittlerweile schon ausgestorben sein. In vielen Fällen gibt es einen Redirect, aber sicherlich nicht in allen und daher möchte ich meinen, dass schon sehr viele Links tatsächlich ins Leere laufen.
- Viele Tag-Informationen sind redundant, unterschiedliche Wörter, die sich zu einem zusammenfassen lassen. Das wird eine der großen Herausforderungen, hierfür eine passende Lösung zu finden.
Nächste Schritte
Die Liste an gefundenen Blogs wird natürlich immer größer und größer. Ich möchte euch diese Liste natürlich auch zugänglich machen. reads.greatblogs.org wird um die gefundenen Blogs erweitert. Die thematische Einordnung werde ich dabei vornehmen. Für Änderungswünsche bzw. Unlisting bitte bei mir melden.
Wer möchte, kann sich natürlich gerne weiter registrieren.
Die automatische thematische Einordnung wird nächste größere Weiterentwicklung sein. Das bedeutet, dass aufgrund etwaiger Kategorie-bzw. Tag-Informationen, Beiträge größeren Themen zugeordnet werden. Liegen diese Informationen nicht vor, müssen die Texte entsprechend verarbeitet und kategorisiert werden. Damit soll eine Keyword-Gewichtung und somit eine erste Eingrenzung von Suchresultaten ermöglicht werden.
Und dann gibt es noch das Thema Relevanz, aber dazu gibt es einen eigenen Beitrag.
Wann gibt es den ersten öffentlichen Test?
Sobald es einigermaßen gute Treffer gibt, werde ich die Suche entsprechend freischalten. Bis dahin gibt es die laufend erweiterte Feed-Liste mit vielen tollen Beiträgen.
Schreibe einen Kommentar