KarlinCam

– Natur betrachten – V češtině & Deutsch

search.karlincam.cz

– Suche, auch in spezialisierter und historischer Literatur. –

Anwendungsbereich der Suchmaschine

Diese spezialisierte und vor allem händisch kuratierte Suchmaschine erfasst im weltweiten Internet in den Sprachen Deutsch, Tschechisch und (bedingt) Englisch:

  • Tier- und Pflanzenarten, Pilze … (Erscheinung, Biologie, Lebensweise, Vorkommen, …)
  • Biologische Themen bezogen auf Tiere, Pflanzen, Pilze … (Keine Mikro-/Molekularbiologie oder ähnliche überwiegend wissenschaftlichen orientierten Grundlagenforschungsgebieten)
  • Ökologische Themen bezogen auf den Naturraum von Tieren, Pflanzen, Pilze, … und den Menschen.

insbesondere aus solchen Quellen, die im Ranking der globalen Suchmaschinen auf Grund ihrer Spezialisierung faktisch nicht erreichbar sind. Abgesehen davon ist auch Wikipedia dabei, da es für einige Suchziele, z.B. auch das Finden des wissenschaftlichen Artennamens, ganz geeignet ist.

Ziel

Das Ziel ist, insbesondere für den Deutschen und Tschechischen Sprachraum solche Publikationen leichter auffindbar zu machen, die mit Internet-weiten Suchmaschinen, wie DuckDuckGo, Google, Bing, …. in der Masse der dort hoch gerankten Suchergebnisse völlig unter geht oder auf Grund von Fehlkonfigurationen der Webseiten von kleineren Vereinen gar nicht erst im Index aufgenommen werden. Durch den händischen Ansatz können nicht nur solche Fehlkonfigurationen umschifft werden, sondern auch die Indizierung auf den tatsächlich relevanten Inhalt begrenz werden.

Vorteile und Grenzen

Es handelt sich um eine sogenannte kuratierte Suchmaschine. Das bedeutet, dass der Index auf einer händisch erstellten Auswahl von Webseiten oder Dokumenten und einer händischen Konfiguration des Crawlens für die jeweilig aufgenommene Webseite aufbaut. Der Vorteil ist, dass der Index der Suchmaschine extrem fokussiert und von unwesentlichem Inhalt frei gehalten werden kann. Das bedeutet aber auch, dass die unten aufgeführten Websites nicht vollumfänglich indiziert sind. Das Besondere einer kuratierten Suchmaschine ist gerade, den Index auf das Wesentliche zu beschränken, um in den Suchergebnissen idealerweise ausschließlich relevantes Material aufzulisten, dessen Ranking nicht durch Suchmaschinenoptimierung oder Fehlkonfigurationen der Betreiber beeinflusst ist.

Im Ergebnis muss das Ranking der Suchergebnisse nicht irgendwelchen pseudorelevanten Mechanismen folgen und unterscheidet sich damit vollends von den inzwischen als klassisch zu bezeichnenden Internet-Suchmaschinen. Zur Ergänzung der Suchergebnisse steht es jedem frei, sich zusätzlicher Internet-Suchmaschinen zu bedienen.

Auf dieser Seite dokumentieren wir die Konfiguration des Crawlers und Indexers. Gegebenfalls auch spezieller Filterfunktionen. Einerseits zur Offenlegung. So können Betreiber gegebenenfalls Hinweise zur Verbesserung beisteuern. Andererseits zu unseren eigenen Dokumentation. Denn die Konfiguration ist teilweise recht kniffelig, um sich auf den relevanten Inhalt zu beschränken.

Naturlich hat die Kuratierung auch Grenzen. Es gibt Webseiten, deren Inhalt vieles davon umfasst, was hier als relevant angesehen wird, aber ein Teil der Webseiten ist weniger relevant. Es kann aus logischen oder praktischen Erwägungen notwendig sein, dass eher zusätzliches Material indiziert wird, dass eigentlich von uns als wenig relevant eingeordnet wird, um den Gesamtbestand an releventer Literatur der entsprechenden Quelle zu erfassen und dabei den händischen Konfigurations- und Prüfaufwand zu begrenzen. In diesem Sinne sind in Einzelfällen Kompromisse notwendig.

Hinweise zum Verständnis der nachfolgenden Konfigurationsdaten

Als Suchmaschine wird eine eigene Yacy-Applience verwendet, die nicht mit anderen Yacy-Instanzen kooperiert und ihren eigenen Index führt.

Die etwas kryptische Konfigurationszeichenkette entspricht der Yacy-API zur Übergabe des Crwal-Auftrags. Sie wird über eine Webmaske der Yacy-Applience erzeugt, bzw. kann aus dem Planer wieder hervorgeholt werden, um sie zu automatisieren oder abzuändern. Wir beschreiben hier nicht die Details. Sie gehen aus der Yacy-Dokumentation hervor und benötigen zum Verständnis in der Regel einige Übung mit einer eigenen (Test-)Applience. Selbst für unsere Suchmaschine nutzen wir eine Test-Applience, um die Suchaufträge mit den entsprechenden regulären Ausdrücken exakt zu formulieren und zu testen.

Aus diesem Grund dürfte für die meisten Nutzer der Inhalt dieser Seite keine wesentliche Rolle spielen. Abgesehen von den Kommentaren, die zum jeweiligen Crawl-Auftrag hinterlegt sind.

An Hand des Inhaltsverzeichnisses (und der lokalen Kommentare) lässt sich ableiten, welche Webseiten und Dokumente im Index aufgenommen wurden.

Sollte von Seiten eines Website-Betreibers das Interesse bestehen, aufgenommen zu werden oder etwas abzuändern, dann bitten wir um eine kurze Anfrage über die Kommentarfunktion. Nach Kontaktaufnahme wird ein Kontaktaufnahmekommentar natürlich wieder gelöscht (Datensparsamkeit).

Indizierte Seiten

Spezialisierte Unterseiten

In der Liste der nachfolgenden Websites ist auch die jeweils letzte Crawl-Konfiguration in der für Yacy vorgesehenen API als URL-String abgelegt.

cs.wikipedia.org

Ziel der Crawler-Konfiguration ist es, nur solche Seiten zu indizieren, die über einen Taxonomieblock verfügen. Im Prinzip halten wir uns an das bei de.wikipedia.org gesagte. Allerdings machen gelegentlich die Sonderzeichen Probleme. Hier ist besondere Aufmerksamkeit notwendig und die Zeichen sind in den URLs mit der HTML-Schreibweise für UTF anzugeben.

Konfiguration user.filter:

# ##############################
# cs.wikipedia.org
#
FILTER: cs_wikipedia_remove_header
s|(</title>).*(</head>)|$1$2|Usg
#
FILTER: cs_wikipedia_Alle_Seiten Abfolge von Seiten zu allen Artikeln
s|<title.*>.*(</head>).*(<body .*>).*(<ul class="mw-allpages-chunk">.*</ul>).*<div class="mw-allpages-nav">(.*)</div>.*(</body>)|$1$2$3$4|Usg
#
FILTER: cs_wikipedia_Artikel
s|(<body .*>).*(<h1 id="firstHeading" class="firstHeading mw-first-heading">.*</h1>).*(<div id="mw-content-text".*)<footer id="footer".*(</body>)|$1$2$3$4|Usg

Konfiguration user.action:

###############################################################
#
# cs.wikipedia.org
#
{+https-inspection}
cs.wikipedia.org

{+block +handle-as-empty-document}
cs.wikipedia.org/robots.txt

{+filter{cs_wikipedia_remove_header}}
cs.wikipedia.org

{+filter{cs_wikipedia_Alle_Seiten}}
cs.wikipedia.org/(wiki/|w/index\.php.title=)Speci%C3%A1ln%C3%AD\:V%C5%A1echny_str%C3%A1nky.*
# Scheiß UTF! Der Doppelpunkt muss auch maskiert werden!

{+filter{cs_wikipedia_Artikel}}
cs.wikipedia.org/wiki/.*

Yacy:

/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=1&directDocByURL=on&mustmatch=.*cs.wikipedia.org/.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=cs.wikipedia.org/wiki/Speciální:Všechny_stránky?from=&to=&namespace=0&indexmustmatch=.*cs.wikipedia.org/.*&countryMustMatchSwitch=0&indexcontentmustmatch=.*klasifikace.*Rod.*Binomick.*&agentName=YaCy Internet (cautious)&bookmarkTitle=&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&indexMedia=on&crawlingDepthExtension=.*cs\.wikipedia\.org/.*=Speci%C3%A1ln%C3%AD\:V%C5%A1echny_str%C3%A1nky.*&crawlingQ=on&crawlingMode=url

Indizierung abgeschlossen. 15.9.2023

de.wikipedia.org

Ziel der Crawler-Konfiguration ist es, nur solche Seiten zu indizieren, die über einen Taxonomieblock verfügen.

Achtung: Derzeit stellen die Wikipedia-Länder auf ein neues Design um. Nachfolgende Konfigurationsstrategie gilt für das alte Design und die deutsche Wikipedia.

Die Wikipedia stellt gerade bei Deutsch oder erst recht in englischer Sprache hohe Anforderungen, da sie extrem viele Seiten enthält. Es hat sich gezeigt, dass Yacy auf einer Seite immer alle Links in die Crawler-Queue legt, auch wenn die URL durch Regeln ausgeschlossen wird. Erst dann, wenn die URL zum Crawlen aus der Queue geholt wird. Nach mehreren 10 Gigabyte für die Queue wurde das Crawlen abgebrochen: Der Müll in der Queue stopft die Festplatte foll.

Es wäre sinnvoller, wenn nur entlang der wirklich relevanten Links gecrawlt wird. Natürlich beinhaltet das dann immer noch alle Artikelseiten. Aber ausschließlich diese und keine Fremdseiten (nicht-Wikipedia-Seiten bzw. andere Sprache der Wikipedia) oder Organisationsseiten (Diskussion, Bearbeiten, …)

Die deutsche Wikipedia kennt eine Übersicht über alle Seiten (https://de.wikipedia.org/w/index.php?title=Spezial:Alle_Seiten), bei der man z.B. ausschließlich Artikel finden kann (Namensraum ‘Artikel’), indem man dem “Seitenumbruch” folgt. Darauf wird nachfolgende Strategie aufgebaut:

  • Startseite ist https://de.wikipedia.org/wiki/Spezial:Alle_Seiten?from=&to=&namespace=0
  • Die Crawlingtiefe wird auf 1 gestellt.
  • Unlimitierte Crawls erfolgen nur auf der Suchseite aller Artikel nach folgendem Muster: .*de\.wikipedia\.org/w/index\.php\?title=Spezial\:Alle_Seiten&from=.*
  • Lade Filter auf URLs: .*de.wikipedia.org/.*
  • Dokumetenfilter: Filter auf URLs: .*de.wikipedia.org/.*
  • Die zu indizierenden Seiten werden am Inhalt nach folgendem Muster erkannt: Filter on Content of Document: .*Systematik.*Art.*Wissenschaftlicher Name.*

Hinweis: Die Alle_Seiten-Seite heißt bei der englichsprachigen Wikipedia: https://en.wikipedia.org/wiki/Special:AllPages. Bei der tschechischen Wikipedia: https://cs.wikipedia.org/wiki/Speci%C3%A1ln%C3%AD:V%C5%A1echny_str%C3%A1nky

Mit diesen Einstellungen werden prinzipiell die richtigen Seiten indiziert. Es werden aber noch zusätzlich einige Seiten gecrawlt, da die Ergebnisseite von https://de.wikipedia.org/w/index.php?title=Spezial:Alle_Seiten&from=.* auch noch Management-Links (z.B. linkes Menü) eingebaut haben. Wir behandeln das jedoch nicht extra, da wir ein weiteres Problem ganz anders angehen müssen:

Der Crawler sammelt von allen Artikelseiten jeweils alle Links ein und steckt sie in die Queue. Unabhängig davon, ob wir sie durch Regeln ausgeschlossen haben oder nicht. Die Regeln werden erst angewendet, wenn die entsprechende URL aus der Queue entommen wird. Während auf kleinen Wikipediaseiten, wie der Tschechischen, die Queue im einstelligen Gigabyte-Bereich bleibt, ist das bei de.wikipedia.org und erst recht bei en.wikipedia.org nicht der Fall. Bei einer Größe von mehreren 10GB nur für die Queue habe ich das Crawlen gestoppt. Um diese URLs gar nicht erst in die Queue zu bekomen, hilft nur eins:

Privoxy-Content-Filterung (user.filter)

Also die Filterung der von Yacy angefragten Webseiten und Entfernung der nicht relevanten Links bevor Yacy die Webseite zu sehen bekommt.

Diese Art der Administration des Crawl-Vorgangs sollte immer das letzte Mittel sein. Die richtige Funktion dieser Filterung beruht auf der genauen Analyse der Webseitenstruktur des Anbieters und versagt sofort, wenn der Anbieter, hier Wikipedia, die Auslieferung der Seiten mit einer anderen Struktur bzw. einem anderen Design vornimmt.

Analyse der relevanten de.wikipedia.org Seiten

Die Ergebnisse der Analyse gehen aus den resultierenden Konfigurationen hervor.

Konfiguration user.filter:

# ##############################
# de.wikipedia.de
#
FILTER: de_wikipedia_remove_header
s|(</title>).*(</head>)|$1$2|Usg
#
FILTER: de_wikipedia_Alle_Seiten
s|(.*)<title.*>.*(</head>).*(<body.*>).*(<ul class="mw-allpages-chunk">.*</ul>).*(<div class="mw-allpages-nav">.*</div>).*(</body>)|$1$2$3$4$5$6|Usg
#
FILTER: de_wikipedia_Artikel
s|<div id="mw-navigation">.*(</body>)|$1|Usg

Konfiguration user.action:

##############################################################
#
# de.wikipedia.org
#
{+https-inspection}
de.wikipedia.org

{+block +handle-as-empty-document}
de.wikipedia.org/robots.txt

{+filter{de_wikipedia_remove_header}}
de.wikipedia.org

{+filter{de_wikipedia_Alle_Seiten}}
de.wikipedia.org/(wiki/|w/index\.php.title=)Spezial\:Alle_Seiten.*

{+filter{de_wikipedia_Artikel}}
de.wikipedia.org/wiki/.*

Yacy: Der unlimmitierte Crawl ist gesetzt auf: .*de.wikipedia.org/.=Spezial\:Alle_Seiten&from=.*

Diese Art des Crawens ist für die Wikipedia extrem effizient. Fakten:

  • Auf der jeweils geladenen “Alle-Seiten”-Seite gibt es einige hundert Artikellinks plus einen Link auf die nächste “Alle-Seiten”-Seite (und eine zurück auf die bereits gecrawlte Seite). Diese werden in die Queue gelegt und nun nacheinander abgearbeitet.
  • Jeder Link enthält genau eine Artikelseite. Da die Tiefe auf 1 eingestellt ist, wird von diesen Seiten nicht weiter gecrawlt. Zusätzlich wurden über die Filter alle Links geleert.

Damit steigt die Queue nie auf (im Extremfall) Links von zwei “Alle_Seiten”-Seiten an. Also nur wenige hundert! Weiterhin erreichen wir im Crawl-Prozess alle Artikelseiten, aber nutzen dort nicht einen einzigen Link, um weiter zu crawlen. Das ist auch nicht notwendig, da wir über den Alle_Seiten-Weg einen Pfad haben, alle Wikipediaseiten genau einmal zu laden. Ergo:

  • wir erreichen alle Artikel
  • wir benötigen kaum Resourcen auf der Festplatte
  • Der Crawl-Prozess dauert minimal lange: Yacy läd immer nur maximal 2 Seiten pro Sekunde von einem Server. In unserem Falle aber keine einzige Seite für umsonst.

Indizierung abgeschlossen. 15.9.2023

Deutsche Gesellschaft für Mykologie e.V.; www.dgfm-ev.de

Publikationen von dieser Webseite sind ins Zobodat gegangen und werden dort online veröffentlicht: Zeitschrift für Mykologie – Journal of the German Mycological Society.

en.wikipedia.org

Ziel der Crawler-Konfiguration ist es, nur solche Seiten zu indizieren, die über einen Taxonomieblock verfügen. Im Prinzip die gleiche Verfahrensweise, wie bei de und cs.

Konfiguration user.filter:

# #############################
# en.wikipedia.org
#
FILTER: en_wikipedia_remove_header
s|(</title>).*(</head>)|$1$2|Usg
#
FILTER: en_wikipedia_Alle_Seiten
s|<title.*>.*(</head>).*(<body .*>).*(<ul class="mw-allpages-chunk">.*</ul>).*<div class="mw-allpages-nav">(.*)</div>.*(</body>)|$1$2$3$4|Usg
#
FILTER: en_wikipedia_Artikel
s|(<body .*>).*(<h1 id="firstHeading" class="firstHeading mw-first-heading">.*</h1>).*(<div id="mw-content-text".*)<footer id="footer".*(</body>)|$1$2$3$4|Usg

Konfiguration user.action:

################################################################
#
# en.wikipedia.org
#
{+https-inspection}
en.wikipedia.org

{+block +handle-as-empty-document}
en.wikipedia.org/robots.txt

{+filter{en_wikipedia_remove_header}}
en.wikipedia.org

{+filter{en_wikipedia_Alle_Seiten}}
en.wikipedia.org/(wiki/|w/index\.php.title=)Special\:AllPages.*

{+filter{en_wikipedia_Artikel}}
en.wikipedia.org/wiki/.*

Yacy:

/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=1&directDocByURL=on&mustmatch=.*en.wikipedia.org/.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://en.wikipedia.org/wiki/Special:AllPages&indexmustmatch=.*en.wikipedia.org/.*&countryMustMatchSwitch=0&indexcontentmustmatch=.*Scientific classification.*Species.*Binomial name.*&agentName=YaCy Internet (cautious)&bookmarkTitle=&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&indexMedia=on&crawlingDepthExtension=.*en\.wikipedia\.org/.*=Special:AllPages.*&crawlingQ=on&crawlingMode=url

Indizierung läuft.

Faszination Wildbienen (Paul Westrich): www.wildbienen.info

Indiziert wird die außerordentlich informative und tiefgründige Seite (*.php) inklusive der frei verfügbaren PDF. Dr. Paul Westrich hat hier in demonstrativ vorbildlicher Weise sein sehr umfangreiches Wissen geteilt. Zu hoffen ist, dass der Inhalt dieser Site ihn überleben wird, was bei Selbsthosting eher unwahrscheinlich ist. Abgesehen von https://archive.org/web/, deren Inhalte über die bekannten Suchmaschinen quasi nicht auffindbar sind.

Indizierung von Bildern (png/jpg) ist aus urheberrechtlichen Gründen geblockt. Relevante Seiten von den sehr wenigen unrelevanten Seiten organisatorischen Inhalts zu trennen, wäre viel Detailarbeit. Ein wenig ist in die nachfolgende Blocking-Liste aufgenommen. Unklar ist, ob die sitemap.xml wirklich vollständig ist oder eventuell veraltet sein könnte. (Das Website-Tool ist unklar und basiert noch auf PHP-Requests.) Deshalb zur Indizierung nicht verwendet und die nachfolgenden Blockings angewendet. Vollständige Indizierung also abgesehen von folgenden Details:

Laden der Urls blockiert:

  • aus der robots.txt entnommen: .*/uploads/.* wird geblockt
  • PDFs mit .*_inhalt.pdf geblockt (nur Inhaltsangabe)
  • PDFs mit .*_umschlag.pdf geblockt (nur Umschlagseite)
  • PDF .*/westrich_publications.pdf geblockt (eigene Publikationsliste ohne Hyperlinks)
  • .*/bestellung.php geblockt
  • .*/kontakt.php geblockt

Crawling nur für:

  • .*\.php (Webseite in HTML)
  • .*\.pdf (Publikationen in diesem Format)

Medienindizierung: abgeschaltet

Indizierung 10.7.2023 abgeschlossen.

/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=1&directDocByURL=on&mustmatch=.*wildbienen.info.*&mustnotmatch=.*/uploads/.*|.*_inhalt.pdf|.*_umschlag\.pdf|.*/westrich_publications\.pdf|.*/bestellung\.php|.*/kontakt\.php&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&obeyHtmlRobotsNoindex=on&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.wildbienen.info&indexmustmatch=.*\.php|.*\.pdf&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=www wildbienen info&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&crawlingDepthExtension=.*www.wildbienen.info.*&crawlingQ=on&crawlingMode=url

Forst erklärt (forsterklaert.de)

Studenten und Absolventen erklären Zusammenhänge zu Forst und Jagd. Und durch Jan Hüsing kommen zum Inhalt auch noch tolle Fotos in höchster Qualität!

Auch mit Postcast und über soziele Medien.

Thematisch indizierungsrelevant sind derzeit die Kategorien

Re-Indizierung 10.9.2023 abgeschlossen.

Das scheint die beste Konfiguration für die Erstindizierung zu sein:

/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=0&directDocByURL=on&mustmatch=.*forsterklaert\.de/[^/]*|.*/category/pflanzen|.*/category/forstwirtschaft|.*/category/jagd&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://forsterklaert.de/category/pflanzen https://forsterklaert.de/category/forstwirtschaft https://forsterklaert.de/category/jagd&indexmustmatch=.*forsterklaert.de/[^/].*&countryMustMatchSwitch=0&indexcontentmustmatch=.*Forstwirtschaft.*|.*Pflanzen.*|.*Jagd.*&agentName=YaCy Internet (cautious)&bookmarkTitle=jagd&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&crawlingDepthExtension=.*forsterklaert.de/[^/].*&crawlingMode=url

karlincam.cz

Indiziert wird die gesamte Website inklusive der auf Vimeo hochgeladenen Videos und der Beiträge auf dem Telegramkanal.

Indizierung 4.7.2023 abgeschlossen.

/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=0&directDocByURL=on&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=related-posts, posts&obeyHtmlRobotsNoindex=on&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.karlincam.cz&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=www karlincam cz de&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&indexmustnotmatch=.*/category/.*|.*/author/.*|.*/tag/.*|.*/wp-json/.*|.*/date/.*&indexMedia=on&crawlingDepthExtension=.*www.karlincam.cz.*&crawlingQ=on&crawlingMode=url

Deutsche Gesellschaft für Orthopterologie e.V.D

Die Deutsche Gesellschaft für Ortopterologie (Heuschrecken und nahe Verwandte) gibt die Zeitschrift ARTICULATA heraus. Die Jahresbände werden gelistet, sodass man sich die Artikel herunterladen kann. Manchmal erscheinen auch Beihefte, die genau so zum Lesen angeboten werden.

Indiziert werden ausschließlich diese PDFs. Einige wenige Dubletten gibt es, die auch bei zobodat.at liegen.

Indizierung 10.7.2023 abgeschlossen.

/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=0&directDocByURL=on&mustmatch=.*dgfo\-articulata.de.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://dgfo-articulata.de/articulata&indexmustmatch=.*/articulata/.*\.pdf&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=articulata&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&crawlingDepthExtension=.*dgfo\-articulata.de/articulat.*&crawlingQ=on&crawlingMode=url

ZOBODAT

ZOBODAT (Zoologisch-Botanische Datenbank, ehemals ZOODAT) ist eine digital organisierte biogeographische Datenbank, einschließlich Analyse-, Dokumentations- und Kommunikationseinrichtungen. 1972 von Univ.-Prof. Dr. Ernst Rudolf Reichl gegründet, wurde ZOBODAT 1999 vom Land Oberösterreich übernommen und hat ihren Sitz am Biologiezentrum der Oberösterreichischen Landeskultur GmbH.

Die Datenbank beinhaltet Daten zur Verbreitung von Tier- und Pflanzenarten, Biografien von naturkundlich forschenden Personen und digitalisierte Literatur sowie diverse unterstützende digitale Bibliotheken. Die Mehrzahl der Daten bezieht sich traditionell auf Insekten und geographisch auf Österreich. ZOBODAT ist aber für alle Organismengruppen und weltweit einsetzbar. Einige bereits digital vorhandene Datenbestände des Biologiezentrums sind zum gegenwärtigen Zeitpunkt noch nicht in die ZOBODAT vollständig integriert. Dies betrifft einen Teil der Sammlung Entomologie und einen Teil der Sammlung Wirbellose exklusive Insekten.

Das Web Angebot der ZOBODAT ist als unterstützendes Dienstleistungs-Instrument für naturkundlich forschende und interessierte Personen gedacht, unter Anderem im Sinne von „Benefit Sharing“. Langfristiges Ziel ist es möglichst alle analogen Inhalte aus den Sammlungen unserer Institution auch digital darzustellen.

Abgestufte Benutzerzugänge ermöglichen einen differenzierten Datenschutz. ZOBODAT wird zu einem benutzerfreundlichen Informationssystem für Wissenschaft, Naturschutz und Öffentlichkeit ausgebaut.

Zitat von1https://www.zobodat.at/impressum.php, abgerufen am 5.7.2023

Von dieser Webseite, die sehr viele auch ältere Veröffentlichungen (Zeitschriften) digitalisiert zur Verfügung stellt, werden die PDFs indiziert. Natürlich hat Zobodat dafür auch eine eigene Suchseite. Weiterhin hat Zobodat offenbar auch Artennachweise in der Datenbank, die über einen anderen Menüpunkt durchsucht werden können.

Erstindizierung läuft. Teilweise unvollständig, da zwischendurch Proxy-Zugangsfehler.

/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=1&directDocByURL=on&mustmatch=.*zobodat.at.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&obeyHtmlRobotsNoindex=on&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.zobodat.at/publikation_series.php&indexmustmatch=.*zobodat.at/pdf/.*\.pdf&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=publikation_series.php&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&indexMedia=on&crawlingDepthExtension=.*zobodat.at.*&crawlingQ=on&crawlingMode=url

inatura.at

Adresse: www.inatura.at

Indizierenswerte Seiten:

  • https://www.inatura.at/forschung-und-wissen/artportraits (Inhalte alle unterhalb https://www.inatura.at/forschung-und-wissen/artportraits)
  • https://www.inatura.at/forschung-und-wissen/sammlungen (Inhalte unterhalb der URL)
  • Veröffentlichungen unter https://www.inatura.at/forschung-und-wissen/inatura-forschung-online (Alle dort verlinkte PDFs; liegen unterhalb der URL: https://www.inatura.at/forschung-online/.*\.pdf ; dabei alles unter .*dornbirn.* ignorieren, sonst wird alles doppelt indiziert.)
  • https://www.inatura.at/forschung-und-wissen/schriftenreihe Von dort 2 Ebenen crawlen und alles indizieren, was die Endung .pdf hat. (Die PDFs liegen nicht auf der Homepage von inatura!) Dabei beim Indizieren ausschließen: .*zobodat.*|.*dornbirn.*|.*ampulex.*
  • https://www.inatura.at/forschung-und-wissen/naturmonographien Von dort 2 Ebenen unter .*inatura.at/forschung-und-wissen/naturmonographie.*|.*inatura.at/forschung-online/.* crawlen und alles indizieren, was unter .*inatura.at/forschung-online/.* die Endung .pdf hat.
  • https://www.inatura.at/forschung-und-wissen/einzelpublikationen Von dort 1 Ebene nach unten gehen und alles indizieren, was die Endung .pdf hat.
  • https://www.inatura.at/forschung-und-wissen/vorarlberg-bibliographie Von dort 2 Ebene nach unten gehen und alles indizieren, was die Endung .pdf hat. (darf nicht enthalten: .*assets.dornbirn.at.*|.*fileadmin.*)
  • https://www.inatura.at/forschung-und-wissen/jahresberichte Alle PDF auf dieser Seite (1 Ebene tiefer) einsammeln.

Da ein einzelner Suchauftrag recht komplex und unübersichtlich zu prüfen sind, werden im Folgenden die Aufträge vereinzelt:

Yacy:

/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=0&directDocByURL=on&mustmatch=.*inatura.at/forschung-und-wissen/artportraits.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.inatura.at/forschung-und-wissen/artportraits&indexmustmatch=.*inatura.at/forschung-und-wissen/artportraits/.*&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=artportraits&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&crawlingDepthExtension=.*inatura.at/forschung-und-wissen/artportraits.*&crawlingQ=on&crawlingMode=url
/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=0&directDocByURL=on&mustmatch=.*inatura.at/forschung-und-wissen/sammlungen.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.inatura.at/forschung-und-wissen/sammlungen&indexmustmatch=.*inatura.at/forschung-und-wissen/sammlungen.*&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=sammlungen&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&crawlingDepthExtension=.*inatura.at/forschung-und-wissen/sammlungen.*&crawlingQ=on&crawlingMode=url
/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=1&directDocByURL=on&mustmatch=.*inatura.at/forschung-und-wissen.*|.*inatura.at/forschung-online.*&mustnotmatch=.*dornbirn.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.inatura.at/forschung-und-wissen/inatura-forschung-online&indexmustmatch=.*inatura.at/forschung-und-wissen.*\.pdf|.*inatura.at/forschung-online.*.*\.pdf&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=inatura-forschung-online&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&indexmustnotmatch=.*dornbirn.*&crawlingQ=on&crawlingMode=url
/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=2&directDocByURL=on&mustnotmatch=.*zobodat.*|.*dornbirn.*|.*ampulex.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.inatura.at/forschung-und-wissen/schriftenreihe&indexmustmatch=.*\.pdf&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=schriftenreihe&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&indexmustnotmatch=.*zobodat.*|.*dornbirn.*|.*ampulex.*&crawlingQ=on&crawlingMode=url
/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=2&directDocByURL=on&mustmatch=.*inatura.at/forschung-online/.*|.*inatura.at/forschung-und-wissen/naturmonographie.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.inatura.at/forschung-und-wissen/naturmonographien&indexmustmatch=.*inatura.at/forschung-online/.*\.pdf&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=naturmonographien&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&crawlerOriginURLMustMatch=.*inatura.at/forschung-online/.*|.*inatura.at/forschung-und-wissen/naturmonographie.*&crawlingQ=on&crawlingMode=url
/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=2&directDocByURL=on&mustmatch=.*inatura.at/forschung-online/.*|.*inatura.at/forschung-und-wissen.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.inatura.at/forschung-und-wissen/einzelpublikationen&indexmustmatch=https://www.inatura.at/forschung-online/.*\.pdf&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=einzelpublikationen&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&crawlerOriginURLMustMatch=.*inatura.at/forschung-online/.*|.*inatura.at/forschung-und-wissen.*&crawlingQ=on&crawlingMode=url
/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=2&directDocByURL=on&mustmatch=.*inatura.at/.*&mustnotmatch=.*assets.dornbirn.at.*|.*fileadmin.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.inatura.at/forschung-und-wissen/vorarlberg-bibliographie&indexmustmatch=.*inatura.at/.*\.pdf&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=vorarlberg-bibliographie&crawlingstart=1&crawlerOriginURLMustNotMatch=.*assets.dornbirn.at.*|.*fileadmin.*&snapshotsMustnotmatch=&snapshotsLoadImage=on&crawlerOriginURLMustMatch=.*inatura.at/.*&indexmustnotmatch=.*assets.dornbirn.at.*|.*fileadmin.*&crawlingQ=on&crawlingMode=url
/Crawler_p.html?indexText=on&deleteold=off&crawlingDepth=1&directDocByURL=on&mustmatch=.*www\.inatura.at.*&range=wide&snapshotsMaxDepth=-1&cachePolicy=iffresh&snapshotsReplaceOld=on&valency_switch_tag_names=&noindexWhenCanonicalUnequalURL=on&timezoneOffset=-120&default_valency=EVAL&cleanSearchCache=on&crawlerAlwaysCheckMediaType=true&recrawl=nodoubles&storeHTCache=on&crawlingURL=https://www.inatura.at/forschung-und-wissen/jahresberichte&indexmustmatch=.*www\.inatura.at.*\.pdf&countryMustMatchSwitch=0&agentName=YaCy Internet (cautious)&bookmarkTitle=jahresberichte&crawlingstart=1&snapshotsMustnotmatch=&snapshotsLoadImage=on&crawlerOriginURLMustMatch=.*www\.inatura.at.*&indexmustnotmatch=.*assets.dornbirn.at.*&crawlingQ=on&crawlingMode=url

Indizierung abgeschlossen. 26.8.2023

Nicht aufgenommene Indizierungsmöglichkeiten

Unserer Website folgt folgenden grundlegenden Ausgangsideen:

  • “Leben und leben lassen” – Der Mensch ist Teil der Natur. So, wie er sie nutzt, muss er seinen Intellekt einsetzen, um Teil des Ganzen zu bleiben und zerstörerische Dominanz zu unterdrücken. Denn sein Intellekt reicht, um alles zu vernichten.
  • Biodiversität leben. – Der Mensch hat mit seiner Naturgestaltung nicht nur zerstört. Ohne sein Zutun gäbe es in Deutschland fast nichts als Mischwald, dominiert von wenigen Arten. Lebensraum für wenige Arten im Vergleich zu dem, was uns umgibt. Die hoch gelobten, weil durchaus biodivers wertvollen Offenlandschaften gäbe es ohne den Menschen nicht. Und ohne Tierhaltung wären echte Wiesen noch rarer, als sie es derzeit sind.
  • Natur bedeutet Kreislauf. Leben und Vielfalt. Nahrungs- und Nährstoffketten und Vergehen. Der Mensch gehört dazu. Es gibt keinen Grund, Natur als Kuschelszene zu verklären. Auch wir werden getötet von zumeist sehr kleinen “Erregern”. Die Großen haben wir weitestgehend ausgerottet.

Mit diesem Hintergrund unterstützen wir über unsere Website keine Organisationen, die über ihre Webseiten vor allem für Ihre Interessen (und seien sie noch so ehrenvoll) polemisch, aggitativ, simplifizierend oder über das Ansprechen menschlicher Gefühle Unterstützung in der Bevölkerung suchen. Erst recht, wenn diese Unterstützung in monetärer Form erbeten wird. Wir nehmen auch keine Inhalte auf, die recht kurzsichtig wenig zum Naturbewusstsein beitragen:

Der Natur bewusst zu sein, bedeutet selbst Anfassen, selbst sehen, selbst auf Fragen zu stoßen. Auch zu experimentieren. Einfach etwas mit der Natur tun, um ein Gefühl für die Natur zu bekommen. Ohne diese Voraussetzungen gibt es kein persönliches Verhältnis zur Natur. Ohne dies gibt es keinen gesammtgesellschaftlichen Weg des Naturschutz. Leider stehen dem selbst unsere Naturschutzgesetze im Weg. Sie verhindern … (jetzt am Beginn des Absatzes zu lesen anfangen). Ganz abgesehen davon, wie viel oder wenig unseren Kindern über den Bildungsweg an Räume des Erforschens und der Erkenntnis aufzeigt werden.

All die, die nicht unmittelbar die Nähe zur Natur und die Schönheit des Erkenntnisgewinns in ihren Webpräsenzen integrieren und erst recht die, die alles und jedes als ganz Schlimm, sofort dem menschlichen Handlungsspielraum entgleitend darstellen (, um was vom Leser zu erreichen?), werden hier nicht aufgenommen. Es geht hier nicht darum, das omnispräsente Untergangsszenario zu befördern, sondern dem zuerst durch kleine eigene Schritte in die Natur hinein entgegen zu wirken. Die Schritte, zu sehen, zu spüren und Fragen zustellen. Statt angstmachende Antworten auf ungestellte Fragen serviert zu bekommen.

Sollen wir hier auflisten, wen wir hier alles mit dieser Beschreibung ausschließen? Es sind leider alle omnipräsenten Naturschutzorganisationen. Alle, die in ihren Artikeln oder zumindets in einem Teil der Artikel das Gefühl der Verlustangst ansprechen. Denn nicht nur für Depressive gilt, das Angst ein schlechter Berater ist!

Medial ist leider Angst der Sex der meisten Naturschutzorganisationen. Zumindest auf einem Teil ihrer online-Artikel.

Das finden wir wirklich schlimm. Weil Angst kein Zugangstor zum Naturempfinden und Naturbewußstsein ist. Dementsprechend die damit erreichbaren Menschen eben gerade nicht Natur als den optimistischen, teilweise unplanbaren aber immer interessanten Teil der Welt in sich aufnehmen können. Selbst die Erkenntnisse gewinnen, welches eigene Verhalten tatsächlich zu welchen Auswirkungen führt oder womöglich gar nicht wirklich signifikant ist. Was tolerierbar und was verbesserungswürdig ist. Die schulmäßige Top-Down-Didaktik mittels (Naturverlust-)Angst empfinden wir derart kontraproduktiv, dass diese Organsisationen und deren Artikel bei uns keinen Platz bekommen.

Helferlein

Es hat sich bei Sprachen mit vielen Sonderzeichen, vor allem auch in der URL, als sinnvoll erwiesen, einen Online-Converter für die URLs zu benutzen, die in das Crawling-Formular kopiert werden sollen: https://www.branah.com/unicode-converter

  • 1
    https://www.zobodat.at/impressum.php, abgerufen am 5.7.2023

© 2024 KarlinCam

Thema von Anders Norén

cs_CZČeština