Zum Inhalt springen

WebScraping & Data-/Text Mining - CAD Foren


KroVex

Empfohlene Beiträge

Salü Zusammen

 

Damit ich den anderen Thread nicht weiter unnötig zweckentfremde, poste ich hier meine weiteren Resultate/Erkenntnisse vom Experiment "WebScraping & Data-/Text Mining - CAD Foren".

Inspiriert von David Kriesel und dem akuten Fall, das VW/CW die Anwender bei der Installation von VW 2022 mit einer Umfrage konfrontierte, welche nicht alle so toll fanden, kam mir der Gedanke, dass das Ziel der Umfrage doch auch auf einem anderen Weg erreicht werden könnte. Und zwar mit der Analyse des VW Forums durch WebScraping & Data-/Text Mining.

 

Glücklicherweise fand ich eine gratis Software, welche dies anhand von Nodes (like Marionette) bewerkstelligen kann:  https://www.knime.com

 

Ich hatte zuerst mit einem Übungs-Dokument angefangen, welches von der NY Times die RSS Feeds ausliest und nach den häufigsten Themen sortiert.

Dieser Workflow habe ich dann versucht umzubauen, so dass ich dasselbe Ergebnis von einem CH-Newspaper erhielt, was allerdings nur mässig funktionierte. Grund: deutsche Sprache, schwere Sprache. Nein, die Text-Analyse Algorithmen greifen auf, für maschinelles Lernen spezialisierte Bibliotheken (z.B. OpenNLP, StandfordNLP, etc.) zu, welche in der zu analysierende Textsprache vorhanden sein müssen, damit sie korrekt funktionieren. Eigentlich logisch, wenn man es den weiss 😅

Als die RSS Feed Analyse des CH-Newspaper dann funktionierte, hab ich mich auf das VW-Forum gestürzt.

Die erste Hürde war das Abgreifen der benötigten Daten/Thread-Titel. RSS Feeds sind so ausgelegt, dass sie von fremder Software einfach gelesen werden kann. Nicht so wie bei einem Forum. Hier werden die Forums-Themen nicht einfach nur nacheinander aufgelistet, sondern sie sind auch auf mehrere Seiten verteilt. 

Mit einem Node zur Manipulation von Strings (in diesem Fall URL's) und einer Loop-Schleife konnte ich dann schliesslich alle Seiten (1-641) aufrufen, den HTML-Code extrahieren und jeweils die Thread-Titel auslesen. Mit dem StandfordNLP Tagger wurden anschliessend zu allen im Tiel vorhandene Wörter, die jeweiligen Wortarten als Tags zugeordnet, mit weiteren Text-Processing Nodes alle Sonderzeichen entfernt, Sätze in einzelne Wörter zerlegt, alle Wortarten bis auf die Nomen extrahiert und anschliessend nach der Häufigkeit in einer Cloud visualisiert:

680121043_Bildschirmfoto2021-12-21um17_52_14.thumb.png.f05689343ef6b6817dcdbbc8eeaf1714.png

 

Diese Visualisierung zeigt auf diese Weise allerdings nur, welche Schlagwörter (Nomen) am meisten in den Thread-Titeln vorkommen. Es gibt keine Information ab, in welchem Zusammenhang diese oft vorkommen.

 

Um zu sehen, welche diese Begriffe also im Zusammenhang zu "negativen Ausdrücken" stehen, wurden alle Titel herausgefiltert, welche nicht mindestens eines der folgenden Wörter enthält:
 

Bug / Bugs

Fehler

Fehlercode

Fehlermeldung

Funktioniert nicht

geht nicht

nicht

Problem / Probleme

Da nur die Titel analysiert werden und nicht der Inhalt der Beiträge, ist diese Visualisierung nach wie vor mit Vorsicht zu geniessen:
( @b.illig sorry, ich habe den Namen "vectorworks" herausgefiltert 😆)
 

 

1178159776_Bildschirmfoto2021-12-23um12_32_52.thumb.png.d3f2f15b961a3c753e23a588344757a0.png

(Die violetten Wörter sind durch den Standford Tagger als Eigennamen deklariert worden.)

Und weil das VW-Forum die Bilder runter skaliert, hier nochmals als ZIP:
VW_TAG_Cloud-KroVex.zip


Weiter werde ich versuchen, auch den Inhalt der Beiträge zu analysieren/verwenden.

Gruss KroVex

 

Bearbeitet von KroVex
  • Like 9
  • Lieben 1

CADNODE.ch

Lassen Sie uns gemeinsam effiziente und innovative CAD-Lösungen für Ihr Projekt finden!

Have you tried to turn it off and on again?
Vectorworks | Architektur | macOS/Windows

Link zu diesem Kommentar

Viele Dank für deine Recherche.

 

Freue mich auf den Vortrag deiner Analyse. 😊Vielleicht nicht vor dem CCC sondern vor CW, aber am liebsten mit Aufzeichnung.

 

So wie ich dich verstanden habe, hast du allerdings "nur" die Theardtitel mit ihren entsprechenden Tags von allen Beiträgen seit der Forumgründung herausgefilltert. Vielleicht wäre eine Darstellung mit einer weiter Achse (Zeit) interesant, um zu sehen wie sich die Themen über die Zeit entwickeln. (Wie die Ausfälle der Bahnhöfe bei Sturm)

 

Ebenfalls interessant wäre je nach dem eine Analyse der Inhalte der Themen und nicht nur der Titel. Das ganze geht je nachdem aber eher Richtung Spiegelmining als Bahnmining. Und selbst der gute David hat um die Inahltsanalyse einen Bogen gemacht.

  • Like 1

Freundliche Grüsse

 

Manuel Roth

_________________________________________________
Vectorworks 2022 SP3 | Architektur | Windows 10

Link zu diesem Kommentar
vor 10 Minuten schrieb Manuel Roth:

So wie ich dich verstanden habe, hast du allerdings "nur" die Theardtitel mit ihren entsprechenden Tags von allen Beiträgen seit der Forumgründung herausgefilltert. Vielleicht wäre eine Darstellung mit einer weiter Achse (Zeit) interesant, um zu sehen wie sich die Themen über die Zeit entwickeln. (Wie die Ausfälle der Bahnhöfe bei Sturm)

 

Genau, bis jetzt sind es nur die Titel, weil die über eine simple URL abgegriffen werden können:(https://www.vectorworksforum.eu/forum/4-vectorworks/page/1,2,3, usw.)

Der Beitrag selber enthält allerdings eine individuelle URL, mit jeweils einer individuellen Nummer und dem Titel. Hier muss ich noch herausfinden, wie ich dem Programm beibringen kann, dass alle URL's ab dem Verzeichnis "Topic" abgegriffen werden, egal was dahinter steht.

 

Wenn dass aber gelingt, könnte anhand der Antworten herausgefunden werden, ob es sich tatsächlich um einen Fehler/Bug handelt, oder ob der Topic-Ersteller es einfach nicht besser gewusst hat wie das Thema zu lösen ist. Oder auch was für Fragen oft gestellt werden (Hilfsreich für Tutorials/Whitepaper). Oder in welchem zusammenhang ein gewisses Problem oft auftaucht (z.B. Darstellungsfehler - Grafikeinstellungen).

 

vor 33 Minuten schrieb Manuel Roth:

aber am liebsten mit Aufzeichnung.

Das mit der Aufzeichnung ist halt so ne Sache, die gut bei grossen Datenmengen ist. Dieses Forum generiert hingegen nur wenig Daten (das Abfragen aller Titel, auf allen 641 Seiten dauert gerade mal ein Wimpernschlag) 😅

Ich halte euch auf dem Laufenden 😁

Gruss KroVex

 

CADNODE.ch

Lassen Sie uns gemeinsam effiziente und innovative CAD-Lösungen für Ihr Projekt finden!

Have you tried to turn it off and on again?
Vectorworks | Architektur | macOS/Windows

Link zu diesem Kommentar
  • 2 Wochen später...
  • 5 Monate später...

@KroVex Super Projekt, freue mich auf mehr!

Ich hatte in den letzten zwei Jahren einige Projekte umgesetzte, bei denen es um ähnliche Themen ging. Web Scraping - Datenaufbereitung - Datenvisualisierung alles mit Python. 

Für die Analyse der HTML Seiten haben ich jeweils Beautiful Soup verwendet. Zusammen mit Regex lässt es sich gut nach Text suchen. Für die Datenverwaltung  kann ich dir Pandas empfehlen. Die Visualisierung habe ich mit Bokeh und/oder Plotly umgesetzt. 

Falls du nicht weiter kommst kannst du mich gerne kontaktieren, vielleicht kann ich dir ein Tipp geben. Bin gespannt was rauskommt. 

Gruss Fabio

  • Like 2
  • Lieben 1

VWX24 SP4.1 | Architektur | MacOS 13.5 | M2 Max

Link zu diesem Kommentar

Salü Fabio

 

Vielen Dank für die Hilfreichen Tool-Tipps 🙂

Zurzeit ist diese Projekt etwas pausiert, da ich mir vorgenommen habe, zuerst endlich Python "richtig" zu lernen. 😅
Dass sollte dann auch mehr Freiheiten geben, wie Manuel Roth, herbieherb und nun auch du mir bestätigt haben. 🙂

Aber sobald die Zeit und das nötige Wissen vorhanden ist, werde ich mich wieder diesem Projekt widmen und euch Updaten.

Gruss KroVex

CADNODE.ch

Lassen Sie uns gemeinsam effiziente und innovative CAD-Lösungen für Ihr Projekt finden!

Have you tried to turn it off and on again?
Vectorworks | Architektur | macOS/Windows

Link zu diesem Kommentar

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Anmelden

Du hast bereits ein Benutzerkonto? Melde Dich hier an.

Jetzt anmelden
  • Forenstatistik

    • Themen insgesamt
      23,5Tsd
    • Beiträge insgesamt
      120,8Tsd
×
×
  • Neu erstellen...