Hallo, Gast |
Du musst dich registrieren bevor du auf unserer Seite Beiträge schreiben kannst.
|
Foren-Statistiken |
» Mitglieder: 1
» Neuestes Mitglied: Joopi
» Foren-Themen: 466
» Foren-Beiträge: 645
Komplettstatistiken
|
Benutzer Online |
Momentan sind 10 Benutzer online » 0 Mitglieder » 5 Gäste AhrefsBot, Bytespider, DotBot, Semrush, bot
|
|
|
eMail analysieren und zerlegen |
Geschrieben von: Joopi - 07-01-2024, 10:30 - Forum: Programmieren
- Antworten (1)
|
|
Jeder von uns bekommt wahrscheinlich jeden Tag Mails. Die einen bekommen mehr, die anderen bekommen weniger.
Die wenigsten User machen sich heutzutage darüber Gedanken, wie eine Mail entsteht bzw. aus welchen Bestandteilen diese zusammen gesetzt ist.
In einer anderen Sache habe ich mich genau damit beschäftigt, was eine Mail ausmacht und was sie alles enthalten kann sowie wie diese in unserem Mailclient bzw. online beim Mailanbieter für uns zu lesen ist.
Meine Aufzeichnungen sind nicht abschließend, sondern spiegeln mein Wissen wider und zeigen das, was ich bislang erreicht habe.
Generell kann man sagen, dass eine Mail 2 Hauptbestandteile (Mailheader und Mailbody) mit 3 Sektionen hat:
- Mailheader
- Mailbody mit Mailtext Plain/HTML
- Mailbody mit Anlagen
Der Mailheader beinhaltet alle technsichen Informationen, die die einzelnen Stellen, die die Mail ausliefern bzw. weiterleiten mitgegeben haben.
Die Mailtext kann in zwei Formaten vorliegen (entweder oder / beides zusammen):
- Plaintext (also Klartext)
- HTML-Text (HTML-Rohdaten)
Sobald eine Mail Plaintext und HTML-Text enthält, bekommt sie das Attribut: multipart (dazu später mehr)
Eine Mail kann im Klartext oder kodiert ausgeliefert werden. Wird sie kodiert ausgeliefert, so ist dies die base64-Kodierung.
Wichtig bei der Darstellung des Mailtextes ist es zu wissen, mit welchem Zeichensatz (charset) die Mail verfasst wurde. Generell nutzen die westlichen Ländern mittlerweile den Zeichensatz utf-8, aber besonders aus dem kyrillisch-sprachigen Raum kommen oftmals andere Zeichensätze mit. Das liegt oftmals daran, die der Mailclient es Mailverfassers eingerichtet ist.
Mailtexte im Klartext haben folgenden Eintrag: Content-Transfer-Encoding: quoted-printable
Mailtexte können aber auch eine Kodierung haben: Content-Transfer-Encoding: base64
Damit sind die Mailtexte als Rohdaten der Mail nicht lesbar und müssen dekodiert werden.
Alle Anlagen werden für gewöhnlich base64-kodiert: Content-Transfer-Encoding: base64
Die derzeit für mich wichtigsten Zeichensätze sind neben utf-8 die folgenden:
- iso-8859-1
- iso-8859-2
- iso-8859-15
- windows-1250
- windows-1251
- us-ascii
- koi8-r
Es ist wirklich nicht einfach für den Hobbyprogrammierer, eine Mail zu analysieren und die Mailtext lesbar ohne Sonderzeichen zu machen und die Anlage abzuspeichern.
Je nach dem, welcher Zeichensatz genutzt wird, gibt es immer wieder andere Vorgehensweisen, um die Mail analysieren zu können.
In den folgenden Antworten auf diesen Eröffnungsthread möchte ich meine Erkenntnisse dokumentieren, da sie mittlerweile ein PHP-Skript umfassen, dass aus dem Ruder läuft.
Die in dem primären Beispiel verwendete Mail ist eine Phantasiemail mit Phantasiedaten soweit es die Identität der beteiligten Personen angeht.
Die Mail wird eine Multipart-Mail sein, mit dem Zeichensatz utf-8, mit Plain- und HTML-Text sowie mit Anlagen.
MIME 1.0
Show Content
Spoiler
Die Zeile "MIME-Version: 1.0" in einem Mailheader gibt an, dass die E-Mail gemäß dem MIME-Standard (Multipurpose Internet Mail Extensions) verfasst ist und welcher Version dieses Standards entspricht.
Die Bedeutung dieses Eintrags ist:
MIME-Version: Dieses Feld gibt die Version des MIME-Standards an, der für die Formatierung und den Austausch von Multimedia-Inhalten über das Internet verwendet wird.
1.0: Die Zahl "1.0" ist die Versionsnummer des MIME-Standards, die in diesem Fall angibt, dass die E-Mail nach den Spezifikationen von MIME-Version 1.0 formatiert ist.
MIME wird verwendet, um unterschiedliche Arten von Inhalten in E-Mails zu unterstützen, darunter Text, HTML, Bilder, Audiodateien und andere multimediale Inhalte. Durch die Angabe der MIME-Version in der E-Mail-Headerzeile wird sichergestellt, dass der E-Mail-Client den MIME-Standard korrekt interpretieren kann, um die verschiedenen Arten von Inhalten ordnungsgemäß darzustellen.
multipart/mixed
Show Content
Spoiler
Die Zeile "Content-Type: multipart/mixed;" in einem Mailheader gibt an, dass die E-Mail mehrere Teile (Parts) enthält, von denen mindestens einer ein binärer Anhang (zum Beispiel eine Datei) sein kann. Das "multipart/mixed"-MIME-Typ wird verwendet, um verschiedene Inhaltsarten in einer E-Mail zu kombinieren, wobei jeder Teil unterschiedliche Inhaltsmerkmale haben kann.
Die Bedeutung der Teile in einer "multipart/mixed"-E-Mail könnte sein:
Textteile: Zum Beispiel der eigentliche Text der E-Mail im Klartextformat (text/plain).
Anhang: Zum Beispiel Bilddateien, Dokumente oder andere Binärdateien (application/octet-stream oder der spezifische Typ der Datei).
Die E-Mail-Clients interpretieren diese Teile entsprechend ihrem MIME-Typ und stellen den Inhalt entsprechend dar. Dies ermöglicht es, sowohl Text als auch Anhänge in einer einzigen E-Mail zu versenden.
multipart/alternative
Show Content
Spoiler
Die Zeile "Content-Type: multipart/alternative;" in einem Mailheader gibt an, dass die E-Mail mehrere alternative Versionen des Inhalts enthält. Jede alternative Version ist in einem separaten Teil (Teil) der E-Mail enthalten, und der E-Mail-Client kann die am besten geeignete Version für die Anzeige auswählen.
Die "multipart/alternative"-Struktur wird häufig für Textformatierungen verwendet, um sicherzustellen, dass der Empfänger die E-Mail in dem von seinem E-Mail-Client am besten unterstützten Format sieht. Die verschiedenen Versionen können unterschiedliche MIME-Typen für den Text enthalten, z. B.:
text/plain: Klartextversion der E-Mail.
text/html: HTML-Version der E-Mail mit möglicherweise formatiertem Text und Bildern.
Die Idee hinter "multipart/alternative" ist, dass der E-Mail-Client die am besten geeignete Version für die Anzeige auswählt. Wenn der Empfänger einen E-Mail-Client verwendet, der HTML unterstützt, kann er die HTML-Version sehen. Andernfalls wird die einfache Textversion angezeigt. Dies ermöglicht eine flexiblere Anpassung an verschiedene E-Mail-Clients und Präferenzen der Benutzer.
attachments
Show Content
Spoiler
Die Zeile "Content-Disposition: attachment;" in einem Mailheader gibt an, dass der damit verknüpfte Teil (Attachment) der E-Mail als Anhang behandelt werden soll. Das bedeutet, dass der Teil nicht inline im Text angezeigt wird, sondern als Dateianhang heruntergeladen oder geöffnet werden kann.
Die Bedeutung von "Content-Disposition: attachment;" liegt darin, dass der Empfänger der E-Mail den Anhang separat speichern oder öffnen kann, anstatt dass der Inhalt direkt im E-Mail-Text angezeigt wird. Dies ist typisch für Dateianhänge wie Dokumente, Bilder oder andere Dateitypen, die nicht im direkten Fließtext der E-Mail angezeigt werden sollen.
Zusätzlich zur Information darüber, dass es sich um einen Anhang handelt, kann "Content-Disposition" auch weitere Attribute enthalten, wie z. B. der Dateiname des Anhangs.
image/jpeg
Show Content
Spoiler
Die Zeile "Content-Type: image/jpeg;" in einem Mailheader gibt an, dass der damit verknüpfte Teil (Content) der E-Mail ein JPEG-Bild ist. Der MIME-Typ "image/jpeg" gibt an, dass es sich um eine JPEG-Bilddatei handelt.
Content-Type: Dieser Header gibt den Medientyp des Inhalts an, und "image/jpeg" spezifiziert den Typ des Bildinhalts als JPEG.
JPEG (Joint Photographic Experts Group) ist ein weit verbreitetes Dateiformat für komprimierte Bilddateien, das bei der Speicherung von Fotos und anderen Grafiken verwendet wird. Der MIME-Typ hilft dem E-Mail-Client, den Inhalt korrekt zu interpretieren und entsprechend anzuzeigen.
Diese Information ist wichtig, damit der E-Mail-Client weiß, wie er den Inhalt verarbeiten und darstellen soll.
|
|
|
HTML-Tags decodieren |
Geschrieben von: Joopi - 07-01-2024, 09:31 - Forum: Programmieren
- Keine Antworten
|
|
In der letzten Zeit kommt es immer häufiger vor, dass ich HTML-Texte als Rohdaten in eine MySQL-Datenbank erfasse. Der Umgang mit HTML-Tags sind insgesamt nicht immer einfach, aber wenn man weiß, was man will, dann kann man sich sehr gut helfen.
Wenn HTML-Rohdaten nicht in einem Browser ausgeführt werden, dann gibt es unschöne Leseansichten bzw. die Daten sind nicht in einer MySQL-Datenbank erfassbar.
Wer einen HTML-Text außerhalb eines Browsers lesen will, der sollte tunlichst die HTML-Tags ausblenden.
Wer einen HTML-Text in eine Datenbank, z.B. MySQL, erfassen will, der muss diverse Sonderzeichen masieren, die sonst bei der Erfassung zu einem Fehler führen.
Fall 1
Ein HTML-Rohtext wird in der Konsole ausgegeben
Code: $text = "<p>Das ist mein Text, der <strong>ausgegeben</strong> werden soll.</p>";
echo "Text 1 " . $text . "\n";
Ergebnis
Zitat:Text 1 <p>Das ist mein Text, der <strong>ausgegeben</strong> werden soll.</p>
Fall 2
Die HTML-Rohdaten werden gestript, um den Text lesbar zu machen
Code: $text2 = "<p>Das ist mein Text, der <strong>ausgegeben</strong> werden soll.</p>";
$text2 = strip_tags($text2);
echo "Text 2 " . $text2 . "\n";
Ergebnis
Code: Text 2 Das ist mein Text, der ausgegeben werden soll.
Fall 3 entfällt
Fall 4
Die HTML-Rohdaten werden als Entities umgewandelt
Code: $text4 = "<p>Das ist mein Text, der <strong>ausgegeben</strong> werden soll.</p>";
$text4 = htmlentities($text4);
echo "Text 4 " . $text4 . "\n";
Ergebnis
Code: Text 4 <p>Das ist mein Text, der <strong>ausgegeben</strong> werden soll.</p>
Fall 5
Insbesondere bei der Erfassung von HTML-Rohdaten in einer MySQL-Datenbank ist der folgende Befehl zu nutzen.
Code: $text5 = "<p>Das ist mein Text, der <strong>ausgegeben</strong> werden soll.</p>";
$text5 = htmlspecialchars($text5);
echo "Text 5 " . $text5 . "\n";
Ergebnis
Code: Text 5 <p>Das ist mein Text, der <strong>ausgegeben</strong> werden soll.</p>
Fall 6 entfällt
Fall 7
Die HTML-Entitäten werden wieder zurückgewandelt.
Code: $text7 = "<p>Das ist mein Text, der <strong>ausgegeben</strong> werden soll.</p>";
$text7 = htmlspecialchars_decode($text7);
echo "Text 7 " . $text7 . "\n";
Ergebnis
Code: Text 7 <p>Das ist mein Text, der <strong>ausgegeben</strong> werden soll.</p>
Wie wohl zu erkennen ist, kann man die HMTL-Tags bzw. die Zeichen, die nicht einfach so in eine MySQL-Datenbank erfasst werden können, ohne sie zu maskieren, so umwandeln, dass man damit arbeiten kann.
Der Fall 2 zeigt, dass die HTML-Rohdaten in einen gut lesbaren Fließtext umgewandelt werden können.
Die Entities können in die eine, aber auch wieder in die andere Richtung zurückgewandelt werden.
Ich nutze diese Erkenntnisse derzeit so, dass ich Mailheader aus eMails in eine MySQL-Datenbank speichere, aber auch die entsprechenden Mailtext. Die Mailtexte können in Plaintext und als HTML-Rohdaten vorliegen. Auch dann sind die obigen Erkenntnisse absolut wichtig, um die Datenbankerfassung zu ermöglichen.
|
|
|
CGI auf Webserver ausführbar machen |
Geschrieben von: Joopi - 07-01-2024, 07:37 - Forum: Programmieren
- Keine Antworten
|
|
CGI auf Webserver ausführbar machen
Heute, am 22.07.2021, habe ich es endlich geschafft, im Browser ein cgi-Script aufzurufen.
Geholfen hat mir diese Webseite:
https://www.server-world.info/en/note?os...=httpd&f=2
Ich bin mir nicht sicher, ob ich alles richtig verstanden habe. Eigentlich kenne ich das so, dass es auf dem Webserver (/var/www/html) einen Ordner /cgi-bin gibt.
Die Webseite arbeitet aber mit dem Ordner /cgi-enabled.
Alle meine Versuche hier auf dem Desktop-Rechner als auch auf dem Notebook haben ergeben, dass ich diesen Ordner /cgi-enabled nutzen muss. Der Ordner /cgi-bin funktioniert nicht.
Auch kann ich nicht meinen normalen User zur Anlage von Ordner und z.B. index.cgi nutzen. Die Ordner als auch die Dateien werden mit dem root erstellt und dann über chmod 705 entsprechen berechtigt.
Nur das funktioniert.
Wenn ich den Ordner /cgi-bin so in die Abläufe einbaue, wird später im Browser gezeigt, dass die URL nicht vorhanden ist.
Mit dem Ordner /cgi-enabled wird die Testseite angezeigt:
Ich werde noch weitersuchen und mal prüfen, ob ich das anders hätte hinbekommen können.
---
Das ist die Historie der BASH, aus der ich die wichtigen Befehlszeilen herausfiltern werde, um eine Dokumentation zu schreiben:
Show Content
Spoiler
> 480 cat > /usr/lib/cgi-bin/test_script <<'EOF'
481 #!/usr/bin/perl
482 print "Content-type: text/html\n\n";
483 print "Hello CGI\n";
484 EOF
485 ls -l
486 chmod 705 /usr/lib/cgi-bin/test_script
487 curl http://localhost/cgi-bin/test_script
488 a2enmod cgid
489 sudo a2enmod cgid
490 systemctl restart apache2
491 curl http://localhost/cgi-bin/test_script
492 nano vi /etc/apache2/conf-available/cgi-enabled.conf
493 nano /etc/apache2/conf-available/cgi-enabled.conf
494 sudo a2enconf cgi-bin
495 sudo a2enconf cgi-enabled
496 systemctl restart apache2
497 exit
498 cd ..
499 mkdir /media/django/webserver/cgi-enabled
500 a2enconf cgi-enabled
501 sudo a2enconf cgi-enabled
502 sudo a2disconf cgi-enabled
503 systemctl restart apache2
504 sudo a2enconf cgi-enabled
505 systemctl restart apache2
506 nano /media/django/webserver/cgi-enabled/index.cgi
507 chmod 705 /media/django/webserver/cgi-enabled/index.cgi
508 ls -l
509 cd cgi-enabled/
510 ls -l
511 sudo a2disconf cgi-enabled
512 systemctl restart apache2
513 cd ..
514 mkdir cgi-bin
515 sudo a2enconf cgi-bin
516 systemctl restart apache2
517 cd cgi-bin/
518 nano index.cgi
519 ls -l
520 chmod 705 index.cgi
521 ls -l
522 sudo a2enconf cgi-bin
523 systemctl restart apache2
524 sudo a2disconf cgi-bin
525 systemctl restart apache2
526 sudo a2enconf cgi-bin
527 systemctl restart apache2
528 sudo a2disconf cgi-bin
529 systemctl restart apache2
530 cd ..
531 ls -l
532 mkdir cgi-enabled
533 ls -l
534 sudo a2enconf cgi-enabled
535 systemctl restart apache2
536 cd cgi-enabled/
537 nano index.cgi
538 chmod 705 index.cgi
539 ls -l
540 cp index.cgi index.pl
541 nano index.pl
542 cp index.pl index.py
543 nano index.py
544 ls -l
545 sudo a2disconf cgi-enabled
546 systemctl restart apache2
547 sudo a2enconf cgi-enabled
548 systemctl restart apache2
Das eine ist nämlich die Verfügbarkeit von CGI auf dem System, das andere ist die Möglichkeit, um CGI auch auf dem Webserver ausführen zu können. Das sind zwei verschiedene Dinge.
In der Datei cgi-enabled.conf habe ich neben cgi und pl nun auch py eingetragen, um auch Pythonscripte im Browser möglich zu machen. Das funktioniert auch:
Damit CGI überhaupt machbar ist, ist dieser Ablauf wohl wichtig:
Warum und wieso das alles root-Rechten geschehen muss, habe ich noch nicht verstanden.
Die Sache mit dem Webserver kann dann aus dem folgenden Screener abgelesen werden:
So hat es auf dem Desktop-Rechner und auf dem Linux-Notebook funktioniert. Zumindest in Sachen CGI und Perl.
|
|
|
Module installieren mit CPAN |
Geschrieben von: Joopi - 07-01-2024, 07:18 - Forum: Programmieren
- Keine Antworten
|
|
Module für Perl installieren mit cpan
Die einfachste Art und Weise zusätzliche Module für Perl zu installieren ist mittels cpan möglich.
Das Paket cpanminus ist mit root-Rechten zu installieren.
Code: apt-get install cpanminus
Bevor man nun Module für Perl installieren kann, ist auf der Konsole, ich habe es mit root-Rechten gemacht, folgendes abzusetzen:
Danach kann dann ein Modul, dessen Name man natürlich wissen muss, installieren. In meinem Falle war es das Modul **File::Random**:
Code: sudo cpanm File::Random
Danach steht das Modul zur Verfügung. In einem Perlscript ist das Modul wie folgt zu verwenden:
Code: use File::Random qw/:all/;
cpanminus habe ich deswegen installiert, weil es auf dem normalen Wege nicht möglich war, Module zu installieren, da eben Abhängigkeit innerhalb der Module zu geben scheint.
Mit
bzw.
bekam ich Fehlermeldungen beim Ausführen von:
Die Ausgabe dazu war:
Zitat:Code: root@asus:/home/django/perl/neue_module/File-Random-0.21# make test
PERL_DL_NONLAZY=1 "/usr/bin/perl" "-Iblib/lib" "-Iblib/arch" test.pl
1..284
Can't locate Want.pm in @INC (you may need to install the Want module) (@INC contains: blib/lib blib/arc
h /etc/perl /usr/local/lib/x86_64-linux-gnu/perl/5.28.1 /usr/local/share/perl/5.28.1 /usr/lib/x86_64-lin
ux-gnu/perl5/5.28 /usr/share/perl5 /usr/lib/x86_64-linux-gnu/perl/5.28 /usr/share/perl/5.28 /usr/local/l
ib/site_perl /usr/lib/x86_64-linux-gnu/perl-base) at blib/lib/File/Random.pm line 9.
BEGIN failed--compilation aborted at blib/lib/File/Random.pm line 9.
Compilation failed in require at test.pl line 10.
BEGIN failed--compilation aborted at test.pl line 10.
# Looks like your test exited with 2 before it could output anything.
make: *** [Makefile:842: test_dynamic] Fehler 2
root@asus:/home/django/perl/neue_module/File-Random-0.21# make manifest
"/usr/bin/perl" "-MExtUtils::Manifest=mkmanifest" -e mkmanifest
Die erste Meldung:
Zitat:Code: > Can't locate Want.pm in @INC ...
Betrifft ein weitere Modul, welches noch nicht installiert war. Also musste erst das installiert werden, was aber wieder Fehlermeldungen nach sich zog. Daher war die Installation von **cpanminus** eine gute Entscheidung.
---
Bevor ich zur obigen Lösung kam, hatte ich noch folgendes Paket installiert:
Code: apt-get install libmodule-install-perl
Ob dieses Paket notwendig ist, oder bei der Installation von cpanminus mitinstalliert worden wäre, kann ich derzeit nicht sagen.
---
|
|
|
|