2019-06-20 the real world 14 Jahre apov Ein paar Zahlen Ohne besonderen Grund ist mir heute wieder diese Studie eingefal- len, in der der Sprachumfang in Songtexten untersucht wurde. [0] Das fuer mich relevante und bestaetigende Ergebnis war, dass Bob Dylan der einzige Nicht-Rapper auf den ersten Plaetzen war. Das ist die wissenschaftliche Erklaerung eines Aspekts, weswegen ich seine Musik mag. Aber wie dem auch sei ... In irgendeiner anderen Studie ist festgestellt worden, dass ``time'' das haeufigste Substantiv in seinen Lyrics ist. Daran habe ich mich eben wieder erinnert ... und dann dachte ich, waere es ja interessant zu wissen, was fuer Woerter in meinen ``Lyr- ics'' oben stehen. So habe ich kurzerhand mal reingeschaut. Dafuer hat man doch schliesslich Unix, weil sowas ein Einzeiler ist: cat * | tr -c '[-a-zA-ZäöüÄÖÜß]' \\n | tr A-Z a-z | \ sort | uniq -c | sort -nr Insgesamt umfasst apov derzeit 550 Texte aus 14 Jahren mit insgesamt rund 250.000 Woertern. Von diesen Woertern sind fol- gende die Top-20: 7013 ich 5996 die 5465 und 4432 ist 4099 der 4021 das 3886 es 3620 nicht 3217 zu 2795 in 2335 man 2170 ein 1914 sie 1783 so 1764 aber 1763 dass 1746 auch 1641 mich 1559 mit 1553 sich ... sehr offensichtlich, was das Hauptthema ist. ;-) Das erste 5-Zeichen-Wort ist ``nicht'' auf Platz 8. Das erste 6- Zeichen-Wort ist ``werden'' auf Platz 56. Das erste noch laengere Wort ist ``vielleicht'' auf Platz 113. Die fuenf laengsten Woerter sind: kommunikationsmoeglichkeiten preis-leistungs-verhaeltnis standardisierungskomitee allgemeinbevoelkerung entscheidungsfreiheit Insgesamt listet mein Befehl 26.000 verschiedene Woerter. Das ist aber zu hoch, weil Effekte auftreten, wie dass ``für'' und ``fuer'' separat gelistet sind, und ich Endformen (``mein'', ``meine'', ``meines'', ``meiner'', ...) nicht normalisiere. Auch sind ein paar Nicht-Woerter drin, die ich zu faul bin noch rauszufiltern (Pareto-Prinzip). Interessant, und der eigentliche Ausloeser dieser Analyse, sind aber die Substantive, die natuerlich erst etwas spaeter in der Liste kommen. Das haeufigste Substantiv in meinen Texten ist: ``Zeit'' (416 Mal und auf Platz 92). Lustig, denn bei Dylan ist es ja auch ``time''! Allerdings verwenden wir es vermutlich doch zumeist in unterschiedlichen Sinnzusammenhaengen. Direkt dahinter kommt ``Leben'' (das aber auch ein Verb sein kann und das es sicher oft auch ist, was ich hier vernachlaessige). Dann mit 365 Nennungen auf Platz 96 ``Buch'', was an meinen Buecherrueckblicken (den typischerweise laengsten Texten, schlichtweg, weil ich sie nicht auf Papier, sondern direkt am Computer schreibe ... so wie auch diesen Text hier) liegt. Desweiteren ``Welt'' (385/99) und ``Men- schen'' (302/119). Genug zu den Worten, jetzt noch zu den Texten. Ich habe mir vor laengerer Zeit ein kleines Script geschrieben, das mir mein apov-Schreibverhalten ueber die Zeit auswertet: printf "%s\t%4s\t%6s\t%6s\n" year num words avg.words for i in `seq 2005 \`date +%Y\`` ; do printf "%s\t%4d\t%6d\n" \ "$i" `ls $i-*.txt | wc -l` `cat $i-*.txt | wc -w` done | awk '{ printf("%s\t%6d\n", $0, $3/$2); }' Hier die Ausgabe (ohne den letzten Text, den ich zum Auswer- tezeitpunkt noch nicht online gestellt hattee): year num words avg.words 2005 61 13369 219 2006 73 15401 210 2007 42 15113 359 2008 30 19944 664 2009 44 16365 371 2010 47 19662 418 2011 33 17296 524 2012 30 15052 501 2013 28 15999 571 2014 29 21837 753 2015 27 21959 813 2016 34 23309 685 2017 26 16365 629 2018 24 16207 675 2019 20 12258 612 Die Zahlen sind insofern manchmal etwas verfaelscht, weil die Buecherrueckblicke manchmal im Dezember und manchmal im neuen Jahr liegen. 2013 und 2018 hatten keinen Buecherrueckblick, 2016 dagegen hatte zwei. Das macht immerhin Verschiebungen von 2000-3500 Woertern aus. Wenn ich spontan entscheiden sollte, dann ist 2015 mein Lieblingsjahr, weil da die meisten langen Texte dabei waren. (Und wenn man den zweiten Buecherrueckblick in 2016 abzieht, auch insgesamt die meisten Woerter. Aber die Laenge der Texte ist mir wichtiger als ihre Anzahl, weil Laenge mehr ein Indiz fuer Tiefe und damit tendenziell fuer Qualitaet ist.) In der ganzen Zeit gibt es drei Monate, in denen ich es nicht geschafft habe, auch nur einen Text zu schreiben. Mindestens zwei Texte pro Monat sind mein Ziel, manchmal wird's nur einer -- leider -- aber gar keiner ist wirklich selten -- zum Glueck! Natuerlich ermittle ich sowas auch in der Shell, und zwar mit einem Befehl wie diesem: for y in `seq 2005 2019`; do for m in `seq -f %02.0f 1 12`; do echo $y-$m-* done done | grep -v txt Aus der Ergebnisliste habe ich dann noch manuell die Monate vor meinem ersten und die in der Zukunft entfernt und uebrig bleiben drei: 2015-05-* 2017-06-* 2018-12-* Mit keinem von ihnen habe ich ein Problem. Es gab jeweils Gruende fuer die Auszeiten. Lieblingstexte habe ich viele, aber jeder Text ist mehr wie ein Kunstwerk: Jeder ist individuell und fuer sich selbst schoen, oder besser: Er ist so wie er nun eben ist und nicht anders sein kann. [0] http://lab.musixmatch.com/largest_vocabulary/ http://marmaro.de/apov/ markus schnalke