reconstructing journalism – Social media journalism for the public good

Jeg brugte kunstig intelligens til at lave referat fra #NAMS25, og så skete dette… (er det ikke sådan, man skriver en rubrik i dag?)

TL;DR-versionen: ChatGPT var bedst til handouts (opsummerende noter), særligt på engelsk; de var klodsede på dansk.

Pinpoint og Notebook.lm ville kræve, at jeg arbejdede en del med promptet – det blev let banalt. Men jeg elsker, at man begge steder kan se, hvor i transskriberingen den henter hovedpointerne (ChatGPT påstår, den kan, men det sejler en smule). Det sjoveste var klart at lave en GPT ud af 20 af transskriberingerne (som er maksantallet af dokumenter, en GPT hos ChatGPT kan indeholde). Jeg bad den om at lave en AI-strategi-GPT ud af dokumenterne, der kunne rådgive mig. Efter en ordentlig røffel(!) kunne jeg endda få den til at give mig præcise citater fra dokumenterne.

Jeg testede også ChatGPTs Canva-GPT-integration, og den laver fine forslag til slide-design, men sætter ikke selv teksten ind – det skal man gøre manuelt. Prezi har til gengæld lavet en AI-funktion, som med udgangspunkt i fx et handout kan lave slides – design og tekst. Og det ville kunne bruges med meget få rettelser.

Den længere version: Den oprindelige aftale var: Du har 8 minutter og 10 slides til at fortælle os ”noget om kunstig intelligens” på alle medarbejdermøde. Det er sjældent, jeg overholder rammen, fordi jeg altid bliver for begejstret og synes, der er 200 ting, mine kolleger bør se og vide.For at få mest muligt ud af opgaven har jeg som mål, at jeg skal bruge forberedelsen til at teste nye værktøjer.

I tirsdags havde Peter spurgt, om jeg ikke ville fortælle lidt om den nyligt overståede Nordic AI Journalism in Media Summit – NAMS (konferencen kan I læse meget mere om hos andre gode mennesker – dette kommer til at handle om værktøj): Jeg havde taget noter i Note-app’en, som de fleste af os gør til konferencer: tager lidt billeder af slides, noterer lidt tilfældige tanker a la ”jeg kan godt lide begrebet vibe-coding”. Jeg havde også delt dokumentet med en anden deltager, der løbende skrev lidt kommentarer. Og for få år siden ville jeg have lavet mit oplæg med udgangspunkt i de noter – og min ikke altid lige skarpe hukommelse.

I stedet testede jeg følgende: Jeg startede med at finde alle oplæggene på YouTube: Nordic AI in Media Summit (hurra for, at de så hurtigt er online).

Og så brugte jeg Notegpt.io til at transskribere alle oplæggene. Det tog mellem 3 og 10 sekunder pr. oplæg. Transskriberingen rodede lidt rundt i navne osv., men ikke noget, der var et problem i forhold til det, jeg havde brug for.

Opsummeringer og handouts

Det første, jeg gjorde, var at give ChatGPT et af referaterne og bede den om hovedpointerne. Generelt blev det udmærket – den ramte ret præcist, når den blot skulle lave et enkelt handout. Der var dog tydelig forskel på dansk og engelsk. Dansk var generelt ret kluntet (jeg brugte 4o).

Automatiserede slides

Men livet er for kort til at lave slides, og ChatGPT har fået en Canva-integration (hvis man går op under GPT’er, kan man vælge Canva). Her tog jeg det handout, jeg havde genereret, og bad den lave det til slides. Den foreslog derefter et par designs, man kunne vælge imellem. De var temmelig generiske, men holdt sig til temaet og kunne sagtens bruges som udgangspunkt. Jeg skulle dog selv sætte teksten ind og redigere den, så den passede til formatet osv. … det føltes lidt som spild af tid.

Derfor søgte jeg på Google efter ”generate AI slides” – og blev sendt over til gode gamle Prezi, der også har fået en AI-udgave. Her fodrede jeg den med det handout, ChatGPT havde lavet – og så fiksede den slides, tekst, layout osv. Det hele blev en smule generisk, men jeg skulle ikke rette meget, før jeg reelt havde et oplæg, der ville matche det, man ser på mange konferencer. Alt sammen meget godt – men jeg havde jo brug for en generel opsummering af alle oplæggene.

*Eksempel på slides genereret hos Prezi*

Pinpoint, Notebook, GPT

Derfor prøvede jeg i stedet at smide alle referater ind i først Notebook.lm og Google Pinpoint (hvor jeg har slået AI-integrationen til). Hos Notebook.lm var jeg nødt til at lave dokumenterne til pdf’er, fordi den ikke spiser Word-dokumenter. Suk. Resultatet var ret ens de to steder. Der er fordele og ulemper ved de indsigter, de har automatiseret: nævnte personer (Donald Trump var den mest nævnte), institutioner osv. (lidt rodet, fordi jeg ikke havde rettet transskriberingen igennem). Notebook.lm’s mind map gav en sjov indsigt. Generelt synes jeg, Notebook.lm’s opsummeringer (Briefing doc, Study Guide, FAQ) er ret skarpe. Jeg tror reelt, jeg kunne have fået nogle gode idéer ved at lege videre med begges funktioner, men det krævede ekstraarbejde.

Så jeg vendte blikket tilbage mod ChatGPT for at se, hvad jeg ville kunne få ud af at lave en GPT med transskriberingerne. Jeg bad den lave en GPT, der kunne rådgive mig om integrering af kunstig intelligens i medievirksomheder. Generelt var svarene gode – og meget tro mod det, der blev sagt på konferencen. Det vil til gengæld også sige, at den ikke kan svare spekulativt; den kan svare konkret med udgangspunkt i det, der blev sagt. Da jeg bad den om at underbygge det, den skrev, med citater fra de dokumenter, jeg havde fodret den med, startede den med at give mig generiske, falske citater (jeg krydstjekkede selvfølgelig). Men efter en kort opsang lykkedes det at få de citater, jeg havde brug for – selvom den ikke formåede at linke dem tilbage til dokumenterne (den lavede døde links).

Hvordan ville jeg bruge alt dette som journalist

Jeg ville næppe bruge GPT’en til at lave journalistiske referater eller, for den sags skyld, til at lave mit oplæg for kollegerne. Men der var noget ret tilfredsstillende i fx at kunne spørge den:

”Vi står over for at skulle lave en reform af vores bacheloruddannelse – hvordan integrerer vi bedst kunstig intelligens? Hvad er muligheder, og hvad er risici?” – og reelt få nogle gode svar, der tog udgangspunkt i de begavede menneskers oplæg på konferencen. I mit job ville dette nok reelt være det mest brugbare. Hvis jeg var journalist, der skulle dække konferencen, ville jeg nok lave en optagelse, mens jeg selv lyttede og skrev citater ned. Og så ville jeg få optagelsen transskriberet og bede ChatGPT lave en kort artikel efter hvert oplæg (jeg ville give den vinklen og formatet). Den artikel ville jeg skrive igennem og tilføje mine egne citater. På den måde ville jeg kunne producere hurtigere – og reelt nok også bedre – end jeg selv ville formå uden redskaber.

De genererede slides fra Canva og Prezi:

Jeg kunne godt finde på at bruge Canva, fordi de reelt laver flottere slides, end jeg selv gør, men det ville ikke lette mit arbejde. Prezi? Hmm. Det bliver meget Prezi-agtigt (og et abonnement koster 15 dollars), men jeg var faktisk imponeret over indholdet. Det bliver dog let lidt generisk, men man kan let rette i dem, så de kan være et okay udgangspunkt.

Hvad så nu? Hvad er det næste, jeg ville teste?

En GPT kan kun rumme 20 dokumenter – modsat Pinpoint og Notebook.lm – men jeg tror, jeg ville prøve at tilføje mine egne noter og billeder af slides alle tre steder og se, om det ville løfte indholdet. Jeg skriver af og til oplæg, strategier, fondsansøgninger, den slags dokumenter, og jeg ville uden tvivl kunne få nye idéer og formuleringer ved at pingponge med referaterne fra konferencen – både hos Pinpoint, Notebook.lm og ChatGPT.

Det er tydeligt, at det gamle ”Shit in, shit out”-begreb også gælder her. Hvis du fodrer den med overfladiske strategi-statements, så er det også det, du får tilbage i hovedet. Og hvis du skriver dårlige, upræcise prompts, så bliver dine svar upræcise.

Der skulle dog ikke mange justeringer til, før alle tre tjenester gav mig reel værdi.

Where do you go when you’ve had enough of tech bros?

You’ll find a Danish Version of this post her

(Scroll down if you just want to read the alternatives and not all the details)

In recent weeks, it has become clear that the largest tech companies prioritize economic and political interests over data security, user interests, and data ethics. It’s not the most surprising revelation in the world, but it’s becoming increasingly hard to ignore.

I believe we’re facing the realisation that the digital public sphere will likely not take place in just one location in the future. This will be challenging for communications professionals and journalists and, at times, frustrating for the rest of us, as we’ve grown accustomed to Meta, Google, and Twitter serving as central hubs for large parts of the population. But as long as we lack EU legislation or similar frameworks to ensure free speech, open algorithms, and transparency, we as users need to reconsider our behavior.

In recent days, there have been examples of Instagram hiding specific words, like “Democrats,” when users searched for them. This isn’t new—it’s just been less obvious before. Algorithms on various social media platforms have long worked to amplify or suppress certain political viewpoints, and there has been “shadow banning,” where no one sees your posts if you write about specific topics.

At the same time, some users have reported being made to follow or unfollow certain accounts against their will, primarily Trump and Vance (though I haven’t seen concrete evidence of this). Other users have experienced having their profile pictures removed if they included pride flags as part of the image, particularly on TikTok.

So, what do we do now? We work tirelessly for legislation in this area, we equip our politicians with the knowledge they need to understand what’s happening, and we seek alternatives.

Side note: At some point, I’ll write a post solely about how we need to respect the fact that, especially for young people, these platforms foster significant communities. There’s a tendency for “adults” to dismiss them as “silly dance videos,” which is both ignorant and condescending. We must acknowledge that these platforms serve as meaningful, identity-shaping communal spaces—sub-public spheres that play a huge role in people’s lives. This isn’t easy. Decentralising those spaces can be painful; people lose communities that feel like family.

Several people have written insightful pieces about alternatives to Facebook (for example, see this post by Henrik Føhns and this commentary by Astrid Haug). I agree that we should continue searching for, developing, and demanding better from new platforms. But while we wait for them to be established, where can we go in the meantime?

The two most important components are:

1. Critical mass – there need to be enough active users for it to be engaging and enjoyable to be there.

2. The platform must be decentralized, so there isn’t a single owner who might lose their mind *waves at Elon, Zuckerberg, and Bezos*

Unfortunately, these two elements are often difficult to combine.

Side note: Decentralised means that the social media platform consists of many independent servers, each often with its own rules and administrators. Users can create an account on one server but still interact with users from other servers. No single entity or person has full control over the entire network.

The following list is by no means complete and is very much “what I could think of at the moment,” so feel free to share any other suggestions you might have!

Text/Chat

The best thing you can do is replace WhatsApp, Messenger, iMessage, etc., with Signal.

Signal is open source (meaning you can look under the hood), messages are encrypted, and it collects minimal data. You can create groups of up to 1,000 people, but you need a phone number to use Signal.

Telegram is often mentioned as an alternative to Messenger, and one of its advantages is that you can subscribe to groups and aren’t required to link the service to a phone number.

I personally prefer Signal because it’s open source and non-profit-owned. Additionally, Telegram’s groups don’t always attract the most well-behaved users (there’s room for debate about whether Telegram’s owner, Pavel Durov, should be held accountable for what happens on his platform, but rather than diving into that, I’ll just say that I prefer Signal).

Browser

Good old Firefox is a great alternative to Google Chrome, as are Brave and DuckDuckGo. All three focus on data security and protecting user privacy.

Microblogging (aka Twitter)

It’s been about 15 years since anyone last used the term “microblogging,” but… in the absence of a better umbrella term:

The best alternative is Mastodon, a decentralised platform where you choose the server on which to create your account. You can still interact with other servers, but the server you choose may have specific rules, such as those regarding moderation or data security. It’s all very well-organised and ethical, though it can feel a bit tricky for new users at first—but you’ll get the hang of it quickly. Mastodon’s biggest challenge is critical mass: in some areas, there are plenty of users, but for most people, it can be hard to find a community.

Bluesky is currently a very promising alternative to Twitter/X, but it’s still owned by individuals who could potentially be compromised. The network is built on technology that allows for decentralization, but I haven’t yet heard of anyone who has made that part fully functional.

In Denmark, Bluesky is starting to reach a critical mass. It feels a bit like Twitter during its most fun era, but on quieter days, it can still feel empty.

The barrier to getting started on the platform is low. There are helpful “starter packs,” such as Danish journalists or the labor movement, which make it easier to find interesting people to follow.

Instagram

This one’s tricky. The sheer number of users and a relatively functional platform make it tempting to stay. However, there are significant challenges with Instagram’s algorithm, how it uses your data, and the way it suppresses or promotes specific topics and users. Good old Zuckerberg.

Alternatives are emerging, but none are truly established yet:

• In the past, I would have suggested Flickr, but after being sold multiple times, I know very few people who actively use it.

• Bluesky has launched a new app called Flashes. The downside here is that there’s still a single owner. While they’re acting reasonably for now, we’ve learned that power tends to corrupt.

• pixelfed.org is a decentralized alternative, similar to Mastodon, with no single owner. I hope they win the race, but unfortunately, it’s not quite a seamless user experience yet.

Facebook and LinkedIn

There isn’t really a single alternative to Facebook, which remains its biggest strength. Other platforms can replace parts of what Facebook does, but in the long run, the replacement is likely a combination of newsletters and decentralized social media.

The same applies to LinkedIn, which is owned by Microsoft.

Search Engines

DuckDuckGo is still your best alternative to Google. For some reason, the digital development in this space hasn’t been significant—maybe people have just resigned themselves to Google owning their souls.

Video Platforms

Another challenging area. When the U.S. temporarily enforced its TikTok ban, most users migrated to Instagram Reels and YouTube, which brings us back to Meta/Google.

In the past, Vimeo would have been a good alternative, but like Flickr, it has been struggling for years. Vimeo also lacks the social aspect that TikTok, YouTube, and Instagram provide.

Many gamers use Twitch (owned by Amazon) or Discord as video streaming platforms, but these are focused on live streaming rather than sharing videos as you would on TikTok or Reels.

Blogging (/Websites)

This isn’t my area of expertise, so if you have ideas about where we should move if WordPress collapses, feel free to share!

Email Services

Again, not a strong suit of mine. The best-known secure-ish alternative to Gmail seems to be ProtonMail. However, like Telegram, it has faced challenges when it comes to government demands (see here, here, and here).

Other alternatives include Tutanota, Hushmail, Mailfence, etc. You can read more here: Secure Email Services.

Hvor går man hen, hvis man har fået nok af tech bro’s?

You’ll find an English version here
(scroll ned, hvis du blot vil læse alternativerne og ikke alle ordene)

De seneste uger er det blevet tydeligt, at de største techvirksomheder sætter økonomiske og politiske interesser over datasikkerhed, brugernes interesser og dataetik. Det er ikke det mest overraskende i verden, men det er efterhånden temmelig svært at lukke øjnene for.

Jeg tror, vi står overfor en erkendelse af, at den digitale offentlighed i fremtiden næppe kommer til at foregå ét sted. Det bliver besværligt for kommunikationsmedarbejdere og journalister, og til tider irriterende for alle os andre, fordi vi allerede har vænnet os til at Meta, Google og Twitter er samlingspunkter for store dele af befolkningen. Men så længe, at vi ikke har EU-lovgivning eller lignende, der sikrer det frie ord, åbne algoritmer og gennemsigtighed, så er vi som brugere nødt til at overveje vores adfærd.

De seneste dage har der været eksempler på at Instagram har skjult specifikke ord fx democrats, når brugerne har søgt på dem. Dette er ikke nyt, det har blot været mindre åbenlyst før. Algoritmerne på diverse sociale medier har længe sørget for, at bestemte politiske holdninger blev fremhævet eller skruet ned, og der har været ”shadow banning”, det at ingen ser dine posts, hvis du skriver om specifikke emner.

Samtidig har nogle brugere oplevet, at de enten følger eller affølger specifikke konti mod deres vilje primært Trump og Vance (jeg har dog ikke set konkrete beviser for netop det). Andre brugere har oplevet at få deres profilbilleder fjernet, hvis de havde pride-flag, som en del af billedet, på TikTok.

Så hvad gør vi nu? Vi arbejder benhårdt for lovgivning på området, vi klæder vores politikere på, så de forstår, hvad der foregår, og vi søger alternativer.

Indskud: På et tidspunkt kommer jeg til at skrive et indlæg udelukkende om, hvordan vi i denne samtale skal respektere, at særligt unge føler store fællesskaber på de platforme, de interagerer på. Der er tendens til at ”voksne” taler om “fjollede dansevideoer”, det er uvidende og nedladende. Vi skal respektere, at der er platforme, der fungerer som betydningsfulde, identitetsgivende, fællesrum – deloffentligheder, som har en kæmpe betydning i folks liv… det her er ikke let. Og decentralisering af de rum, gør til tider ondt, folk mister fællesskaber, der føles som familie!

Der er flere, der har skrevet fine ting om alternativer til Facebook (læs fx dette indlæg af Henrik Føhns og denne kommentar af Astrid Haug). Jeg er enig i, vi skal blive ved med at lede efter, udvikle og stille krav til nye platforme, men mens vi venter på, at de bliver etableret, hvor kan vi så gå hen?

De to vigtigste komponenter er:

1. Kritisk masse – der skal være nok aktive brugere til, at der er sjovt at være der.

2. Platformen skal være decentraliseret, så der ikke er én ejer, der kan miste forstanden *vinker til Elon, Zuckerberg og Bezos*.

De to ting er desværre ofte svære at kombinere.

Indskud: Decentraliseret betyder, at det sociale medie består af mange uafhængige servere, som ofte har deres egne regler og administratorer. Brugere kan oprette en konto på én server, men stadig interagere med brugere fra andre servere. Ingen enkelt instans eller person har fuld kontrol over hele netværket.

Følgende liste er næppe fuldstændig og i den grad ”det jeg lige kunne komme i tanke om”, så skriv endelig, hvis du har idéer til andre alternativer:

SMS/Chat

Det bedste, du kan gøre, er at erstatte whatsapp, messenger, imessage osv. med Signal.
Signal er open source (det vil sige, man kan få lov at se ned i maskinrummet), beskederne er krypterede, og der er minimal dataindsamling. Du kan lave grupper op til 1000 personer, men du skal have et telefonnummer for at bruge Signal.

Telegram bliver ofte nævnt som et alternativ til messenger, og en af fordelene ved Telegram er, at man kan abonnere på grupper + du slipper for at koble tjenesten til et telefonnummer.
Jeg foretrækker Signal, fordi det er open source og non-profit ejet. Desuden tiltrækker Telegrams grupper ikke altid Guds bedste børn (man kan sagtens diskutere, om ejeren af Telegram, Durov, skal stå til ansvar for, hvad der foregår på hans platform, men i stedet for at tage den diskussion vil jeg blot konstatere, at jeg foretrækker Signal).

Browser

Gode gamle Firefox er et godt alternativ til Google Chrome. Det samme er Brave og DuckDuckGo. Alle tre fokuserer på datasikkerhed og beskyttelse af brugerens privatliv.

Microblogging (aka Twitter)

Det er cirka 15 år siden, at nogen sidst brugte begrebet microblogging, men … i mangel af bedre samlebetegnelse.
Det bedste alternativ er Mastodon, en decentraliseret tjeneste, hvor du skal vælge hvilken server, du opretter din konto på. Du kan stadig interagere med de øvrige servere, men der kan være specifikke regler, fx for moderation eller datasikkerhed, på den server, du har valgt. Alt er meget ordentligt og godt, men lidt svært at finde ud af for nye brugere. Det går dog hurtigt over. Mastondons største udfordring er kritisk masse, på nogle felter er der virkelig mange brugere, men for de fleste almindelige mennesker, kan det være lidt svært at finde en crowd.

Bluesky er indtil videre et virkelig godt alternativ til Twitter/X, men tjenesten ér ejet af mennesker, der kan korrumperes. Netværket bygger på teknologi, hvor decentralisering er mulig, men jeg har endnu ikke hørt om nogen, der reelt set har fået det til at virke.
Her begynder der at være en dansk kritisk masse. Man har en fornemmelse af at have et feed, der minder om Twitter, da der var sjovest, men på dårlige dage, så er der stadig stille.
Barren for at komme i gang med platformen er lav. Der er gode folk, der har lavet en masse såkaldte ”starter packs”, fx ’danske journalister’ eller ’fagbevægelsen’. Det gør det lettere at finde sjove folk at følge.

Instagram

Er en af de svære. Mængden af brugere, og en forholdsvis fungerende platform, gør det tiltrækkende at være der. Der er en masse udfordringer med algoritmen, måden de benytter din data og det, at de skjuler eller fremhæver specifikke emner og brugere. Gode gamle Zuckerberg.

Der begynder at opstå alternativer, men de er ikke for alvor etablerede:
I gamle dage, ville jeg have sagt Flickr, men efter at være blevet solgt nogle gange, så kender jeg få, der bruger det aktivt.

Bluesky bygger på en ny app pt., der hedder Flashes, her er ulempen stadig, at der er én ejer. Pt. opfører de sig fornuftigt, men… magt korrumperer, har vi vel efterhånden måtte erkende.

pixelfed.org er et decentraliseret alternativ – a la Mastodon, her slipper vi for én ejer. Og jeg håber, at de vinder kapløbet. Jeg synes desværre ikke, at det er helt smooth at bruge dem endnu.

Facebook og LinkedIn

Reelt set er der ikke ét alternativ til Facebook. Hvilket stadig er Facebooks største fordel. De øvrige tjenester kan erstatte dele af det Facebook gør, men reelt set, så er erstatningen nok i længden en blanding af nyhedsbreve og decentrale sociale medier.
Det samme gælder sådan set LinkedIn, der er ejet af Microsoft.

Søgemaskiner

DuckDuckGo bør stadig være dit alternativ til Google. Af en eller anden grund, er det ikke her den digitale udvikling har været størst, måske har alle bare accepteret at Google ejer deres sjæl.

Videotjenester

Endnu et svært felt. Brugerne fra TikTok flygtede primært mod Instagram Reels og YouTube, da USA kortvarig håndhævede deres forbud, men så er vi tilbage hos Meta/Google.
Tidligere ville Vimeo have været et godt bud på et alternativ, men ligesom Flickr, så har de haltet i mange år. Og de mangler også det sociale aspekt som TikTok, YouTube og Instagram har.
Mange gamere bruger Twitch, der dog er ejet af Amazon, eller Discord, som videostreaming platforme, men her er fokus på streaming, dermed ikke et sted, man deler videoer med hinanden, som man gør på TikTok eller Reels.

Blogging (/hjemmesider)

Her begynder jeg at være på udebane, så hvis du har input til, hvor vi skal rykke hen, hvis WordPress for alvor imploderer, så byd endelig ind

Mailtjenester

Igen er det ikke et område, jeg ved synderligt meget om. Det bedste kendte data-sikre(-ish) alternativ til gmail, er umiddelbart Proton. Ligesom Telegram, så har de haft deres udfordringer, når det kommer til at krav fra myndighederne (her og her og her).
Der findes også alternativer som Tuta, Hushmail, Mailfence osv. Læs mere her: Secure Email Services.

The continued fight for the free internet

Talked to a colleague earlier this evening about open access to scientific journals and told her about Aaron Swartz, which made me rewatch the documentary The Internet’s Own Boy – about internet freedom and the work Swartz did. Somehow it feels even more important today, because we’ve moved even further down the road of commercialisation and a ‘closed’ internet than when the movie came out about 10 years ago.

I really miss feeling optimistic about what the internet can bring to society – I still believe it’s possible, but wow, it feels like we’ve lost a lot of the battle. My Roman Empire is thinking about the utopian and dystopian perspectives of the internet – I ponder this several times a week. In the movie, Aaron says something that reminded me how much of this fight is up to us as users and, not least, as journalists:

There are these two polarizing perspectives: everything is great, the internet has created all this freedom and liberty, and everything is going to be fantastic; or everything is terrible, the internet has created all these tools for cracking down, spying, and controlling what we say. I think that both are true—the internet has done both—and both are kind of amazing and astonishing. Which one will win out in the long run is up to us. It doesn’t make sense to say one is doing better than the other, you know—they’re both true, and it is up to us which one we emphasize, which one we take advantage of, because they’re both there, and they’re both always gonna be there.
The Internet’s Own Boy, 1:23:45

The whole movie is, of course, free to watch on YouTube: https://www.youtube.com/watch?v=9vz06QO3UkQ&rco=1

Using ChatGPT4 for data analysis

Can you use ChatGPT4 – and custom GPT’s – for investigative journalism, for example, data analysis – most definitely yes! (but be careful): Here is what I have learned converting 39 JPEGs into an all-text Excel file.

TL;DR version:

ChatGPT handles .xlsx files (Excel), significantly better than CSV-files.

It handles transcribing text from images well, with minimal errors (it even identified mistakes in the original poster’s translation).

It is more adept at transcribing, sorting, and handling data than analysing it. Therefore, it should be used for structuring data, while you should be careful, and double check results during the analysis phase.

For creating sheet-type files, ChatGPT4 performs better than other tools such as Claude (3 Sonnet), Gemini, and Co-pilot – mainly because it is better at creating a file, so you don’t have to copy-paste data from the LLM to the file.

I tasked it with transcribing canteen menus and identifying meals containing pork. It did an okay job, when I asked it to look at the data as a data analyst, and a bit better, when I told it to look, at the menus as chef and gave it examples of food containing ham (eg. bacon), but for example it kept telling me, that fish fritters (da: fiskefrikadeller) was pork, because it translated fiskefrikadeller to fish meatballs and meatballs = pork.

Utilising a custom GPT for the analysis simplifies the process, though errors such as forgetting custom instructions can occur.

If you ask it to correct errors in the dataset it quite often do a good job.

Was it a more straightforward, faster, and superior method compared to manual analysis without AI? Yes, particularly after realising its limitations with CSV files.

Project background

I am continually seeking data projects to explore the capabilities and limitations of AI.

This seemed like a fun task: Every week the SDU main canteen post a JPEG on Facebook, with the menu for the following week. Me and my colleague Freja have tried to engage our students in analysing and scrutinising the menu (does it fit the strategy for climate and diversity eg.), but none of them seemed that interested, so… now I’ve done part of it myself. First a disclaimer: I only looked at the main canteen, there is an all-green canteen as well. So this is only part of the picture.

I decided to test if I could get ChatGPT4 to help me do it. And the answer is… kind of. So, if you want to know more about using a GPT for data analysis, come a long for the ride:

Analysing JPEGs and making a CSV-file

The canteen publishes their menus on Facebook – as a JPEG. Not very data friendly. So, I manually downloaded the JPEGs (boring, but easily done) – I ended up with 39 weeks from week 18 2023 to week 17 2024. And then I asked ChatGPT4 to transcribe the menus. It did an impressively accurate job.

The menu looked like this:

When transcribed, it looked like this:

I then asked it to organising the transcribed data into a CSV format. I requested five columns: week number, day, Danish text, English text, and allergens.

Very structured and nice. It managed to handle days without text (for weeks the canteen didn’t translate the menus and it hadn’t written allergen numbers in the same exact way every week, sometimes they weren’t there at all). And when I asked it to make a downloadable CSV-file, it did. All in all, quite impressive.

However, repeating the same task became monotonous, exacerbated by frequent errors, particularly when processing multiple JPEGs simultaneously.

Developing a Custom GPT in ChatGPT4

Then I considered: Can I create a GPT (a ChatGPT robot with predefined instructions) and instruct it to transcribe every JPEG, leave sections blank, if there isn’t any available data, move the allergens to the end row (even if they are not written correctly), and compile every dataset into the same CSV file.

The outcome was partial success. The primary challenge was the GPT’s occasional forgetfulness of prior instructions and its inability to add data to an existing file, though it managed to create a new file satisfactorily.

Errors I encountered:

When it got stressed, it made an illustration (!) of the menu instead of a CSV file – then I turned Dall-E off in its instructions. That helped.

It got confused because it itself had translated the headers to English, and I’d given it a file with Danish headers matching the once at the menus. But it taught itself to correct this…

When I tasked it with processing four JPEGs simultaneously, it disrupted the data, leaving out some days and misordering others. This underscores the necessity of human oversight to ensure accuracy. Consequently, I reverted to processing one week at a time. Upon requesting it to generate a new CSV with the corrected sequence, it successfully complied.
I encountered numerous errors where it seemed to forget my instructions repeatedly. Therefore, during these intervals when the AI is processing—or ‘thinking’—it may be prudent to engage in other activities, as waiting can lead to inefficiencies. Transitioning to an .xlsx format significantly accelerated the process compared to using a CSV file.
Initially, it claimed it could not create a downloadable CSV file, although it had successfully done so previously. Therefore, I deduced that a GPT could indeed accomplish this task. After revisiting and revising the instructions to affirm its capability, the system acquiesced and executed the command.
Subsequently, I reached the data limit, necessitating a pause of an hour or two before proceeding.

And then when I came back, it had forgotten how to do, what it had been doing for hours.

I had completed 19 weeks by then, but when I switched to .xlsx format, I ended up processing each week again, simply because it felt so satisfying to see how smoothly it consolidated them all into the same .xlsx file.

XLSX Instead of CSV

Initially hesitant to switch file types, I ultimately found the transition from .csv to .xlsx not only manageable but significantly beneficial.

This is how the errors looked, for the csv-file over and over (it’s in Danish, I mainly wrote everything in English, but at some point, I got tired and annoyed and switched to Danish – I’m sure you catch the drift, even if you don’t know the language).

Then I modified the GPT, adding a .xlsx file to its instructions and converting the format from .csv to .xlsx. This adjustment was straightforward and made a significant difference.

I encountered only 2-3 errors throughout the entire 39 weeks. I still had to add them one week at a time. Writing “Now do week 19” and upload the JPEG. Manageable, but a bit boring.

By the end it looked like this:

Now for the actual analysis

I then asked ChatGPT4 to function as a data analyst to identify patterns and propose potential stories for the university newspaper. While it performed adequately, the insights were not beyond what could be achieved through a basic brainstorming session.

Then I tried to ask it to emphasise every meal containing pork with pink text:

It wasn’t impressive.

Apparently butter chicken is pork. While pulled pork isn’t.

When I changed my prompt to ‘act like a chef and look for pork (eg. bacon, ham)’ it went a bit better. I still had to read it myself and correct a few errors (eg. translating fiskefrikadeller to fish meatballs instead of fish fritters and then stating meatballs equals pork).

But all in all:

Transcribing the JPEGs manually would have been considerably more time-consuming. While focusing solely on counting pork meals might have allowed for quicker completion, this approach would not have provided the complete dataset.
Creating a GPT for the .xlsx format streamlined the process significantly, 10/10 would recommend!

So if any of my students want to do the actually journalism, they can download the file here (if allergens or English translation isn’t provided, it wasn’t provided by the canteen).

Comparing Other AI Tools

I tested Claude (3 Sonnet), Co-pilot, and Gemini. Although as well, my testing was not exhaustive, but initial impressions suggest:

Claude effectively provided the data but could not generate a spreadsheet, so you would have to copy/paste all of the data
Co-Pilot initially refused to perform the task but has since proven capable, though manual data transfer remains necessary as well

Gemini executed the task smoothly, even creating a Google Sheet with the data. However, it struggled to add additional data to an existing sheet (I’m sure they’re going to fix that soon!)

All in all, AI can be somewhat buggy regardless of the bot you choose, requiring patience and creativity to devise workarounds when issues arise. However, when used effectively, it can significantly simplify sorting data.