Klassificering av alla PDFer på internet: En djupdykning i storskalig dataanalys

I en imponerande bedrift har en forskare nyligen genomfört ett ambitiöst projekt för att klassificera miljontals PDF-filer från hela internet. Detta enorma åtagande ger fascinerande insikter i hur man kan använda avancerade tekniker inom maskininlärning och dataanalys för att extrahera meningsfull information från enorma mängder ostrukturerade data.

Bakgrund och datakällor

Projektet utgick från den enorma SafeDocs-databasen, som är en del av DARPA:s SafeDocs-program. Denna databas innehåller omkring 8,4 miljoner PDF-filer som totalt utgör 8 terabyte okomprimerad data. Det är i dagsläget den största renodlade PDF-databasen som finns tillgänglig på internet.

SafeDocs-databasen bygger i sin tur på data från Common Crawl, ett gigantiskt webarkiv som innehåller petabytes av data insamlad från hela internet sedan 2007. Till skillnad från Internet Archive, som fokuserar på digital bevarande, är Common Crawl främst inriktat på att tillhandahålla data för forskare och datavetare.

För den som inte är insatt i storskalig dataanalys kan det vara svårt att föreställa sig hur enorma dessa datamängder faktiskt är. För att sätta det i perspektiv: 8 terabyte motsvarar ungefär innehållet i 1600 DVD-skivor eller mer än 5,3 miljoner disketter. Om man skulle skriva ut all denna data på papper skulle det krävas över 160 miljoner A4-sidor!

Utmaningen: Att klassificera miljontals dokument

Målet med projektet var att utveckla en metod för att automatiskt kategorisera alla dessa PDF-filer i olika ämnesområden. Detta är en enorm utmaning av flera skäl:

Den enorma datamängden gör det omöjligt att manuellt granska och klassificera filerna.
PDF-filer kan innehålla en mängd olika typer av innehåll – text, bilder, tabeller, etc – vilket gör dem svåra att analysera automatiskt.
Dokumenten täcker ett extremt brett spektrum av ämnen och kan vara skrivna på många olika språk.
Många dokument kan passa in i flera olika kategorier samtidigt.

För att tackla denna utmaning användes en kombination av avancerade tekniker inom maskininlärning och språkbehandling.

Metodologi: En innovativ ansats

Steg 1: Generering av initiala etiketter med språkmodeller

Det första steget var att använda en storskalig språkmodell (LLM) för att generera inledande klassificeringar för en delmängd av dokumenten. Specifikt användes Llama-3-70B-modellen via Together AI:s API för att analysera URL:er och metadata för 100 000 slumpmässigt utvalda dokument.

Denna metod, kallad “few-shot prompting”, går ut på att ge språkmodellen några exempel på hur man vill att klassificeringen ska se ut. Modellen kan sedan generalisera utifrån dessa exempel för att klassificera nya dokument. Detta är ett kraftfullt sätt att utnyttja språkmodellernas förmåga att förstå kontext och semantik utan att behöva träna om hela modellen.

Steg 2: Träning av en “student”-modell

Nästa steg var att använda de genererade etiketterna för att träna en mindre och snabbare modell som kunde appliceras på hela datasetet. Detta följer en metodik som kallas “knowledge distillation” eller lärar-elevmodell.

Flera olika typer av modeller testades för detta ändamål, inklusive:

Embeddings-baserade djupa neurala nätverk
XGBoost (en typ av gradient boosting-modell)
TF-IDF-baserade modeller
Linjära regressionsmodeller

Intressant nog visade sig XGBoost-modellen prestera bäst, med en accuratess på över 85% efter optimering. Detta är ett bra exempel på att traditionella maskininlärningsmetoder fortfarande kan vara mycket effektiva även i en era av djupinlärning.

Steg 3: Storskalig klassificering och visualisering

Med den optimerade modellen på plats kunde hela datasetet på 8,4 miljoner PDF-filer klassificeras. Detta genererade en enorm mängd strukturerad data som sedan kunde analyseras och visualiseras.

För att göra denna data mer begriplig användes dimensionalitetsreduktionstekniker som PCA (Principal Component Analysis) och UMAP (Uniform Manifold Approximation and Projection). Dessa tekniker gör det möjligt att visualisera högdimensionell data i två eller tre dimensioner, vilket ger fascinerande inblickar i hur olika dokument relaterar till varandra.

Resultat och insikter

Projektet genererade flera intressanta resultat och insikter:

Den slutliga XGBoost-modellen uppnådde en imponerande accuratess på 85,26% över 12 olika dokumentkategorier.
Visualiseringarna avslöjade tydliga kluster av relaterade dokument, vilket tyder på att modellen lyckats fånga meningsfulla semantiska relationer.
Traditionella maskininlärningsmetoder som XGBoost och till och med linjär regression presterade överraskande bra jämfört med mer komplexa djupinlärningsmodeller.
Mängden träningsdata visade sig vara kritisk för prestandan, särskilt för djupinlärningsmodellerna.

Implikationer och framtida möjligheter

Detta projekt demonstrerar potentialen i att kombinera storskaliga språkmodeller med mer traditionella maskininlärningstekniker för att analysera enorma mängder ostrukturerad data. Några möjliga tillämpningar och framtida forskningsriktningar inkluderar:

Förbättrade sökmotorer och rekommendationssystem som kan ge mer relevanta resultat baserat på dokumentens innehåll och kontext.
Automatiserad kunskapsextrahering från stora dokumentsamlingar inom olika fackområden.
Förbättrade system för att upptäcka plagiering eller återanvändning av innehåll över internet.
Mer sofistikerade analysverktyg för att studera trender och mönster i vetenskaplig publicering eller patentering.

Det är också värt att notera att denna typ av storskalig dataanalys ställer höga krav på datorresurser. För UMAP-visualiseringen av 6,5 miljoner datapunkter krävdes till exempel en kraftfull server med 48 processorkärnor och 384 GB RAM. Detta understryker vikten av fortsatt utveckling inom högprestandadatorer och molnbaserade beräkningsplattformar för att möjliggöra denna typ av analys.

Öppen data och reproducerbarhet

En viktig aspekt av detta projekt är att forskaren har gjort både data och kod tillgängliga för andra att bygga vidare på. Specifikt finns:

Klassificeringar och embeddings tillgängliga på Hugging Face
Råa embeddings-data på Kaggle
Källkod tillgänglig på GitHub

Detta är ett utmärkt exempel på öppen vetenskap som möjliggör för andra forskare att reproducera resultaten, bygga vidare på arbetet eller applicera liknande metoder på andra dataset.

Sammanfattning

Klassificeringen av miljontals PDF-dokument från internet representerar ett imponerande framsteg inom storskalig dataanalys och maskininlärning. Genom att kombinera avancerade språkmodeller med mer traditionella maskininlärningstekniker har forskaren demonstrerat hur man kan extrahera meningsfull struktur ur enorma mängder ostrukturerad data.

Detta projekt öppnar upp spännande möjligheter för framtida forskning och tillämpningar inom allt från informationssökning och kunskapshantering till trendanalys och vetenskapliga studier. Samtidigt illustrerar det både utmaningarna och potentialen i att arbeta med verkligt stora datamängder.

För den som vill fördjupa sig ytterligare finns nu både data och kod tillgängliga för vidare experiment och analys. Detta projekt kan mycket väl visa sig vara ett viktigt steg på vägen mot ännu mer sofistikerade metoder för att förstå och organisera den enorma mängd information som finns tillgänglig på internet.

Läs även: Nordiska Börser: 7 Nyckelfakta för Smarta Investerare