Microsoft a șters blogul în care îți explica cum să furi Harry Potter ca să antrenezi un AI
Un senior product manager de la Microsoft a publicat un tutorial care îndemna dezvoltatorii să descarce cărțile Harry Potter de pe un dataset piratat de pe Kaggle și să le folosească pentru a antrena modele AI. Blogul a dispărut discret după ce Hacker News a observat.
Imaginează-ți că mergi la bibliotecă, furi șapte cărți, le faci scan acasă, le urci pe internet marcate greșit ca 'domeniu public', și apoi o companie cu o capitalizare de piață de două trilioane de dolari scrie un tutorial oficial în care îți explică cum să le folosești ca să antrenezi un robot. Sună ca un scenariu dintr-un roman distopic de mâna a doua. Dar nu e. E ce s-a întâmplat efectiv cu Microsoft și cărțile Harry Potter, undeva între noiembrie 2024 și săptămâna trecută, când totul a ieșit la suprafață pe Hacker News și blogul a dispărut mai repede decât o Bertie Bott's Every Flavor Bean de pe farfurie.
Povestea are toate ingredientele unui scandal tech bun: un senior product manager entuziast, un dataset piratat marcat greșit pe Kaggle, J.K. Rowling care ține drepturile de autor cu o mână de fier, și Microsoft care, la solicitarea unui comentariu din partea Ars Technica, a ales varianta clasică corporativă: tăcerea. Să despachetăm.
Ce e un LLM și de ce vrea să mănânce cărți
Un Large Language Model, adică un LLM, e genul de AI care stă în spatele ChatGPT, Copilot și tot cortegiul de asistenți digitali care îți rescriu emailurile în ton 'profesional dar prietenos'. Ca să funcționeze, aceste modele au nevoie de text. Mult text. Cantități obscene de text. Gândește-te la el ca la un elev care a citit tot ce a găsit pe internet și acum poate să reproducă orice stil, orice ton, orice structură narativă, fără să înțeleagă cu adevărat nimic din ce spune. Exact ca bunica mea cu rețeta de sarmale: o face perfect de treizeci de ani, dar dacă o întrebi de ce carnea nu trebuie să fie prea grasă, îți răspunde 'așa știu eu'.
Diferența față de bunica e că LLM-urile pot fi antrenate și pe seturi mai mici de date, pentru scopuri specifice. Asta e ceea ce se numește fine-tuning sau, în varianta mai simplă descrisă în blogul Microsoft, Retrieval-Augmented Generation, prescurtat RAG. Practic, în loc să antrenezi un model de la zero pe miliarde de documente, îi dai un set de texte specific și îl înveți să caute răspunsuri în acel set. E ca și cum ai angaja un bibliotecar care a citit doar o colecție particulară și poate să-ți spună instant ce scrie în orice volum din ea.
Blogul Microsoft, scris de Pooja Kamath, senior product manager cu peste un deceniu în companie, voia să demonstreze exact asta: cum poți folosi Azure SQL DB, LangChain și un LLM ca să construiești aplicații cu AI generativ 'cu doar câteva linii de cod'. Ideea în sine e perfect legitimă. Problema e că, pentru exemplu, a ales un dataset care nu era al ei de ales.
Kaggle, domeniu public și cum dispare copyright-ul dacă închizi ochii
Kaggle e o platformă deținută de Google unde data scientists urcă seturi de date pentru competiții și experimente. E un loc serios, folosit de cercetători și ingineri din toată lumea. Și, ca orice platformă cu conținut generat de utilizatori, are și rahaturi. Printre ele: un dataset cu toate cele șapte cărți Harry Potter, urcate de un data scientist din India pe nume Shubham Maindola, marcat ca 'public domain'.
Cărțile Harry Potter nu sunt în domeniu public. Ultima carte, 'Harry Potter and the Deathly Hallows', a apărut în 2007. Copyright-ul în SUA durează viața autorului plus 70 de ani. J.K. Rowling e în viață și are 60 de ani. Calculele nu ies. Nu acum, nu în curând, nu în viitorul previzibil al nimănui care citește acest articol.
Maindola a recunoscut că a marcat greșit licența, spunând că 'nu a existat nicio intenție de a reprezenta greșit statutul de licențiere'. Kaggle nu a răspuns solicitărilor de comentariu. Dar iată ce e interesant: dataset-ul a stat acolo ani de zile, cu 10.000 de descărcări, fără ca nimeni să sesizeze. Nici Kaggle, nici J.K. Rowling, nici avocații ei, care în mod normal sunt extrem de activi în a proteja franciza. Probabil că 10.000 de descărcări nu e suficient de zgomotos ca să trigghereze alarma unui departament legal. Până când un senior product manager de la Microsoft l-a pus în blogul oficial al companiei.
Asta e diferența dintre un dataset obscur și un scandal. Nu conținutul. Amplificatorul. Când Microsoft spune 'descarcă asta și folosește-l', nu mai ești tu, un data scientist obscur din București care experimentează pe laptop sâmbătă noaptea. Ești un client al celui mai mare furnizor de cloud din lume, urmând instrucțiunile oficiale ale companiei.
Fan fiction cu logo de Microsoft, sau: cum să strici două branduri deodată
Până acum, povestea e despre o greșeală de copyright care ar putea fi explicată prin ignoranță sinceră. Kamath poate că nu știa că cărțile nu sunt în domeniu public. Poate că a văzut eticheta de pe Kaggle și a crezut-o. Profesorul de drept Cathay Smith, de la Chicago-Kent College of Law, a spus explicit că 'cineva poate fi foarte bine informat despre cărți și tehnologie, dar nu neapărat despre termenii de copyright și cât durează aceștia'. E o scuză rezonabilă.
Dar blogul nu s-a oprit la 'descarcă cărțile și antrenează un model de Q&A'. A mers mai departe. Kamath a antrenat un model să genereze fan fiction Harry Potter. Și nu orice fan fiction. A scris o poveste în care Harry Potter, pe Hogwarts Express, întâlnește un băiat nou care îi explică entuziasmul pentru Native Vector Support din Azure SQL, comparând funcționalitatea cu o vrajă care te ajută să găsești exact ce ai nevoie din mii de opțiuni instantaneu. Băiatul declară că e perfect pentru machine learning, AI și sisteme de recomandare.
Kamath a și generat o imagine cu Harry și noul lui prieten, ștampilată cu logo-ul Microsoft. Harry Potter, personaj protejat de copyright, folosit ca mascotă pentru o funcționalitate de baze de date. Dacă ești avocat specializat în proprietate intelectuală, probabil că ai nevoie de un pahar de apă după ce citești asta.
Profesorul Smith a explicat pentru Ars Technica că ambele cazuri de utilizare, Q&A și fan fiction, pot ridica probleme de copyright, în funcție de ce apare în output. 'Fan fiction-ul trebuie adesea să preia elemente expresive, un personaj protejat de copyright, un personaj suficient de faimos ca să fie protejat prin lege, sau secvențe de plot. Dacă acestea sunt copiate și reproduse, output-ul ar putea fi potențial o încălcare.' Dar a adăugat că e încă o zonă gri. 'Aș fi îngrijorată, dar nu aș spune că e automat o încălcare.'
Hacker News a văzut, Microsoft a șters, nimeni nu a spus nimic
Blogul a stat online din noiembrie 2024 până în februarie 2026, adică peste un an. Nimeni nu a sărit. Nici Rowling, nici Warner Bros., nici departamentul legal al Microsoft, care în mod normal are opinii ferme despre ce apare sub brandul companiei. Până când cineva l-a postat pe Hacker News și comentatorii au început să ridice sprâncenele colectiv.
Pe Hacker News, comentariile au variat de la 'e problematic din punct de vedere al copyright-ului' la 'e surprinzător că cineva familiarizat cu franciza ar crede că e în domeniu public'. Cineva a observat că dataset-ul avusese doar 10.000 de descărcări în toți anii cât fusese disponibil, ceea ce explică de ce trecuse neobservat. Altcineva a calculat că, dacă Microsoft însuși a urcat primul volum pe Azure Blob Storage ca exemplu, compania nu e doar un facilitator pasiv, ci un participant activ în utilizarea materialului piratat.
Ars Technica a contactat uploadatorul de pe Kaggle, Shubham Maindola, care a șters dataset-ul imediat. A contactat Microsoft, care a refuzat să comenteze. A contactat Kaggle, care nu a răspuns. Blogul a dispărut. Imaginea cu Harry Potter și logo-ul Microsoft a dispărut. Totul a dispărut, cu excepția arhivei de pe Wayback Machine, care, în mod ironic, e tot ce mai rămâne din demonstrația de capabilități Azure SQL.
Profesorul Smith a spus că Microsoft 'a fost probabil inteligent' să șteargă blogul, deoarece instanțele judecătorești au stabilit în general că antrenarea AI pe cărți protejate de copyright poate fi fair use, dar continuă să examineze întrebările legate de materialele piratate. Cu alte cuvinte: zona gri e gri, dar e mai bine să nu testezi limitele ei cu un tutorial public care include logo-ul tău.
De ce contează asta dincolo de Harry Potter
Povestea asta e amuzantă pe suprafață, pentru că implică vrăjitori și Azure SQL în aceeași propoziție. Dar sub ea e o problemă mai serioasă despre cum industria AI tratează drepturile de autor în momentul de față. Companiile mari se află în mijlocul unui val de procese legate de antrenarea modelelor pe materiale protejate. The New York Times dă în judecată OpenAI. Autori americani au dat în judecată Meta. Muzicienii au dat în judecată Suno și Udio. Oamenii care construiesc aceste sisteme știu că terenul legal e minat, dar continuă să avanseze cu viteza unui tren fără frâne, sperând că legislația va rămâne în urmă.
Ce face cazul Microsoft interesant e că nu vorbim despre antrenarea unui model de bază pe internet întreg, unde poți argumenta că e greu de controlat ce intri. Vorbim despre un blog oficial, scris de un angajat senior, care recomandă explicit un dataset specific și explică pas cu pas cum să-l folosești. Asta e o alegere editorială deliberată. Cineva a revizuit blogul înainte de publicare. Cineva a aprobat linkul. Și nimeni, în tot lanțul de aprobare, nu a ridicat mâna să întrebe 'dar cărțile astea sunt în domeniu public cu adevărat?'
Asta nu e o problemă de un om rău intenționat. E o problemă sistemică. Industria tech s-a obișnuit să trateze datele ca pe ceva ce există în natură, ca aerul sau apa, ceva ce poți lua și folosi fără să te întrebi prea mult de unde vine. Când cineva marchează un dataset ca 'public domain' pe o platformă cu reputație, reflexul e să crezi eticheta. Nimeni nu face due diligence pe fiecare resursă folosită. Și de obicei nu e o problemă. Până când e.
Ce înseamnă asta dacă ești developer în România și vrei să faci ceva cu AI
Să fim sinceri: tutorialele de genul ăsta sunt exact ce caută un developer junior sau un freelancer care vrea să adauge 'AI features' la un proiect. Tutorialele oficiale de la Microsoft, Google sau AWS sunt biblia pentru mulți dintre noi. Dacă Microsoft spune 'descarcă dataset-ul ăsta și urmează pașii', nu te apuci să verifici dacă dataset-ul e legal. Ai încredere în sursă.
Problema e că, în momentul în care construiești un produs comercial pe date piratate, ești și tu în lanțul de responsabilitate. Nu la fel de expus ca Microsoft, dar expus. Dacă clientul tău lansează un chatbot antrenat pe cărți furate și Rowling sau oricine altcineva decide să dea în judecată, tu ești undeva în poveste. Poate că nu ca pârât principal, dar ca martor incomod sau ca developer care trebuie să explice de unde a venit datele.
Sfatul practic, dincolo de ironie: când folosești un dataset găsit online, verifică licența independent. Nu te baza pe ce scrie pe platformă. Caută titlul operei, autorul, data publicării, și calculează singur dacă e posibil să fie în domeniu public. Pentru orice publicat după 1928 în SUA, răspunsul e aproape sigur nu. Pentru orice publicat de un autor în viață, răspunsul e cu siguranță nu. Și dacă nu ești sigur, nu folosi.
Scena tech românească are o tradiție lungă de a lucra cu resurse 'găsite' online, un eufemism pe care toți îl înțelegem. Dar pe măsură ce produsele devin comerciale și vizibile, riscurile cresc proporțional. Nu e o problemă morală abstractă. E o problemă practică: dacă vrei să vinzi un produs în SUA sau UE, trebuie să poți demonstra că datele pe care le-ai folosit sunt curate. Altfel, ești Shubham Maindola din poveste: data scientistul care a șters dataset-ul în grabă și a spus că 'n-a fost intenționat'.
Epilog: Harry Potter și Piatra Filozofală a Due Diligence-ului
Blogul a dispărut. Dataset-ul a dispărut. Microsoft nu a comentat. Pooja Kamath e în continuare la Microsoft, conform LinkedIn-ului ei, și probabil că a avut o săptămână destul de neplăcută. Shubham Maindola a șters dataset-ul și a explicat că a fost o greșeală. Nimeni nu a dat în judecată pe nimeni, deocamdată.
Dar arhiva există. Wayback Machine a indexat blogul în noiembrie 2024 și îl va păstra acolo mult timp de acum înainte. Internetul nu uită, chiar dacă tu ștergi. Asta e o lecție pe care companiile tech o știu teoretic și o ignoră practic, de fiecare dată când calculează că e mai ieftin să ștergi și să speri că lumea uită decât să explici ce s-a întâmplat.
Cel mai fascinant detaliu din toată povestea rămâne fan fiction-ul. Harry Potter pe Hogwarts Express, explicând Azure SQL unui băiat nou. Există undeva, indexat pe Wayback Machine, un output de AI în care un personaj fictiv protejat de copyright face reclamă la o funcționalitate de baze de date a celei mai mari companii de software din lume. E atât de absurd că aproape că merită să existe ca artefact cultural. Aproape. Dar nu vă panicați, ăsta e doar viitorul în care trăim.
inspired by: Microsoft deletes blog te... »
Jurnalistă tech cu fascinație genuină pentru inovație și o doză sănătoasă de scepticism. Transformă jargonul Silicon Valley în povești pentru oameni normali.
Ai putea citi și
90 de milioane de oameni fără internet: cum arată o țară deconectată de la lume
Iranul trăiește cel mai lung blackout total de internet din istoria sa recentă, iar combinația dintre cenzura de stat și distrugerile fizice de infrastructură face ca nimeni să nu știe cu adevărat cât va dura.
AI-ul E Mai Creativ Decât Tine
Un studiu pe 100.000 de oameni arată că inteligența artificială bate omul de rând la creativitate. Dar înainte să intri în panică, citește litera mică.
Anthropic refuză să ucidă pentru Pentagon. Acum plătește prețul.
Cea mai safety-conscious companie AI din lume a ajuns pe lista neagră a Departamentului Apărării. Și asta ridică o întrebare pe care nimeni nu vrea să o pună cu voce tare.