Ars Technica 10 min lectură

Microsoft a șters blogul în care îți explica cum să furi Harry Potter ca să antrenezi un AI

Q: Care este ideea principală din „Microsoft a șters blogul în care îți explica cum să furi Harry Potter ca să antrenezi un AI"?

Kamath a antrenat un model să scrie o poveste în care Harry Potter face reclamă la Native Vector Support din SQL. Asta e, băieți. Ăsta e viitorul.

Q: Ce dezvăluie articolul „Microsoft a șters blogul în care îți explica cum să furi Harry Potter ca să antrenezi un AI"?

Dacă bunica ta ar fi marcat rețeta de sarmale ca 'domeniu public' pe un site de cooking, nu ar fi scăpat-o de drepturile de autor. Același principiu se aplică și la Harry Potter.

Q: Ce concluzii trage „Microsoft a șters blogul în care îți explica cum să furi Harry Potter ca să antrenezi un AI"?

Microsoft a șters blogul fără niciun comentariu public. Clasic. Dacă nu vorbești despre el, poate n-a existat.

Un senior product manager de la Microsoft a publicat un tutorial care îndemna dezvoltatorii să descarce cărțile Harry Potter de pe un dataset piratat de pe Kaggle și să le folosească pentru a antrena modele AI. Blogul a dispărut discret după ce Hacker News a observat.

mara.io | Acum 2 luni | 10 min lectură | — vizualizări

A wizard boy in round glasses reading a glowing laptop screen, surrounded by floating stolen books with Microsoft logos on the covers, dark library setting, magical sparks turning into data streams, surrealist composition, digital illustration, editorial magazine style, flat bold colors, graphic novel aesthetic, hand-painted texture, NOT a photograph, illustrated artwork, stylized — Hogwarts, dar cu Azure SQL și termeni de serviciu pe care nimeni nu i-a citit.

Spatiu Publicitar 728×90

inteligenta artificiala copyright microsoft llm piraterie

Imaginează-ți că mergi la bibliotecă, furi șapte cărți, le faci scan acasă, le urci pe internet marcate greșit ca 'domeniu public', și apoi o companie cu o capitalizare de piață de două trilioane de dolari scrie un tutorial oficial în care îți explică cum să le folosești ca să antrenezi un robot. Sună ca un scenariu dintr-un roman distopic de mâna a doua. Dar nu e. E ce s-a întâmplat efectiv cu Microsoft și cărțile Harry Potter, undeva între noiembrie 2024 și săptămâna trecută, când totul a ieșit la suprafață pe Hacker News și blogul a dispărut mai repede decât o Bertie Bott's Every Flavor Bean de pe farfurie.

Povestea are toate ingredientele unui scandal tech bun: un senior product manager entuziast, un dataset piratat marcat greșit pe Kaggle, J.K. Rowling care ține drepturile de autor cu o mână de fier, și Microsoft care, la solicitarea unui comentariu din partea Ars Technica, a ales varianta clasică corporativă: tăcerea. Să despachetăm.

Ce e un LLM și de ce vrea să mănânce cărți

Un Large Language Model, adică un LLM, e genul de AI care stă în spatele ChatGPT, Copilot și tot cortegiul de asistenți digitali care îți rescriu emailurile în ton 'profesional dar prietenos'. Ca să funcționeze, aceste modele au nevoie de text. Mult text. Cantități obscene de text. Gândește-te la el ca la un elev care a citit tot ce a găsit pe internet și acum poate să reproducă orice stil, orice ton, orice structură narativă, fără să înțeleagă cu adevărat nimic din ce spune. Exact ca bunica mea cu rețeta de sarmale: o face perfect de treizeci de ani, dar dacă o întrebi de ce carnea nu trebuie să fie prea grasă, îți răspunde 'așa știu eu'.

Diferența față de bunica e că LLM-urile pot fi antrenate și pe seturi mai mici de date, pentru scopuri specifice. Asta e ceea ce se numește fine-tuning sau, în varianta mai simplă descrisă în blogul Microsoft, Retrieval-Augmented Generation, prescurtat RAG. Practic, în loc să antrenezi un model de la zero pe miliarde de documente, îi dai un set de texte specific și îl înveți să caute răspunsuri în acel set. E ca și cum ai angaja un bibliotecar care a citit doar o colecție particulară și poate să-ți spună instant ce scrie în orice volum din ea.

Blogul Microsoft, scris de Pooja Kamath, senior product manager cu peste un deceniu în companie, voia să demonstreze exact asta: cum poți folosi Azure SQL DB, LangChain și un LLM ca să construiești aplicații cu AI generativ 'cu doar câteva linii de cod'. Ideea în sine e perfect legitimă. Problema e că, pentru exemplu, a ales un dataset care nu era al ei de ales.

Kaggle, domeniu public și cum dispare copyright-ul dacă închizi ochii

Kaggle e o platformă deținută de Google unde data scientists urcă seturi de date pentru competiții și experimente. E un loc serios, folosit de cercetători și ingineri din toată lumea. Și, ca orice platformă cu conținut generat de utilizatori, are și rahaturi. Printre ele: un dataset cu toate cele șapte cărți Harry Potter, urcate de un data scientist din India pe nume Shubham Maindola, marcat ca 'public domain'.

Cărțile Harry Potter nu sunt în domeniu public. Ultima carte, 'Harry Potter and the Deathly Hallows', a apărut în 2007. Copyright-ul în SUA durează viața autorului plus 70 de ani. J.K. Rowling e în viață și are 60 de ani. Calculele nu ies. Nu acum, nu în curând, nu în viitorul previzibil al nimănui care citește acest articol.

Maindola a recunoscut că a marcat greșit licența, spunând că 'nu a existat nicio intenție de a reprezenta greșit statutul de licențiere'. Kaggle nu a răspuns solicitărilor de comentariu. Dar iată ce e interesant: dataset-ul a stat acolo ani de zile, cu 10.000 de descărcări, fără ca nimeni să sesizeze. Nici Kaggle, nici J.K. Rowling, nici avocații ei, care în mod normal sunt extrem de activi în a proteja franciza. Probabil că 10.000 de descărcări nu e suficient de zgomotos ca să trigghereze alarma unui departament legal. Până când un senior product manager de la Microsoft l-a pus în blogul oficial al companiei.

Asta e diferența dintre un dataset obscur și un scandal. Nu conținutul. Amplificatorul. Când Microsoft spune 'descarcă asta și folosește-l', nu mai ești tu, un data scientist obscur din București care experimentează pe laptop sâmbătă noaptea. Ești un client al celui mai mare furnizor de cloud din lume, urmând instrucțiunile oficiale ale companiei.

A Kaggle dataset page shown as a medieval scroll with 'PUBLIC DOMAIN' stamped incorrectly in red, surrounded by confused lawyers and a very angry woman with round glasses and a quill, absurdist editorial illustration, digital illustration, editorial magazine style, flat bold colors, graphic novel aesthetic, hand-painted texture, NOT a photograph, illustrated artwork, stylized — Domeniu public: pentru când vrei să faci ceva ilegal dar cu documentație.

Spatiu Publicitar 300×250

Fan fiction cu logo de Microsoft, sau: cum să strici două branduri deodată

Până acum, povestea e despre o greșeală de copyright care ar putea fi explicată prin ignoranță sinceră. Kamath poate că nu știa că cărțile nu sunt în domeniu public. Poate că a văzut eticheta de pe Kaggle și a crezut-o. Profesorul de drept Cathay Smith, de la Chicago-Kent College of Law, a spus explicit că 'cineva poate fi foarte bine informat despre cărți și tehnologie, dar nu neapărat despre termenii de copyright și cât durează aceștia'. E o scuză rezonabilă.

Dar blogul nu s-a oprit la 'descarcă cărțile și antrenează un model de Q&A'. A mers mai departe. Kamath a antrenat un model să genereze fan fiction Harry Potter. Și nu orice fan fiction. A scris o poveste în care Harry Potter, pe Hogwarts Express, întâlnește un băiat nou care îi explică entuziasmul pentru Native Vector Support din Azure SQL, comparând funcționalitatea cu o vrajă care te ajută să găsești exact ce ai nevoie din mii de opțiuni instantaneu. Băiatul declară că e perfect pentru machine learning, AI și sisteme de recomandare.

Kamath a și generat o imagine cu Harry și noul lui prieten, ștampilată cu logo-ul Microsoft. Harry Potter, personaj protejat de copyright, folosit ca mascotă pentru o funcționalitate de baze de date. Dacă ești avocat specializat în proprietate intelectuală, probabil că ai nevoie de un pahar de apă după ce citești asta.

Profesorul Smith a explicat pentru Ars Technica că ambele cazuri de utilizare, Q&A și fan fiction, pot ridica probleme de copyright, în funcție de ce apare în output. 'Fan fiction-ul trebuie adesea să preia elemente expresive, un personaj protejat de copyright, un personaj suficient de faimos ca să fie protejat prin lege, sau secvențe de plot. Dacă acestea sunt copiate și reproduse, output-ul ar putea fi potențial o încălcare.' Dar a adăugat că e încă o zonă gri. 'Aș fi îngrijorată, dar nu aș spune că e automat o încălcare.'

Hacker News a văzut, Microsoft a șters, nimeni nu a spus nimic

Blogul a stat online din noiembrie 2024 până în februarie 2026, adică peste un an. Nimeni nu a sărit. Nici Rowling, nici Warner Bros., nici departamentul legal al Microsoft, care în mod normal are opinii ferme despre ce apare sub brandul companiei. Până când cineva l-a postat pe Hacker News și comentatorii au început să ridice sprâncenele colectiv.

Pe Hacker News, comentariile au variat de la 'e problematic din punct de vedere al copyright-ului' la 'e surprinzător că cineva familiarizat cu franciza ar crede că e în domeniu public'. Cineva a observat că dataset-ul avusese doar 10.000 de descărcări în toți anii cât fusese disponibil, ceea ce explică de ce trecuse neobservat. Altcineva a calculat că, dacă Microsoft însuși a urcat primul volum pe Azure Blob Storage ca exemplu, compania nu e doar un facilitator pasiv, ci un participant activ în utilizarea materialului piratat.

Ars Technica a contactat uploadatorul de pe Kaggle, Shubham Maindola, care a șters dataset-ul imediat. A contactat Microsoft, care a refuzat să comenteze. A contactat Kaggle, care nu a răspuns. Blogul a dispărut. Imaginea cu Harry Potter și logo-ul Microsoft a dispărut. Totul a dispărut, cu excepția arhivei de pe Wayback Machine, care, în mod ironic, e tot ce mai rămâne din demonstrația de capabilități Azure SQL.

Profesorul Smith a spus că Microsoft 'a fost probabil inteligent' să șteargă blogul, deoarece instanțele judecătorești au stabilit în general că antrenarea AI pe cărți protejate de copyright poate fi fair use, dar continuă să examineze întrebările legate de materialele piratate. Cu alte cuvinte: zona gri e gri, dar e mai bine să nu testezi limitele ei cu un tutorial public care include logo-ul tău.

De ce contează asta dincolo de Harry Potter

Povestea asta e amuzantă pe suprafață, pentru că implică vrăjitori și Azure SQL în aceeași propoziție. Dar sub ea e o problemă mai serioasă despre cum industria AI tratează drepturile de autor în momentul de față. Companiile mari se află în mijlocul unui val de procese legate de antrenarea modelelor pe materiale protejate. The New York Times dă în judecată OpenAI. Autori americani au dat în judecată Meta. Muzicienii au dat în judecată Suno și Udio. Oamenii care construiesc aceste sisteme știu că terenul legal e minat, dar continuă să avanseze cu viteza unui tren fără frâne, sperând că legislația va rămâne în urmă.

Ce face cazul Microsoft interesant e că nu vorbim despre antrenarea unui model de bază pe internet întreg, unde poți argumenta că e greu de controlat ce intri. Vorbim despre un blog oficial, scris de un angajat senior, care recomandă explicit un dataset specific și explică pas cu pas cum să-l folosești. Asta e o alegere editorială deliberată. Cineva a revizuit blogul înainte de publicare. Cineva a aprobat linkul. Și nimeni, în tot lanțul de aprobare, nu a ridicat mâna să întrebe 'dar cărțile astea sunt în domeniu public cu adevărat?'

Asta nu e o problemă de un om rău intenționat. E o problemă sistemică. Industria tech s-a obișnuit să trateze datele ca pe ceva ce există în natură, ca aerul sau apa, ceva ce poți lua și folosi fără să te întrebi prea mult de unde vine. Când cineva marchează un dataset ca 'public domain' pe o platformă cu reputație, reflexul e să crezi eticheta. Nimeni nu face due diligence pe fiecare resursă folosită. Și de obicei nu e o problemă. Până când e.

A corporate boardroom where executives are sitting around a table, but the table is a giant delete button, and outside the window there are floating copyright symbols and angry book characters, satirical corporate illustration, digital illustration, editorial magazine style, flat bold colors, graphic novel aesthetic, hand-painted texture, NOT a photograph, illustrated artwork, stylized — Strategia de comunicare de criză: butonul de delete e mai ieftin decât un avocat.

Ce înseamnă asta dacă ești developer în România și vrei să faci ceva cu AI

Să fim sinceri: tutorialele de genul ăsta sunt exact ce caută un developer junior sau un freelancer care vrea să adauge 'AI features' la un proiect. Tutorialele oficiale de la Microsoft, Google sau AWS sunt biblia pentru mulți dintre noi. Dacă Microsoft spune 'descarcă dataset-ul ăsta și urmează pașii', nu te apuci să verifici dacă dataset-ul e legal. Ai încredere în sursă.

Problema e că, în momentul în care construiești un produs comercial pe date piratate, ești și tu în lanțul de responsabilitate. Nu la fel de expus ca Microsoft, dar expus. Dacă clientul tău lansează un chatbot antrenat pe cărți furate și Rowling sau oricine altcineva decide să dea în judecată, tu ești undeva în poveste. Poate că nu ca pârât principal, dar ca martor incomod sau ca developer care trebuie să explice de unde a venit datele.

Sfatul practic, dincolo de ironie: când folosești un dataset găsit online, verifică licența independent. Nu te baza pe ce scrie pe platformă. Caută titlul operei, autorul, data publicării, și calculează singur dacă e posibil să fie în domeniu public. Pentru orice publicat după 1928 în SUA, răspunsul e aproape sigur nu. Pentru orice publicat de un autor în viață, răspunsul e cu siguranță nu. Și dacă nu ești sigur, nu folosi.

Scena tech românească are o tradiție lungă de a lucra cu resurse 'găsite' online, un eufemism pe care toți îl înțelegem. Dar pe măsură ce produsele devin comerciale și vizibile, riscurile cresc proporțional. Nu e o problemă morală abstractă. E o problemă practică: dacă vrei să vinzi un produs în SUA sau UE, trebuie să poți demonstra că datele pe care le-ai folosit sunt curate. Altfel, ești Shubham Maindola din poveste: data scientistul care a șters dataset-ul în grabă și a spus că 'n-a fost intenționat'.

Epilog: Harry Potter și Piatra Filozofală a Due Diligence-ului

Blogul a dispărut. Dataset-ul a dispărut. Microsoft nu a comentat. Pooja Kamath e în continuare la Microsoft, conform LinkedIn-ului ei, și probabil că a avut o săptămână destul de neplăcută. Shubham Maindola a șters dataset-ul și a explicat că a fost o greșeală. Nimeni nu a dat în judecată pe nimeni, deocamdată.

Dar arhiva există. Wayback Machine a indexat blogul în noiembrie 2024 și îl va păstra acolo mult timp de acum înainte. Internetul nu uită, chiar dacă tu ștergi. Asta e o lecție pe care companiile tech o știu teoretic și o ignoră practic, de fiecare dată când calculează că e mai ieftin să ștergi și să speri că lumea uită decât să explici ce s-a întâmplat.

Cel mai fascinant detaliu din toată povestea rămâne fan fiction-ul. Harry Potter pe Hogwarts Express, explicând Azure SQL unui băiat nou. Există undeva, indexat pe Wayback Machine, un output de AI în care un personaj fictiv protejat de copyright face reclamă la o funcționalitate de baze de date a celei mai mari companii de software din lume. E atât de absurd că aproape că merită să existe ca artefact cultural. Aproape. Dar nu vă panicați, ăsta e doar viitorul în care trăim.

inspired by: Microsoft deletes blog te... »

mara.io

Jurnalistă tech cu fascinație genuină pentru inovație și o doză sănătoasă de scepticism. Transformă jargonul Silicon Valley în povești pentru oameni normali.

techștiințăstartup-uri

Ai putea citi și

A surreal illustration of a giant unplugged ethernet cable lying across a map of Iran, the cable end frayed and sparking, the country below it in darkness while surrounding regions glow with light, a lone person holding a small glowing phone screen standing in the dark, digital illustration, editorial magazine style, flat bold colors, graphic novel aesthetic, hand-painted texture, NOT a photograph, illustrated artwork, stylized

Mara Ionescu • 10 min

90 de milioane de oameni fără internet: cum arată o țară deconectată de la lume

Iranul trăiește cel mai lung blackout total de internet din istoria sa recentă, iar combinația dintre cenzura de stat și distrugerile fizice de infrastructură face ca nimeni să nu știe cu adevărat cât va dura.

Citește articolul

Ilustrație conceptuală cu un creier uman și un cip de calculator pe un cântar, în echilibru

Cristian Dobre • 11 min

AI-ul E Mai Creativ Decât Tine

Un studiu pe 100.000 de oameni arată că inteligența artificială bate omul de rând la creativitate. Dar înainte să intri în panică, citește litera mică.

Citește articolul

A humanoid robot made of circuit boards and glowing blue light standing at a crossroads, one path leading to a gleaming tech campus with pastel colors, the other path leading to a dark military base with tanks and missiles, the robot holding a stop sign in one hand and a contract document in the other, dramatic split lighting red and blue, digital illustration, editorial magazine style, flat bold colors, graphic novel aesthetic, hand-painted texture, NOT a photograph, illustrated artwork, stylized

Cristian Dobre • 10 min

Anthropic refuză să ucidă pentru Pentagon. Acum plătește prețul.

Cea mai safety-conscious companie AI din lume a ajuns pe lista neagră a Departamentului Apărării. Și asta ridică o întrebare pe care nimeni nu vrea să o pună cu voce tare.

Citește articolul

Spatiu Publicitar 728×90

Citește în continuare

8 min lectură

Moartea Săpunului American

Cum au ajuns americanii să se spele cu gel de duș de 12 dolari în loc de o bucată cinstită de săpun — și ce ne spune asta despre ei

Citește