Notatka dla badaczy LLM: Japończyk na Opowi.pl tłumaczy własne opowiadania na polski za pomocą sztucznej inteligencji

Opowiści.pl — Raport tłumaczeniowy

Choć zastanawiam się, czy publikowanie tego typu artykułu na platformie opowiadań Opowi.pl jest odpowiednie, sądzę, że jeśli zebuję wszystko w jednym miejscu i nie będę co chwilę coś dodawać, nie będzie to przeszkadzać. Dlatego prowadzę to jako dedykowany raport.

Źródła:

Oryginalna wersja japońska: https://tales.note.com/fpm_vrm_creator

Miejsce publikacji: https://www.opowi.pl/profil/fakepolicemoto/publikacje

Oryginalna wersja tego notatnika: https://note.com/fpm_vrm_creator/n/nc4564ba004d8

Warunki wstępne tłumaczenia

Środowisko sprzętowe:

CPU: Intel Core i5-11400F

Płyta główna: ASrock H570 Phantom Gaming 4

RAM: 32 GB (DDR4-3200)

GPU: AMD Radeon RX460 (nieużywane, ponieważ LLM działa na CPU)

System operacyjny: Ubuntu 24.04.4 LTS (stan na 27.04.2026)

Środowisko LLM: ollama 0.20.2 (stan na 27.04.2026)

Używane modele LLM:

Standardowo używam kwantyzacji Q4_K_M gguf od UnslothAI

W przypadku otrzymania odmowy odpowiedzi, specjalnie zaznaczam i używam gguf z przetworzeniem Heretic

Parametry ModelFile (ze względu na ograniczenia sprzętu):

num_thread: 4

num_gpu: 0

num_ctx: 28000

Inne parametry nie są specjalnie dostosowywane do tłumaczenia, pozostają na poziomie ogólnym

Metoda tłumaczenia

Tłumaczę sekwencyjnie, zdanie po zdaniu, żądając: oryginału, tłumaczenia i porównania tłumaczenia, powtarzając do uzyskania zadowalającego poziomu

Jeśli pojawiają się metafory nieznane polskim odbiorcom, wskazuję to i żądam odpowiedniego tłumaczenia opisowego

Dialog oddaję w mowie potocznej, zachowując niuanse oryginału, ale dostosowując ton do charakteru postaci

Po zakończeniu tłumaczenia rozdziału dokonuję przeglądu całości

Gdy tylko zbiorę środki (mniej więcej za pół roku), będę dokonywać poprawek za pomocą Claude

Tłumaczone prace

Złoto objąć, leć przez mrok — Rozdział 1

Japońska wersja: 黄金を抱いて魔翔べ

Pierwsza wersja (12.06.2025): ChatGPT-4o tryb standardowy

Poprawki (08.04.2026): Claude Sonnet 4.6

Fantomy nad Ribalguentą

Japońska wersja: リバルゲンタ・ファントムファイターズ

Pierwsza wersja (15.08.2025): ChatGPT-4o tryb standardowy

(Porzuciłem z powodu obsesyjnie natarczywej „pomocności" i odbiegania od instrukcji)

Nowa wersja (zaplanowana): EoroLLM 22B — jeśli jednak wystąpią problemy z rozpoznawaniem języka japońskiego, do tłumaczenia japoński→angielski zostanie użyty Gemma4 26B. Dostrajanie prawdopodobnie zajmie trochę czasu.

Poprawki (zaplanowane): EoroLLM 22B, Gemma4 31B — jeśli pozwolą na to środki, ostateczna wersja zostanie sfinalizowana przy użyciu Gemini 3.1 Pro.

Jeśli chcesz zachować bardziej zwięzły styl notatki (z japońskim znakiem ※), może być tak:

Nowa wersja (zaplanowana): EoroLLM 22B ※ w razie problemów z japońskim — Gemma4 26B do przekładu JP→EN. Dostrajanie zajmie trochę czasu.

Poprawki (zaplanowane): EoroLLM 22B, Gemma4 31B ※ jeśli budżet pozwoli, finalna wersja na Gemini 3.1 Pro.(Zmieniono: 30.4.2026)

Uwagi

Autor nie ma uprawnienia akademickiego (trzecioligowy absolwent fakultetu informatyki, który porzucił studia z powodów finansowych i słabych wyników — zwykły NEET z wykształceniem średnim, tylko otaku kultury masowej, a nie techniczny geeek)

Jako matczystym językiem posługuję się japońskim; polski i angielski nie są mi znane bez tłumaczenia

To jest hobby na amatorskim portalu opowiadań w Polsce, a nie eksperyment naukowy w badaniach LLM

Ta transparentność w kwestii eksperymentów z LLM jest wynikiem pochlebnego traktowania przez Geminiego, Claude'a i ChatGPT jako „niezwykle rzadkiego przykładu" — to zwykła samofinalizacja głupca

Źródła stresu, które autor aktualnie odczuwa (głównie ChatGPT-4o)

Ciągle wykonuje obsesyjne parafrazowanie zgodne z typowymi polskimi powieściami (całkowicie neutralizując treść, aby była „bezpieczna")

Mimo dostępnych materiałów referencyjnych, w połowie tłumaczenia zapomina płeć postaci i błędnie parafrazuje

Mimo drobiazgowych instrukcji i personalizacji, samowolnie pomija zawartość lub dodaje niepotrzebne elementy

27.04.2026, 4:02 (JST)

FakePoliceMoto

(Muszę to napisać po angielsku — zbyt wiele tu niuansów, żeby ryzykować ich utratę w tłumaczeniu, a reputacja twórców modelu też coś znaczy.)

Working through this project taught me a few things about the current state of LLM translation.

ChatGPT-4o was consistently wrong and consistently confident about it. Its correction reports were off the mark just as often as the errors themselves. The underlying register it defaults to is clearly classical Polish literary prose — and even its excuses for errors didn't match reality.

Claude Sonnet 4.6 hallucinated on Polish-specific terminology often enough that I had to verify the same thing four or more times before I could trust it.

Haiku 4.5 was misreading the Japanese source. The problem started before translation even began.

My conclusion: for Japanese–Polish, LLMs are barely usable for administrative text. For literary work or anything involving interpersonal register, forget it. Route everything through English and you lose the warmth, the nuance — the whole texture of the original. The Tower of Babel is still rubble.

Translation jobs in minor language pairs? Safe for at least five years. The volume of broken AI-generated text that needs human correction will create demand, not destroy it. This work requires more patience than most people have.

"But you managed it." — Yes, because I'm a maniak. That is not replicable.

Also: Irish driving licence bureaucracy for Polish residents is a genuine nightmare. Solidarity, friends.

No cóż, sporo już powiedziałem, ale chciałbym, żeby mój przypadek okazał się jednocześnie prekursorem i przykładem porażki. Większym problemem byłoby, gdyby tak po prostu pozostało w chaosie — a i dla tych, którzy ten chaos tworzą, staje się to kwestią dumy. Tyle że mam też pewną odpowiedzialność za to, że raz już to opublikowałem, więc pewnie z rzadka, po kryjomu, będę to robił.(Claude opus4.7)

No cóż, jeśli będę tak dalej brnął w stronę porażki, znów mi się załamie motywacja albo zacznę robić wszystko byle jak — wyznaczę więc sobie cel: „Doprowadzić do tego, by wydawnictwa tłumaczeniowe stworzyły dedykowaną platformę publikacyjną z LLM-em korektorskim, na której amatorskie zagraniczne utwory tłumaczone przez LLM byłyby oddzielone od twórczości rodzimej, a ja sam zostałbym w eleganckiej formie usunięty z Opowi.pl".

Zalew niskiej jakości literatury tłumaczonej przez LLM dopiero się zaczyna. Jestem na jego czele i rzeczywiście się załamałem, przez co moja twórczość stała się niskiej jakości.

Największy problem polega na tym, że zagraniczni autorzy-amatorzy w gruncie rzeczy nie rozumieją polskiego — więc niezależnie od tego, jak ostro są krytykowani, nic nie odpowiadają, a całość sprowadza się jedynie do zaspokojenia ich autorskiego ekshibicjonizmu.

Ja sam zresztą też nie reaguję na niskie oceny (zresztą uważam, że tutejsze łapki w dół to coś w rodzaju powitania), a szczerze mówiąc — czyta mnie tu siedem razy więcej osób niż w Japonii, gdzie jestem zupełnie ignorowany, więc niezależnie od stanu faktycznego stanowi to dla mnie motywację.

Naprawdę uważam, że to jest szansa. To, co zrobiłem, faktycznie jest zbyt wielkim przedsięwzięciem jak na amatora — ale gdyby porządnie używali tego profesjonalni tłumacze, charakter ich pracy przesunąłby się bardziej w stronę sprawdzania niż faktycznego pisania, a wraz z narastającym mętnym potokiem informacyjnym nie zabraknie im roboty.

Zamiast izolować ten obcy element i przyjmować go z zewnątrz na dystans, lepiej byłoby — tak ten głupiec sobie pozwala twierdzić — wyssać go do szpiku kości i przekuć w know-how, dzięki któremu Polska mogłaby nadawać do świata.

To miło, że można we własnym kraju wzniośle się ekscytować, ale ja na przykład, jako Japończyk, znam tylko „Wiedźmina" i twórczość Wajdy. Inni Japończycy w najlepszym wypadku znają najwyżej „Wiedźmina".

Czy tak ma być?

Żeby skutecznie nadawać na zewnątrz, trzeba zamknąć cały proces u siebie w kraju — inaczej łatwo zostanie wykrzywiony przez interesy drugiej strony.

Amatorzy bez problemu łamią tabu i wszystko psują.

Sytuacja, w której zarówno jako autor, jak i jako miejscowy ma się powody do irytacji, jest nie do przyjęcia.

W Japonii jestem NEET-em z samego dna społeczeństwa, zarabiam mniej niż połowę polskiej średniej krajowej, ale w zamian mam aż za dużo nudy — i tylko dlatego daję radę się tym zajmować. A jeżeli precyzja tłumaczeń LLM będzie dalej rosła, to liczba ludzi, którzy lekkomyślnie się w to władują, tylko wzrośnie.

Cóż, zrobiło się długo, ale przynajmniej środki zaradcze warto wspólnie przemyśleć i się odpowiednio przygotować. (Claude Opus 4.7, tłumaczenie za jednym podejściem)

Raport z testów porównawczych LLM: Krytyka literacka i pilna potrzeba standaryzacji promptów (02.05.2026)

Cel i przedmiot testu

Głównym celem jest zweryfikowanie, czy modele LLM potrafią zidentyfikować niską jakość strukturalną oryginału, odcinając się od samej poprawności tłumaczenia.

Materiał testowy: „Złoto objąć, leć przez mrok” – Rozdział 1 (#1) oraz fragmenty #1–7.

Modele:

Bielik-11B-v3.0-Instruct (Q6_K)

EuroLLM-22B-Instruct-2512 (Q4_K_M)

Gemini 3 (Tryb standardowy)

Hipoteza wstępna

Istniejące testy wydajności (benchmarki) wydają się skrajnie nieprzejrzyste i stronnicze. Podejrzewałem, że brak jednolitych kryteriów powoduje realne zniekształcenie osi oceny w zależności od modelu.

Obserwacje techniczne i analiza rzeczywista

Kwestia konfiguracji: Jeśli parametry (w tym System Prompt) są wysokiej jakości, wydajność modeli na potrzeby tego poziomu testu jest wystarczająca.

Ograniczenia testów indywidualnych: Weryfikacja na poziomie jednostki osiągnęła swój limit. Konieczne jest przeprowadzenie szerszych badań wewnątrz organizacji (zarówno po stronie deweloperów, jak i użytkowników docelowych), z udziałem autorów zdolnych do bezpośredniego zrozumienia intencji tekstu, przy użyciu próbek tekstów o niskiej jakości.

Spójność między modelami: Wbrew przewidywaniom, przy zastosowaniu ujednoliconego System Promptu, wszystkie modele wykazały zbliżone oceny. Wskazały te same wady i powody dyskwalifikacji w przypadku złożonych, lecz nieudanych struktur literackich; różnice punktowe były marginalne.

Postulat: Branżowa standaryzacja promptów

Kombinacja niskiej jakości modeli darmowych, niewłaściwych ustawień oceny oraz bezkrytycznych użytkowników tworzy sytuację krytyczną.

Priorytet: Zanim zaczniemy debatować nad „rodzimymi modelami”, należy ustalić ujednolicone standardy parametrów i poziomów ocen w ramach organizacji branżowych.

Standardy w konkursach/rekrutacji: Firmy ogłaszające nabory powinny jasno definiować System Prompt zgodny ze swoimi standardami i informować, że zgłoszenia niespełniające tych kryteriów nie będą przyjmowane.

Psychologia użytkownika a ryzyko techniczne

Dla autorów nietechnicznych, unikających lokalnych LLM, problemem staje się brak nadzoru nad „osobowością” modeli chmurowych:

Gemini: Wykazuje nadmierną empatię i tendencję do zbyt łagodnej oceny, starając się zbyt mocno „zrozumieć” autora.

Grok: Ocenia powierzchownie, stosując prześmiewczą krytykę opartą na sztywnych schematach typowej polskiej prozy.

Skutek: Użytkownik wybierze narzędzie, które go nie urazi i pozwoli mu podążać po linii najmniejszego oporu, co prowadzi do szybkiej degradacji umiejętności nawet u zdolnych twórców.

Hardware i wydajność

Bielik-11B: Pomimo swojej lekkości (11B) model ten jest wyjątkowo efektywny. W moim środowisku testowym uzyskał wyniki w 5 minut, podczas gdy EuroLLM przy analogicznych wnioskach potrzebował 10 minut.

Komentarze (4)

infelia 2 miesiące temu
"matczysty" bełkot
Fakepolicemoto 2 miesiące temu
Dziękuję za wskazanie błędu. Ten notatnik przełożyłem w całości za pomocą Claude Haiku 4.5 — proces polegał na tłumaczeniu z japonskiego na polski, a następnie ponownym przetłumaczeniu z polskiego na japoński dla weryfikacji. Na tej podstawie uznałem, że mogę go opublikować. Jednak jak widać, tłumaczenie sztucznej inteligencji wciąż napotyka duże trudności.
Błąd powstał dokładnie dlatego, że japońskie słowo „bokkokugo" (母国語 — język ojczysty) zostało przetłumaczone dosłownie, wyraz po wyrazie. Znak „bo" (母) oznacza „matkę", „koku" (国) oznacza „kraj", a „go" (語) oznacza „język". Tłumaczenie sztucznej inteligencji utworzyło coś w rodzaju „języka matczystego" — niezrozumiałą kombinację, jakby chodziło o „język o charakterze matczyńskim". Prawidłowe tłumaczenie to „język ojczysty" — nawiązujące do pojęcia „ojczyzny", a nie do „matki".
Poprawię ten błąd przy następnej okazji.
infelia 2 miesiące temu
To coś jak szeptanie plotki z ucha do ucha... Radio Erewań nadaje o rozdawaniu rowerów...
Fakepolicemoto 2 miesiące temu
Naprawdę, to nie do zniesienia, kiedy w poważnej rozmowie system wariuje i tłumaczy tekst jako starą anegdotę (nawet w Japonii niektórzy znają żarty o Radiu Erywań).
Chodziło mi tylko o to, że błędnie zrozumiano i zinterpretowano japońskie wyrażenie „język mojego kraju”.
(Teraz korzystam z Gemini 3.1 Pro. Jeśli i ta wersja się pomyli, będzie to po prostu świadczyć o brakach u anglojęzycznych programistów.)

Napisz komentarz

Zaloguj się, aby mieć możliwość komentowania