Kaip eksportuoti WordPress įrašus į HTML
Jei susidomėjote mano pasiūlymu parduoti savo tinklaraščio įrašus, greičiausiai jums kilo klausimas kaip tuos įrašus eksportuoti. WordPress leidžia eksportuoti įrašus tik į XML failą, kuris nėra labai naudingas, nes jame pilna bereikalingos informacijos: komentarai, jų autoriai, įrašų kategorijos, žymelės ir t.t.
[Papildymas] skaitytojas Simonas, sugalvojo lengvesnį metodą — siūlau jį išbandyti, prieš naudojant žemiau aprašytą procedūrą.
Visų pirma reikia išeksportuoti tik įrašus su pavadinimais. Tai galite padaryti prisijungę prie savo serverio phpMyAdmin, pasirinkę reikiamą duombazę, paspaudę SQL kortelę (tab’ą) ir nukopijavę šį kodą:
SELECT `post_title`, `post_content` FROM `wp_posts` WHERE post_type="post"
Rezultatų apačioje rasite eksportavimo nuorodą, kurią paspaudę turėsite pasirinkti eksportavimą XML formatu su išsaugojimu į failą. Gautą failą pervadinkite į posts.xml.
Toliau parsisiųskite @karvencija parašytą XML parserį ir jį išarchyvuokite. Ten kur išarchyvavote parserį, nukopijuokite ir anksčiau gautą failą.
Jei naudojate Windows, paleiskite run.cmd; jei linux — atsidarykite terminalą, nukeliaukite iki parserio, paleiskite komandą chmod +x run, o tada ./run
Gausite failą export.html, kurį jau galite siųsti į Lionbridge, arba galite atsidarę failą nukopijuoti turinį į Word. Tiesa, priklausomai nuo to kiek įrašų turite, export.html atidarymas gali užlaužti ne tik naršyklę, bet ir viską kompiuterį, nes naršyklė iškart pradės siųstis visus išorinius paveiksliukus, į kuriuos esate sudėję nuorodas. Gera žinia ta, kad parseris išims embed, iframe, ir dar kelias HTML žymes.
Pasistengsiu atsakyti kiek galima daugiau klausimų, bet kadangi ne pats parašiau parserį, galiu ne viską ir žinot.
Ir nepamirškit padėkot @karvencija! ;)
[Atnaujinimas] @karvencija atnaujino parserį ir pridėjo galimybę keisti šablonus bei parametrus.
Visų pirma, tai jums reikia kompiuteryje turėti JRE 5 arba naujesnę versiją. Parametrus galite peržiūrėti paleidę run -help:
-in <input-file> (standartiškai posts.xml)
-out <output-file> (standartiškai export.html)
-element-posts <XML element for all posts> (standartiškai wp_posts)
-element-title <XML element for post title> (standartiškai post_title)
-element-content <XML for post content> (standartiškai post_content)
[Atnaujinimas #2] jei turite daug įrašų, išeksportuotas failas gali būti baisiai didelis, todėl Lionbridge jo neatidarys. Tokiu atveju galite naudoti proxy paveiksliukams išfiltruot.
Sveiki užsukę į mano tinklaraštį!



Nemanau, kad ta pati programa vienu metu gali veikti tiek Linux, tiek Win. :)
http://farm4.static.flickr.com/3619/3694496404_d338d74328_o.jpg
Gali gali, tuoj išsiaiškinsim ;)
O šiaip jei nepasiseka paleisi, galit man siųst savo išeksportuotą XML, aš jums pakonvertuosiu.
Šiaip tai programa veikia ir Windows ir ant bet kurios OS, kur tik yra JRE (Java Runtime Environment) v >= 5. Klaida yra todėl, kad arba JRE nėra arba jos bin katalogas nėra PATH sisteminiam kintamajam. Na čia jau šioks toks Java trūkumas, bet daryti skirtingoms platformoms installerius su 15-50MB integruota JRE šitai smulkmei neatrodo būtų sudėtingiau nei pačią programą :)
Šiaip pakūriau naują versiją: http://www.4shared.com/file/116401868/195bda88/post-parser.html
Su šiokiais tokiais parametrais – run -help
Dėkui! Atnaujinsiu info, kai tik turėsiu laiko.
Parserio naujos versijos archyve nieko nėra, apart “run” failų. Direktorijos kuriose turėtų būti java failai – tuščia!
Sukėliau pas save į serverį. Pabandyk parsisiųst.
Man su Ubuntu taip apt nesuveikė. Sukūrė tuščia html’ą su title: Įrašai ir jame nieko daugiau. Tuojaus pasiųsiu tau Karoli savo eksportuotą, dėkui. :)
Dar nesiųsk. Atsidaryk savo XML failą ir padaryk search and replace wp_posts į blg_posts — @karvencija padarė parserį pagal mano modifikuotą lentelę, o aš pamiršau paprašyt, kad pakeistų.
Gerai, suveikė. Ačiū :)
Šaunumėlis! Primenu, kad jiems nesiųstumėt failo paštu. Parašyk laišką, kad jau turi duomenis, o jie tau atsiųst FTP prisijungimą.
Tai ftp duomenis jau turiu. Bleiko į vieną zip’ą sumest visus įrašus, laiškus ir kitus failus. :)
Man to kažkodėl neužteko, vis vien html’as gaunasi tuščias. Gal reikia dar ką nors pervadinti?
Ar išbandei naują versiją?
http://karolis.pocius.lt/kaip-eksportuoti-wordpress-irasus-i-html/#comment-12197
Beje, lfx pateikta sql užklausa ganėtinai smarkiai apgavo. Jeigu su jos skaičiavimais gavosi ~100k, tai po perėjimo parseriu gavosi ~33k. Tia dar sudėjau laiškus ir kitus failus, tikiuosi priims nors ir mažiau nei 100k išeis. :(
Šiandien rašiau jiems laišką, tai laiškė paminėta, kad reikia 150000 žodžių, o ne 100000. Gal padidino tą kiekį?
“Note: We are only accepting languages which are available on the list at present. We are not accepting English data.
We aim to collect a large amount of data for each language, so we hope we can collect a minimum of 150,000 words from each person participating.”
Manau, kad reikia tartis individualiai kiekvienu atveju.
Man kažkodėl tik vietoje visų LT raidžių rodo klaustukus
Hm.. Keista UTF8 rodo kringelius, Baltic koduotė rodo gerai. Kaip manot prilips jiems?
Greičiausiai pas tave jau pačioj duombazėj kažkas ne taip. Bet jei eina priverst rodyt lietuviškai, manau jie susitvarkys patys.
Na, matai, aš su Dreamweaver replace dariau, o ten pastoviai su koduotėm ką nors sumala. DB pas mane UTF8 eina. :) Ai, tiek to. :)
Gali pabandyt naują perserio versiją http://karolis.pocius.lt/kaip-eksportuoti-wordpress-irasus-i-html/#comment-12197 joje yra kažkoks koduočių patvarkymas.
yra paprastesnis būdas – nustatai “wordpress” maksimalų rodomų įrašų skaičių tituliniame į kokius 10000 ir volia – sugeneruoja titulinį su visais tavo įrašais ir “copy/paste” į word’ą. TIk nepamiršti iš karto nustatyti atgal, nes nulauš serverį ir lankytojų kompus.
ne idealu, bet paprasta ir lengva.
Variantas. Tik klausimas ar WP nėra limito tam dalykui.
įvedžiau 10000 į nustatymus, tai leido. O įrašų iš viso buvo apie 700.
Tame ir problema, kad reikia išjungti visą blogą. O taip buvo galima pasikurti atskirą puslapį su nauju template, kur tik pavadinimas ir entry. Tik dar problema buvo, kad naudojant įrašuose ‘skaityti toliau’ rodydavo tik iškarpas, o ne pilną tekstą. :)
Pwnage “Unfortunately, we cannot edit your html file in Word or copy into Word as it is so big and the application just crashes. Can you export you blog data to a Word document so we can open it here and work on it?” :D
Konkretūs grybai :) Sakyčiau jei jau tokia rinkliava užsiimi ir dar nori bent po 150k iš kiekvieno vartotojo, tai pasiūlyk ir būdą kaip eksportuot normaliai. O eksportavimas į word’ą jau iš prigimties yra nenormalus :)
Sugalvojau, kaip nuimti visus images ir kitą briedą. Savo HTML export pakraukit per PHP Proxy ir pažymėk dont load java ir images. Tada vien tekstas su antraštėmis liks. :)
Taip pat po tokio teksto valymo tik 190 000 žodžių wordas suskaičiavo.. Pirma SQL užklausa rodė 10x daugiau, taigi ji žiauriai klaidinga..
Tai tau vistik pavyko sėkmingai išeksportuot?
Jo, “Many thanks for this, we have now downloaded your new submission and it opens fine. We will get back to you with any questions or a word count.”
Čia tas proxy, užtenka pas save į host įmesti, ir jis veik iš kart http://sourceforge.net/projects/poxy/ tą patį export.html įsimeti host, per proxy pakrauni pažymėjęs remove scripts images, tekstas formatuotas ir linkai lieka. Net nemirktelėjęs Word nukopina, bent ant mano PC.
Dėkui, manau pravers žmonėms.