Kaip eksportuoti WordPress įrašus į HTML

Jei susidomėjote mano pasiūlymu parduoti savo tinklaraščio įrašus, greičiausiai jums kilo klausimas kaip tuos įrašus eksportuoti. WordPress leidžia eksportuoti įrašus tik į XML failą, kuris nėra labai naudingas, nes jame pilna bereikalingos informacijos: komentarai, jų autoriai, įrašų kategorijos, žymelės ir t.t.

[Papildymas] skaitytojas Simonas, sugalvojo lengvesnį metodą — siūlau jį išbandyti, prieš naudojant žemiau aprašytą procedūrą.

Visų pirma reikia išeksportuoti tik įrašus su pavadinimais. Tai galite padaryti prisijungę prie savo serverio phpMyAdmin, pasirinkę reikiamą duombazę, paspaudę SQL kortelę (tab’ą) ir nukopijavę šį kodą:

SELECT `post_title`, `post_content` FROM `wp_posts` WHERE post_type="post"

Rezultatų apačioje rasite eksportavimo nuorodą, kurią paspaudę turėsite pasirinkti eksportavimą XML formatu su išsaugojimu į failą. Gautą failą pervadinkite į posts.xml.

Toliau parsisiųskite @karvencija parašytą XML parserį ir jį išarchyvuokite. Ten kur išarchyvavote parserį, nukopijuokite ir anksčiau gautą failą.

Jei naudojate Windows, paleiskite run.cmd; jei linux — atsidarykite terminalą, nukeliaukite iki parserio, paleiskite komandą chmod +x run, o tada ./run

Gausite failą export.html, kurį jau galite siųsti į Lionbridge, arba galite atsidarę failą nukopijuoti turinį į Word. Tiesa, priklausomai nuo to kiek įrašų turite, export.html atidarymas gali užlaužti ne tik naršyklę, bet ir viską kompiuterį, nes naršyklė iškart pradės siųstis visus išorinius paveiksliukus, į kuriuos esate sudėję nuorodas. Gera žinia ta, kad parseris išims embed, iframe, ir dar kelias HTML žymes.

Pasistengsiu atsakyti kiek galima daugiau klausimų, bet kadangi ne pats parašiau parserį, galiu ne viską ir žinot.

Ir nepamirškit padėkot @karvencija! ;)

[Atnaujinimas] @karvencija atnaujino parserį ir pridėjo galimybę keisti šablonus bei parametrus.

Visų pirma, tai jums reikia kompiuteryje turėti JRE 5 arba naujesnę versiją. Parametrus galite peržiūrėti paleidę run -help:

-in <input-file> (standartiškai posts.xml)
-out <output-file> (standartiškai export.html)
-element-posts <XML element for all posts> (standartiškai wp_posts)
-element-title <XML element for post title> (standartiškai post_title)
-element-content <XML for post content> (standartiškai post_content)

[Atnaujinimas #2] jei turite daug įrašų, išeksportuotas failas gali būti baisiai didelis, todėl Lionbridge jo neatidarys. Tokiu atveju galite naudoti proxy paveiksliukams išfiltruot.



Gal sudomins?

31 Comments

  1. Originalas rašo:

    Nemanau, kad ta pati programa vienu metu gali veikti tiek Linux, tiek Win. :)

    http://farm4.static.flickr.com/3619/3694496404_d338d74328_o.jpg

  2. Edvinas(ezg) rašo:

    Man su Ubuntu taip apt nesuveikė. Sukūrė tuščia html’ą su title: Įrašai ir jame nieko daugiau. Tuojaus pasiųsiu tau Karoli savo eksportuotą, dėkui. :)

  3. Edvinas(ezg) rašo:

    Beje, lfx pateikta sql užklausa ganėtinai smarkiai apgavo. Jeigu su jos skaičiavimais gavosi ~100k, tai po perėjimo parseriu gavosi ~33k. Tia dar sudėjau laiškus ir kitus failus, tikiuosi priims nors ir mažiau nei 100k išeis. :(

    • Aleksanderis rašo:

      Šiandien rašiau jiems laišką, tai laiškė paminėta, kad reikia 150000 žodžių, o ne 100000. Gal padidino tą kiekį?

      “Note: We are only accepting languages which are available on the list at present. We are not accepting English data.
      We aim to collect a large amount of data for each language, so we hope we can collect a minimum of 150,000 words from each person participating.”

  4. Ričardas Š. rašo:

    Man kažkodėl tik vietoje visų LT raidžių rodo klaustukus

  5. simonas rašo:

    yra paprastesnis būdas – nustatai “wordpress” maksimalų rodomų įrašų skaičių tituliniame į kokius 10000 ir volia – sugeneruoja titulinį su visais tavo įrašais ir “copy/paste” į word’ą. TIk nepamiršti iš karto nustatyti atgal, nes nulauš serverį ir lankytojų kompus.

    ne idealu, bet paprasta ir lengva.

  6. Originalas rašo:

    Pwnage “Unfortunately, we cannot edit your html file in Word or copy into Word as it is so big and the application just crashes. Can you export you blog data to a Word document so we can open it here and work on it?” :D

    • Karolis Pocius rašo:

      Konkretūs grybai :) Sakyčiau jei jau tokia rinkliava užsiimi ir dar nori bent po 150k iš kiekvieno vartotojo, tai pasiūlyk ir būdą kaip eksportuot normaliai. O eksportavimas į word’ą jau iš prigimties yra nenormalus :)

  7. Originalas rašo:

    Sugalvojau, kaip nuimti visus images ir kitą briedą. Savo HTML export pakraukit per PHP Proxy ir pažymėk dont load java ir images. Tada vien tekstas su antraštėmis liks. :)

    Taip pat po tokio teksto valymo tik 190 000 žodžių wordas suskaičiavo.. Pirma SQL užklausa rodė 10x daugiau, taigi ji žiauriai klaidinga..

Leave a Reply