Hpricot - HTML Parser

Posted by Ladislav Martinčík Wed, 05 Jul 2006 19:52:47 GMT

Pracuji teď na projektu, který potřebuje parsovat HTML stránky. V Ruby prozatím neexistoval parser, který by byl dostatečně rychlý, tedy napsaný přímo v C. Pravidelně čtu blog RedHanded, na kterém autor právě začal před několika dny takovýto parser psát. Snaží se kombinovat dobré vlastnosti velice známých knihoven HTree, Prototype a JQuery.

Takto nějak vypadá kód:

require 'hpricot'
doc = Hpricot.parse("index.html")
(doc/:p/:a).each do |link|
  p link.attributes
end

Nainstalovat a testovat můžete odtud:

# gem install hpricot --source code.whytheluckystiff.net

Posted in | no comments | Tags , , | atom

Comments

Leave a response

Leave a comment