library(foreign)
data1 <- read.arff("https://raw.githubusercontent.com/deric/clustering-benchmark/master/src/main/resources/datasets/artificial/cluto-t7-10k.arff")
target1 <- as.character(data1[,3]) #0, 1, ..., 8, noise
target1[target1 == "noise"] <- "9" #je préfère un vecteur d'entiers
target1 <- as.factor(target1)
data1 <- data1[,-3]

data2 <- read.arff("https://raw.githubusercontent.com/deric/clustering-benchmark/master/src/main/resources/datasets/artificial/3-spiral.arff")
target2 <- data2[,3] #1, 2, 3
data2 <- data2[,-3]

data3 <- read.arff("https://raw.githubusercontent.com/deric/clustering-benchmark/master/src/main/resources/datasets/artificial/dense-disk-5000.arff")
target3 <- data3[,3] #0, 1
data3 <- data3[,-3]

data4 <- read.arff("https://raw.githubusercontent.com/deric/clustering-benchmark/master/src/main/resources/datasets/artificial/target.arff")
target4 <- data4[,3] #1, 2 (3, 4, 5, 6: points isolés)
data4 <- data4[,-3]


#git clone https://github.com/yagu0/nngd.git && cd nngd && touch NAMESPACE
#R -e 'library(roxygen2) ; roxygenize(".")' && rm NAMESPACE && R -e 'library(roxygen2) ; roxygenize(".")'
#R CMD INSTALL .
library(nngd)


o10 <- nng(data2, k=10, mutual=TRUE)
o20 <- nng(data2, k=20, mutual=TRUE)
o30 <- nng(data2, k=30, mutual=TRUE)
o40 <- nng(data2, k=40, mutual=TRUE)
options(repr.plot.width=15, repr.plot.height=10)
par(mfrow=c(2,2))
plot(o10$graph)
plot(o20$graph)
plot(o30$graph)
plot(o40$graph)


dists20 <- igraph::distances(o20$graph, weights=o20$distances)
h <- hclust(as.dist(dists20), method="ward.D")
plot(data2, col=cutree(h, 3), pch=19, cex=1.5)


dists10 = igraph::distances(o10$graph, weights=o10$distances)
dists10[is.infinite(dists10)] <- max(dists10[is.finite(dists10)]) + 1 #avoid Inf in foreign function call...
h <- hclust(as.dist(dists10), method="ward.D")
plot(data2, col=cutree(h, 3), pch=19, cex=1.5)


# 5000 points : nécessite quelques minutes dans l'implémentation actuelle
o10 <- nng(data3, k=10, mutual=TRUE)
o20 <- nng(data3, k=20, mutual=TRUE)
o30 <- nng(data3, k=30, mutual=TRUE)
o40 <- nng(data3, k=40, mutual=TRUE)
par(mfrow=c(2,2))
plot(o10$graph)
plot(o20$graph)
plot(o30$graph)
plot(o40$graph)


dists10 <- igraph::distances(o10$graph, weights=o10$distances)
dists20 <- igraph::distances(o20$graph, weights=o20$distances)
dists30 <- igraph::distances(o30$graphb, weights=o30$distances)
dists40 <- igraph::distances(o40$graph, weights=o40$distances)


plot4 <- function(data, K) {
    par(mfrow=c(2,2))
    h <- hclust(as.dist(dists10), method="ward.D")
    plot(data, col=cutree(h, K), pch=19, cex=1.5)
    h <- hclust(as.dist(dists20), method="ward.D")
    plot(data, col=cutree(h, K), pch=19, cex=1.5)
    h <- hclust(as.dist(dists30), method="ward.D")
    plot(data, col=cutree(h, K), pch=19, cex=1.5)
    h <- hclust(as.dist(dists40), method="ward.D")
    plot(data, col=cutree(h, K), pch=19, cex=1.5)
}
plot4(data3, 2)


dists10 <- ectd(o10, similarity=function(x) exp(-x^2))
dists20 <- ectd(o20, similarity=function(x) exp(-x^2))
dists30 <- ectd(o30, similarity=function(x) exp(-x^2))
dists40 <- ectd(o40, similarity=function(x) exp(-x^2))


plot4(data3, 2)


o10 <- nng(data4, k=10, mutual=TRUE)
o20 <- nng(data4, k=20, mutual=TRUE)
o30 <- nng(data4, k=30, mutual=TRUE)
o40 <- nng(data4, k=40, mutual=TRUE)
par(mfrow=c(2,2))
plot(o10$graph)
plot(o20$graph)
plot(o30$graph)
plot(o40$graph)


# Note : il est nécessaire ici d'ajouter une vraiment grande valeur (+1, +10 échouent).
#        c'est légitime, car la vraie valeur est +infini.
dists10 = igraph::distances(o10$graph, weights=o10$distances)
dists10[is.infinite(dists10)] <- max(dists10[is.finite(dists10)]) + 100000
dists20 = igraph::distances(o20$graph, weights=o20$distances)
dists20[is.infinite(dists20)] <- max(dists20[is.finite(dists20)]) + 100000
dists30 = igraph::distances(o30$graph, weights=o30$distances)
dists30[is.infinite(dists30)] <- max(dists30[is.finite(dists30)]) + 100000
dists40 = igraph::distances(o40$graph, weights=o40$distances)
dists40[is.infinite(dists40)] <- max(dists40[is.finite(dists40)]) + 100000


plot4(data4, 6)


igraph::components(o10$graph)$csize
igraph::components(o20$graph)$csize
igraph::components(o30$graph)$csize
igraph::components(o40$graph)$csize
# => Structure ok dès k=10


# 10000 points : quelques (longues) minutes... Test seulement avec k=40
o40 <- nng(data1, k=40, mutual=TRUE)


dists40_graph = igraph::distances(o40$graph, weights=o40$distances)
dists40_ect = ectd(o40, similarity=function(x) exp(-x^2)) #TODO: essayer plutôt exp(-x)


h_graph = hclust(as.dist(dists40_graph), method="ward.D")
h_ect = hclust(as.dist(dists40_ect), method="ward.D")


par(mfrow=c(1,2))
plot(data1, col=cutree(h_graph, 10), pch=19, cex=1.5)
plot(data1, col=cutree(h_ect, 10), pch=19, cex=1.5)


g <- igraph::read.graph("../data/karate/karate.gml", format="gml")
plot(g)


n <- igraph::vcount(g)
dists_graph <- igraph::distances(g) #no weights here
dists_ect <- ectd(list(graph=g, distances=rep(1,n))) #sim = exp(-x) ici n'aurait aucun effet


h_graph <- hclust(as.dist(dists_graph), method="ward.D")
h_ect <- hclust(as.dist(dists_ect), method="ward.D")


clustsToList <- function(h, k) {
    clusts <- cutree(h, k)
    res <- list()
    for (i in seq_len(k)) res[[i]] <- which(clusts == i)
    res
}


par(mfrow=c(2,2))
plot(g, mark.groups = clustsToList(h_graph, 3))
plot(g, mark.groups = clustsToList(h_graph, 5))
plot(g, mark.groups = clustsToList(h_ect, 3))
plot(g, mark.groups = clustsToList(h_ect, 5))


g <- igraph::read.graph("../data/dolphins/dolphins.gml", format="gml")
plot(g)


n <- igraph::vcount(g)
dists_graph <- igraph::distances(g)
dists_ect <- ectd(list(graph=g, distances=rep(1,n)))


h_graph <- hclust(as.dist(dists_graph), method="ward.D")
h_ect <- hclust(as.dist(dists_ect), method="ward.D")


par(mfrow=c(2,2))
plot(g, mark.groups = clustsToList(h_graph, 2))
plot(g, mark.groups = clustsToList(h_graph, 3))
plot(g, mark.groups = clustsToList(h_ect, 2))
plot(g, mark.groups = clustsToList(h_ect, 3))

Exercice 1¶

Exercice 2¶